摘要:

當前的多模式深度學習方法很少明確利用多個標籤固有的依賴性,這對於多模式多標籤分類至關重要。 在本文中,我們提出了一種用於多標籤分類的多模式深度學習方法。 具體來說,我們引入了用於特徵表示學習的深度網路,並構造了具有目標函式的分類器,該目標函式受標籤和模態之間的依賴關係約束。 我們還提出了有效的訓練演算法來共同學習深度網路和分類器。 因此,我們顯式地利用標籤和模式之間的關係來促進多模式多標籤分類。 在Pascal VOC資料集和LabelMe資料集上進行多標籤分類和跨模式檢索的實驗證明了該方法的有效性。

1.引言

近年來,多模式資料的規模迅速增加。例如,網頁通常包含用於描述相同主題的文字,影象和影片;可以透過各種視覺和音訊元素捕獲影片內容;可以從視覺,聽覺和生理訊號中檢測出使用者的情緒。通常,多模態資料可以比單模態資料更詳細地描述物件,因為多模態資料可提供有關來自多個模態的相同內容的資訊。當前的多模式機器學習方法可以分為兩類:淺層方法和深層方法。本文將重點研究深層方法,因為它們最近在廣泛領域中都表現出色。

多模式深度學習可以進一步分為無監督方法和有監督方法。無監督多模式深度學習方法旨在透過深層網路跨多模式資料學習表示形式,而無需考慮目標標籤。例如,Ngiam等人[2]提出了深度自動編碼器模型,以學習用於視聽語音分類的影片和音訊輸入之間的共享表示。 Srivastava和Salakhutdinov [3]提出了一種深博爾茲曼機用於多模式資料學習的協同模型。所學習的模型透過組合跨模式的特徵來建立融合表示,並將生成的表示用於分類和資訊檢索。與這兩個從多模態資料中學習通用表示形式的著作不同,Andrew等人[4]引入了深度規範相關分析(DCCA),以透過一個深度網路為每種模態資料學習一個表示,並且所學習的兩個表示是高度線性相關的。 Wang等人[5]將DCCA擴充套件為深典範相關自動編碼器(DCCAE),它由兩個自編碼器組成,並優化了學習表示形式與自編碼器重構誤差之間的典範相關性組合。

但是,無監督多模式深度學習方法的缺點是在多模式表示的學習過程中忽略了目標標籤和多個特徵集之間的依賴關係,這導致了較少的歧視性表示。因此,有幾種工作轉向有監督的多模式深度學習方法,該方法可以在表示學習期間利用標籤資訊並獲得更具區分性的表示。例如,Wang等人[6]提出了一種正則化深度神經網路(RE-DNN),用於跨模態的語義對映。透過將模態內正則化作為無監督的預訓練,並採用反向傳播作為整個網路的有監督的訓練,聯合模型捕獲了底部模態和模態間的關係。維塔爾[7]提出了一種深度語義匹配(deep-SM)方法來解決交叉模式檢索。特別是,學會了兩個獨立的深度網路,以更高層次的抽象將影象和文字對映到公共語義空間中。可以根據它們共享的地面真相標籤建立兩個模態之間的相關性。

Wang等人[8]提出了一種受監督的多模式深度神經網路,它由深度卷積神經網路模式和神經語言模型組成,以分別學習影象模式和文字模式的對映功能。在三種有監督的多模式深度學習方法中,第一項工作[6]建立了一個聯合的深度網路,而其餘兩項則分別為每種模式建立了深度網路。因此,對於第一項工作,多峰資料之間的依賴關係由共享要素層和標籤層捕獲,而對於其餘兩項工作,多峰資料之間的依賴關係僅由共享標籤層捕獲。此外,儘管當前有監督的多模式深度學習方法可以透過在網路的最後一層使用多個節點來在一定程度上處理多標籤分類,但是它們很少顯式地利用多標籤之間的依賴關係,這對於多模式多標籤分類至關重要。

因此,在本文中我們提出了一種用於多標籤分類的多模式深度網路。具體來說,引入了深度網路以學習更好的特徵表示,使用模態之間的相似性約束對模態之間的固有關係進行建模,並引入當前標籤和不存在的標籤之間的排名損失以捕獲標籤依賴性。與監督多模式深度學習的相關工作相比,該方法利用了標籤依賴性和模式依賴性來進行多模式多標籤分類。

2 方法

圖1總結了我們的方法的框架。引入了每個模式的深層網路以學習更好的功能表示,併為每個模式構造了一個分類器,並透過標籤和模式之間的依賴關係對目標進行了最佳化。首先,使用對比散度演算法[9]對深度網路的權重進行預訓練,並對分類器的權重進行隨機初始化。 然後,使用反向傳播演算法同時訓練深度網路和分類器。訓練後,透過平均存在相應模態的分類器的輸出來預測最佳樣本的標籤。

用於多標籤分類的深層多模態網路

圖1 模型的框架

原始功能包括文字和影象。透過特徵提取,影象表示為視覺詞袋(弓),顏色直方圖特徵等。 文字和文字分別以詞頻,絕對標籤等級等表示。這兩者都饋入模型以對映模態和標籤。 在測試中,我們進行多標籤分類和跨模式檢索。

2。1 問題陳述

在這一部分中,我們考慮了兩種模式分類,但是建議的框架不限於兩種模式。

給定N個訓練樣本{(xA i,xB i,yi)| xA i∈RDA,xB i∈RDB,yi∈{0,1} K,i = 1 。。。 N}從未知分佈P(xA ,xB,y),其中xA,xB是模態A和模態B的特徵,其維數分別為DA和DB,y是輸出維數為K的標籤,多模態多標籤分類的目的是學習分類器fA(xA,ΘA)和fB (xB,ΘB)同時從輸入特徵xA和xB預測標籤向量y。Θ=(ΘA,ΘB)是模型的引數。這裡的y是二進位制向量,而不是標量,這與單標籤二進位制分類不同。

2。2 擬議方法

由於標籤和模態之間的依賴性在分類中起著重要作用,因此在模型中正確翻譯和編碼它們變得至關重要。 我們採用正則化項來量化這些約束,以獲得更好的分類器Θ。 因此,我們將目標函式定義為等式(1):

用於多標籤分類的深層多模態網路

其中前兩項分別是模態A和模態B的損失函式,下一項是正則化項,它反映了模態之間的依賴關係,後兩項是標籤之間的依賴關係。引數λA,λB,η,CA,CB充當損耗與正則化之間的折衷。

式(1)中可以使用任何損失函式,模態相關性約束和標籤相關性約束。在本文中,我們採用最大餘量分類器作為損失函式,多個模態輸出之間的相似性以及當前標籤和不存在標籤之間的排名關係,如等式(2),(3)(4)所示。

用於多標籤分類的深層多模態網路

其中fA k(xA i)是模態A中第i個樣本的第k個標籤的輸出值,fB k(xB i)同樣。

用於多標籤分類的深層多模態網路

其中Yi是當前標籤集,Yi是不存在的標籤集,1 − fA j(xA i)+ fA l(xA i)表示當前標籤和不存在的標籤之間的標準化距離[10],[x] + = max (0,x)。

目標函式如下所示:

用於多標籤分類的深層多模態網路

與相關工作相比,該方法利用了標籤依賴性和模態關係來促進多模態多標籤分類的學習過程。由於所提出的方法為每個模態構造了深層的網路表示和分類器,因此它可以在測試期間從單個模態或多個模態識別標籤。

2。3 模型學習

為了更好地學習模型,我們建議將深度網路和分類器結合在一起。這裡介紹了深度網路,以學習更好的特徵表示。反向傳播用於共同訓練深層網路和分類器。關鍵是要計算目標函式的梯度,並考慮所有深層網路(包括頂層分類器)的所有權重和引數。

對於分類部分,我們將與訓練樣本相對應的輸出表示為hS,A = [hS,A 1,。。。,hS,A K],其中hS,A k = fA k(xA)。對於對應於檢視A的引數,目標函式式(5)相對於玩家的權重和偏差(頂級引數)的梯度可以計算為式(6)。

用於多標籤分類的深層多模態網路

其中WS,A,bS,A是軟硬體分類器的引數,而δS,A =(δS,A 1,δS,A 2,。。。,δS,A K)是將要傳遞到上一層的頂層分類器的向後誤差。 δS,A k根據等式(7)計算,1是一個全為1的向量。

用於多標籤分類的深層多模態網路

其中ck jl是用於簡化函式的選擇函式,如式(8)所示 。

用於多標籤分類的深層多模態網路

對於深層網路部分,hl,A(l = 1,。。。,L)代表模式A的深層網路第l層中的節點。可以將梯度作為正常的反向傳播演算法進行計算,如式(9)所示。

用於多標籤分類的深層多模態網路

其中Wl,A是深層網路的第l層與第(l +1)層之間的權重,Tl和σl(x)分別是第l層中的節點數和啟用函式,δl+ 1,A t是第(l + 1)層第t個節點的向後誤差,l = 1,。。。,L-1。

對於模態B的引數,所有導數與模態A中的相似。

由於我們對多標籤分類採用排名損失,因此在訓練過程中需要使用訓練集標籤集大小預測變數s(x)。在這裡,我們使用支援向量機從特徵預測標籤集的大小。詳細的學習演算法如演算法1所示。

用於多標籤分類的深層多模態網路

2。4 多標籤分類

學習後,所提出的方法可以根據式(10)預測測試樣本的值。

用於多標籤分類的深層多模態網路

因此,如果第k個標籤的對應預測值Sk在S =(S1,S2,。。。,SK)中的最高s(x)值之中,則將其分配給測試樣本。

所學習的標籤空間S也可以用於交叉模態檢索。我們首先將資料庫中的樣本對映到學習的空間,然後將查詢對映到該空間並採用距離度量來檢索相近的專案。

3.實驗

3。1 實驗條件

為了驗證所提出的方法,在Pascal Visual Object Class(VOC)2007資料集[11]和LabelMe資料集[12]上進行了多標籤分類和交叉模式檢索實驗。

PascalVOC2007資料集是一個多標籤影象標籤資料集,由5011個訓練樣本和4952個測試樣本組成。對於影象表示,使用了視覺單詞袋,要點和顏色直方圖特徵;對於標籤表示,使用了399維絕對標籤等級特徵。我們採用資料集的5011/4952訓練/測試拆分進行多標籤分類和跨模式檢索實驗。

LabelMe資料集是包含3825張影象的多標籤影象標籤資料集。對於影象表示,我們採用提供的視覺單詞,要點和顏色直方圖特徵包;對於標籤表示,我們使用提供的209維絕對標籤等級特徵。我們採用1913/1912火車/測試資料集進行多標籤分類和交叉模式檢索實驗。

為了研究深度表示,標籤依賴項和模式依賴項對多標籤分類和交叉模式檢索的影響,我們將提出的方法與沒有深度學習的方法,忽略標籤依賴項的方法和忽略模式依賴項的方法進行了比較。無需深度學習的方法可以直接從原始特徵中識別標籤,而無需深度網路。對於忽略標籤依賴性的方法,我們使用二進位制方法而不是排名方法。這意味著我們用正則化為[1- − yikfk(xi)] +而不是式(4)來懲罰不匹配點。透過刪除式(3)的第三項,分別忽略每個模態的特徵表示和分類器,忽略模態關係。

此外,我們將所提出的方法與最先進的深度多峰方法進行了比較,即方法可用的DCCA [4],DCCAE [5],DBN [16]和DBM [3]。

對於多標籤分類實驗,我們採用基於示例的準確性(ACC)和微平均F1(F1i)[17]作為評估指標。

對於跨模式檢索實驗,使用歸一化貼現累積量(NDCG)[18]和Precision @ K(P @ K)。

為了簡單起見,每個深度網路具有相同數量的層,即具有3個1,024個Sigmoid單元的隱藏層和K個單元的線性輸出層的網路,其中K是標籤數。我們使用受限的Boltzmann機器以分層的方式預訓練深度網路。對於分類器,我們將權重初始化為較小的隨機數。採用網格搜尋和模型選擇來選擇學習率,CA,CB和η等超引數。對於每種方法,我們在驗證集上監視目標成本,並選擇具有最小目標成本的超引數。

3。2 多標籤分類的實驗結果和分析

表1中顯示了VOC資料集和LabelMe資料集上的多標籤分類結果。從表中,我們發現:

用於多標籤分類的深層多模態網路

表1。 VOC和LabelMe資料集上的多標籤分類結果

首先,與沒有深度學習的方法,忽略標籤依賴性的方法和忽略模態依賴性的方法相比,該方法具有更高的基於示例的準確性和微平均F1。它證明了標籤依賴性,模式依賴性和深度表示對於多模式和多標籤分類的重要性。此外,忽略標籤依賴關係的方法在三種方法中表現最差,即沒有深度學習的方法,忽略標籤依賴關係的方法和忽略模式依賴的方法。這可能意味著標籤之間的關係在多模式多標籤分類的模式和深層網路中扮演著更重要的角色。忽略LabelMe資料集上的標籤依賴性的方法的效能比VOC資料集上的效能差。這可能是由於標籤分佈不均引起的。具體來說,LabelMe資料集有209個標籤,其中127個標籤的比例小於1%,而VOC資料集有20個標籤,而比例都不低於1%。

其次,提出的方法優於其他先進的深度多峰方法,即DCCA,DCCAE,DBN和DBM,具有更高的基於示例的準確性,並且在兩個資料庫上均具有微平均F1。這四種深度多模式方法屬於無監督多模式深度學習方法,旨在透過深層網路在不考慮目標標籤的情況下跨多模式資料學習表示形式。儘管無監督的多模式深度學習方法成功地利用了多模式之間的固有依賴性,但是在多模式表示的學習過程中,它們卻忽略了目標標籤和多個特徵集之間的依賴性。這導致了較少的歧視性表示。相反,所提出的方法使用監督學習顯式捕獲目標標籤和多個特徵集之間的依賴關係。另外,所提出的方法可以對標籤依賴和模式依賴進行聯合建模。因此,所提出的方法實現了更好的效能。

3。3 跨模式檢索的實驗結果和分析

跨模式檢索的實驗結果顯示在表2中。從表2中,我們發現:

用於多標籤分類的深層多模態網路

表2。 VOC和LabelMe資料集上的交叉模式檢索結果。 配對的NDCG @ 30(%)/ Precison @ 10(%)顯示在表中。

首先,該方法在兩個資料庫中具有較高NDCG @ 30和Precision @ 10的所有比較方法中表現最好,證明了標籤依賴性,模式依賴性,深度表示以及目標標籤與特徵表示之間的關係對於跨模式檢索的重要性。此外,忽略模式依賴的方法比不使用深度學習的方法和忽略標籤依賴的方法要差,對於交叉模式檢索,模式依賴比標籤依賴和深度網路更重要是合理的。

其次,與四種最先進的深度多峰方法相比,該方法在兩個資料庫上均實現了更高的NDCG @ 30和Precision @ 10。儘管這四種深度多模態方法利用了多模態之間的關係,但是它們卻結合了標籤和多個特徵集之間的依賴關係,因為它們學習了深度表示而無需考慮目標標籤。 這導致跨模式表示的相關性降低。相反,提出的方法明確考慮了標籤和多個特徵集之間的關係。因此,所提出的方法表現更好。

3。4 與相關工作的比較

在引言部分提到的三項受監督的多模式深度學習作品中,Wei等人[7]對VOC資料集進行實驗,對Label Me資料集進行無實驗。但是,[7]中使用的標記功能與我們的不同。因此,我們不能直接與他們的工作進行比較。在這裡,我們將我們的工作與Ranjan等進行了比較。因為實驗條件與我們的相同。Ranjan等人[19]提出了ml-CCA,CCA的擴充套件,以處理跨模式檢索的多標籤依賴性。比較結果示於表3。 將他們提出的ml-CCA與CCA,3-viewCCA,cluster-CCAonNDCG @ 30在他們的工作中進行了比較[19],並從表3中他們的工作[19]中直接列出了兩個資料庫中CCA,3-view CCA,cluster-CCA的效能以進行比較。

用於多標籤分類的深層多模態網路

表3 跨模態檢索結果:與VOC和LabelMe資料集上的相關工作[19]進行比較。NDCG @ 30用作績效指標。

從表3中我們發現,在兩個資料庫上,該方法在所有比較方法中均具有最佳效能,而NDCG @ 30更高,這說明了標籤依賴性和深度表示的重要性。 所有這四種方法(即CCA,Cluster-CCA,3檢視CCA和ml-CCA)都旨在透過最大化模態之間的相關性來學習多模態資料之間的潛在公共空間。其中,CCA和cluster-CCA只是將多模式多標籤資料視為多個單標籤資料,而完全忽略了標籤依賴性。此外,他們在公共空間的學習過程中沒有考慮標籤和多個特徵集之間的依賴關係。儘管3-view CCA和ml-CCA透過根據對應標籤的相似性建立對應的交叉模態來說明標籤與多個特徵集之間的關係,但它們並未明確利用標籤依賴性。這導致了較少的區分表示。相反,所提出的方法明確地說明了標籤的依賴性,標籤之間的關係以及多個特徵集,並透過深度網路學習了更好的特徵表示。因此,提出的方法具有更好的效能。

以上比較證明了我們的方法與現有技術相比的優勢。我們的方法可以透過正則化項成功捕獲模式和標籤之間的依賴關係,並透過深度網路學習更好的特徵表示。這不僅在多標籤分類上而且在交叉模式檢索上都具有良好的效能。

4 結論

在本文中,我們提出了一種用於多標籤分類的新型多模式深度學習方法。具體來說,深度網路用於特徵學習,而最大餘量分類器用於識別。引入相似性約束和等級損失以捕獲標籤和模式之間的固有關係。提出了有效的學習演算法來聯合訓練深度網路和分類器。在兩個基準資料集上進行多標籤分類和跨模式檢索實驗,證明了深度表示,標籤依賴項,模式依賴項以及標籤之間的關係以及多特徵集之間的多標籤分類和跨模式檢索的重要性,以及所提出方法的先進性。

用於多標籤分類的深層多模態網路