2020年,多標籤學習(multi-label)有了哪些新的進展?高斌斌2020-10-13 17:11:07

MCAR paper 已被 IEEE TIP 錄用,Learning to Discover Multi-Class Attentional Regions for Multi-Label Image Recognition,程式碼也已經在github 開源 gaobb/MCAR,歡迎大家討論交流。

MCAR paper journal 版

https://

arxiv。org/pdf/2007。0175

5。pdf

最近我們擱置標籤之間的相關性,受人類視覺感知(識別)目標

從全域性到區域性

從粗粒度到細粒度

的啟發[1-3],設計了雙流卷積網路的多標籤影象識別框架

MCAR

Multi-Label Image Recognition with Multi-Class Attentional Regions

),在pascal-voc 2007 & 2012和 ms-coco 取得了SOTA的識別效能,特別是在影象輸入尺寸較小的情況下,相比於baseline 有更明顯的改善。具體的細節請參考我們的paper。

MCAR 方法實現非常簡單,效果提升明顯,感興趣的同學可以試試,也歡迎大家提問討論。

[1] D。 Navon, “Forest before trees: The precedence of global features in visual perception,”

Perception and Psychophysics

, vol。 5, pp。 197–200, 1969。

[2] J。 Hegde ́, “Time course of visual perception: coarse-to-fine processing and beyond,”

Progress in Neurobiology

, vol。 84, no。 4, pp。 405–439, 2008。

[3] A。 V。 Flevaris, A。 Mart ́ınez, and S。 A。 Hillyard, “Attending to global versus local stimulus features modulates neural processing of low versus high spatial frequencies: an analysis with event-related brain potentials,”

Frontiers in Psychology

, vol。 5, 2014。

從多標籤

影象識別

的角度簡單回顧一下最近幾年的一些進展。

多標籤影象識別是給定一張影象,預測影象中出現的預先定義好的一組目標或屬性,與此相關是單標籤影象識別,也就是給定一張影象,對其中一個目標或屬性作出預測。所以,與單標籤影象相比,多標籤影象至少含有一個目標或屬性,而單標籤影象只有一個目標或屬性。單標籤影象識別達標性的資料集是ImageNet,多標籤常用的資料集是PASCAL-VOC 和 MS-COCO。單標籤影象常用的評價指標是準確率(Acc),而多標籤影象識別常用的評價指標是mAP。

下面,對最近幾年多標籤影象的識別方法從一下三個角度做一個簡單的介紹:

利用影象中區域性目標的資訊:

HCP 利用EdgeBox 或 BING 等外部工具生成候選區域框(類似於RCNN裡的候選區域生成方法),在預測階段將來自多個候選區域的預測分佈做融合生成最後的預測分佈。該方法的不足是:(1)候選區域的生成需要外部工具 (2)因為很難評估候選區域的多樣性導致數量較大,計算代價較高。Fev + Lv 使用人工標註的目標邊界框生成候選區域,該方法結合了候選區域和全域性CNN特徵以生成最終的特徵表示,它儘管減少了候選區域的數量,但引入了額外標註的成本。

利用視覺注意力的機制資訊:

RARL 使用遞迴的注意力強化學習模組來定位注意力區域的序列,並進一步預測以這些區域為條件的標記分佈。 代替在RARL中使用強化學習,RDAL 引入了一個空間變換層和LSTM單元對注意力區域進行定位,從而根據這些區域性區域的特徵順序預測類別分佈。 與RARL和RDAL不同,SRN 和ACfs 結合了注意力正則化損失和多標籤損失來改善多標籤影象識別的效能。 具體而言,SRN 基於加權注意力圖捕獲空間語義和標籤相關性,而ACfs 強制網路學習注意力一致性,即輸入影象在空間上進行變換時,分類注意力圖應遵循相同的變換。

利用標籤之間的依賴資訊:

CNN-RNN 使用CNN模組和LSTM層組成的統一框架中共同學習影象特徵和標籤相關性,該方法的侷限性在於模型訓練需要預先定義的標籤順序。 與CNN-RNN 類似, TSGCN也共同地學習具有空間物件關係和語義標籤相關性的多標籤分類器。 無序RNN(Order-Free RNN)透過學習視覺注意力模型和LSTM來放鬆標籤的順序約束。 最近,ML-GCN和SSGRL直接使用圖卷積網路對所有標籤之間的標籤依賴關係進行建模以提升多標籤影象識別的效能。

相關的一些文獻:

[HCP]

Y。 Wei, W。 Xia, M。 Lin, J。 Huang, B。 Ni, J。 Dong, Y。 Zhao, and S。 Yan, “HCP: a flexible CNN framework for multi-label image classification,”

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

, vol。 38, no。 9, pp。 1901–1907, 2015。

[Fev+Lv]

H。 Yang, J。 Tianyi Zhou, Y。 Zhang, B。-B。 Gao, J。 Wu, and J。 Cai, “Exploit bounding box annotations for multi-label object recognition,” in

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

, 2016, pp。 280–288。

[RARL]

T。 Chen, Z。 Wang, G。 Li, and L。 Lin, “Recurrent attentional reinforcement learning for multi-label image recognition,” in

Thirty-Second AAAI Conference on Artificial Intelligence (AAAI)

, 2018, pp。 6730–6737。

[RDAL]

Z。 Wang, T。 Chen, G。 Li, R。 Xu, and L。 Lin, “Multi-label image recognition by recurrently discovering attentional regions,” in

Proceedings of the IEEE International Conference on Computer Vision (ICCV)

, 2017, pp。 464–472。

[SRN]

F。 Zhu, H。 Li, W。 Ouyang, N。 Yu, and X。 Wang, “Learning spatial regularization with image-level supervisions for multi-label image classification,” in

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

, 2017, pp。 5513–5522。

[ACfs]

H。 Guo, K。 Zheng, X。 Fan, H。 Yu, and S。 Wang, “Visual attention consistency under image transforms for multi-label image classification,” in

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

, 2019, pp。 729–739。

[CNN-RNN]

J。 Wang, Y。 Yang, J。 Mao, Z。 Huang, C。 Huang, and W。 Xu, “CNN-RNN: a unified framework for multi-label image classification,” in

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

, 2016, pp。 2285–2294。

[Order-Free RNN]

S。-F。 Chen, Y。-C。 Chen, C。-K。 Yeh, and Y。-C。 F。 Wang, “Order-free RNN with visual attention for multi-label classification,” in

Thirty-Second AAAI Conference on Artificial Intelligence (AAAI)

, 2018, pp。 6714–6721。

[TSGCN]

J。 Xu, H。 Tian, Z。 Wang, Y。 Wang, F。 Chen, and W。 Kang, “Joint input and output space learning for multi-label image classification,”

IEEE Transactions on Multimedia (TMM)

, pp。 1–1, 2020。

[ML-GCN]

Z。-M。 Chen, X。-S。 Wei, P。 Wang, and Y。 Guo, “Multi-label image recognition with graph convolutional networks,” in

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

, 2019, pp。 5177–5186。

[SSGRL]

T。 Chen, M。 Xu, X。 Hui, H。 Wu, and L。 Lin,“ Learning semantic-specific graph representation for multi-label image recognition,” in

Proceedings of the IEEE International Conference on Computer Vision (ICCV)

, 2019, pp。 522–531。

2020年,多標籤學習(multi-label)有了哪些新的進展?「已登出」2020-10-18 11:04:47

強答一波,接觸多標籤影象分類研究的時間並不算太久,我主要介紹一下我對於發表在CVPR2019和ICCV2019上的兩篇論文的核心思想的見解,以及我個人對於這個領域的理解。這兩篇論文涉及到圖神經網路家族中圖卷積網路和門控圖神經網路,以及Attention機制,雙線性池化等技術,在本回答中不會涉及到這些技術的細節,僅僅是為了說明最直觀的思路,需要了解這兩種網路細節的朋友請參考其他文獻。

背景介紹

背景1:

經過幾年來的發展,多標籤影象分類問題研究方向主要集中於:如何利用標籤之間的複雜關係來提升分類的準確度。舉個栗子說明一下,比如在一張圖片中,我們已經正確分類出某些食物物件,由於食物需要容器存放,需要被人食用,那麼這張圖片中存在盤子,碗筷等餐具物件的可能性應該也很大。這就展現出了利用了標籤之間的關係進行分類的過程。

背景2:

得益於圖神經網路(GNN)強大的關係建模能力,圖神經網路在近兩年大火,在很多應用上都取得了SOTA的效果。

核心思想

標籤之間的關係是複雜多樣的,比如食物與餐盤,它們之間的關係是食物放在餐盤中,再比如人和揹包,它們之間的關係是人揹著揹包,除此之外,其他的標籤之間還存在各種各樣的關係,這些關係都可以作為我們的分類依據。然而,對於這些複雜關係,我們應該如何利用起來呢?

這時,圖神經網路(GNN)出現了,圖神經網路可以依據圖中節點(node)本身的特徵與圖的結構(節點之間的連線關係,也就是邊edge),為圖中每一個節點生成一個新的嵌入表示(embedding),這個embedding實際上不僅蘊含了node本身的特徵,同時也蘊含了node之間的相互依賴關係。

既然圖神經網路這麼強大,那麼,我們是不是可以使用圖神經網路來建模標籤之間的複雜關係呢?答案當然是可以。首先,我們希望能夠提取到標籤之間的複雜關係,而圖神經網路能夠建模node之間的複雜關係,那麼,我們直接把標籤和圖神經網路中的node對應起來,做一個“Label Graph”,基於這個“Label Graph”就可以了學習標籤之間的關係了。上文提到,GNN提取node的embedding需要兩部分資訊:1。node本身的特徵。2。圖的結構。

首先對於第一點,node本身的特徵,在不同任務中,node本身特徵具有不同的表示,比如,對於我們的Label Graph,node即為標籤,我們可以用標籤的Word Embedding來作為node本身特徵,也可以用其他形式的特徵向量作為node本身的特徵。這個因任務而異,在下文介紹論文時,我們就可以看到node特徵的不同設定。

對於第二點,圖的結構,我們就要好好思考一番了。而一般的GNN中,node之間的edge,通常中代表一種或者幾種關係,比如社交網路圖中,node為使用者,而edge代表使用者之間的好友關係。而我們的標籤關係,是多種多樣的。無法用單一的edge來表徵多種關係。那怎麼辦呢?我們

退而求其次,對這些複雜的關係做進一步的抽象,將它們都歸結為一種關係,這樣就可以用GNN對這種關係進行建模。

對於多標籤影象分類問題,我們可以觀察到,對於那些具有複雜依賴關係的標籤,標識同一張圖片的機率比較大,換句話說,那些具有複雜的依賴關係的標籤物件(例如食物和餐具),出現在同一張圖片中的機率比較大,而不需要管它們到底具有什麼樣的關係。所以,

我們把標籤之間的複雜關係,都抽象為一種關係,就是“共現”(co-occurence)關係,當兩個標籤物件經常一同出現時,我們認為它們具有複雜的依賴關係。

一般我們透過條件機率來度量共現關係,機率P(Label2 | Label1),代表在Label1出現的條件下,Label2出現的機率,當這個機率大於一個特定的閾值時,我們認為Label1和Label2存在共現關係,而P(Label2 | Label1)一般可以透過在資料集上進行統計來做估計。

論文介紹

有了核心思想,剩下的事情,就是把思想落實到具體模型中。

首先,多標籤影象分類可以算是傳統影象分類問題的一個延伸,那麼在這裡我們首先來回顧一下傳統影象分類模型的一般框架。首先,傳統分類模型通常由兩部分組成,分別為卷積神經網路部分(CNN)和分類器,通常,分類器為一個全聯接層。CNN部分用於對圖片進行特徵提取,獲取一個feature map,一般會對這個feature map進行Pooling,將其壓縮成一個單獨向量,輸入給分類器,而分類器,可以看作是由各個標籤的特徵向量組成的,影象特徵向量與每一個標籤特徵向量做內積,度量相似度,以獲取最終的類別。

多標籤影象分類模型一般為上述框架的改進或擴充套件。下面,我們對2019年發表的兩篇論文進行分析。

ML-GCN

論文名稱:Multi-Label Image Recognition with Graph Convolutional Networks

2020年,多標籤學習(multi-label)有了哪些新的進展?

可以看到,這篇論文提出的模型本質上與傳統多分類模型差異並不大,規規矩矩的對影象使用CNN進行特徵提取,獲取feature map,然後對這個feature map進行Global Max Pooling,壓縮為一個單獨的向量D,但是接下來的一步,就與傳統多分類模型有區別了。

傳統的多分類模型中,分類器是引數就是一個矩陣W,維度為C * d,C是類別數量,d是特徵向量維數,這個矩陣中的每一行,都可以看成是某一個類別的特徵向量,假設影象特徵向量D是維數為d的列向量,那麼使用這個列向量與分類器引數矩陣的每一行做內積,就可以得到影象特徵向量與每一個類別的特徵向量的相似度,進而獲取每一個類別的機率。

在這個過程中,我們可以發現,在前向傳播中,分類器引數矩陣中的行與行之間,並無任何互動,它們是隨機初始化並進行訓練的,在前向傳播中互不影響,換句話說,我們認為各個標籤的特徵向量之間相互獨立,對彼此沒有影響。然而,在多標籤影象分類中,由於標籤之間本身就有複雜的相互依賴關係,“標籤的特徵向量相互獨立”是不成立的,既然這樣,傳統的分類器用在這裡就不合適啦,所以,這篇論文考慮對分類器做一個改進:

我們不再使用互不相關的分類器了,而是使用GNN為我們輸出一個蘊含了標籤之間複雜依賴關係的分類器!

該論文使用的是GNN家族中的圖卷積神經網路(GCN),輸出分類器引數。核心思想中曾經介紹過,GNN需要兩部分內容作為輸入,一部分是node本身的特徵,另一部分是圖結構。對於圖結構,我們在核心思想中已經介紹過如何構造,這裡不再贅述,而對於node本身特徵,這裡使用的是標籤內容的GloVe詞向量,詞向量本身攜帶了一些關於標籤的資訊,相當於引入了先驗。在此基礎上,基於先驗標籤資訊,使用GCN進行復雜依賴關係建模,輸出分類器引數矩陣W。

這篇論文中還使用了一些技巧用來克服GCN容易出現的Over smoothing問題,想了解細節的朋友可以去查閱原文,在此只介紹核心創新點。

SSGRL

論文名稱:Learning Semantic-Specifific Graph Representation for Multi-Label Image Recognition

分析這篇論文之前,讓我們先來思考這樣的一個問題。傳統的多分類模型中,我們都是透過Pooling操作將一個feature map壓縮成一個單獨的向量,這個向量表徵了影象所屬的類別,它將會和分類器中各個類別的特徵向量進行計算相似度。但是在多標籤影象分類問題中,一個影象中存在多個標籤物件,這時候我們仍然使用一個單獨的向量表示存在多個標籤物件的影象,這合適嗎?是不是有更好的方法呢?

我們都知道,CNN具有位置不變性,原始影象中,不同的標籤物件分佈在不同位置上,那麼feature map也會保留這種特性,也就是說,不同標籤物件的資訊分佈在feature map的不同空間位置上,既然這樣,我們就可以想辦法從影象的feature map中,提取不同標籤物件的特徵,這樣的話,就可以保證在識別不同的標籤時,使用的是feature map中與這個標籤相關程度最高的那一部分特徵,這樣就避免了由Pooling操作帶來的資訊損失。

那麼,如何從feature map中提取與標籤相關的特徵呢?一個很直覺的方法就是Attention,利用Attention機制可以讓我們在提取不同標籤的特徵向量的時候,關注於feature map中的不同空間位置,進而從與這個標籤強相關的空間位置中提取特徵向量。

透過Attention機制從feature map中提取特徵向量之後,對於每一個標籤,我們都有一個從feature map抽取出來的特徵向量。利用這個特徵向量與分類器中的標籤特徵向量進行相似度度量,看起來就是一個完整的pipeline了,但是我們總感覺缺點什麼呀?說好的用GNN對標籤之間的複雜依賴關係進行建模的這個環節,並沒有出現在這個pipeline中啊。

既然這樣,那我們就把這個環節加進去,那怎麼加呢?我們知道,利用Attention機制提取的與標籤相關的特徵向量,是從feature map中抽取出來的,feature map則是由CNN對原始影象進行特徵提取得到的,CNN從影象中提取feature map的過程中,並未對不同標籤物件之間的複雜依賴關係進行建模,它只是單純的從原始影象的

畫素資訊

中,提取標籤物件的特徵,換句話說,這個特徵主要反映了標籤物件在原始影象上的畫素資訊,卻不能反映它們之間的關係。

那我們乾脆對這些只能夠反映影象畫素資訊的特徵向量再進行一次深度加工,讓它蘊含標籤物件之間的複雜依賴關係,然後再輸入給分類器,不就OK了?這裡的深度加工所要達到的目的就是讓特徵向量蘊含標籤物件之間的複雜依賴關係,那麼使用GNN不就是正好能夠達到這個目的嗎?

至此,整個pipeline就完整了。它的過程就是:CNN提取feature map -> 利用Attention機制從feature map中提取與標籤相關的特徵向量(僅反應畫素資訊) -> 使用GNN對畫素特徵向量進行深度加工,使其蘊含標籤物件之間的複雜依賴關係 -> 輸入分類器進行分類。

那麼SSGRL恰好就是遵循這個pipeline設計的,整體架構如下:

2020年,多標籤學習(multi-label)有了哪些新的進展?

可以看到,模型本身仍然是基於傳統多分類模型進行改進得到的。從總體上來說,這個模型相當於在傳統的多分類模型中的兩大部分之間,也就是CNN與分類器之間,增加了Attention計算和門控圖神經網路(GGNN)。

首先,CNN從影象中提取feature map,緊接著使用Attention機制獲取與標籤相關的特徵向量,Attention機制使用標籤內容的GloVe詞向量作為query,一定程度上引入了對於標籤物件的先驗知識,Attention分數的計算使用的是雙線性池化,具體細節請朋友們參考原文。獲取標籤相關的特徵向量後,輸入給GGNN進行標籤物件複雜依賴關係的建模,最終輸出給分類器進行進行預測。

相比於ML-GCN直接對分類器下手,SSGRL透過從影象中對不同標籤物件提取不同特徵向量,進而帶動了分類器特徵向量朝著具有區分度的方向學習,有一種殊途同歸的感覺。

反思總結

使用GNN建模標籤之間的複雜依賴關係真的合理嗎?使用“共現”關係抽象所有複雜依賴關係真的合適嗎?使用這種方式究竟能夠帶來多大的效能提升?我們將在這一部分討論。

未完待更。

2020年,多標籤學習(multi-label)有了哪些新的進展?魏通2020-10-22 20:05:19

傳統的 multi-label learning (MLL) 的研究熱門時間段大致為 2005~2015, 從國內這個領域的大牛之一 Prof。 Min-Ling Zhang 的 publication list 也可以觀察到這一現象。

Min-Ling Zhang‘s Homepage

經典的 MLL 演算法, 如 Binary Relevant (BR), Ensemble Classifier Chain (ECC), RAKEL, ML-kNN, Label Powerset 等, 針對的資料都是非常 general 的 machine learning datasets。 其他答主也有提到, 現在遇到 MLL task, 第一個想到的就是 DNN + binary cross entropy loss。

這就導致, 傳統的 MLL 這個 setup 已經不夠 challenging, 各路大牛紛紛開新坑。 如有答主提到的 partial multi-label learning, 也有 extreme multi-label learning (XML), multiple complementary label learning, streaming label learning, multi-label learning with missing labels 等各種新的 setting。 這些子研究問題更具有難度, 它將 MLL 設定推向了 weakly supervised learning 和 large-scale machine learning, 這也是更貼合實際應用場景的(對資料 assumption 更弱, 對演算法 scalability 更好)。 否則, MLL 真的要跟不上時代潮流了。 除此之外, 當然可以把 fancy 的技術應用到 MLL, 如 GNN, Attention 等, 但這種 “新技術 + MLL” 模式的工作只會是比較零星的貢獻, 沒辦法引領 MLL 未來的發展趨勢。

那想要了解近幾年 MLL 在這些”新興“子領域的進展, 可以看這篇 survey:

A Survey on Multi-output Learning

當然, 經典 MLL 本身的一些問題仍然值得探究。 例如對於把 MLL 問題 reduce 成 BR/multi-class 一類方法的理論支援, 可以參考這篇文章:

Multilabel reductions: what is my loss optimising?

肯定還有一些其他的研究問題, 因為我的知識面有限而遺漏掉。 MLL 只是 Machine Learning 一個無比小的方向, 它的發展必定要跟隨時代潮流, 但距離 application 還需要努力。 目前我所瞭解到的一個例子可以和大家分享下。 在 Bing Search Engine 中, MS 把使用者鍵入的 query 作為一個 label, 而每個搜有頁面下方展示的 related searches 是用 MLL 演算法推薦的, 如下圖:

2020年,多標籤學習(multi-label)有了哪些新的進展?

歡迎大家補充交流~

2020年,多標籤學習(multi-label)有了哪些新的進展?國士之風2020-10-25 00:18:28

這波是自問自答(忙考試,有空再更)

首先介紹一下SOTA

最近達摩院提出的ASL在三大MLL資料集屠榜了:MS-COCO,PASCAL VOC 2007, NUS-WIDE

這裡給一個MS-COCO的排名:

2020年,多標籤學習(multi-label)有了哪些新的進展?

MS-COCO排名

ps: 關於KSSNet和MLGCN我已經在和 @戚餘航 的評論中做了一些討論。KSSNet在MLGCN基礎上改進,均可視為GCN一票的方法。2015年之後還有一票方法是attention(在這先不列list了)。

這裡給出論文link:

ASL(基於TResNet)

順便可以關注一下:

如何評價阿里達摩院的近期工作TResNet?

下面詳細介紹一下我對於ASL的理解:

motivation:作者認為之前很多模型都是用預設的BCE loss,BCE的缺點在於,正類別是訓練的時候更加關注的部分,而錯分的負類別沒有被關注。但是事實上何凱明提出的focal loss效果應該更好。這裡提了一下關於focal loss的優勢,因為它更加關注難負類樣本。文章的貢獻主要就是提出了一個新型的loss function:ASL。

ASL的優勢:

1。 保證正樣本的貢獻時,關注難負類的樣本。給他們分配各自不同的權重。

2。 難易性閾值:改變負類別的機率,從而徹底消除非常簡單的樣本。

幾個loss的對比

Binary Cross-Entropy and Focal Loss

L=-yL_+-(1-y)L_-\\

Focal Loss

 L_+=(1-p)^{\gamma}\log(p)\\   L_-=p^{\gamma}\log(1-p)

BCE Loss就是

\gamma=0

的情況。

下面介紹ASL

Asymmetric Focusing

想法:Focal Loss有一個trade-off,當設定大的

\gamma

來讓簡單負類樣本的權重減低的時候,也會讓少數正樣本梯度減少。

p

為樣本在某個標籤中出現的機率。

 L_+=(1-p)^{\gamma_+}\log(p)   \\   L_-=p^{\gamma_-}\log(1-p)

一般情況讓

\gamma_->\gamma_+

Asymmetric Probability Shifting

難易性閾值,過濾掉那些太簡單的負類樣本。

m

為閾值

  p_m=\max(p-m,0)\\

定義最終的ASL如下:

ASL=\begin{equation}   \left\{                \begin{array}{lr}   L_+=(1-p)^{\gamma_+}\log(p)   \\   L_-=(p_m)^{\gamma_-}\log(1-p_m)                \end{array}   \right.   \end{equation}\\

同上,一般情況讓

\gamma_->\gamma_+

,方便起見,甚至可以

\gamma_+=0

碎碎念

TResNet應該是打包的經驗主義集大成模型了,這個SOTA的效果是不是和TResNet本身密切相關呢?真正的ASL部分起到的實驗性作用有多大呢?很遺憾,我沒有足夠的GPU資源進行測試。希望大佬能幫我回答。

後續再更。忙著考試了(

2020年,多標籤學習(multi-label)有了哪些新的進展?皓波2020-11-25 19:56:18

更新:文章已經錄用TPAMI,我們會在近期更新最新版!

前段時間看到這個提問沒有回答,現在終於可以來回答了。

我們的最新的多標籤學習綜述剛po到Arxiv上了。這是武大劉威威老師、南理工沈肖波老師和UTS Ivor W。 Tsang老師合作的2020年多標籤最新的Survey,我也有幸參與其中,負責了一部分工作。

文章Arxiv連結:《The Emerging Trends of Multi-Label Learning》

作者:

Weiwei Liu, Xiaobo Shen, Haobo Wang, Ivor W。 Tsang

中文總結

:皓波:多標籤學習的新趨勢(2020 Survey)。

上半年在知乎上看到有朋友諮詢多標籤學習是否有新的Survey,我搜索了一下,發現現有的多標籤Survey基本在2014年之前,主要有以下幾篇:

Tsoumakas的《Multi-label classification: An overview》(2007)

周志華老師的《A review on multi-label learning algorithms》(2013)

一篇比較小眾的,Gibaja 《Multi‐label learning: a review of the state of the art and ongoing research》2014

時過境遷,從2012年起,AI領域已經發生了翻天覆地的變化,Deep Learning已經佔據絕對的主導地位,我們面對的問題越來越複雜,CV和NLP朝著各自的方向前行。模型越來越強,我們面對的任務的也越來越複雜,其中,我們越來越多地需要考慮高度結構化的輸出空間。多標籤學習,作為一個傳統的機器學習任務,近年來也擁抱變化,有了新的研究趨勢。因此,我們整理了近年多標籤學習在各大會議的工作,希望能夠為研究者們提供更具前瞻性的思考。

本文的主要內容有六大部分:

Extreme Multi-Label Classification

Multi-Label with Limited Supervision

Deep Multi-Label Classification

Online Multi-Label Classification

Statistical Multi-Label Learning

New Applications

更多細節大家可以進一步閱讀Survey原文。另外,由於現在的論文迭代很快,我們無法完全Cover到每篇工作。我們的主旨是儘量保證收集的工作來自近年已發表和錄用的、高質量的期刊或會議,保證對當前工作的整體趨勢進行把握。如果讀者有任何想法和意見的話,也歡迎私信進行交流。