圖神經網路入門(二)(多階段訓練深度聚類)
作者:
Ke Sun, Zhouchen Lin, Zhanxing Zhu
題目:
Multi-Stage Self-Supervised Learning for Graph Convolutional Networks
on Graphs with Few Labeled Nodes
注:以下文章包括內容和筆記僅作者個人理解,如有錯誤或出入請指正。
轉載請註明出處
一。個人評價
該文章由北京大學林宙辰團隊完成,對於當前
弱監督圖卷積分類
的
淺層網路類別資訊的傳播
問題做了一部分的創新,本文雖然僅僅只有8頁,但是思路非常清晰,對於讀者的閱讀非常的友好。
二。總覽
本文針對的問題是
當前的淺層圖卷積網路,以
弱監督
的視角出發,從很少比例的有標記樣本透過一個
淺層GCN網路
進行類別資訊的傳播仍然是一個問題。由於圖卷積傳播的
過渡平滑
的問題的存在,使得節點無法利用高階鄰居節點的資訊,所以使得弱監督圖卷積分類任務中無法得道有效的
資訊傳播
。
本文主要做了兩個主要工作,同時將兩個工作進行融合
第一,對於GCN的淺層傳播構建自監督學習的訓練方法,
分批次
的將有類別標註的節點資訊傳播到未標註節點中的較高置信度的節點中,同時更新這些節點進入有類別的節點集中。
第二,利用Deep-clustering的思路,將對所有節點在特徵空間首先進行
聚類
,同時利用一種新穎的特徵對齊(Aligning Mechanism)方式,將特徵空間的聚類類別
對映
回本身類別標註的空間,借用原文的話(
transform the categories in clustering to the classes
)。這樣就同時增加了有標註的樣本。
三。方法
本文的方法非常的簡單,主要是思路的拓展。
關鍵詞:淺層GCN的資訊傳播的侷限性,M3S網路——結合Mutil-stage與Deep-cluster,自監督學習演算法的框架
Mutil-stage Training Framework
原本的訓練過程只預測一次原本unlabeled節點的預測標籤,本文的方法這個過程重複K次,反覆新增
高置信度
的標籤進入真實labeled樣本中,即促進了標籤資訊的傳播。
核心:對於unlabeled的節點的label分配結果置信度的
排序,
選擇top-k的節點進行新增。
演算法流程
DeepCluster
在特徵空間中對樣feature embedding進行k-means聚類,得到K個聚類中心,同時包含unlabeled和labeled的樣本。這一
聚類生成對應偽標籤的過程
與
根據這些偽標籤對GCN網路引數的更新
過程交替發生。
Aligning Mechanism
transform the categories in clustering to the classes,如原文寫到的,這一過程是將特徵空間聚類得到的類別轉換到真是空間的類別標記上。其具體方法是,
將unlabeled和labeled樣本
分開計算
,得到聚類空間每一個聚類簇中unlabeled和labeled的
重新計算
後的樣本中心。
得到每一個聚類簇中unlabeled樣本中心
以及labeled樣本中心
。
表示unlabeled聚類簇對應的最近的labeled聚類簇。
演算法流程
圖1顯示了M3S的訓練演算法流程:首先在整個演算法是嵌入在多階段訓練演算法框架中的,在每一階段透過找到top t confident節點加入到有標籤的節點集合中來不斷擴大監督訊號;另一方面,在graph embedding空間中實施DeepCluster,並透過對齊機制建立和監督標籤一樣的虛擬標籤,構造的虛擬標籤作為一種自我檢查機制Self-Checking,只有當多監督訓練框架中探索的top-t confident的標籤和DeepCluster的虛擬標籤一致的情況下,才將該節點極其更加確信的標籤加入到有標籤的節點集合中,進而進入下一階段的訓練。
四。實驗
1、層數效應
在本文的實驗部分先探究了圖卷積神經網路的層數效應,即當標籤比率越低時最優的層數呈現增長的趨勢。這一層數效應證明了弱監督訊號需要更多層數來傳播的必要性。
2、多階段訓練演算法框架的優勢
進一步地,我們透過探討不同K階段的訓練演算法相比於只有一個階段訓練演算法的優勢,可以看出,當label rate越低的時候多階段訓練框架效果提升地越明顯。
3、M3S的進一步提升
最後,我們將DeepCluster的自監督機制引入多階段訓練框架。從表格中的結果來看,我們容易發現最後得到M3S演算法不僅對多階段訓練演算法框架效果進一步提升,而且在三個資料集不同的標籤比率下取得了一致最好的結果,這充分證明了我們演算法的有效性。
OK, 完結撒花,歡迎大家去閱讀原文。
另本文實驗部分借鑑