轉載請註明出處:

論文來源:

ELSEVIER 2015

論文下載:Weighted Multi-view Clustering with Feature Selection

論文作者:Yu-Meng Xu, Chang-Dong Wang, Jian-Huang Lai

Abstract

對於資料聚類,組合多個源或者檢視資料集已經成為提高聚類準確性的一個受歡迎做法。因為不同檢視是相同例項集的不同表現形式,我們可以同時使用來自多個檢視的資訊去改善聚類的結果。之前的研究主要關注於不同資料檢視間的關係,然而對於高維資料(每個檢視的資料是高維的),為進一步提高聚類結果,特徵選擇是必須的。這篇文章提出了一個叫Weighted Multi-view Clustering with Feature Selection (WMCFS)的新穎演算法,能夠同時執行多檢視資料聚類和特徵選擇。倆帶權方案分別是對資料點的檢視和每個檢視的特徵表達進行加權,以便可以為聚類選擇最好的檢視和每個檢視中最具代表性的特徵空間。

Introduction

聚類是其中一個探索底層資料結構的重要方法之一。它的基礎思想是根據某些準則比如相似的物件可以組成同一的聚類,不相似的物件分離到不同的聚類來劃分資料物件集。通常,我們透過增大聚類內的相似性和聚類間的不相似性來執行聚類。隨著硬體技術的發展,大量多檢視資料(various representations)在現實的運用中已經出現。

Weighted Multi-view Clustering with Feature Selection

在多檢視資料中,不同檢視是相同事務集的不同表現形式。聯合相同事務集的多檢視去得到一個更好的聚類結果是一個有意義的研究挑戰。現存的為單源資料設計的聚類演算法不能夠直接運用到包含多檢視或者有多種表現形式的資料上。一些資料的檢視可能是高維的,這會導致高的計算複雜度,且可能導致低的聚類準確度。換句話說,特徵選擇是一種不僅可以簡化計算而且有助於在資料聚類中得到一個精確的資料模型的方式。因此,作者提出了叫做Weighted Multi-view Clustering with Feature Selection(WMCFS)的新穎演算法,同時執行多檢視資料聚類和特徵選擇。

Algorithm

Weighted Multi-view Clustering with Feature Selection

Weighted Multi-view Clustering with Feature Selection

這篇論文的演算法是比較簡單的。多檢視聚類的目標是在所有檢視中根據它們之間的語義相似度將

N

事務聚類成

M

聚類。作者提出的全域性目標函式在資料聚類過程中考慮了多檢視學習和特徵選擇,多檢視學習和特徵選擇用加權的方式實現。作者先從

Multi-view k-means

角度描述目標函式,

k-means

的目標是選擇

M

聚類中心,以便每個事務到對應的聚類中心距離平方和是最小的。

Weighted Multi-view Clustering with Feature Selection

Weighted Multi-view Clustering with Feature Selection

由此對於多檢視資料,目標函式如下:

Weighted Multi-view Clustering with Feature Selection

為在資料聚類過程中同時執行多檢視學習和特徵選擇,倆帶權方案分別對資料點的檢視和每個檢視的特徵表達進行加權,第一個是對每個檢視的資料加權,第二個是對每個檢視的特徵加權,如圖滿足:

Weighted Multi-view Clustering with Feature Selection

Weighted Multi-view Clustering with Feature Selection

綜上可得,

Weighted Multi-view Clustering with Feature Selection

目標函式的最後一項是為了控制特徵權重向量的稀疏度。

Weighted Multi-view Clustering with Feature Selection

最終目標函式目的,也即演算法的目標是同時找到最優的聚類分佈,檢視加權和特徵加權以便該目標函式是最小的。

Weighted Multi-view Clustering with Feature Selection

為找到最優的聚類分佈,檢視加權和特徵加權,作者設計了

EM-like

迭代(包含三階段)。在每一階段,三個變數的其中之一改變,其餘兩個變數固定。演算法過程如下:

Weighted Multi-view Clustering with Feature Selection

最後實驗部分的相關內容,有興趣的可以翻閱論文。

Conclusion

作者提出了Weighted Multi-view Clustering with Feature Selection (WMCFS)演算法,同時執行了特徵選擇和多檢視資料聚類。論文的思路很清晰,值得一讀,對剛接觸多檢視資料聚類的夥伴應該有很大的啟發和幫助。