無監督學習

1 無監督學習基本原理

無監督學習:從無標註的資料中學習資料的統計規律或者說內在結構的機器學習,主要包括聚類、降維、機率估計,對應的輸出是類別,轉換,機率

無監督學習的模型:函式

z=g_{\theta}(x)

(硬聚類),條件機率分佈

P_{\theta}(z|x)

(軟聚類)或條件機率分佈

P_{\theta}(x|z)

(機率模型估計)

定義訓練資料集

X

X=\left[ \begin{matrix}  x_{11} & \cdots & x_{1N}       \\  \vdots &        & \vdots 		\\  x_{M1} & \cdots & x_{MN}       \\ \end{matrix} \right] \\

其中,

x_{ij}

表示第

j

個向量的第

i

維;

i=1,2,\dots,M

j=1,2,\dots,N

訓練資料可以用

M\times N

矩陣表示,矩陣的每一行對應特徵,每一列對應一個樣本

2 聚類

發現數據集

X

中的

縱向結構

,輸入空間為

X

,輸出空間為類別集合

Z= \{1,2,\dots,k\}

硬聚類:一個樣本只能屬於一個類,

z=g_\theta(x)

軟聚類:一個樣本可以屬於多個類,

P_\theta(z|x)

3 降維

發現數據中的

橫向結構

,輸入空間為歐式空間

X\subseteq \mathbb{R}^d

,輸出空間同為歐式空間

Z\subseteq \mathbb{R}^{d^\prime}

降維:

z=g_\theta(x)

x\in X

是樣本的高維向量

z\in Z

是樣本的低維向量

\theta

是引數

g

可以是線性函式,也可以是非線性函式

4 機率模型估計

訓練資料由一個機率模型生成,由訓練資料學習

模型的結構和引數

機率模型包括混合模型(高斯混合模型等)和機率圖模型(有向圖模型、無向圖模型)等

機率模型可以表示為

P_\theta(x|z)

其中

x

表示觀測資料,可以是連續變數也可以是離散變數;

z

表示隱式結構,是離散變數;當模型是混合模型時,

z

表示成分的個數,當模型是機率圖模型時,

z

表示圖的結構;隨機變數

\theta

表示引數;

軟聚類也可以看作機率估計的問題,根據貝葉斯公式:

P(z|x)=\frac{P(z)P(x|z)}{P(x)}\propto P(z)P(x|z)

其中,先驗

P(z)

服從均勻分佈,故只需估計出條件機率

P_\theta(x|z)

進行軟聚類

5 聚類演算法三要素

模型:

函式

z=g_{\theta}(x)

(硬聚類),條件機率分佈

P_{\theta}(z|x)

(軟聚類)或條件機率分佈

P_{\theta}(x|z)

(機率模型估計)

策略

聚類

樣本與所屬類別中心距離的最小化,

降維

過程資訊損失的最小化,

機率模型估計

過程中生成資料機率的最大化

演算法

通常是迭代演算法,如梯度下降

無監督分類:

硬聚類:層次聚類法、k均值聚類

軟聚類:高斯混合模型EM演算法

降維:主成分分析、奇異值分解、潛在語義分析

機率模型估計方法:機率潛在語義分析、潛在狄利克雷分配

話題分析:

話題分析是文字分析的一種技術。給定一個文字集合,話題分析旨在發現文字集合中每個文字的話題,而話題由單詞的集合表示。前提是有足夠數量的文字。

話題分析可以形式化為:機率模型估計問題和降維問題。

話題分析方法:潛在語義分析、機率潛在語義分析、潛在狄利克雷分配、馬爾可夫鏈蒙特卡羅法。

話題表示為單詞的機率分佈,文字表示為話題的機率分佈。直觀上,一個話題包含語義相似的單詞,一個文字表示若干個話題。

圖分析:

圖資料表示實體之間的關係,圖分析目的是發掘隱藏在圖中的統計規律和潛在結構,連結分析是圖分析的一種,如Pagerank演算法。

Pagerank演算法是求解馬爾可夫鏈(在圖上的隨機遊走)的平穩分佈。一個節點的平穩分佈(節點的Pagerank值)表示該節點的重要性。

參考

李航-統計學習方法

李航-統計學習方法筆記:

https://

github。com/SmirkCao/Lih

ang