機器學習-無監督學習概論

無監督學習

1 無監督學習基本原理

無監督學習：從無標註的資料中學習資料的統計規律或者說內在結構的機器學習，主要包括聚類、降維、機率估計，對應的輸出是類別，轉換，機率

無監督學習的模型：函式

$z=g_{\theta}(x)$

（硬聚類），條件機率分佈

$P_{\theta}(z|x)$

（軟聚類）或條件機率分佈

$P_{\theta}(x|z)$

（機率模型估計）

定義訓練資料集

：

$X=\left[ \begin{matrix} x_{11} & \cdots & x_{1N} \\ \vdots & & \vdots \\ x_{M1} & \cdots & x_{MN} \\ \end{matrix} \right] \\$

其中，

$x_{ij}$

表示第

個向量的第

維；

$i=1,2,\dots,M$

；

$j=1,2,\dots,N$

；

訓練資料可以用

$M\times N$

矩陣表示，矩陣的每一行對應特徵，每一列對應一個樣本

2 聚類

發現數據集

中的

縱向結構

，輸入空間為

，輸出空間為類別集合

$Z= \{1,2,\dots,k\}$

硬聚類：一個樣本只能屬於一個類，

$z=g_\theta(x)$

軟聚類：一個樣本可以屬於多個類，

$P_\theta(z|x)$

3 降維

發現數據中的

橫向結構

，輸入空間為歐式空間

$X\subseteq \mathbb{R}^d$

，輸出空間同為歐式空間

$Z\subseteq \mathbb{R}^{d^\prime}$

降維：

$z=g_\theta(x)$

$x\in X$

是樣本的高維向量

$z\in Z$

是樣本的低維向量

$\theta$

是引數

可以是線性函式，也可以是非線性函式

4 機率模型估計

訓練資料由一個機率模型生成，由訓練資料學習

模型的結構和引數

機率模型包括混合模型（高斯混合模型等）和機率圖模型（有向圖模型、無向圖模型）等

機率模型可以表示為

$P_\theta(x|z)$

其中

表示觀測資料，可以是連續變數也可以是離散變數；

表示隱式結構，是離散變數；當模型是混合模型時，

表示成分的個數，當模型是機率圖模型時，

表示圖的結構；隨機變數

$\theta$

表示引數；

軟聚類也可以看作機率估計的問題，根據貝葉斯公式：

$P(z|x)=\frac{P(z)P(x|z)}{P(x)}\propto P(z)P(x|z)$

其中，先驗

服從均勻分佈，故只需估計出條件機率

$P_\theta(x|z)$

進行軟聚類

5 聚類演算法三要素

模型：

函式

$z=g_{\theta}(x)$

（硬聚類），條件機率分佈

$P_{\theta}(z|x)$

（軟聚類）或條件機率分佈

$P_{\theta}(x|z)$

（機率模型估計）

策略

聚類

樣本與所屬類別中心距離的最小化，

降維

過程資訊損失的最小化，

機率模型估計

過程中生成資料機率的最大化

演算法

通常是迭代演算法，如梯度下降

無監督分類：

硬聚類：層次聚類法、k均值聚類

軟聚類：高斯混合模型EM演算法

降維：主成分分析、奇異值分解、潛在語義分析

機率模型估計方法：機率潛在語義分析、潛在狄利克雷分配

話題分析：

話題分析是文字分析的一種技術。給定一個文字集合，話題分析旨在發現文字集合中每個文字的話題，而話題由單詞的集合表示。前提是有足夠數量的文字。

話題分析可以形式化為：機率模型估計問題和降維問題。

話題分析方法：潛在語義分析、機率潛在語義分析、潛在狄利克雷分配、馬爾可夫鏈蒙特卡羅法。

話題表示為單詞的機率分佈，文字表示為話題的機率分佈。直觀上，一個話題包含語義相似的單詞，一個文字表示若干個話題。

圖分析：

圖資料表示實體之間的關係，圖分析目的是發掘隱藏在圖中的統計規律和潛在結構，連結分析是圖分析的一種，如Pagerank演算法。

Pagerank演算法是求解馬爾可夫鏈（在圖上的隨機遊走）的平穩分佈。一個節點的平穩分佈（節點的Pagerank值）表示該節點的重要性。

參考

李航-統計學習方法

李航-統計學習方法筆記：

https：//

github。com/SmirkCao/Lih

ang

小蜜蜂問答

小蜜蜂問答

機器學習-無監督學習概論

推薦文章

小蜜蜂問答

小蜜蜂問答

機器學習-無監督學習概論

相關文章

比較大型專業的3d模型網站有哪些推薦？

涼宮春日為什麼人氣那麼高？

解構思維：接近本質，快人一步！

什麼叫"降維打擊"？

推薦文章