機器學習-無監督學習概論
無監督學習
1 無監督學習基本原理
無監督學習:從無標註的資料中學習資料的統計規律或者說內在結構的機器學習,主要包括聚類、降維、機率估計,對應的輸出是類別,轉換,機率
無監督學習的模型:函式
(硬聚類),條件機率分佈
(軟聚類)或條件機率分佈
(機率模型估計)
定義訓練資料集
:
其中,
表示第
個向量的第
維;
;
;
訓練資料可以用
矩陣表示,矩陣的每一行對應特徵,每一列對應一個樣本
2 聚類
發現數據集
中的
縱向結構
,輸入空間為
,輸出空間為類別集合
硬聚類:一個樣本只能屬於一個類,
軟聚類:一個樣本可以屬於多個類,
3 降維
發現數據中的
橫向結構
,輸入空間為歐式空間
,輸出空間同為歐式空間
降維:
是樣本的高維向量
是樣本的低維向量
是引數
可以是線性函式,也可以是非線性函式
4 機率模型估計
訓練資料由一個機率模型生成,由訓練資料學習
模型的結構和引數
機率模型包括混合模型(高斯混合模型等)和機率圖模型(有向圖模型、無向圖模型)等
機率模型可以表示為
其中
表示觀測資料,可以是連續變數也可以是離散變數;
表示隱式結構,是離散變數;當模型是混合模型時,
表示成分的個數,當模型是機率圖模型時,
表示圖的結構;隨機變數
表示引數;
軟聚類也可以看作機率估計的問題,根據貝葉斯公式:
其中,先驗
服從均勻分佈,故只需估計出條件機率
進行軟聚類
5 聚類演算法三要素
模型:
函式
(硬聚類),條件機率分佈
(軟聚類)或條件機率分佈
(機率模型估計)
策略
聚類
樣本與所屬類別中心距離的最小化,
降維
過程資訊損失的最小化,
機率模型估計
過程中生成資料機率的最大化
演算法
通常是迭代演算法,如梯度下降
無監督分類:
硬聚類:層次聚類法、k均值聚類
軟聚類:高斯混合模型EM演算法
降維:主成分分析、奇異值分解、潛在語義分析
機率模型估計方法:機率潛在語義分析、潛在狄利克雷分配
話題分析:
話題分析是文字分析的一種技術。給定一個文字集合,話題分析旨在發現文字集合中每個文字的話題,而話題由單詞的集合表示。前提是有足夠數量的文字。
話題分析可以形式化為:機率模型估計問題和降維問題。
話題分析方法:潛在語義分析、機率潛在語義分析、潛在狄利克雷分配、馬爾可夫鏈蒙特卡羅法。
話題表示為單詞的機率分佈,文字表示為話題的機率分佈。直觀上,一個話題包含語義相似的單詞,一個文字表示若干個話題。
圖分析:
圖資料表示實體之間的關係,圖分析目的是發掘隱藏在圖中的統計規律和潛在結構,連結分析是圖分析的一種,如Pagerank演算法。
Pagerank演算法是求解馬爾可夫鏈(在圖上的隨機遊走)的平穩分佈。一個節點的平穩分佈(節點的Pagerank值)表示該節點的重要性。
參考
李航-統計學習方法
李航-統計學習方法筆記:
https://
github。com/SmirkCao/Lih
ang