機器學習-白板推導系列(二)-數學基礎筆記
影片如下:
一、機率-高斯分佈1-極大似然估計
高斯分佈在統計機器學習中佔據重要的地位。
本節內容主要是利用極大似然估計計算高斯分佈下的最優引數。
Data:
假設資料
中有
個樣本,每個樣本
為
維資料(含有
個feature)
所有的樣本都獨立同分佈於高斯分佈
MLE:
極大似然估計MLE:求最優的
使得對於這部分資料來說,出現的機率最大
下面計算在一維情況下高斯分佈的最優引數
[注]
高維情況下的高斯分佈密度函式:
先對
去對數,使得後續求導計算更加方便。
因為
與
在同一
處取到極值
首先求最優的
,如下:
第二步將P帶入後,只需要保留含有
的項,常數項與最佳化無關故舍去
接下來對其求導,找出極大值
求出最優的
是樣本均值,此結果為無偏估計 因為
接下來求
的最優解
對
求導,找出最優解
此結果為有偏估計,因為
無偏估計為:
二、機率-高斯分佈2-極大似然估計(無偏估計 VS 有偏估計)
本節內容主要是證明
和
的無偏與有偏性,並計算無偏的
假設與第一節一致,在一維情況下:
無偏估計
有偏估計
若
則無偏
若不相等,則有偏
因此
無偏
其中
因為
是無偏估計
此外
因此
是有偏的
因此
為無偏估計
三、機率-高斯分佈3-從機率密度函式角度觀察
本節將從高維角度來看高斯分佈
高維高斯分佈的公式,右部分是二次型
為
維隨機變數
(random variable)
通常來說,
是半正定的(對稱的),本節內容假設
是正定的(特徵值
),便於敘述
首先從機率密度函式來看,
是自變數,因此
前面的內容為常數
(是一個數) ————馬氏距離(
與
之間)
當
(單位矩陣)時,馬氏距離
歐氏距離
特徵值分解
(正交)
(對角陣)
Then:
使用特徵值分解可以將矩陣拆成連乘形式
的結果如上,因為特徵向量矩陣
是正交的,因此
將此結果帶入
令
馬氏距離經過變換,成為了
是
在特徵向量
上的投影長度
令
則上式便是令
取不同值時的同心橢圓
時,橢圓如下圖所示:
每當
取不同值,橢圓就相當於對這一高度的等高線,也對應一個固定的機率值
若
(常量)時,上圖便是一個圓
四、機率-高斯分佈4-侷限性
繼上節內容,將
帶入
:
每當
取為某個機率值時,都對應一個固定的
值,即對應一個橢圓曲線,因此取滿所有的
,對應的影象是一個小山狀(如下圖所示)
每當
取為某個機率值時,相當於橫切小山,投影到
平面便是一個橢圓曲線,也是等高線
侷限性:
①
的引數個數是
計算複雜度太高,因此經常對
進行簡化,假設其為對角矩陣,則其對應的橢圓曲線為正的,如下圖所示:
若
中的
都相等,則上圖便為一個正的圓,此情況稱為
各向同性
,
為
各向同性矩陣
[
Example
] factor analysis:
為對角矩陣
(機率PCA):因子分析的特殊情況,
為各向同性
②高斯分佈本身的侷限性
有些資料無法用一個高斯分佈表示
因此在GMM中提出了混合模型:使用多個高斯分佈進行混合
五、機率-高斯分佈5-已知聯合機率求邊緣機率及條件機率
本節內容是推導最多最複雜的部分
已知一個多維高斯分佈的聯合機率,求其邊緣機率分佈及條件機率分佈
將
分為兩部分,一部分為
維
,一部分為
維
,
和
同理:
已知:
將
看為
和
的聯合機率分佈
求:
同理可由對稱性得知
通用方法:配方法(RPML)
今天使用另一種方法,比配方法簡便
引入如下定理(機率論與數理統計中的):
已知:
結論:
證明:
①首先計算
令
使用上述定理的結論,則:
因此:
②計算
首先引入3個量:
這裡
是
的Schur Complementary
是
與
的線性組合,故其服從高斯分佈
下面求
的機率分佈函式
先對
進行變換,使其能夠應用上述定理直接得出結果
使用上述定理得:
因此
由第一個引入的量可以得到:
此處同樣利用上述定理,其中
為
,
為
,
為
,
為
可以求得:
因此
這裡直接使用
的表示式計算了
,原因是條件機率的含義為在已知
的條件下求
的機率,因此這裡假設
已知,作為常量處理了
很容易可以證明,若計算
,則結果應為
,
同理
③利用對稱性求另外兩個量
六、機率-高斯分佈6-已知邊緣和條件機率求聯合機率分佈
上節內容是已知一個多維高斯分佈的聯合機率,求其邊緣機率分佈及條件機率分佈
本節內容是:
已知:
是
,為了計算方便
求:
有點像貝葉斯中的後驗
同時有假設
與
有線性關係:
解
:
PRML中依然用的配方法,非常繁瑣
以下依舊使用構造性證明
本節比上節更重要
假設
其中
都是隨機變數
其中
與
獨立
①求解
此處使用上一節的定理求得
因此
所以
②求解
對於此問題,使用上一節的結論進行求解。
即先求出聯合機率分佈,再求此條件機率
故引入
其中:
因為
與
獨立,所以
與
獨立
因此
所以
由對稱性得:
因此:
所以:
使用上一節結論
可得:
因此:
七、機率-不等式1-傑森不等式(Jensen‘s Inequality)
本節開始介紹一些小知識點
傑森不等式在機器學習的推導中經常被用到,因此單獨拿出來介紹
傑森不等式是什麼?
假設
是
(凸函式)
則
證明:
證明方法有很多,本次採用一個構造性證明
如上圖所示,根據
點找到
點,然後做切線
因此
對上式結論兩邊同時取期望
證畢
實際上我們在機器學習中使用的更多的是傑森不等式的變式,如下推導
如上圖所示,令
則
令
則
然後連線
與
作一條新的線為
因為
所以
因此如上圖所示,可利用相似三角形性質求得:
因此
所以
此式非常常用,非常重要!