4-4 最大後驗估計(MAP)和貝葉斯估計(BE)
1,頻率統計與貝葉斯統計
頻率統計認為事件服從特定的分佈,分佈的引數雖然未知但是固定。如果進行大量獨立重複實驗,那麼事件發生的機率一定會趨向事件的真實機率。比如拋硬幣實驗,如果重複無數次的話,出面證明的機率會非常接近0。5。 換句話說,頻率統計以大資料為基礎。
貝葉斯統計認為事件的發生不是隨機的,他受到知識的影響。貝葉斯統計機率來描述知識。比如在拋硬幣實驗中,只進行了三次實驗,而這三次實驗都是正面。如果根據頻率統計的觀點,那麼正面出現的機率應該是1。但是事實上,如果硬幣沒有問題的話,正面出現的機率應該是0。5。所以說此時(實驗次數少)的情況下,頻率統計的結果並不合理。貝葉斯統計解決這種基於已知的知識,比如說,我們可以假設正面出現的機率位於
的區間內。然後基於這個假設,去估計正面出現的機率。
2,貝葉斯統計
2。1 貝葉斯公式:
稱為後驗機率,他表示以取樣資料為條件求得的引數機率。他就是要求的量。
稱為似然函式,他表示以引數
為條件,觀察到取樣資料的機率。
為先驗機率,表示人們已知的知識。他描述了引數
各種取值的機率,是機率分佈函式(PDF)。
為邊緣分佈。邊緣分佈也是一個歸一化因子,把
歸一化
。
。 確定了先驗機率之後,邊緣分佈是個常數,所以有:
在拋硬幣的例子中,拋硬幣事件可以看成是以
為引數的二項分佈,所以似然函式
可以表示為:
2。2 Beta分佈:
通常會使用
分佈來描述
。
因為
描述機率,所以
的定義域為
。給定a,b的值之後,
為常數。
只有
為上述表達形式時, 才滿足機率分佈的積分為
。
取不同值是,
的曲線如下圖所示。當
時,
為均勻分佈。
的均值為:
2。3 Beta分佈與二項式分佈是共軛先驗的:
在使用貝葉斯方法進行引數估計時,如果先驗機率和後驗機率有相同的形式,那麼就稱為先驗機率和後驗機率是共軛先驗的。共軛先驗可以大幅簡化計算過程。
舉個例子,以Beta分佈為先驗機率,用二項式分佈構造似然函式時,引數的後驗機率也符合Beta分佈。
證明Beta分佈與二項式分佈是共軛先驗,先設事件為
,其中發生的次數為
,不發生的次數為
(
)。則似然函式,先驗機率,和事件的邊緣分佈可以表示為:
則根據貝葉斯公司可以得引數的後驗機率為:
因為
是與
無關,由
決定的常數。所以上式可以變形為:
因為分母
為分子的歸一化因子,所以有:
證明完畢。
2。4 例子
假設進行了三次拋硬幣實驗,三次結果均為正面。分別為
,
,和
作為先驗機率,則求對應的後驗機率。
1,
(一無所知)
2,
(正反面出現的機率相同)
3,
(作弊,正面出現的機率極大)
2。5 貝葉斯估計(BE)
MLE使用似然函式來估計引數值,而貝葉斯估計(BE)則使用
的機率分佈來估計引數值。BE認為
的所有可能性都可能會影響估計。
表示為:
計算前面例子中的引數估計,並理解先驗分佈對後驗分佈的影響:
1,
(一無所知)
2,
(正反面出現的機率相同)
3,
(作弊,正面出現的機率極大)
3,最大後驗估計(MAP)
貝葉斯估計認為所有可能的
都對引數估計有貢獻。而最大後驗估計則是試圖最大化後驗機率:
MAP估計可以看作是,在最佳化似然函式的同時,加入了正則化項(即先驗機率的對數)。
使用MAP,計算前面例子中的引數估計:
1,
(一無所知)
2,
(正反面出現的機率相同)
3,
(作弊,正面出現的機率極大)
參考資料:
https://www。
zhihu。com/question/3026
9898
李文哲:機器學習中的MLE、MAP、貝葉斯估計
https://www。
youtube。com/watch?
v=2_eFIyrOdJc
http://
noahsnail。com/2018/05/1
7/2018-05-17-%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%BC%B0%E8%AE%A1%E3%80%81%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1%E3%80%81%E6%9C%80%E5%A4%A7%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87%E4%BC%B0%E8%AE%A1/
https://
blog。csdn。net/yangliuy/
article/details/8296481