4-4 最大後驗估計（MAP）和貝葉斯估計（BE）

1，頻率統計與貝葉斯統計

頻率統計認為事件服從特定的分佈，分佈的引數雖然未知但是固定。如果進行大量獨立重複實驗，那麼事件發生的機率一定會趨向事件的真實機率。比如拋硬幣實驗，如果重複無數次的話，出面證明的機率會非常接近0。5。換句話說，頻率統計以大資料為基礎。

貝葉斯統計認為事件的發生不是隨機的，他受到知識的影響。貝葉斯統計機率來描述知識。比如在拋硬幣實驗中，只進行了三次實驗，而這三次實驗都是正面。如果根據頻率統計的觀點，那麼正面出現的機率應該是1。但是事實上，如果硬幣沒有問題的話，正面出現的機率應該是0。5。所以說此時（實驗次數少）的情況下，頻率統計的結果並不合理。貝葉斯統計解決這種基於已知的知識，比如說，我們可以假設正面出現的機率位於

$\left[ 0.4,~0.6 \right]$

的區間內。然後基於這個假設，去估計正面出現的機率。

2，貝葉斯統計

2。1 貝葉斯公式：

$p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)} \\$

$p(\theta|x)$

稱為後驗機率，他表示以取樣資料為條件求得的引數機率。他就是要求的量。

$p(x|\theta)$

稱為似然函式，他表示以引數

$\theta$

為條件，觀察到取樣資料的機率。

$p(\theta)$

為先驗機率，表示人們已知的知識。他描述了引數

$\theta$

各種取值的機率，是機率分佈函式（PDF）。

為邊緣分佈。邊緣分佈也是一個歸一化因子，把

$p(\theta|x)$

歸一化

$\left[ 0,~1 \right]$

。

$p(x)=\int p(x|\theta)p(\theta)\mbox{d}\theta$

。確定了先驗機率之後，邊緣分佈是個常數，所以有：

$p(\theta|x)~~\propto~~{p(x|\theta)p(\theta)} \\$

在拋硬幣的例子中，拋硬幣事件可以看成是以

$\theta$

為引數的二項分佈，所以似然函式

$p(x|\theta)$

可以表示為：

$\begin{align} p(x_1=1|\theta)&=\theta \\ p(x_2=1|\theta)&=\theta\\ p(x_3=1|\theta)&=\theta\\ p(\mathbb{x}|\theta)&=\theta^3\\ \end{align} \\$

2。2 Beta分佈：

通常會使用

$\mbox{Beta}(a,b)$

分佈來描述

$p(\theta)$

。

$\mbox{Beta}(a,b) = \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\\$

因為

$\mbox{Beta}(a,b)$

描述機率，所以

$\theta$

的定義域為

$\left[ 0,~1 \right]$

。給定a，b的值之後，

為常數。

$B(a,b)=\int_{0}^{1}\mu^{a-1}(1-\mu)^{b-1}\mbox{d}\mu \\$

只有

為上述表達形式時，才滿足機率分佈的積分為

。

$\int_{0}^{1}\mbox{Beta}(a,b)\mbox{d}\theta = \int_{0}^{1}\frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\mbox{d}\theta = \frac{\int_{0}^{1}\theta^{a-1}(1-\theta)^{b-1}\mbox{d}\theta}{B(a,b)}=1\\$

取不同值是，

$\mbox{Beta}(a,b)$

的曲線如下圖所示。當

時，

$\mbox{Beta}(a,b)$

為均勻分佈。

$\mbox{Beta}(a,b)$

的均值為：

$\mathbb{E}(\mbox{Beta}(a,b))=\int_{0}^{1}\theta\frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\mbox{d}\theta = \frac{a}{a+b}\\$

2。3 Beta分佈與二項式分佈是共軛先驗的：

在使用貝葉斯方法進行引數估計時，如果先驗機率和後驗機率有相同的形式，那麼就稱為先驗機率和後驗機率是共軛先驗的。共軛先驗可以大幅簡化計算過程。

舉個例子，以Beta分佈為先驗機率，用二項式分佈構造似然函式時，引數的後驗機率也符合Beta分佈。

證明Beta分佈與二項式分佈是共軛先驗，先設事件為

$\mathbb{X}=\left\{ x_1,x_2,\cdots,x_n \right\}$

，其中發生的次數為

，不發生的次數為

（

）。則似然函式，先驗機率，和事件的邊緣分佈可以表示為：

$p(\mathbb{X}|\theta) = \theta^p(1-\theta)^{q} \\ p(\theta) = \mbox{Beta}(a,b) = \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\\ p(\mathbb{X})=\int p(\mathbb{X}|\theta)p(\theta)\mbox{d}\theta = \int \theta^p(1-\theta)^{q} \mbox{Beta}(a,b)\mbox{d}\theta =\int \theta^p(1-\theta)^{q} \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\mbox{d}\theta \\$

則根據貝葉斯公司可以得引數的後驗機率為：

$\begin{align} p(\theta|\mathbb{X})&=\frac{p(\mathbb{X}|\theta)p(\theta)}{p(\mathbb{X})} ~~~ \\ &= \frac{\theta^p(1-\theta)^{q} \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}}{\int \theta^p(1-\theta)^{q} \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\mbox{d}\theta}\\ \end{align} \\$

因為

是與

$\theta$

無關，由

決定的常數。所以上式可以變形為：

$\begin{align} p(\theta|\mathbb{X}) &= \frac{\theta^p(1-\theta)^{q} {\theta^{a-1}(1-\theta)^{b-1}}}{\int \theta^p(1-\theta)^{q} {\theta^{a-1}(1-\theta)^{b-1}}\mbox{d}\theta}\\ &=\frac{\theta^{a+p-1}(1-\theta)^{b+q-1}}{{\int \theta^{a+p-1}(1-\theta)^{b+q-1}\mbox{d}\theta}} \end{align} \\$

因為分母

$\int \theta^{a+p-1}(1-\theta)^{b+q-1}\mbox{d}\theta=B(a+p,b+q)$

為分子的歸一化因子，所以有：

$p(\theta|\mathbb{X}) =B(a+p,b+q)\\$

證明完畢。

2。4 例子

假設進行了三次拋硬幣實驗，三次結果均為正面。分別為

$\mbox{Beta}(1,1)$

，

$\mbox{Beta}(5,5)$

，和

$\mbox{Beta}(5,1)$

作為先驗機率，則求對應的後驗機率。

1，

$\mbox{Beta}(1,1)$

（一無所知）

$p(\theta|x)=\mbox{Beta}(1+3,1+0)\\$

2，

$\mbox{Beta}(5,5)$

（正反面出現的機率相同）

$p(\theta|x)=\mbox{Beta}(5+3,5+0)\\$

3，

$\mbox{Beta}(5,1)$

（作弊，正面出現的機率極大）

$p(\theta|x)=\mbox{Beta}(5+3,1+0)\\$

2。5 貝葉斯估計（BE）

MLE使用似然函式來估計引數值，而貝葉斯估計（BE）則使用

$\theta$

的機率分佈來估計引數值。BE認為

$\theta$

的所有可能性都可能會影響估計。

$p(\theta|x)$

表示為：

$\theta = \int_{0}^{1}\theta p(\theta|x)\mbox{d}\theta=\int_{0}^{1}\theta\frac{p(x|\theta)p(\theta)}{p(x)}\mbox{d}\theta \\$

計算前面例子中的引數估計，並理解先驗分佈對後驗分佈的影響：

1，

$\mbox{Beta}(1,1)$

（一無所知）

$\hat{\theta}=\int_{0}^{1}\theta~ p(\theta|x)\mbox{d}\theta=\int_{0}^{1}\theta~\mbox{Beta}(1+3,1+0)\mbox{d}\theta=\frac{1+3}{1+3+1+0} = 0.8\\$

2，

$\mbox{Beta}(5,5)$

（正反面出現的機率相同）

$\hat{\theta}=\int_{0}^{1}\theta~ p(\theta|x)\mbox{d}\theta=\int_{0}^{1}\theta~\mbox{Beta}(5+3,5+0)\mbox{d}\theta=\frac{5+3}{5+3+5+0} = 0.615\\$

3，

$\mbox{Beta}(5,1)$

（作弊，正面出現的機率極大）

$\hat{\theta}=\int_{0}^{1}\theta~ p(\theta|x)\mbox{d}\theta=\int_{0}^{1}\theta~\mbox{Beta}(5+3,1+0)\mbox{d}\theta=\frac{5+3}{5+3+1+0} = 0.889\\$

3，最大後驗估計（MAP）

貝葉斯估計認為所有可能的

$\theta$

都對引數估計有貢獻。而最大後驗估計則是試圖最大化後驗機率：

$\hat{\theta}=\mbox{argmax}_{\theta}p(\mathbb{X}|\theta)=\mbox{argmax}_{\theta}\left[ \log{p(\mathbb{X}|\theta)}+\log{p(\theta)} \right]\\$

MAP估計可以看作是，在最佳化似然函式的同時，加入了正則化項（即先驗機率的對數）。

使用MAP，計算前面例子中的引數估計：

1，

$\mbox{Beta}(1,1)$

（一無所知）

$\hat{\theta}=\mbox{argmax}_{\theta}\left[ \log{p(\mathbb{X}|\theta)}+\log{p(\theta)} \right] =\mbox{argmax}_{\theta}\left[ \log{\theta^3}+\log{\theta^{1-1}(1-\theta)^{1-1}} \right] =1\\$

2，

$\mbox{Beta}(5,5)$

（正反面出現的機率相同）

$\hat{\theta}=\mbox{argmax}_{\theta}\left[ \log{p(\mathbb{X}|\theta)}+\log{p(\theta)} \right]=\mbox{argmax}_{\theta}\left[ \log{\theta^3}+\log{\theta^{5-1}(1-\theta)^{5-1}} \right]=\frac{1}{2}\\$

3，

$\mbox{Beta}(5,1)$

（作弊，正面出現的機率極大）

$\hat{\theta}=\mbox{argmax}_{\theta}\left[ \log{p(\mathbb{X}|\theta)}+\log{p(\theta)} \right]=\mbox{argmax}_{\theta}\left[ \log{\theta^3}+\log{\theta^{5-1}(1-\theta)^{1-1}} \right]=1\\$

參考資料：

https：//www。

zhihu。com/question/3026

9898

李文哲：機器學習中的MLE、MAP、貝葉斯估計

https：//www。

youtube。com/watch？

v=2_eFIyrOdJc

http：//

noahsnail。com/2018/05/1

7/2018-05-17-%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%BC%B0%E8%AE%A1%E3%80%81%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1%E3%80%81%E6%9C%80%E5%A4%A7%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87%E4%BC%B0%E8%AE%A1/

https：//

blog。csdn。net/yangliuy/

article/details/8296481

小蜜蜂問答

小蜜蜂問答

4-4 最大後驗估計（MAP）和貝葉斯估計（BE）

推薦文章

小蜜蜂問答

小蜜蜂問答

4-4 最大後驗估計（MAP）和貝葉斯估計（BE）

相關文章

研究生期間談戀愛成功機率有多少？

三國殺十週年s將靈獲得機率？

南方有夜鶯嗎？

亞洲城市分佈特徵？

推薦文章