1,頻率統計與貝葉斯統計

頻率統計認為事件服從特定的分佈,分佈的引數雖然未知但是固定。如果進行大量獨立重複實驗,那麼事件發生的機率一定會趨向事件的真實機率。比如拋硬幣實驗,如果重複無數次的話,出面證明的機率會非常接近0。5。 換句話說,頻率統計以大資料為基礎。

貝葉斯統計認為事件的發生不是隨機的,他受到知識的影響。貝葉斯統計機率來描述知識。比如在拋硬幣實驗中,只進行了三次實驗,而這三次實驗都是正面。如果根據頻率統計的觀點,那麼正面出現的機率應該是1。但是事實上,如果硬幣沒有問題的話,正面出現的機率應該是0。5。所以說此時(實驗次數少)的情況下,頻率統計的結果並不合理。貝葉斯統計解決這種基於已知的知識,比如說,我們可以假設正面出現的機率位於

\left[ 0.4,~0.6 \right]

的區間內。然後基於這個假設,去估計正面出現的機率。

2,貝葉斯統計

2。1 貝葉斯公式:

p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)} \\

p(\theta|x)

稱為後驗機率,他表示以取樣資料為條件求得的引數機率。他就是要求的量。

p(x|\theta)

稱為似然函式,他表示以引數

\theta

為條件,觀察到取樣資料的機率。

p(\theta)

為先驗機率,表示人們已知的知識。他描述了引數

\theta

各種取值的機率,是機率分佈函式(PDF)。

p(x)

為邊緣分佈。邊緣分佈也是一個歸一化因子,把

p(\theta|x)

歸一化

\left[ 0,~1 \right]

p(x)=\int p(x|\theta)p(\theta)\mbox{d}\theta

。 確定了先驗機率之後,邊緣分佈是個常數,所以有:

p(\theta|x)~~\propto~~{p(x|\theta)p(\theta)} \\

在拋硬幣的例子中,拋硬幣事件可以看成是以

\theta

為引數的二項分佈,所以似然函式

p(x|\theta)

可以表示為:

\begin{align} p(x_1=1|\theta)&=\theta \\ p(x_2=1|\theta)&=\theta\\ p(x_3=1|\theta)&=\theta\\ p(\mathbb{x}|\theta)&=\theta^3\\ \end{align} \\

2。2 Beta分佈:

通常會使用

\mbox{Beta}(a,b)

分佈來描述

p(\theta)

\mbox{Beta}(a,b) = \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\\

因為

\mbox{Beta}(a,b)

描述機率,所以

\theta

的定義域為

\left[ 0,~1 \right]

。給定a,b的值之後,

B(a,b)

為常數。

B(a,b)=\int_{0}^{1}\mu^{a-1}(1-\mu)^{b-1}\mbox{d}\mu \\

只有

B(a,b)

為上述表達形式時, 才滿足機率分佈的積分為

1

\int_{0}^{1}\mbox{Beta}(a,b)\mbox{d}\theta = \int_{0}^{1}\frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\mbox{d}\theta = \frac{\int_{0}^{1}\theta^{a-1}(1-\theta)^{b-1}\mbox{d}\theta}{B(a,b)}=1\\

a,b

取不同值是,

\mbox{Beta}(a,b)

的曲線如下圖所示。當

a=1,b=1

時,

\mbox{Beta}(a,b)

為均勻分佈。

4-4 最大後驗估計(MAP)和貝葉斯估計(BE)

\mbox{Beta}(a,b)

的均值為:

\mathbb{E}(\mbox{Beta}(a,b))=\int_{0}^{1}\theta\frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\mbox{d}\theta = \frac{a}{a+b}\\

2。3 Beta分佈與二項式分佈是共軛先驗的:

在使用貝葉斯方法進行引數估計時,如果先驗機率和後驗機率有相同的形式,那麼就稱為先驗機率和後驗機率是共軛先驗的。共軛先驗可以大幅簡化計算過程。

舉個例子,以Beta分佈為先驗機率,用二項式分佈構造似然函式時,引數的後驗機率也符合Beta分佈。

證明Beta分佈與二項式分佈是共軛先驗,先設事件為

\mathbb{X}=\left\{ x_1,x_2,\cdots,x_n \right\}

,其中發生的次數為

p

,不發生的次數為

q

p+q=n

)。則似然函式,先驗機率,和事件的邊緣分佈可以表示為:

p(\mathbb{X}|\theta) = \theta^p(1-\theta)^{q} \\ p(\theta) = \mbox{Beta}(a,b) = \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\\ p(\mathbb{X})=\int p(\mathbb{X}|\theta)p(\theta)\mbox{d}\theta = \int  \theta^p(1-\theta)^{q}  \mbox{Beta}(a,b)\mbox{d}\theta =\int  \theta^p(1-\theta)^{q}  \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\mbox{d}\theta \\

則根據貝葉斯公司可以得引數的後驗機率為:

\begin{align} p(\theta|\mathbb{X})&=\frac{p(\mathbb{X}|\theta)p(\theta)}{p(\mathbb{X})} ~~~ \\ &= \frac{\theta^p(1-\theta)^{q}  \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}}{\int  \theta^p(1-\theta)^{q}  \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}\mbox{d}\theta}\\ \end{align} \\

因為

B(a,b)

是與

\theta

無關,由

a,b

決定的常數。所以上式可以變形為:

\begin{align} p(\theta|\mathbb{X}) &= \frac{\theta^p(1-\theta)^{q}  {\theta^{a-1}(1-\theta)^{b-1}}}{\int  \theta^p(1-\theta)^{q}  {\theta^{a-1}(1-\theta)^{b-1}}\mbox{d}\theta}\\ &=\frac{\theta^{a+p-1}(1-\theta)^{b+q-1}}{{\int  \theta^{a+p-1}(1-\theta)^{b+q-1}\mbox{d}\theta}} \end{align} \\

因為分母

\int  \theta^{a+p-1}(1-\theta)^{b+q-1}\mbox{d}\theta=B(a+p,b+q)

為分子的歸一化因子,所以有:

p(\theta|\mathbb{X}) =B(a+p,b+q)\\

證明完畢。

2。4 例子

假設進行了三次拋硬幣實驗,三次結果均為正面。分別為

\mbox{Beta}(1,1)

\mbox{Beta}(5,5)

,和

\mbox{Beta}(5,1)

作為先驗機率,則求對應的後驗機率。

1,

\mbox{Beta}(1,1)

(一無所知)

p(\theta|x)=\mbox{Beta}(1+3,1+0)\\

2,

\mbox{Beta}(5,5)

(正反面出現的機率相同)

p(\theta|x)=\mbox{Beta}(5+3,5+0)\\

3,

\mbox{Beta}(5,1)

(作弊,正面出現的機率極大)

p(\theta|x)=\mbox{Beta}(5+3,1+0)\\

2。5 貝葉斯估計(BE)

MLE使用似然函式來估計引數值,而貝葉斯估計(BE)則使用

\theta

的機率分佈來估計引數值。BE認為

\theta

的所有可能性都可能會影響估計。

p(\theta|x)

表示為:

\theta = \int_{0}^{1}\theta p(\theta|x)\mbox{d}\theta=\int_{0}^{1}\theta\frac{p(x|\theta)p(\theta)}{p(x)}\mbox{d}\theta \\

計算前面例子中的引數估計,並理解先驗分佈對後驗分佈的影響:

1,

\mbox{Beta}(1,1)

(一無所知)

\hat{\theta}=\int_{0}^{1}\theta~ p(\theta|x)\mbox{d}\theta=\int_{0}^{1}\theta~\mbox{Beta}(1+3,1+0)\mbox{d}\theta=\frac{1+3}{1+3+1+0} = 0.8\\

2,

\mbox{Beta}(5,5)

(正反面出現的機率相同)

\hat{\theta}=\int_{0}^{1}\theta~ p(\theta|x)\mbox{d}\theta=\int_{0}^{1}\theta~\mbox{Beta}(5+3,5+0)\mbox{d}\theta=\frac{5+3}{5+3+5+0} = 0.615\\

3,

\mbox{Beta}(5,1)

(作弊,正面出現的機率極大)

\hat{\theta}=\int_{0}^{1}\theta~ p(\theta|x)\mbox{d}\theta=\int_{0}^{1}\theta~\mbox{Beta}(5+3,1+0)\mbox{d}\theta=\frac{5+3}{5+3+1+0} = 0.889\\

3,最大後驗估計(MAP)

貝葉斯估計認為所有可能的

\theta

都對引數估計有貢獻。而最大後驗估計則是試圖最大化後驗機率:

\hat{\theta}=\mbox{argmax}_{\theta}p(\mathbb{X}|\theta)=\mbox{argmax}_{\theta}\left[ \log{p(\mathbb{X}|\theta)}+\log{p(\theta)} \right]\\

MAP估計可以看作是,在最佳化似然函式的同時,加入了正則化項(即先驗機率的對數)。

使用MAP,計算前面例子中的引數估計:

1,

\mbox{Beta}(1,1)

(一無所知)

\hat{\theta}=\mbox{argmax}_{\theta}\left[ \log{p(\mathbb{X}|\theta)}+\log{p(\theta)} \right] =\mbox{argmax}_{\theta}\left[ \log{\theta^3}+\log{\theta^{1-1}(1-\theta)^{1-1}} \right]  =1\\

2,

\mbox{Beta}(5,5)

(正反面出現的機率相同)

\hat{\theta}=\mbox{argmax}_{\theta}\left[ \log{p(\mathbb{X}|\theta)}+\log{p(\theta)} \right]=\mbox{argmax}_{\theta}\left[ \log{\theta^3}+\log{\theta^{5-1}(1-\theta)^{5-1}} \right]=\frac{1}{2}\\

3,

\mbox{Beta}(5,1)

(作弊,正面出現的機率極大)

\hat{\theta}=\mbox{argmax}_{\theta}\left[ \log{p(\mathbb{X}|\theta)}+\log{p(\theta)} \right]=\mbox{argmax}_{\theta}\left[ \log{\theta^3}+\log{\theta^{5-1}(1-\theta)^{1-1}} \right]=1\\

參考資料:

https://www。

zhihu。com/question/3026

9898

李文哲:機器學習中的MLE、MAP、貝葉斯估計

https://www。

youtube。com/watch?

v=2_eFIyrOdJc

http://

noahsnail。com/2018/05/1

7/2018-05-17-%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%BC%B0%E8%AE%A1%E3%80%81%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1%E3%80%81%E6%9C%80%E5%A4%A7%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87%E4%BC%B0%E8%AE%A1/

https://

blog。csdn。net/yangliuy/

article/details/8296481