機器學習中的極大似然估計、最大後驗估計

本文中的機器學習主要指資料探勘與機器學習中的交叉部分。

資料科學（Data Science）的主要任務是對（歷史）資料進行分析從而洞察因果，把握現狀以及預測未來，所以資料探勘中的機器學習演算法也主要集中於實現上述三項任務。這三項任務的核心都是根據觀察到的資料來進行推測（inference）。

對於觀察到的資料（歷史資料或者經驗資料），記為

$\bf X$

。我們會對資料

$\bf X$

，提出很多模型（model）或假設（hypothesis），並期望找出資料最符合的模型或假設。所有模型的集合記為

$\bf H$

，單個模型記為

。我們想找出資料最符合的模型，等價於找到一個模型

其與觀測到的

$\bf X$

同時出現的機率最大，用數學公式表示就是

$h\leftarrow \arg \max_{h\in{\bf H}} P(h,{\bf X})$

將聯合機率用公式展開，上式變為

$h\leftarrow \arg \max_{h\in{\bf H}} {P(h |{\bf X})}{P({\bf X})}$

因

$\bf X$

為觀測到的資料，其分佈已定，即對於任意

$h\in {\bf H}$

，

$P({\bf X})$

都相等，所以上述最佳化問題等價為

$h\leftarrow \arg \max_{h\in{\bf H}} {P(h |{\bf X})}$

即找到給定

$\bf X$

後使條件機率

${P(h |{\bf X})}$

最大的模型

。對於任意的

$h\in {\bf H}$

，稱

${P(h |{\bf X})}$

為其後驗機率（posterior probability）。因此上述尋找最優模型的估計方法稱為最大後驗估計。

現實中，模型的後驗機率不易得出，為此我們要對估計方法進行進一步修改，利用貝葉斯公式

${P(h |{\bf X})}=\frac{P({\bf X} | h)P(h)}{P({\bf X})}$

最大後驗估計的公式變化為，

$h\leftarrow \arg \max_{h\in{\bf H}}\frac{P({\bf X} | h)P(h)}{P({\bf X})}$

類似的，對於任意

$h\in {\bf H}$

，

$P({\bf X})$

都相等，所以上述最佳化問題等價為

$h\leftarrow \arg \max_{h\in{\bf H}}{P({\bf X} | h)P(h)}$

在上面的公式中出現了一個新的條件機率

${P({\bf X} | h)}$

，稱其為模型

的似然（likelihood）。以及一個新的機率

，稱其為模型

的先驗機率（prior probability）。

假設所有模型 #FormatImgID_27# 出現的機率都相等

，即對於任意

$h\in {\bf H}$

，

都一致，上述最佳化問題等價為

$h\leftarrow \arg \max_{h\in{\bf H}}{P({\bf X} | h)}$

即尋找似然最大的模型，並認為它為最優的模型。這種尋找最優模型的估計方法稱為極大似然估計。

在上述中，關於模型

出現了兩種機率即先驗機率（prior probability）和後驗機率（posterior probability），這裡的先後是相對於觀察到資料

$\bf X$

這一事件來說的。模型

的先驗機率（prior probability）是指在未觀察到資料

$\bf X$

時，其出現或發生的機率。模型

的後驗機率（posterior probability）是指在觀察到資料

$\bf X$

後即已知資料

$\bf X$

以後，模型

出現或發生的機率。

在現實中，模型的似然比較容易獲得或計算，所以多采用極大似然估計方法。值得注意的是，當所有模型出現的機率都相等時，極大似然估計等價於最大後驗估計。

小蜜蜂問答

小蜜蜂問答

機器學習中的極大似然估計、最大後驗估計

推薦文章

小蜜蜂問答

小蜜蜂問答

機器學習中的極大似然估計、最大後驗估計

相關文章

快照什麼意思？

同年同月同日出生的機率是多少？

MCpE版裡,鑽石難挖嗎？

流放之路60-70級裝備在哪打？

推薦文章