本文中的機器學習主要指資料探勘與機器學習中的交叉部分。

資料科學(Data Science) 的主要任務是對(歷史)資料進行分析從而洞察因果,把握現狀以及預測未來,所以資料探勘中的機器學習演算法也主要集中於實現上述三項任務。這三項任務的核心都是根據觀察到的資料來進行推測(inference)。

對於觀察到的資料(歷史資料或者經驗資料),記為

\bf X

。我們會對資料

\bf X

,提出很多模型(model)或假設(hypothesis),並期望找出資料最符合的模型或假設。所有模型的集合記為

\bf H

, 單個模型記為

h

。我們想找出資料最符合的模型,等價於找到一個模型

h

其與觀測到的

\bf X

同時出現的機率最大,用數學公式表示就是

h\leftarrow \arg \max_{h\in{\bf H}} P(h,{\bf X})

將聯合機率用公式展開,上式變為

h\leftarrow \arg \max_{h\in{\bf H}} {P(h |{\bf X})}{P({\bf X})}

\bf X

為觀測到的資料,其分佈已定,即對於任意

h\in {\bf H}

P({\bf X})

都相等,所以上述最佳化問題等價為

h\leftarrow \arg \max_{h\in{\bf H}} {P(h |{\bf X})}

即找到給定

\bf X

後使條件機率

 {P(h |{\bf X})}

最大的模型

h

。對於任意的

h\in {\bf H}

,稱

 {P(h |{\bf X})}

為其後驗機率(posterior probability)。因此上述尋找最優模型的估計方法稱為最大後驗估計。

現實中,模型的後驗機率不易得出,為此我們要對估計方法進行進一步修改,利用貝葉斯公式

{P(h |{\bf X})}=\frac{P({\bf X} | h)P(h)}{P({\bf X})}

最大後驗估計的公式變化為,

h\leftarrow \arg \max_{h\in{\bf H}}\frac{P({\bf X} | h)P(h)}{P({\bf X})}

類似的,對於任意

h\in {\bf H}

P({\bf X})

都相等,所以上述最佳化問題等價為

h\leftarrow \arg \max_{h\in{\bf H}}{P({\bf X} | h)P(h)}

在上面的公式中出現了一個新的條件機率

{P({\bf X} | h)}

,稱其為模型

h

的似然(likelihood)。以及一個新的機率

P(h)

,稱其為模型

h

的先驗機率(prior probability)。

假設所有模型 #FormatImgID_27# 出現的機率都相等

,即對於任意

h\in {\bf H}

P(h)

都一致,上述最佳化問題等價為

h\leftarrow \arg \max_{h\in{\bf H}}{P({\bf X} | h)}

即尋找似然最大的模型,並認為它為最優的模型。這種尋找最優模型的估計方法稱為極大似然估計。

在上述中,關於模型

h

出現了兩種機率即先驗機率(prior probability)和後驗機率(posterior probability),這裡的先後是相對於觀察到資料

\bf X

這一事件來說的。模型

h

的先驗機率(prior probability)是指在未觀察到資料

\bf X

時,其出現或發生的機率。模型

h

的後驗機率(posterior probability)是指在觀察到資料

\bf X

後即已知資料

\bf X

以後,模型

h

出現或發生的機率。

在現實中,模型的似然比較容易獲得或計算,所以多采用極大似然估計方法。值得注意的是,當所有模型出現的機率都相等時,極大似然估計等價於最大後驗估計。