機器學習中的極大似然估計、最大後驗估計
本文中的機器學習主要指資料探勘與機器學習中的交叉部分。
資料科學(Data Science) 的主要任務是對(歷史)資料進行分析從而洞察因果,把握現狀以及預測未來,所以資料探勘中的機器學習演算法也主要集中於實現上述三項任務。這三項任務的核心都是根據觀察到的資料來進行推測(inference)。
對於觀察到的資料(歷史資料或者經驗資料),記為
。我們會對資料
,提出很多模型(model)或假設(hypothesis),並期望找出資料最符合的模型或假設。所有模型的集合記為
, 單個模型記為
。我們想找出資料最符合的模型,等價於找到一個模型
其與觀測到的
同時出現的機率最大,用數學公式表示就是
將聯合機率用公式展開,上式變為
因
為觀測到的資料,其分佈已定,即對於任意
,
都相等,所以上述最佳化問題等價為
即找到給定
後使條件機率
最大的模型
。對於任意的
,稱
為其後驗機率(posterior probability)。因此上述尋找最優模型的估計方法稱為最大後驗估計。
現實中,模型的後驗機率不易得出,為此我們要對估計方法進行進一步修改,利用貝葉斯公式
最大後驗估計的公式變化為,
類似的,對於任意
,
都相等,所以上述最佳化問題等價為
在上面的公式中出現了一個新的條件機率
,稱其為模型
的似然(likelihood)。以及一個新的機率
,稱其為模型
的先驗機率(prior probability)。
假設所有模型 #FormatImgID_27# 出現的機率都相等
,即對於任意
,
都一致,上述最佳化問題等價為
即尋找似然最大的模型,並認為它為最優的模型。這種尋找最優模型的估計方法稱為極大似然估計。
在上述中,關於模型
出現了兩種機率即先驗機率(prior probability)和後驗機率(posterior probability),這裡的先後是相對於觀察到資料
這一事件來說的。模型
的先驗機率(prior probability)是指在未觀察到資料
時,其出現或發生的機率。模型
的後驗機率(posterior probability)是指在觀察到資料
後即已知資料
以後,模型
出現或發生的機率。
在現實中,模型的似然比較容易獲得或計算,所以多采用極大似然估計方法。值得注意的是,當所有模型出現的機率都相等時,極大似然估計等價於最大後驗估計。