數學是機器學習的基礎,參考《機器學習及應用》等,現對在機器學習中的的數學知識做個彙總,數學知識包括梯度,雅克比矩陣,Hessian 矩陣,泰勒展開式,二次型 ,特徵值和特徵向量,奇異值分解,協方差,最大似然估計,梯度法,牛頓法,拉格朗日乘數法,凸最佳化,拉格朗日對偶和KKT 條件

1.梯度

梯度是導數對多元函式的推廣,它是多元函式對各個自變數偏導數形成的向量。多元

函式的梯度定義為:

機器學習中的數學(一)

eg:

機器學習中的數學(一)

2.雅克比矩陣

雅克比矩陣定義為輸出向量的每個分量對輸入向量的每個分量的偏導數構成的矩陣:

機器學習中的數學(一)

3.Hessian 矩陣

Hess i a n 矩陣是由多元函式的二階偏導陣列成的矩陣。如果函式f( x1 , x2 … , ι )二階可

導, Hessian 矩陣定義為:

機器學習中的數學(一)

eg:

機器學習中的數學(一)

(1 )如果Hessian 矩陣正定,函式在該點有極小值。

(2 )如果Hessian 矩陣負定,函式在該點有極大值。

(3 )如果Hessian 矩陣不定,則不是極值點。

這是一元函式極值判別法對多元函式對推廣

4.泰勒展開

如果一元函式η 階可導,它的泰勒展開公式為:

機器學習中的數學(一)

類似地,多元函式的泰勒展開公式為:

機器學習中的數學(一)

在這裡。表示高階無窮小。H 是Hessian 矩陣,它和一元函式的泰勒展開在形式上是統一的。

在最最佳化問題的數值求解時,我們會用泰勒展開來近似代替目標函式。

梯度下降法使用一階泰勒展開,牛頓法使用二階泰勒展開

5.二次型

二次型就是透過矩陣研究二次函式,二次型展開之後是一個二次齊次多項式, 即只

有二次項。

如果對任意的非0 向量x ,二次型的值都大於0 ,則稱二次型正定;如果大於或等於0,

則稱二次型半正定。二次型正定等價於矩陣A 正定

6.特徵值和特徵向量

對於一個n 階矩陣A ,如果存在一個數A 和一個非0 向量x ,滿足

機器學習中的數學(一)

則稱λ 為矩陣A 的特徵值, x 為該特徵值對應的特徵向量

7.奇異值分解

矩陣對角化只適用於方陣,如果不是方陣也可以進行類似的分解,這就是奇異值分解,

簡稱SVD 。假設A 是一個m × n 的矩陣,則存在如下分解:

機器學習中的數學(一)

其中, U 為m × m 的正交矩陣,其列稱為矩陣A 的左奇異向量;

機器學習中的數學(一)

為m × n 的對角矩陣,除了主對角線σ,以外,其他元素都是0 ;V 為n × n的正交矩陣,其行稱為矩陣A 的右奇異向量。

奇異值在搜尋推薦中也有應用,可參考我的另一篇:協同過濾推薦中利用SVD提高推薦的效果

8.協方差

協方差的通俗理解:連結

機器學習中的數學(一)

9.最大似然估計

機率描述的是在一定條件下某個事件發生的可能性,機率越大說明這件事情越可能會發生;而似然描述的是結果已知的情況下,該事件在不同條件下發生的可能性,似然函式的值越大說明該事件在對應的條件下發生的可能性越大

最大似然估計真正的用途是針對多次實驗:

我們用

機器學習中的數學(一)

表示每次實驗結果,因為每次實驗都是獨立的,所以似然函式可以寫作(得到這個似然函式很簡單,獨立事件的聯合機率,直接相乘就可以得到):

機器學習中的數學(一)

其中

機器學習中的數學(一)

表示在同一個引數下的實驗結果,也可以認為是條件機率

10.梯度法

11.牛頓法

12.拉格朗日乘數法,凸最佳化,拉格朗日對偶和KKT 條件

參見: