Hessian 矩陣的特徵值有什麼含義?
貌似沒有什麼特別好的答案,談談我的理解。
Hessian矩陣的特徵值就是形容其在該點附近特徵向量方向的凹凸性,特徵值越大,凸性越強。你可以把函式想想成一個小山坡,陡的那面是特徵值大的方向,平緩的是特徵值小的方向。而凸性和最佳化方法的收斂速度有關,比如梯度下降。如果正定Hessian矩陣的特徵值都差不多,那麼梯度下降的收斂速度越快,反之如果其特徵值相差很大,那麼收斂速度越慢。
函式圖象每一點上各個
主曲率
的大小。
我們先思考梯度下降(GD)這種一階方法:
這裡一個問題是步長
控制問題。
這時牛頓法這些二階方法出現了:
將函式
在區域性極值點
附近進行二階Taylor展開近似可得:
其中,
為梯度向量,
為Hessian矩陣。
對上式求導並置0,以求在二階近似原函式的情況下快速求出函式極值點,可解得:
結合兩個更新公式可知,Hessian矩陣起到了控制步長
的作用。簡單粗暴點的說,Hessian矩陣的特徵值控制了更新步長。
詳細的,我們知道對實對稱矩陣而言:
其中,
是單位特徵向量矩陣,
是對應特徵值對角矩陣。故:
可以看出,這裡控制(每個特徵方向)步長的,有兩個東西:原來的一階梯度和對應的Hessian矩陣特徵值。
所以很多用gradient descend演算法進行分析時,經常會說Hessian矩陣特徵值這東西,極端的
則表示
這種,若特徵值間差異巨大,則有些方向學習緩慢,有些不斷波動,(二維情況就是你經常看到的那種蛇形曲線。。。)這些現象也側面說明了步長這東西。
在波恩奧本海默近似的框架下,在平衡點附近分子勢能對座標展開的hessian矩陣(其實就是二階導數)的特徵值是有物理意義的,對應在諧振子近似下分子振動的頻率,可以和分子的紅外光譜峰對應。
補充一個稍微形象的理解吧,也忘了是在哪本書裡看到的了。
@Aewil Zheng 的回答裡已經講了Hessian和二階Taylor展開的聯絡,以及特徵值和梯度的聯絡。基於這個理解,比如考慮二維情況的一個極值點,在該點足夠小的鄰域內,函式的等高線可以用純正的橢圓近似。在網上隨便找了個圖(來源)加了兩個箭頭示意一下:
對於這個橢圓,特徵向量就是橢圓的長短軸所指的方向,特徵值大的對應短軸(紅色箭頭),小的對應長軸(藍色箭頭)。對於不在極值的點,這個理解也不難腦補,特徵向量互相正交,對應著正交的二階近似的方向。