Hessian 矩陣的特徵值有什麼含義?王芊2014-07-29 08:13:09

貌似沒有什麼特別好的答案,談談我的理解。

Hessian矩陣的特徵值就是形容其在該點附近特徵向量方向的凹凸性,特徵值越大,凸性越強。你可以把函式想想成一個小山坡,陡的那面是特徵值大的方向,平緩的是特徵值小的方向。而凸性和最佳化方法的收斂速度有關,比如梯度下降。如果正定Hessian矩陣的特徵值都差不多,那麼梯度下降的收斂速度越快,反之如果其特徵值相差很大,那麼收斂速度越慢。

Hessian 矩陣的特徵值有什麼含義?知乎使用者2016-08-24 04:27:03

函式圖象每一點上各個

主曲率

的大小。

Hessian 矩陣的特徵值有什麼含義?一維2017-01-15 17:20:47

我們先思考梯度下降(GD)這種一階方法:

x_{t+1}= x_{t} -\alpha g, \ \ \ \  g = f^{

這裡一個問題是步長

\alpha

控制問題。

這時牛頓法這些二階方法出現了:

將函式

f(\theta)

在區域性極值點

\theta ^ *

附近進行二階Taylor展開近似可得:

f(\theta ^ * + \Delta \theta) \approx f(\theta ^*) + g^T \Delta \theta + \frac{1}{2} (\Delta \theta)^T H(\Delta \theta)

其中,

g

為梯度向量,

H

為Hessian矩陣。

對上式求導並置0,以求在二階近似原函式的情況下快速求出函式極值點,可解得:

\Delta \theta = -H^{-1}g \ \ \Rightarrow \ \ x_{t+1} = x_{t} -H^{-1}g, g=f^{

結合兩個更新公式可知,Hessian矩陣起到了控制步長

\alpha = H^{-1}

的作用。簡單粗暴點的說,Hessian矩陣的特徵值控制了更新步長。

詳細的,我們知道對實對稱矩陣而言:

H=E \Lambda E^T

其中,

E=[e_1 e_2 ... e_n]

是單位特徵向量矩陣,

\Lambda=diag([\lambda _1 \lambda _2 ... \lambda _n ])

是對應特徵值對角矩陣。故:

H^{-1}g=(E \Lambda E^T)^{-1}g=E \Lambda ^{-1} E^Tg=\sum_{i}^{n}{ \frac{e_{i}^Tg}{\lambda _{i}} e_{i}}

可以看出,這裡控制(每個特徵方向)步長的,有兩個東西:原來的一階梯度和對應的Hessian矩陣特徵值。

所以很多用gradient descend演算法進行分析時,經常會說Hessian矩陣特徵值這東西,極端的

\alpha g

則表示

\alpha \Leftrightarrow  1/\lambda_{i}, \vee i

這種,若特徵值間差異巨大,則有些方向學習緩慢,有些不斷波動,(二維情況就是你經常看到的那種蛇形曲線。。。)這些現象也側面說明了步長這東西。

Hessian 矩陣的特徵值有什麼含義?追尋鍊金師的腳步2017-11-30 13:08:08

在波恩奧本海默近似的框架下,在平衡點附近分子勢能對座標展開的hessian矩陣(其實就是二階導數)的特徵值是有物理意義的,對應在諧振子近似下分子振動的頻率,可以和分子的紅外光譜峰對應。

Hessian 矩陣的特徵值有什麼含義?YE Y2019-08-15 23:36:06

補充一個稍微形象的理解吧,也忘了是在哪本書裡看到的了。

@Aewil Zheng 的回答裡已經講了Hessian和二階Taylor展開的聯絡,以及特徵值和梯度的聯絡。基於這個理解,比如考慮二維情況的一個極值點,在該點足夠小的鄰域內,函式的等高線可以用純正的橢圓近似。在網上隨便找了個圖(來源)加了兩個箭頭示意一下:

Hessian 矩陣的特徵值有什麼含義?

對於這個橢圓,特徵向量就是橢圓的長短軸所指的方向,特徵值大的對應短軸(紅色箭頭),小的對應長軸(藍色箭頭)。對於不在極值的點,這個理解也不難腦補,特徵向量互相正交,對應著正交的二階近似的方向。