寫在前頭

:這個小筆記有三個部分,因為不太懂這個,可能有寫錯的或者推導不正確的地方,希望大牛指出,我好學習學習,也不至於誤導大家。

——————————————————————————————————————

概括:

小筆記的三部分

Part I: 多元泰勒展開的樣子(結論)

PartII: 推導的主要思路

PartIII:多元泰勒展開的證明

___________________________________________________________________________________________

Motivation

: 因為做Optimization證明的時候,時常會用到帶積分餘項的泰勒展開,而對於Optimzation 而言,遇到的目標函式都是多元變數

f : R^n \rightarrow R

所以一直很疑惑 多元函式 #FormatImgID_2# ,它的帶積分餘項的泰勒展開和一元函式 #FormatImgID_3# 的帶積分餘項的泰勒展開是一樣的麼?或者說是相似的麼?

答案其實有點點出乎意料,多元函式的泰勒展開帶積分餘項會

有一些差別

,這個很有意思,在做Optimization證明的時候應該注意一下,所以特別寫了一個小筆記。

PartI I: 多元泰勒展開的樣子(結論)

函式

f

a

點求

x

的展開是:

零階:

多元變數函式,泰勒如何展開?(泰勒展開)

一階:

多元變數函式,泰勒如何展開?(泰勒展開)

注意到:一階多元變數的泰勒展開有一個 #FormatImgID_11# 的因子,用的時候千萬別漏掉了,其次積分是“從零到一”哦~。

Part II: 推導的主要思路

其實主要的思路是:

能不能借用一元函式的泰勒展開“誘導”出多元函式的泰勒展開?

答案是:

機智,就是 這樣~!

對於一元函式

f : R \rightarrow R

,我們已經耳熟能詳它的泰勒展開是

多元變數函式,泰勒如何展開?(泰勒展開)

現在我們考慮多元函式

f : R^n \rightarrow R

, 然後我們構造

一元函式

g(u) = f(a + \mu(x-a))

,可以清楚的看到函式

g(\cdot)

是一個關於

\mu

一元函式哦~,也就是

g: R \rightarrow R, \quad \mu \in R

。 而且觀察到

多元變數函式,泰勒如何展開?(泰勒展開)

”所以對於多元函式

f(\cdot)

a

處求

x

處的的泰勒展開,直接變成了求一元函式

g(\cdot)

0

處對

1

處的泰勒展開。“

Part III: 多元泰勒展開的證明

考慮多元函式

f : R^n \rightarrow R

, 然後我們構造

一元函式

g(\mu) = f(a + \mu(x-a))

,那麼我們先求一下

g(\cdot)

的一階導數和二階導數,因為涉及到一些向量對標量求導,向量對向量求導之類,我們在這裡先假設正確吧,以後有空專門來寫一寫矩陣求導。主要就是用

鏈式法則

來求。

多元變數函式,泰勒如何展開?(泰勒展開)

這裡稍微註明一下,對於一元函式

g(\cdot)

,我用

g^{

分別別是一階導數和二階導數,因為是一元函式,所以

g^{

也是一維的。 而我們考慮多元函式

f : R^n \rightarrow R

時,我用

\nabla f(x)

表示一階導數,這是一個向量哦~, 也就是說

\nabla f(x) \in R^n

。 另外我用

\nabla^2 f(x)

表示二階導數,也就是hessian,這是一個矩陣誒~,也就是說

\nabla^2 f(x) \in R^{n \times n}

(a)多元函式零階泰勒展開證明

注意到對於一元函式

g : R \rightarrow R

,它在

0

處求

1

的零階泰勒展開是:

多元變數函式,泰勒如何展開?(泰勒展開)

將(3。1)帶入(3。3)可得,

多元變數函式,泰勒如何展開?(泰勒展開)

其後用(2。2),(2。3)

g(1) = f(x), g(0) = f(a)

,我們就證明了

多元變數函式,泰勒如何展開?(泰勒展開)

(b)多元函式一階泰勒展開證明

注意到對於一元函式

g : R \rightarrow R

,它在

0

處求

1

的一階泰勒展開是:

多元變數函式,泰勒如何展開?(泰勒展開)

將(3。1)和(3。2)帶入(3。 6)可得,

多元變數函式,泰勒如何展開?(泰勒展開)

其後用(2。2),(2。3)

g(1) = f(x), g(0) = f(a)

,我們就證明了

多元變數函式,泰勒如何展開?(泰勒展開)

Reference:

這是之前我看的幾篇文章然後自己生成的總結,然後再去網上找那幾篇的時候找不到了。很可惜,我以後遇見了再補上。抱歉哈。

結語:

但願寫了一點對大家有用的東西。

祝大家聖誕快樂,Peace & Love。

最後從知識的喜悅中脫離一下,點個讚唄~~。

——————————————————————————————————————

我是 @未名 ,我的專欄是非凸最佳化學習之路, 歡迎關注。。

以前寫過啥?

第一篇文章是: 從Nesterov的角度看:我們為什麼要研究凸最佳化? - 知乎專欄

第二篇文章是:非凸最佳化基石:Lipschitz Condition - 知乎專欄

第三篇文章是:當我們談論收斂速度時,我們都在談什麼? - 知乎專欄

第四篇文章是:為什麼我們更寵愛“隨機”梯度下降?