影片如下:

一、機率-高斯分佈1-極大似然估計

高斯分佈在統計機器學習中佔據重要的地位。

本節內容主要是利用極大似然估計計算高斯分佈下的最優引數。

Data:

X = \left(x_1, x_2, \cdots, x_N\right)^T =  \begin{pmatrix} x_1^T\\ x_2^T\\ \vdots\\ x_N^T\\ \end{pmatrix}_{N \times P}

x_i \in \mathbb{R}^p

x_i \overset{iid} \sim  N(\mu ,  \Sigma)

\theta=(\mu,\Sigma)

假設資料

X

中有

N

個樣本,每個樣本

x_i

p

維資料(含有

p

個feature)

所有的樣本都獨立同分佈於高斯分佈

MLE:

\theta _{MLE} = arg \underset{\theta} \max P\left(X| \theta \right)

極大似然估計MLE:求最優的

\theta

使得對於這部分資料來說,出現的機率最大

下面計算在一維情況下高斯分佈的最優引數

\theta=(\mu,\Sigma)

suppose \ \ \ p{=}1, \theta{=}\left(\mu, \sigma ^2\right)   \ \ \ \ then \ \ \ \ \ P(x) = {1\over \sqrt{2\pi}\sigma}\exp(-{{(x-\mu)}^2\over2\sigma^2})

[注]

高維情況下的高斯分佈密度函式:

 P(x) = {1\over(2\pi)^{p\over2}\lvert\Sigma\rvert^{1\over 2}}\exp(-{1\over2}(x-\mu)^T\Sigma^{-1}(x-\mu))

先對

P(X|\theta)

去對數,使得後續求導計算更加方便。

因為

L(\theta)

\ln L(\theta)

在同一

\theta

處取到極值

\begin{equation}\begin{split} \log P(X|\theta) &= \log \displaystyle \prod _{i=1} ^{N}P(x_i|\theta)\\ &=\displaystyle \sum_{i=1}^{N}\log({1\over\sqrt{2\pi}\sigma}\exp(-{(x-\mu)^2\over{2\sigma^2}}))\\ &=\displaystyle \sum_{i=1}^N[\log{1\over\sqrt{2\pi}}+\log{1\over\sigma}-{(x-\mu)^2\over2\sigma^2}] \end{split}\end{equation}

首先求最優的

\mu

,如下:

\begin{equation} \begin{split} \mu_{MLE} &= arg \underset{\mu} \max{\log P(X|\theta)}\\ &=arg \underset{\mu} \max\displaystyle\sum_{i=1}^N{-{(x_i-\mu)^2\over2\sigma^2}}\\ &=arg \underset{\mu} \min\displaystyle\sum_{i=1}^N{(x_i-\mu)^2}\\ \end{split}\end{equation}

第二步將P帶入後,只需要保留含有

\mu

的項,常數項與最佳化無關故舍去

接下來對其求導,找出極大值

\begin{equation}\begin{split} {\partial\over\partial\mu}\displaystyle\sum_{i=1}^N(x_i-\mu)^2&=\displaystyle\sum_{i=1}^N2(x_i-\mu)(-1)=0\\ \displaystyle\sum_{i=1}^N(x_i-\mu)&=0\\ \displaystyle\sum_{i=1}^Nx_i-N\mu&=0\\ \mu_{MLE}&={1\over N}\displaystyle\sum_{i=1}^Nx_i \end{split}\end{equation}

求出最優的

\mu

是樣本均值,此結果為無偏估計 因為

E[\mu_{MLE}]={1\over N}\displaystyle\sum_{i=1}^NE[x_i]={1\over N}\displaystyle\sum_{i=1}^N\mu=\mu

接下來求

\sigma

的最優解

\begin{equation} \begin{split} \sigma^2_{MLE} &= arg \underset{\sigma} \max\displaystyle\sum_{i=1}^N[\log{1\over\sigma}-{(x_i-\mu)^2\over2\sigma^2}]\\ &=arg \underset{\sigma} \max\displaystyle\sum_{i=1}^N[-\log{\sigma}-{1\over2\sigma^2}(x_i-\mu)^2] \end{split}\end{equation}

\sigma

求導,找出最優解

\begin{equation} \begin{split} {\partial\over\partial\sigma}\displaystyle\sum_{i=1}^N[-\log{\sigma}-{1\over2\sigma^2}(x_i-\mu)^2]&=\displaystyle\sum_{i=1}^N[-{1\over\sigma}-{1\over2}(x_i-\mu)^2(-2){1\over\sigma^3}]=0\\ \displaystyle\sum_{i=1}^N[-{1\over\sigma}+(x_i-\mu)^2\sigma^{-3}]&=0\\ \displaystyle\sum_{i=1}^N[-\sigma^2+(x_i-\mu)^2]&=0\\ -N\sigma^2+\displaystyle\sum_{i=1}^N(x_i-\mu)^2&=0\\ \sigma^2_{MLE}&={1\over N}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2 \end{split}\end{equation}

此結果為有偏估計,因為

E[\sigma^2_{MLE}]={N-1\over N}\sigma^2

無偏估計為:

\hat {\sigma^2} = {1\over N-1}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2

二、機率-高斯分佈2-極大似然估計(無偏估計 VS 有偏估計)

本節內容主要是證明

\mu_{MLE}

\sigma^2_{MLE}

的無偏與有偏性,並計算無偏的

\sigma^2_{MLE}

假設與第一節一致,在一維情況下:

x \sim N(\mu, \sigma^2)

\theta=(\mu, \sigma^2)

\mu_{MLE}={1\over N}\displaystyle\sum_{i=1}^Nx_i

無偏估計

\sigma^2_{MLE} = {1\over N}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2

有偏估計

E[\hat\mu] = \mu \ \ \ \ E[\hat\sigma] = \sigma

則無偏

若不相等,則有偏

\begin{equation} \begin{split} E[\mu_{MLE}]&=E[{1\over N}\displaystyle\sum_{i=1}^Nx_i]\\ &={1\over N}\displaystyle\sum_{i=1}^NE[x_i]\\ &={1\over N}\displaystyle\sum_{i=1}^N\mu\\ &=\mu \end{split}\end{equation}

因此

\mu_{MLE}

無偏

\begin{equation} \begin{split} E[\sigma^2_{MLE}] &=E[{1\over N}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^N(x_i^2-2x_i\mu_{MLE}+\mu_{MLE}^2)]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^Nx_i^2-2\mu_{MLE}{1\over N}\displaystyle\sum_{i=1}^Nx_i+{1\over N}\displaystyle\sum_{i=1}^N\mu_{MLE}^2]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^Nx_i^2-2\mu_{MLE}^2+\mu^2_{MLE}]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^Nx_i^2-\mu^2_{MLE}]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^N(x_i^2-\mu^2_{MLE})]\\ &={1\over N}\displaystyle\sum_{i=1}^N(E[x_i^2]-E[\mu^2_{MLE}])\\ &={1\over N}\displaystyle\sum_{i=1}^N(D[x_i]+{E[x_i]}^2-D[\mu_{MLE}]-{E[\mu_{MLE}]}^2)\\ &={1\over N}\displaystyle\sum_{i=1}^N(\sigma_{MLE}^2+\mu^2-D[{1\over N}\displaystyle\sum_{i=1}^Nx_i]-\mu^2)\\ &={1\over N}\displaystyle\sum_{i=1}^N(\sigma^2_{MLE}-{1\over N^2}N\sigma_{MLE}^2)\\ &={N-1 \over N}\sigma_{MLE}^2 \end{split}\end{equation}

其中

E[\mu_{MLE}]=\mu

因為

\mu_{MLE}

是無偏估計

此外

D[x] = E[x^2]-{E[x]}^2

因此

E[\sigma^2_{MLE}] =E[{1\over N}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2]

是有偏的

因此

\sigma^2_{MLE} = {1\over N-1}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2

為無偏估計

三、機率-高斯分佈3-從機率密度函式角度觀察

本節將從高維角度來看高斯分佈

x\sim N(\mu,\Sigma) = {1\over(2\pi)^{p\over2}\lvert\Sigma\rvert^{1\over 2}}\exp(-{1\over2}\underbrace{(x-\mu)^T\Sigma^{-1}(x-\mu)}_{二次型})

高維高斯分佈的公式,右部分是二次型

x \in \mathbb R^p

x

p

維隨機變數

r.v.

(random variable)

x=\begin{pmatrix} x_1\\ x_2\\ \vdots\\ x_p\\ \end{pmatrix}

\mu=\begin{pmatrix} \mu_1\\ \mu_2\\ \vdots\\ \mu_p\\ \end{pmatrix}

\Sigma=\begin{pmatrix}  \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\  \vdots&\vdots&&\vdots\\  \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp}\\  \end{pmatrix}_{p\times p}

通常來說,

\Sigma

是半正定的(對稱的),本節內容假設

\Sigma

是正定的(特徵值

\lambda >0

),便於敘述

首先從機率密度函式來看,

x

是自變數,因此

\exp

前面的內容為常數

(x-\mu)^T\Sigma^{-1}(x-\mu)

(是一個數) ————馬氏距離(

x

\mu

之間)

\Sigma =I

(單位矩陣)時,馬氏距離

=

歐氏距離

\Sigma = U\Lambda U^T

特徵值分解

UU^T=U^TU=I

(正交)

U=(u_1,u_2,\cdots,u_p)_{p\times p}

\Lambda=\underset {i=1,\cdots,p}{diag}(\lambda_i)

(對角陣)

Then:

\begin{equation}\begin{split} \Sigma &= U\Lambda U^T\\ &=(u_1,u_2,\cdots,u_p)\begin{pmatrix}  \lambda_1&0&\cdots&0\\ 0&\lambda_2&\cdots&\vdots\\  \vdots&\vdots&\ddots&\vdots\\  0&0&\cdots&\lambda_p\\  \end{pmatrix} \begin{pmatrix} u_1^T\\ u_2^T\\ \vdots\\ u_p^T \end{pmatrix}\\ &=(u_1\lambda_1, u_2\lambda_2,\cdots,u_p\lambda_p)\begin{pmatrix} u_1^T\\ u_2^T\\ \vdots\\ u_p^T \end{pmatrix}\\ &=\displaystyle\sum_{i=1}^p{u_i\lambda_iu_i^T} \end{split}\end{equation}

使用特徵值分解可以將矩陣拆成連乘形式

\Sigma^{-1}=(U\Lambda U^T)^{-1}=(U^T)^{-1}\Lambda^{-1}U^{-1}=U\Lambda^{-1} U^T =\displaystyle\sum_{i=1}^p{u_i{1\over\lambda_i}u_i^T}

\Sigma^{-1}

的結果如上,因為特徵向量矩陣

U

是正交的,因此

U^T=U^{-1}

將此結果帶入

(x-\mu)^T\Sigma^{-1}(x-\mu)

\begin{equation}\begin{split} \Delta=&(x-\mu)^T\Sigma^{-1}(x-\mu)\\ =&(x-\mu)^T\displaystyle\sum_{i=1}^p({u_i{1\over\lambda_i}u_i^T})(x-\mu)\\ =&\displaystyle\sum_{i=1}^p({(x-\mu)^Tu_i{1\over\lambda_i}u_i^T(x-\mu)})\\ =&\displaystyle\sum_{i=1}^p({y_i{1\over\lambda_i}y_i^T})\\ =&\displaystyle\sum_{i=1}^p({y_i^2\over\lambda_i}) \end{split}\end{equation}

y_i=(x-\mu)^Tu_i

馬氏距離經過變換,成為了

\displaystyle\sum_{i=1}^p({y_i^2\over\lambda_i})

y_i

x-\mu

在特徵向量

u_i

上的投影長度

p=2

則上式便是令

\Delta

取不同值時的同心橢圓

\Delta={y_1^2\over \lambda_1}+{y_2^2\over \lambda_2}=1=r

時,橢圓如下圖所示:

機器學習-白板推導系列(二)-數學基礎筆記

每當

\Delta

取不同值,橢圓就相當於對這一高度的等高線,也對應一個固定的機率值

\lambda_i=c

(常量)時,上圖便是一個圓

四、機率-高斯分佈4-侷限性

繼上節內容,將

\Delta

帶入

p(x)

p(x) = {1\over(2\pi)^{p\over2}\lvert\Sigma\rvert^{1\over 2}}\exp(-{1\over2}\Delta)

0\leq p(x)\leq1

每當

p(x)

取為某個機率值時,都對應一個固定的

\Delta

值,即對應一個橢圓曲線,因此取滿所有的

p(x)

,對應的影象是一個小山狀(如下圖所示)

機器學習-白板推導系列(二)-數學基礎筆記

每當

p(x)

取為某個機率值時,相當於橫切小山,投影到

xy

平面便是一個橢圓曲線,也是等高線

侷限性:

\Sigma_{p\times p}

的引數個數是

{(p^2-p)\over 2}+p ={(p^2+p)\over 2}=O(p^2)

計算複雜度太高,因此經常對

\Sigma

進行簡化,假設其為對角矩陣,則其對應的橢圓曲線為正的,如下圖所示:

機器學習-白板推導系列(二)-數學基礎筆記

\Sigma

中的

\lambda_i

都相等,則上圖便為一個正的圓,此情況稱為

各向同性

\Sigma

各向同性矩陣

Example

] factor analysis:

Z

為對角矩陣

P-PCA

(機率PCA):因子分析的特殊情況,

Z

為各向同性

②高斯分佈本身的侷限性

有些資料無法用一個高斯分佈表示

因此在GMM中提出了混合模型:使用多個高斯分佈進行混合

五、機率-高斯分佈5-已知聯合機率求邊緣機率及條件機率

x\sim N(\mu,\Sigma) = {1\over(2\pi)^{p\over2}\lvert\Sigma\rvert^{1\over 2}}\exp(-{1\over2}{(x-\mu)^T\Sigma^{-1}(x-\mu)})

x \in \mathbb R^p

x=\begin{pmatrix} x_1\\ x_2\\ \vdots\\ x_p\\ \end{pmatrix}

\mu=\begin{pmatrix} \mu_1\\ \mu_2\\ \vdots\\ \mu_p\\ \end{pmatrix}

\Sigma=\begin{pmatrix}  \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\  \vdots&\vdots&&\vdots\\  \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp}\\  \end{pmatrix}_{p\times p}

本節內容是推導最多最複雜的部分

已知一個多維高斯分佈的聯合機率,求其邊緣機率分佈及條件機率分佈

x

分為兩部分,一部分為

a

x_a

,一部分為

b

x_b

\mu

\Sigma

同理:

已知:

x=\begin{pmatrix} x_a\\ x_b\\ \end{pmatrix}

\mu=\begin{pmatrix} \mu_a\\ \mu_b\\ \end{pmatrix}

\Sigma=\begin{pmatrix}  \sigma_{aa}&\sigma_{ab}\\ \sigma_{ba}&\sigma_{bb}\\ \end{pmatrix}

(a+b=p)

x

看為

x_a

x_b

的聯合機率分佈

求:

p(x_a),p(x_b|x_a)

同理可由對稱性得知

p(x_b),p(x_a|x_b)

通用方法:配方法(RPML)

今天使用另一種方法,比配方法簡便

引入如下定理(機率論與數理統計中的):

已知:

x\sim N(\mu,\Sigma)

y=Ax+B

結論:

y\sim N(A\mu + B,A\Sigma A^T)

證明:

E[y]=E[Ax+B]=AE[x]+E[B]=A\mu+B

D[y]=D[Ax+B]=D[Ax]+D[B]=AD[x]A^T=A\Sigma A^T

①首先計算

p(x_a)

x_a=\underbrace{\begin{pmatrix} I_m&0 \end{pmatrix}}_{A} \underbrace{\begin{pmatrix} x_a\\x_b \end{pmatrix}}_{x}+\underbrace0_{B}

使用上述定理的結論,則:

E[x_a]=A\mu+B=\begin{pmatrix}I_m&0 \end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b \end{pmatrix}+0 =\mu_a

D[x_a]=A\Sigma A^T=\begin{pmatrix}I_m&0 \end{pmatrix} \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\\ \end{pmatrix} \begin{pmatrix}I_m\\0 \end{pmatrix}= \begin{pmatrix}\Sigma_{aa}&\Sigma_{ab} \end{pmatrix}\begin{pmatrix}I_m\\0 \end{pmatrix}=\Sigma_{aa}

因此:

x_a\sim N(\mu_a,\Sigma_{aa})

②計算

p(x_b|x_a)

首先引入3個量:

x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a

\mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a

\Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}

這裡

\Sigma_{bb\cdot a}

\Sigma_{bb}

的Schur Complementary

x_{b\cdot a}

x_b

x_a

的線性組合,故其服從高斯分佈

下面求

x_{b\cdot a}

的機率分佈函式

先對

x_{b\cdot a}

進行變換,使其能夠應用上述定理直接得出結果

x_{b\cdot a}=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&I \end{pmatrix} \begin{pmatrix} x_a\\x_b \end{pmatrix}

使用上述定理得:

E[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&I \end{pmatrix}\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix} =\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a=\mu_{b\cdot a}

\begin{equation}\begin{split} D[x_{b\cdot a}]&=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&I \end{pmatrix}\begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\\ \end{pmatrix} \begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}\\I \end{pmatrix}\\ &=\begin{pmatrix} \Sigma_{ba}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{aa} &\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \end{pmatrix} \begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}\\I \end{pmatrix}\\ &=\begin{pmatrix} 0 &\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \end{pmatrix} \begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}\\I \end{pmatrix}\\ &=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}\\ &=\Sigma_{bb\cdot a} \end{split}\end{equation}

因此

x_{b\cdot a}\sim N(\mu_{b\cdot a},\Sigma_{bb\cdot a})

由第一個引入的量可以得到:

x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a

此處同樣利用上述定理,其中

y

x_b

x

x_{b\cdot a}

A

I

B

\Sigma_{ba}\Sigma_{aa}^{-1}x_a

可以求得:

E[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a

D[x_b|x_a]=\Sigma_{bb\cdot a}\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a

因此

x_b|x_a\sim N(\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a,\Sigma_{bb\cdot a})

這裡直接使用

x_b

的表示式計算了

x_b|x_a

,原因是條件機率的含義為在已知

x_a

的條件下求

x_b

的機率,因此這裡假設

x_a

已知,作為常量處理了

很容易可以證明,若計算

E[x_b]

,則結果應為

\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a=\mu_b

D[x_b]

同理

③利用對稱性求另外兩個量

x_b\sim N(\mu_b,\Sigma_{bb})

x_a|x_b\sim N(\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b,\Sigma_{aa\cdot b})

六、機率-高斯分佈6-已知邊緣和條件機率求聯合機率分佈

上節內容是已知一個多維高斯分佈的聯合機率,求其邊緣機率分佈及條件機率分佈

本節內容是:

已知:

p(x)=N(\mu,\Lambda^{-1})

\Lambda^{-1}

precision \ matrix=(convariance \ matrix)^{-1}

,為了計算方便

p(y|x)=N(Ax+b,L^{-1})

求:

p(y),p(x|y)

有點像貝葉斯中的後驗

p(x|y)={p(y|x)*p(x)\over p(y)}

同時有假設

y

x

有線性關係:

y=Ax+b

PRML中依然用的配方法,非常繁瑣

以下依舊使用構造性證明

本節比上節更重要

假設

y = Ax+b+\epsilon

其中

\epsilon\sim N(0,L^{-1})

x,y,\epsilon

都是隨機變數

r.v

其中

\epsilon

x

獨立

①求解

p(y)

E[y]=E[Ax+b+\epsilon]=AE[x]+b+E[\epsilon]=A\mu+b

D[y]=D[Ax+b+\epsilon]=D[Ax+b]+D[\epsilon]

此處使用上一節的定理求得

D[Ax+b]=AD[x]A^T=A\Lambda^{-1} A^T

因此

D[y]=A\Lambda^{-1}A^T+L^{-1}

所以

y\sim N(A\mu+b,A\Lambda^{-1}A^T+L^{-1})

②求解

p(x|y)

對於此問題,使用上一節的結論進行求解。

即先求出聯合機率分佈,再求此條件機率

故引入

z=\begin{pmatrix}x\\y \end{pmatrix}

E[z]=\begin{pmatrix}\mu\\A\mu+b \end{pmatrix}

D[z]=\begin{pmatrix} cov(x,x)&cov(x,y)\\ cov(y,x)&cov(y,y) \end{pmatrix} =\begin{pmatrix} \Lambda^{-1}&cov(x,y)\\ cov(y,x)&L^{-1}+A\Lambda^{-1}A^T \end{pmatrix}

其中:

\begin{equation}\begin{split} cov(x,y)&=E[(x-E[x])\cdot (y-E[y])^T]\\ &=E[(x-\mu)\cdot (Ax+b+\epsilon-A\mu-b)^T]\\ &=E[(x-\mu)\cdot (Ax-A\mu+\epsilon)^T]\\ &=E[(x-\mu)\cdot(Ax-A\mu)^T+(x-\mu)\cdot\epsilon^T]\\ &=E[(x-\mu)(x-\mu)^TA^T]+E[(x-\mu)\epsilon^T] \end{split}\end{equation}

因為

x

\epsilon

獨立,所以

x-\mu

\epsilon

獨立

因此

E[(x-\mu)\epsilon^T]=E[x-\mu]\cdot E[\epsilon^T]=(E[x]-\mu)E[\epsilon^T]=0

所以

\begin{equation}\begin{split} cov(x,y)&=E[(x-\mu)(x-\mu)^TA^T] \\&=E[(x-\mu)(x-\mu)^T]A^T\\ &=D[x]A^T\\ &=\Lambda^{-1}A^T \end{split}\end{equation}

由對稱性得:

cov(y,x)=A\Lambda^{-1}

因此:

D[z] =\begin{pmatrix} \Lambda^{-1}&\Lambda^{-1}A^T\\ A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T \end{pmatrix}

所以:

z\sim N(\begin{pmatrix}\mu\\A\mu+b \end{pmatrix},\begin{pmatrix} \Lambda^{-1}&\Lambda^{-1}A^T\\ A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T \end{pmatrix})

使用上一節結論

x_a|x_b\sim N(\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b,\Sigma_{aa\cdot b})

可得:

E[x|y]=\mu + \Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)

D[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1}

因此:

x|y\sim N(\mu + \Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b),\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1})

七、機率-不等式1-傑森不等式(Jensen‘s Inequality)

本節開始介紹一些小知識點

傑森不等式在機器學習的推導中經常被用到,因此單獨拿出來介紹

傑森不等式是什麼?

假設

f(x)

convex \ function

(凸函式)

E[f(x)] \ge f(E[x])

證明:

證明方法有很多,本次採用一個構造性證明

機器學習-白板推導系列(二)-數學基礎筆記

如上圖所示,根據

E[x]

點找到

f(E[x])

點,然後做切線

l(x)=ax+b

因此

f(E[x])=l(E[x])=aE[x]+b

\because f(x) \ is\ convex\\ \therefore  \forall x \ f(x)\ge l(x)

對上式結論兩邊同時取期望

\begin{equation}\begin{split} E[f(x)]&\ge E[l(x)]\\ &=E[ax+b]\\ &=aE[x]+b\\ &=f(E[x]) \end{split}\end{equation}

證畢

實際上我們在機器學習中使用的更多的是傑森不等式的變式,如下推導

機器學習-白板推導系列(二)-數學基礎筆記

如上圖所示,令

\mu \in (0,1)

c=a+\mu(b-a)=a+\mu b-\mu a=(1-\mu)a+\mu b

t=1-\mu

t\in(0,1)

c=ta+(1-t)b

然後連線

f(a)

f(b)

作一條新的線為

g(x)

因為

f(x) \ is\ convex

所以

g(c)\ge f(c)

c=ta+(1-t)b \Rightarrow (c-a):(b-c)=t:(1-t)

因此如上圖所示,可利用相似三角形性質求得:

(g(c)-f(a)):(f(b)-g(c))=t:(1-t)

因此

g(c)=tf(a)+(1-t)f(b)

所以

tf(a)+(1-t)f(b)\ge f(c)=f(ta+(1-t)b)

tf(a)+(1-t)f(b)\ge f(ta+(1-t)b)

此式非常常用,非常重要!