機器學習-白板推導系列(二)-數學基礎筆記

影片如下：

一、機率-高斯分佈1-極大似然估計

高斯分佈在統計機器學習中佔據重要的地位。

本節內容主要是利用極大似然估計計算高斯分佈下的最優引數。

Data：

$X = \left(x_1, x_2, \cdots, x_N\right)^T = \begin{pmatrix} x_1^T\\ x_2^T\\ \vdots\\ x_N^T\\ \end{pmatrix}_{N \times P}$

$x_i \in \mathbb{R}^p$

$x_i \overset{iid} \sim N(\mu , \Sigma)$

$\theta=(\mu,\Sigma)$

假設資料

中有

個樣本，每個樣本

為

維資料（含有

個feature）

所有的樣本都獨立同分佈於高斯分佈

MLE：

$\theta _{MLE} = arg \underset{\theta} \max P\left(X| \theta \right)$

極大似然估計MLE：求最優的

$\theta$

使得對於這部分資料來說，出現的機率最大

下面計算在一維情況下高斯分佈的最優引數

$\theta=(\mu,\Sigma)$

$suppose \ \ \ p{=}1, \theta{=}\left(\mu, \sigma ^2\right) \ \ \ \ then \ \ \ \ \ P(x) = {1\over \sqrt{2\pi}\sigma}\exp(-{{(x-\mu)}^2\over2\sigma^2})$

[注]

高維情況下的高斯分佈密度函式：

$P(x) = {1\over(2\pi)^{p\over2}\lvert\Sigma\rvert^{1\over 2}}\exp(-{1\over2}(x-\mu)^T\Sigma^{-1}(x-\mu))$

先對

$P(X|\theta)$

去對數，使得後續求導計算更加方便。

因為

$L(\theta)$

與

$\ln L(\theta)$

在同一

$\theta$

處取到極值

$\begin{equation}\begin{split} \log P(X|\theta) &= \log \displaystyle \prod _{i=1} ^{N}P(x_i|\theta)\\ &=\displaystyle \sum_{i=1}^{N}\log({1\over\sqrt{2\pi}\sigma}\exp(-{(x-\mu)^2\over{2\sigma^2}}))\\ &=\displaystyle \sum_{i=1}^N[\log{1\over\sqrt{2\pi}}+\log{1\over\sigma}-{(x-\mu)^2\over2\sigma^2}] \end{split}\end{equation}$

首先求最優的

$\mu$

，如下：

$\begin{equation} \begin{split} \mu_{MLE} &= arg \underset{\mu} \max{\log P(X|\theta)}\\ &=arg \underset{\mu} \max\displaystyle\sum_{i=1}^N{-{(x_i-\mu)^2\over2\sigma^2}}\\ &=arg \underset{\mu} \min\displaystyle\sum_{i=1}^N{(x_i-\mu)^2}\\ \end{split}\end{equation}$

第二步將P帶入後，只需要保留含有

$\mu$

的項，常數項與最佳化無關故舍去

接下來對其求導，找出極大值

$\begin{equation}\begin{split} {\partial\over\partial\mu}\displaystyle\sum_{i=1}^N(x_i-\mu)^2&=\displaystyle\sum_{i=1}^N2(x_i-\mu)(-1)=0\\ \displaystyle\sum_{i=1}^N(x_i-\mu)&=0\\ \displaystyle\sum_{i=1}^Nx_i-N\mu&=0\\ \mu_{MLE}&={1\over N}\displaystyle\sum_{i=1}^Nx_i \end{split}\end{equation}$

求出最優的

$\mu$

是樣本均值，此結果為無偏估計因為

$E[\mu_{MLE}]={1\over N}\displaystyle\sum_{i=1}^NE[x_i]={1\over N}\displaystyle\sum_{i=1}^N\mu=\mu$

接下來求

$\sigma$

的最優解

$\begin{equation} \begin{split} \sigma^2_{MLE} &= arg \underset{\sigma} \max\displaystyle\sum_{i=1}^N[\log{1\over\sigma}-{(x_i-\mu)^2\over2\sigma^2}]\\ &=arg \underset{\sigma} \max\displaystyle\sum_{i=1}^N[-\log{\sigma}-{1\over2\sigma^2}(x_i-\mu)^2] \end{split}\end{equation}$

對

$\sigma$

求導，找出最優解

$\begin{equation} \begin{split} {\partial\over\partial\sigma}\displaystyle\sum_{i=1}^N[-\log{\sigma}-{1\over2\sigma^2}(x_i-\mu)^2]&=\displaystyle\sum_{i=1}^N[-{1\over\sigma}-{1\over2}(x_i-\mu)^2(-2){1\over\sigma^3}]=0\\ \displaystyle\sum_{i=1}^N[-{1\over\sigma}+(x_i-\mu)^2\sigma^{-3}]&=0\\ \displaystyle\sum_{i=1}^N[-\sigma^2+(x_i-\mu)^2]&=0\\ -N\sigma^2+\displaystyle\sum_{i=1}^N(x_i-\mu)^2&=0\\ \sigma^2_{MLE}&={1\over N}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2 \end{split}\end{equation}$

此結果為有偏估計，因為

$E[\sigma^2_{MLE}]={N-1\over N}\sigma^2$

無偏估計為：

$\hat {\sigma^2} = {1\over N-1}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2$

二、機率-高斯分佈2-極大似然估計（無偏估計 VS 有偏估計）

本節內容主要是證明

$\mu_{MLE}$

和

$\sigma^2_{MLE}$

的無偏與有偏性，並計算無偏的

$\sigma^2_{MLE}$

假設與第一節一致，在一維情況下：

$x \sim N(\mu, \sigma^2)$

$\theta=(\mu, \sigma^2)$

$\mu_{MLE}={1\over N}\displaystyle\sum_{i=1}^Nx_i$

無偏估計

$\sigma^2_{MLE} = {1\over N}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2$

有偏估計

若

$E[\hat\mu] = \mu \ \ \ \ E[\hat\sigma] = \sigma$

則無偏

若不相等，則有偏

$\begin{equation} \begin{split} E[\mu_{MLE}]&=E[{1\over N}\displaystyle\sum_{i=1}^Nx_i]\\ &={1\over N}\displaystyle\sum_{i=1}^NE[x_i]\\ &={1\over N}\displaystyle\sum_{i=1}^N\mu\\ &=\mu \end{split}\end{equation}$

因此

$\mu_{MLE}$

無偏

$\begin{equation} \begin{split} E[\sigma^2_{MLE}] &=E[{1\over N}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^N(x_i^2-2x_i\mu_{MLE}+\mu_{MLE}^2)]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^Nx_i^2-2\mu_{MLE}{1\over N}\displaystyle\sum_{i=1}^Nx_i+{1\over N}\displaystyle\sum_{i=1}^N\mu_{MLE}^2]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^Nx_i^2-2\mu_{MLE}^2+\mu^2_{MLE}]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^Nx_i^2-\mu^2_{MLE}]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^N(x_i^2-\mu^2_{MLE})]\\ &={1\over N}\displaystyle\sum_{i=1}^N(E[x_i^2]-E[\mu^2_{MLE}])\\ &={1\over N}\displaystyle\sum_{i=1}^N(D[x_i]+{E[x_i]}^2-D[\mu_{MLE}]-{E[\mu_{MLE}]}^2)\\ &={1\over N}\displaystyle\sum_{i=1}^N(\sigma_{MLE}^2+\mu^2-D[{1\over N}\displaystyle\sum_{i=1}^Nx_i]-\mu^2)\\ &={1\over N}\displaystyle\sum_{i=1}^N(\sigma^2_{MLE}-{1\over N^2}N\sigma_{MLE}^2)\\ &={N-1 \over N}\sigma_{MLE}^2 \end{split}\end{equation}$

其中

$E[\mu_{MLE}]=\mu$

因為

$\mu_{MLE}$

是無偏估計

此外

$D[x] = E[x^2]-{E[x]}^2$

因此

$E[\sigma^2_{MLE}] =E[{1\over N}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2]$

是有偏的

因此

$\sigma^2_{MLE} = {1\over N-1}\displaystyle\sum_{i=1}^N(x_i-\mu_{MLE})^2$

為無偏估計

三、機率-高斯分佈3-從機率密度函式角度觀察

本節將從高維角度來看高斯分佈

$x\sim N(\mu,\Sigma) = {1\over(2\pi)^{p\over2}\lvert\Sigma\rvert^{1\over 2}}\exp(-{1\over2}\underbrace{(x-\mu)^T\Sigma^{-1}(x-\mu)}_{二次型})$

高維高斯分佈的公式，右部分是二次型

$x \in \mathbb R^p$

為

維隨機變數

（random variable）

$x=\begin{pmatrix} x_1\\ x_2\\ \vdots\\ x_p\\ \end{pmatrix}$

$\mu=\begin{pmatrix} \mu_1\\ \mu_2\\ \vdots\\ \mu_p\\ \end{pmatrix}$

$\Sigma=\begin{pmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\ \vdots&\vdots&&\vdots\\ \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp}\\ \end{pmatrix}_{p\times p}$

通常來說，

$\Sigma$

是半正定的（對稱的），本節內容假設

$\Sigma$

是正定的（特徵值

$\lambda >0$

），便於敘述

首先從機率密度函式來看，

是自變數，因此

$\exp$

前面的內容為常數

$(x-\mu)^T\Sigma^{-1}(x-\mu)$

（是一個數） ————馬氏距離（

與

$\mu$

之間）

當

$\Sigma =I$

（單位矩陣）時，馬氏距離

歐氏距離

$\Sigma = U\Lambda U^T$

特徵值分解

（正交）

$U=(u_1,u_2,\cdots,u_p)_{p\times p}$

$\Lambda=\underset {i=1,\cdots,p}{diag}(\lambda_i)$

（對角陣）

Then：

$\begin{equation}\begin{split} \Sigma &= U\Lambda U^T\\ &=(u_1,u_2,\cdots,u_p)\begin{pmatrix} \lambda_1&0&\cdots&0\\ 0&\lambda_2&\cdots&\vdots\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&\lambda_p\\ \end{pmatrix} \begin{pmatrix} u_1^T\\ u_2^T\\ \vdots\\ u_p^T \end{pmatrix}\\ &=(u_1\lambda_1, u_2\lambda_2,\cdots,u_p\lambda_p)\begin{pmatrix} u_1^T\\ u_2^T\\ \vdots\\ u_p^T \end{pmatrix}\\ &=\displaystyle\sum_{i=1}^p{u_i\lambda_iu_i^T} \end{split}\end{equation}$

使用特徵值分解可以將矩陣拆成連乘形式

$\Sigma^{-1}=(U\Lambda U^T)^{-1}=(U^T)^{-1}\Lambda^{-1}U^{-1}=U\Lambda^{-1} U^T =\displaystyle\sum_{i=1}^p{u_i{1\over\lambda_i}u_i^T}$

$\Sigma^{-1}$

的結果如上，因為特徵向量矩陣

是正交的，因此

$U^T=U^{-1}$

將此結果帶入

$(x-\mu)^T\Sigma^{-1}(x-\mu)$

$\begin{equation}\begin{split} \Delta=&(x-\mu)^T\Sigma^{-1}(x-\mu)\\ =&(x-\mu)^T\displaystyle\sum_{i=1}^p({u_i{1\over\lambda_i}u_i^T})(x-\mu)\\ =&\displaystyle\sum_{i=1}^p({(x-\mu)^Tu_i{1\over\lambda_i}u_i^T(x-\mu)})\\ =&\displaystyle\sum_{i=1}^p({y_i{1\over\lambda_i}y_i^T})\\ =&\displaystyle\sum_{i=1}^p({y_i^2\over\lambda_i}) \end{split}\end{equation}$

令

$y_i=(x-\mu)^Tu_i$

馬氏距離經過變換，成為了

$\displaystyle\sum_{i=1}^p({y_i^2\over\lambda_i})$

是

$x-\mu$

在特徵向量

上的投影長度

令

則上式便是令

$\Delta$

取不同值時的同心橢圓

$\Delta={y_1^2\over \lambda_1}+{y_2^2\over \lambda_2}=1=r$

時，橢圓如下圖所示：

每當

$\Delta$

取不同值，橢圓就相當於對這一高度的等高線，也對應一個固定的機率值

若

$\lambda_i=c$

（常量）時，上圖便是一個圓

四、機率-高斯分佈4-侷限性

繼上節內容，將

$\Delta$

帶入

：

$p(x) = {1\over(2\pi)^{p\over2}\lvert\Sigma\rvert^{1\over 2}}\exp(-{1\over2}\Delta)$

$0\leq p(x)\leq1$

每當

取為某個機率值時，都對應一個固定的

$\Delta$

值，即對應一個橢圓曲線，因此取滿所有的

，對應的影象是一個小山狀（如下圖所示）

每當

取為某個機率值時，相當於橫切小山，投影到

平面便是一個橢圓曲線，也是等高線

侷限性：

①

$\Sigma_{p\times p}$

的引數個數是

${(p^2-p)\over 2}+p ={(p^2+p)\over 2}=O(p^2)$

計算複雜度太高，因此經常對

$\Sigma$

進行簡化，假設其為對角矩陣，則其對應的橢圓曲線為正的，如下圖所示：

若

$\Sigma$

中的

$\lambda_i$

都相等，則上圖便為一個正的圓，此情況稱為

各向同性

，

$\Sigma$

為

各向同性矩陣

［

Example

］ factor analysis：

為對角矩陣

（機率PCA）：因子分析的特殊情況，

為各向同性

②高斯分佈本身的侷限性

有些資料無法用一個高斯分佈表示

因此在GMM中提出了混合模型：使用多個高斯分佈進行混合

五、機率-高斯分佈5-已知聯合機率求邊緣機率及條件機率

$x\sim N(\mu,\Sigma) = {1\over(2\pi)^{p\over2}\lvert\Sigma\rvert^{1\over 2}}\exp(-{1\over2}{(x-\mu)^T\Sigma^{-1}(x-\mu)})$

$x \in \mathbb R^p$

$x=\begin{pmatrix} x_1\\ x_2\\ \vdots\\ x_p\\ \end{pmatrix}$

$\mu=\begin{pmatrix} \mu_1\\ \mu_2\\ \vdots\\ \mu_p\\ \end{pmatrix}$

本節內容是推導最多最複雜的部分

已知一個多維高斯分佈的聯合機率，求其邊緣機率分佈及條件機率分佈

將

分為兩部分，一部分為

維

，一部分為

維

，

$\mu$

和

$\Sigma$

同理：

已知：

$x=\begin{pmatrix} x_a\\ x_b\\ \end{pmatrix}$

$\mu=\begin{pmatrix} \mu_a\\ \mu_b\\ \end{pmatrix}$

$\Sigma=\begin{pmatrix} \sigma_{aa}&\sigma_{ab}\\ \sigma_{ba}&\sigma_{bb}\\ \end{pmatrix}$

將

看為

和

的聯合機率分佈

求：

同理可由對稱性得知

通用方法：配方法（RPML）

今天使用另一種方法，比配方法簡便

引入如下定理（機率論與數理統計中的）：

已知：

$x\sim N(\mu,\Sigma)$

結論：

$y\sim N(A\mu + B,A\Sigma A^T)$

證明：

$E[y]=E[Ax+B]=AE[x]+E[B]=A\mu+B$

$D[y]=D[Ax+B]=D[Ax]+D[B]=AD[x]A^T=A\Sigma A^T$

①首先計算

令

$x_a=\underbrace{\begin{pmatrix} I_m&0 \end{pmatrix}}_{A} \underbrace{\begin{pmatrix} x_a\\x_b \end{pmatrix}}_{x}+\underbrace0_{B}$

使用上述定理的結論，則：

$E[x_a]=A\mu+B=\begin{pmatrix}I_m&0 \end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b \end{pmatrix}+0 =\mu_a$

$D[x_a]=A\Sigma A^T=\begin{pmatrix}I_m&0 \end{pmatrix} \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\\ \end{pmatrix} \begin{pmatrix}I_m\\0 \end{pmatrix}= \begin{pmatrix}\Sigma_{aa}&\Sigma_{ab} \end{pmatrix}\begin{pmatrix}I_m\\0 \end{pmatrix}=\Sigma_{aa}$

因此：

$x_a\sim N(\mu_a,\Sigma_{aa})$

②計算

首先引入3個量：

$x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a$

$\mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a$

$\Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}$

這裡

$\Sigma_{bb\cdot a}$

是

$\Sigma_{bb}$

的Schur Complementary

$x_{b\cdot a}$

是

與

的線性組合，故其服從高斯分佈

下面求

$x_{b\cdot a}$

的機率分佈函式

先對

$x_{b\cdot a}$

進行變換，使其能夠應用上述定理直接得出結果

$x_{b\cdot a}=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&I \end{pmatrix} \begin{pmatrix} x_a\\x_b \end{pmatrix}$

使用上述定理得：

$E[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&I \end{pmatrix}\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix} =\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a=\mu_{b\cdot a}$

$\begin{equation}\begin{split} D[x_{b\cdot a}]&=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&I \end{pmatrix}\begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\\ \end{pmatrix} \begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}\\I \end{pmatrix}\\ &=\begin{pmatrix} \Sigma_{ba}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{aa} &\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \end{pmatrix} \begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}\\I \end{pmatrix}\\ &=\begin{pmatrix} 0 &\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \end{pmatrix} \begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}\\I \end{pmatrix}\\ &=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}\\ &=\Sigma_{bb\cdot a} \end{split}\end{equation}$

因此

$x_{b\cdot a}\sim N(\mu_{b\cdot a},\Sigma_{bb\cdot a})$

由第一個引入的量可以得到：

$x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$

此處同樣利用上述定理，其中

為

，

為

$x_{b\cdot a}$

，

為

，

為

$\Sigma_{ba}\Sigma_{aa}^{-1}x_a$

可以求得：

$E[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$

$D[x_b|x_a]=\Sigma_{bb\cdot a}\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$

因此

$x_b|x_a\sim N(\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a,\Sigma_{bb\cdot a})$

這裡直接使用

的表示式計算了

，原因是條件機率的含義為在已知

的條件下求

的機率，因此這裡假設

已知，作為常量處理了

很容易可以證明，若計算

，則結果應為

$\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a=\mu_b$

，

同理

③利用對稱性求另外兩個量

$x_b\sim N(\mu_b,\Sigma_{bb})$

$x_a|x_b\sim N(\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b,\Sigma_{aa\cdot b})$

六、機率-高斯分佈6-已知邊緣和條件機率求聯合機率分佈

上節內容是已知一個多維高斯分佈的聯合機率，求其邊緣機率分佈及條件機率分佈

本節內容是：

已知：

$p(x)=N(\mu,\Lambda^{-1})$

$\Lambda^{-1}$

是

$precision \ matrix=(convariance \ matrix)^{-1}$

，為了計算方便

$p(y|x)=N(Ax+b,L^{-1})$

求：

有點像貝葉斯中的後驗

$p(x|y)={p(y|x)*p(x)\over p(y)}$

同時有假設

與

有線性關係：

解

：

PRML中依然用的配方法，非常繁瑣

以下依舊使用構造性證明

本節比上節更重要

假設

$y = Ax+b+\epsilon$

其中

$\epsilon\sim N(0,L^{-1})$

$x,y,\epsilon$

都是隨機變數

其中

$\epsilon$

與

獨立

①求解

$E[y]=E[Ax+b+\epsilon]=AE[x]+b+E[\epsilon]=A\mu+b$

$D[y]=D[Ax+b+\epsilon]=D[Ax+b]+D[\epsilon]$

此處使用上一節的定理求得

$D[Ax+b]=AD[x]A^T=A\Lambda^{-1} A^T$

因此

$D[y]=A\Lambda^{-1}A^T+L^{-1}$

所以

$y\sim N(A\mu+b,A\Lambda^{-1}A^T+L^{-1})$

②求解

對於此問題，使用上一節的結論進行求解。

即先求出聯合機率分佈，再求此條件機率

故引入

$z=\begin{pmatrix}x\\y \end{pmatrix}$

$E[z]=\begin{pmatrix}\mu\\A\mu+b \end{pmatrix}$

$D[z]=\begin{pmatrix} cov(x,x)&cov(x,y)\\ cov(y,x)&cov(y,y) \end{pmatrix} =\begin{pmatrix} \Lambda^{-1}&cov(x,y)\\ cov(y,x)&L^{-1}+A\Lambda^{-1}A^T \end{pmatrix}$

其中：

$\begin{equation}\begin{split} cov(x,y)&=E[(x-E[x])\cdot (y-E[y])^T]\\ &=E[(x-\mu)\cdot (Ax+b+\epsilon-A\mu-b)^T]\\ &=E[(x-\mu)\cdot (Ax-A\mu+\epsilon)^T]\\ &=E[(x-\mu)\cdot(Ax-A\mu)^T+(x-\mu)\cdot\epsilon^T]\\ &=E[(x-\mu)(x-\mu)^TA^T]+E[(x-\mu)\epsilon^T] \end{split}\end{equation}$

因為

與

$\epsilon$

獨立，所以

$x-\mu$

與

$\epsilon$

獨立

因此

$E[(x-\mu)\epsilon^T]=E[x-\mu]\cdot E[\epsilon^T]=(E[x]-\mu)E[\epsilon^T]=0$

所以

$\begin{equation}\begin{split} cov(x,y)&=E[(x-\mu)(x-\mu)^TA^T] \\&=E[(x-\mu)(x-\mu)^T]A^T\\ &=D[x]A^T\\ &=\Lambda^{-1}A^T \end{split}\end{equation}$

由對稱性得：

$cov(y,x)=A\Lambda^{-1}$

因此：

$D[z] =\begin{pmatrix} \Lambda^{-1}&\Lambda^{-1}A^T\\ A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T \end{pmatrix}$

所以：

$z\sim N(\begin{pmatrix}\mu\\A\mu+b \end{pmatrix},\begin{pmatrix} \Lambda^{-1}&\Lambda^{-1}A^T\\ A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T \end{pmatrix})$