一、基礎知識

假設我們的觀測物件是高維隨機變數

\[ (x_1,x_2,...,x_p) \]

,對於這樣的一個高維隨機變數而言,在實際操作過程中,我們往往需要知道的是它的邊緣機率

\[ p(x_i) \]

,以及條件機率

\[ p(x_j|x_i) \]

首先,我們來看下對於高維隨機變數(下面以二維為例),兩個基本運演算法則:

加法法則:

\[ p(x_1) = \int p(x_1,x_2)dx_2\]

乘法法則:

\[ p(x_1,x_2)=p(x_1|x_2)p(x_2)=p(x_2|x_1)p(x_1) \]

根據兩個基本法則可以推出兩個常用的法則:

鏈式法則:

\[ p(x_1,x_2,...,x_p)=p(x_1)\prod\limits_a^bp(x_i|x_1,x_2,...,x_{i-1}) \]

貝葉斯法則:

\[ p(x_2|x_1)={p(x_2,x_1)\over \int p(x_2,x_1)dx_2}={p(x_1|x_2)p(x_2)\over \int p(x_2,x_1)dx_2}={p(x_1|x_2)p(x_2)\over \int p(x_1|x_2)p(x_2)dx_2}\]

二、什麼是機率圖模型

機率圖模型(Probabilistic Graphical Model, PGM),簡稱圖模型(Graphical Model,GM),是指一種用圖結構來描述多元隨機變數之間條件獨立性的機率模型(注意條件獨立性),從而給研究高維空間的機率模型帶來了很大的便捷性。

注:為什麼要講條件獨立性?

對於一個

\[ K \]

維隨機向量,其聯合機率為高維空間中的分佈,一般難以直接建模。假設每

\textbf{X}=[X_1,X_2,...,X_K]^T

個變數為離散變數並有

m

個取值,在不作任何獨立假設條件下,則需要

m^K-1

個引數才能表示其機率分佈(因為我們需要給出每一組

\[ [x_1,x_2,...,x_K]^T \]

可能的的機率,共

m^K

種可能,由於機率和為1因此在此基礎上減1)。不難看出,引數數量是指數級的,這在實際應用中是不可接受的。而一種可以有效減少引數量的方法就是獨立性假設。將

K

維隨機向量的聯合機率分解為

K

個條件機率的乘積:

\begin{align*} p(\textbf{x})&=P(\textbf{X}=\textbf{x})  \\ & =p(x_1)p(x_2|x_1) \cdot  \cdot  \cdot p(x_k|x_1,x_2,...,x_{K-1})  \\ &= \prod\limits_{k=1}^Kp(x_k|x_1,...,x_{k-1})  \end{align*}\\

其中

x_k

表示變數

\[ \textbf{X}_k \]

的取值。如果某些變數之間存在條件獨立,其引數量就可以大幅減少。

假設有四個二值變數,在不知道這幾個變數依賴關係的情況下,用一個聯合機率表來記錄每一種取值的機率需要

\[ 2^4-1=15 \]

個引數。假設在已知

\[ \textbf{X}_1 \]

時,

\[ \textbf{X}_2\]

\[ \textbf{X}_3 \]

獨立,即有:

p(x_2|x_1,x_3)=p(x_2|x_1)\\

同理:

\[p(x_3|x_1,x_2)=p(x_3|x_1) \]

在已知

\[ \textbf{X}_2\]

\[ \textbf{X}_3\]

時,

\[ \textbf{X}_1\]

也和

\[ \textbf{X}_4\]

獨立,即有:

\[p(x_4|x_1,x_2,x_3)=p(x_4|x_2,x_3) \]

那麼其聯合機率

\[p(\textbf{x}) \]

可以分解為:

\[ p(\textbf{x})=p(x_1)p(x_2|x_1)p(x_3|x_1)p(x_4|x_2,x_3) \]

即4個區域性條件機率的乘積,只需要1+2+2+4=9個獨立引數

因此,假如我們知道更多的獨立性條件,那麼可以大大簡化聯合機率分佈的計算,而

機率圖

則可以直觀地表示隨機變數間條件獨立性的關係。以下是上述例子中4個變數之間的條件獨立性的圖形化描述。

機率圖模型系列(一):機率圖模型簡介

機率圖模型的三個基本問題(表示,學習,推斷)

下圖展示了機率圖圖模型有三個基本問題:

(1) 表示問題:對於一個機率模型,如何透過圖結構來描述變數之間的依

賴關係。

(2) 學習問題:圖模型的學習包括圖結構的學習和引數的學習。在本章中,

我們只關注在給定圖結構時的引數學習,即引數估計問題。

(3) 推斷問題:在已知部分變數時,計算其他變數的條件機率分佈。

機率圖模型系列(一):機率圖模型簡介

三、表示:有向/無向

機率圖模型的表示是指用圖結構來描述變數之間的依賴關係,研究如何利用機率網路中的獨立性來簡化聯合機率分佈的方法表示。常見的機率圖模型可以分為兩類:有向圖模型和無向圖模型。

(1)有向圖模型使用有向非迴圈圖(Directed Acyclic Graph,DAG)來描述變數之間的關係。如果兩個節點之間有連邊,表示對應的兩個變數為因果關係,即不存在其他變數使得這兩個節點對應的變數條件獨立。

有向圖又稱貝葉斯網路,從模型的條件獨立性依賴的個數上看,可以分為單一模型和混合模型,單一模型條件依賴的集合就是單個元素,而混合模型條件依賴的集合則是多個元素。如果給模型加上時間概念,則可以有馬爾科夫鏈和高斯過程等。從空間上,如果隨機變數是連續的,則有如高斯貝葉斯網路這樣的模型。混合模型加上時間序列,則有隱馬爾科夫模型、卡爾曼濾波、粒子濾波等模型。

(2)無向圖模型使用無向圖(Undirected Graph)來描述變數之間的關係。每條邊代表兩個變數之間有機率依賴關係,但是並不一定是因果關係。

下圖給出了兩個代表性圖模型(有向圖和無向圖)的示例,分別表示了四個變數

\[\{ \textbf{X}_1,\textbf{X}_2,\textbf{X}_2,\textbf{X}_4\} \]

之間的依賴關係。圖中帶陰影的節點表示可觀測到的變數,不帶陰影的節點表示隱變數,連邊表示兩變數間的條件依賴關係。

機率圖模型系列(一):機率圖模型簡介

1。有向圖模型

有向圖模型(Directed Graphical Model),也稱為貝葉斯網路(Bayesian Network)或信念網路(Belief Network,BN),是一類用有向圖來描述隨機向量機率分佈的模型。常見的有向圖模型:很多經典的機器學習模型可以使用有向圖模型來描述,比如

樸素貝葉斯分類器

隱馬爾可夫模型

深度信念網路等

貝葉斯網路:對於一個

K

維隨機向量

\it{\bf{X}}

和一個有

K

個節點的有向非迴圈圖

G

G

中的每個節點都對應一個隨機變數,每個連線

e_{ij}

表示兩個隨機變數

X_i

X_j

之間具有非獨立的因果關係。令

\[\bf{X}_{ \pi _{k}} \]

表示變數

\[\bf{X}_{k} \]

的所有父節點變數集合,

\[ P({X}_{k}|\bf{\bf{X}}_{\pi_{k}}) \]

表示每個隨機變數的區域性條件機率分佈(Local Conditional Probability Distribution)。如果

\bf{X}

的聯合機率分佈可以分解為每個隨機變數

\it{X}_k

的區域性條件機率的連乘形式,即

p(\bf{x}) = \prod\limits_{k=1}^K p(\emph{x}_k|\bf{x}_{\pi_{k}})\\

那麼(

\bf{\emph{G}}

\bf{\it{K}}

)構成了一個貝葉斯網路。

貝葉斯網路模型的機率分解,在貝葉斯網路中,變數間存在如下四種關係:

(1)如果兩個節點是直接連線的,它們肯定是非條件獨立的,是直接因果關係。其中父節點是“因”,子節點是“果”。

(2)間接因果關係(head-to-tail),即圖(a)、圖(b):當

\bf{X}_2

已知時,

\bf{X}_1

\bf{X}_3

為條件獨立,即

\[ \bf{X}_{1}  \perp \bf{X}_{3}|\bf{X}_{2}\]

(3)共因關係(tail-to-tail),即圖(c):當

\bf{X}_2

未知時,

\bf{X}_1

\bf{X}_3

是不獨立的;當

\bf{X}_2

已知時,

\bf{X}_1

\bf{X}_3

條件獨立,即

\[ \bf{X}_{1}  \perp \bf{X}_{3}|\bf{X}_{2}\]

(4)共果關係(head-to-head),即圖(d):當

\bf{X}_2

未知時,

\bf{X}_1

\bf{X}_3

是獨立的;當

\bf{X}_2

已知時,

\bf{X}_1

\bf{X}_3

不獨立。

機率圖模型系列(一):機率圖模型簡介

2。無向圖模型

無向圖模型,也稱為馬爾可夫隨機場(Markov Random Field,MRF)或馬爾可夫網路(Markov Network),是一類用無向圖來描述一組具有區域性馬爾可夫性質的隨機向量

\bf{X}

的聯合機率分佈的模型。常見的無向圖模型有:

最大熵模型

條件隨機場

玻爾茲曼機

受限玻爾茲曼機等

馬爾可夫隨機場:對於一個隨機向量

\textbf{X} = [X_1,X_2,...,X_K]^T

和一個有

K

個節點的無向圖

\[ G( \nu , \varepsilon ) \]

(可以存在迴圈),圖

\[ G\]

中的節點

k

表示隨機變數

X_k

1 \leq k \leq K

。如果

(G,\textbf{X})

滿足區域性馬爾可夫性質,即一個變數

X_k

在給定它的鄰居的情況下獨立於所有其他變數,

p(x_{k}|{\textbf{x}}_{\verb|\|k})=p(x_k|\textbf{x}_{\mathcal{N}(k)})

其中

\mathcal{N}(k)

為變數

X_k

的鄰居集合,

\verb|\|k

為除

X_k

外其他變數的集合,那麼

(G,\textbf{X})

就構成了一個馬爾可夫隨機場。無向圖模型的機率分解,

團:

由於無向圖模型並不提供一個變數的拓撲順序,因此無法用鏈式法則對

p(\textbf{x})

進行逐一分解。無向圖模型的聯合機率一般以全連通子圖為單位進行分解。 無向圖中的一個全連通子圖,稱為團(Clique),即團內的所有節點之間都連邊。 在圖11。7所示的無向圖中共有 7 個團,包括

\{X_1,X_2\}

\{X_1,X_3\}

\{X_2,X_3\}

\{X_3,X_4\}

\{X_2,X_4\}

\{X_1,X_2,X_3\}

\{X_2,X_3,X_4\}

在所有團中,如果一個團不能被其他的團包含,這個團就是一個最大團 (Maximal Clique)。

機率圖模型系列(一):機率圖模型簡介

因子分解:

無向圖中的聯合機率可以分解為一系列定義在最大團上的非負函式的乘積形式。

Hammersley-Clifford定理

:如果一個分佈

p(\textbf{x})>0

滿足無向圖

G

中的區域性馬爾可夫性質,當且僅當

p(\textbf{x})

可以表示為一系列定義在最大團上的非負函式的乘積形式,即

p(x)= \frac {1 } {Z}  \prod\limits_{c \in \mathcal{C}} ^b \phi _c(\textbf{x}_c)

其中

\[ \mathcal{C} \]

G

中的最大團集合,是定義在團

 \phi _c(\textbf{x}_c)

上的勢能函式(Po- tential Function),

Z

是配分函式(Partition Function),用來將乘積歸一化為機率形式:

Z= \sum\limits_{\textbf{x} \in \mathcal{X}} \prod\limits_{c \in \mathcal{C}} \phi _c(\textbf{x}_c)\\

其中

\mathcal{X}

為隨機向量

\bf{X}

的取值空間。

無向圖模型與有向圖模型的一個重要區別是有配分函式。配分函式的計算複雜度是指數級的,因此在推斷和引數學習時都需要重點考慮。

吉布斯分佈公式中定義的分佈形式也稱為吉布斯分佈(Gibbs Distribution)。根據 Hammersley-Clifford定理,無向圖模型和吉布斯分佈是一致的。吉布斯分佈一定滿足馬爾可夫隨機場的條件獨立性質,並且馬爾可夫隨機場的機率分佈一定可以表示成吉布斯分佈。

由於勢能函式必須為正,因此我們一般定義為

 \phi _c(\textbf{x}_c)=exp(-E_c(\textbf{x}_c)) \\

其中

E_c(\textbf{x}_c)

為能量函式(Energy Function)。因此,無向圖上定義的機率分佈可以表示為

\begin{align*} P(\textbf{x})=  &{1 \over Z} \prod\limits_{c \in \mathcal{C}}exp(E_c(\textbf{x}_c)) \\= & {1 \over Z}exp( \sum\limits_{c \in \mathcal{C}}-E_c(\textbf{x}_c))  \end{align*}\\

這種形式的分佈又稱為玻爾茲曼分佈(Boltzmann Distribution)。任何一個無向圖模型都可以用上述公式來表示其聯合機率。

四、學習:圖結構的學習和引數的學習

圖模型的學習可以分為兩部分:一是網路結構學習,即尋找最優的網路結構;二是網路引數估計,即已知網路結構,估計每個條件機率分佈的引數。

網路結構學習比較困難,一般是由領域專家來構建。本節只討論在給定網路 結構條件下的引數估計問題。圖模型的引數估計問題又分為不包含隱變數時的 引數估計問題和包含隱變數時的引數估計問題。

不含隱變數的引數估計:如果圖模型中不包含隱變數,即所有變數都是可觀測的,那麼網路引數一般可以直接透過最大似然來進行估計。

含隱變數的引數估計:如果圖模型中包含隱變數,即有部分變數是不可觀測的,就需要用EM演算法進行引數估計。

五、推斷:精確推斷/近似推斷

精確推斷包括(變數消除法,信念傳播演算法),近似推斷包括(環路信念傳播,變分推斷,取樣法)

在已知部分變數時算其它變數的後驗機率分佈。在圖模型中,推斷(Inference)是指在觀測到部分變數

\textbf{e}=\{e_1,e_2,...,e_M\}

時,計算其他變數的某個子集

\textbf{q}=\{q_1,q_2,...,q_M\}

的條件機率

\[ p(\textbf{q}|\textbf{e}) \]

。假設一個圖模型中,除了變數

\bf{e}

\bf{q}

外,其餘變量表示為

\bf{z}

。根據貝葉斯公式有

\begin{align*} p( \textbf{q} | \textbf{e})= & p( \textbf{q} ,\textbf{e}) \over p(\textbf{e})\\= &  \sum\limits_{ \textbf{z}}p( \textbf{q}, \textbf{e},\textbf{z}) \over \sum\limits_{ \textbf{q}, \textbf{z}}p( \textbf{q}, \textbf{e},\textbf{z})  \end{align*}\\

因此,圖模型的推斷問題的關鍵為求任意一個變數子集的邊際機率分佈問題。 在圖模型中,常用的推斷演算法可以分為精確推斷演算法和近似推斷演算法兩類。

注:4、5部分內容後續會結合具體的模型對“學習”和“推理”做詳細推理和介紹。這裡只把概念介紹一下,後續可持續關注本公眾號更新。。。

更多精彩乾貨,歡迎關注下面公眾號:

AI_knowledge_factory

參考文獻:

[1] 邱錫鵬《神經網路與深度學習》。

https://

nndl。github。io/

[2] B站up主(shuhuai008)機器學習白板推導系列影片。嗶哩嗶哩 ( ゜- ゜)つロ 乾杯~ Bilibili