平均場博弈論(Mean-Field Games)研究的是大量物件之間的博弈,探索在一個競爭的環境中,物件如何選擇最優的決策。例如股市裡大量根據其他使用者行為交易股票的股民,海里遊動的魚群,在世界盃現場看足球賽的觀眾等。目前,平均場博弈論在經濟、金融、機器學習等方面都有應用。那什麼是平均場呢?平均場的博弈是指在博弈的場景中,某個物件進行決策所依賴的資訊來自於場景中所有物件的決策的機率分佈,而不是對其他物件的決策進行單個考慮。例如,去市場買菜,我們可以去了解其他所有買菜和賣菜人的買賣行為來做自己買菜的決定,這樣是非常麻煩和不方便的。在平均場博弈論中,我們只需要根據菜的市場價來決定自己是否買菜,而這個市場價已經反映了市場中買賣的所有參與者對菜的買賣決策,所以菜的市場價可以看做是一種平均場,反映了市場中其他參與物件決策的機率分佈。因此,根據市場價來決策簡化了我們做決定的時間和難度。

1. #FormatImgID_1# 個物件的博弈

平均場博弈論是對

N

個物件在

N

趨向於無窮大的時候的博弈情況的近似。因此,我們首先看看

N

個物件的博弈。假設現在環境中有

N

個物件。為了簡化模型,我們假設物件之間是不可區分的,例如我們可以想象成有

N

只螞蟻,或者

N

只鳥,每個物件的情況都差不太多,除了所處的狀態不同,其他沒有多大的差異。

我們用

X^i_t

來表示時間為

t

的時刻第

i

個物件所處的位置。為了說明更廣泛的情況,我們將

X^i_t

稱作第

i

個物件的狀態,它不僅可以表示位置,也可以有其他意義,比如某個股民手裡股票的價值等。假設

X^i_t

的變化由下面的常微分方程決定

\begin{cases} dX^i_t=\alpha_t^i(X_t^i)dt,\\ X_0^i=x_0^i,  \end{cases} \qquad(1.1) \\

其中,

\alpha_t^i

X^i_t

的變化率,

x_0^i

為該物件的初始狀態,如果

X_t^i

表示物件的位置,那麼

\alpha_t

可以看做物件移動的速度。我們將

\alpha_t^i

稱為物件

i

的控制。物件在移動的過程中,有一定的消耗,消耗函式量為

\mathcal{L}(X_t^i,\alpha_t^i(X_t^i), m^i_t)

,其中

m^i_t=\frac{1}{N-1}\sum_{j\not=i}^N\delta_{X_t^j}, \qquad (1.2) \\

為除了第

i

個物件外的其他物件的經驗機率分佈函式。例如,在對城市車流的的建模中,我們可以取

\mathcal{L}(X_t^i,\alpha_t^i, m^i_t)=(1+m_t^i)^\gamma\frac{|\alpha_t^i(X_t^i)|^2}{2}, \qquad (1.3) \\

表示車流量密度越大的地方,速度越大的情況下車的執行耗費越大。最後,當包含物件

i

的系統在時刻

T

停止的時候,我們假設物件

i

會有一個最終消耗

G(X^i_T, m^i_T)

。這個消耗依賴於物件

i

的最終狀態

X^i_T

,以及

T

時刻其他物件的機率分佈

m^i_T

,例如在車流的建模中,我們考慮汽車剎車的時候,會對汽車有個額外的磨損,我們可以將其考慮在函式

G

中。因此,在整個

[0,T]

的時間過程中,物件

i

的總耗費由下列函式給出:

J(\alpha_t^i;\alpha_t^{-i})=\int_0^T\mathcal{L}(X_t^i,\alpha^i_t(X_t^i),m_t^i)dt+G(X_T^i,m_T^N), \qquad (1.4) \\

其中

\alpha_t^{-i}=(\alpha_t^1,\dots,\alpha_t^{i-1},\alpha_t^{i+1},\dots,\alpha_t^N)

為其他物件的控制變數。因此,物件

i

的目標就是在觀察到其他物件的決策

\alpha_t^{-i}

的情況下,選擇一個最優策略

\hat{a}_t^i

,使得自己的消耗最少,即

J(\hat{a}_t^i;a_t^{-i})=\min_{a_t^i}J(\hat{a}_t^i;a_t^{-i}), \qquad (1.5) \\

物件

i

在知道其他物件的策略的情況下,制定自己的最優決策,這個最優決策也會被其他物件知道,其他物件會根據物件

i

的最優決策來最佳化自己的最優決策,其他物件最佳化後的決策發過來也會影響物件

i

最佳化自己的策略。如此往復,最後會達到一個策略的均衡,在此均衡處,如果其他的物件不改變自己的策略,那麼物件

i

改變自己的策略對它自己來說也沒有任何好處。這就是著名的納什均衡。具體到我們的場景,我們定義下列納什均衡點。

\hat{\alpha}_t=(\hat{\alpha}_t^1,\dots,\hat{\alpha}_t^i,\dots,\hat{\alpha}_t^N)

(1.5)

所對應的納什均衡點。對每個

i

,我們記

\hat{\alpha}_t^{-i}=(\hat{\alpha}_t^1,\dots,\hat{\alpha}_t^{i-1},\hat{\alpha}_t^{i+1}, \dots,\hat{\alpha}_t^N)

。那麼,

\hat{\alpha}_t^i

為下列最佳化問題的解

\min_{\alpha_t^i}J({\alpha}_t^i;\hat{\alpha}_t^{-i}), (1.6) \\

2. 平均場博弈(Mean-field Games)

這裡,我們考慮

N

趨向於無窮大的情況。現實世界中,幾乎不存在無窮多個物件的博弈。那麼為什麼要考慮

N

趨向於無窮大的情況呢?其中一個原因就是問題

(2.6)

N

相當大的時候生成的方程非常的多,不利於計算和分析。而當

N

趨向於無窮的時候,我們卻能得到少量的方程,並且能給原來的

N

個物件的問題很好的近似(可以參考我們在文章最開頭處所舉出的買菜的例子)。下面,我們考慮

N\rightarrow +\infty

因為在最開始的時候,我們假設場景中的物件都是不可區分的。那麼,當

N

趨向於無窮大的時候,我們可以選擇一個代表性的物件來考慮,記該代表性的物件的狀態為

X_t

。那麼根據

(1.1)

X_t

的變化遵守下列的常微分方程

\begin{cases} dX_t=\alpha_t(X_t)dt,\\ X_0=x_0,  \end{cases} \qquad (2.1) \\

m^N_t=\frac{1}{N}\sum_{i=1}^N\delta_{X_t^i}, \qquad (2.2) \\

即,

m^N_t

N

個物件的經驗分佈,當

N\rightarrow+\infty

的時候,

m^N_t

會收斂到一個機率密度

m_t

,即所有的物件的分佈情況服從機率

m_t

。同時,

m_t

也是所有物件都遵從常微分方程

(2.1)

所描述的狀態改變方式進行變化的時候所服從的機率分佈。假設我們先知道納什均衡點處的機率分佈

\hat{m}_t

,即,相當於我們知道了其他物件的均衡策略,那麼該物件所需要處理的,就是找到一個策略

\hat{\alpha}_t

使得自己的消耗函式最小。與

(1.4)

類似,我們定義消耗函式

J(\alpha_t)=\int_0^T\mathcal{L}(X_t,\alpha_t,\hat{m}_t)dt+G(X_T,\hat{m}_T), \qquad (2.3) \\

那麼,代表性的物件的最優控制

\hat{a}_t

應該為

J

的最小值點,即

J(\hat{a}_t)=\min_{\alpha_t}J(\alpha_t)。\qquad (2.4) \\

這時,我們可以使用最優控制中的動態規劃來處理

(2.4)

的求解。記

H(x,p,\mu)=\max_{q}-p\cdot q-\mathcal{L}(x,q,\mu)\qquad (2.5) \\

且記

u(t,x)

(2.4)

相關的值函式,那麼根據最優控制理論,

u

滿足漢Hamilton-Jacobi-Bellman等式

-\partial_t {u}_t+H(x,\hat{m}_t,\nabla {u}_t)=0, \qquad (2.6) \\

並且得到最優控制

\hat{\alpha}_t=-\nabla_pH(x,\hat{m}_t,\nabla {u}_t),\qquad (2.7) \\

那麼,根據

(2.1)

,代表性的物件的狀態

X_t

滿足常微分方程

dX_t=-\nabla_pH(x,\hat{m}_t,\nabla {u}_t)dt,\qquad (2.8) \\

所有的物件的狀態在均衡的條件下都按照

(2.8)

的微分方程描述的軌跡變化,其機率分佈應該服從

\hat{m}_t

。那麼均衡狀態下的所有物件的機率分佈

\hat{m}_t

需要滿足下列的傳輸方程(為了方便書寫,我們在下面的寫法中使用

m

來代替

\hat{m}

\begin{cases} \partial_t {m}-div(m\nabla_pH(x,m, \nabla u))=0,\\ {m}(0, x)=m_0(x), \end{cases}\qquad (2.9) \\

其中,

m_0

為所有物件的初始狀態下的機率分佈。 綜合

(2.6)

(2.9)

,在平均場博弈論中,我們研究下列的方程組:

\begin{align*} \begin{cases} -\partial_tu+H(x,m,\nabla u)=0, \\ \partial_t {m}-div (m\nabla_pH(x,m, \nabla u))=0,\\ u(T,x)=G(t,m(T,x)), \\ {m}(0, x)=m_0(x). \end{cases} \end{align*} \qquad (2.10) \\

透過求解

(2.10)

,我們得到了均衡狀態下的值函式

u

與機率分佈

m

,那麼根據

(2.7)

,我們就能求得物件在均衡點處的最優策略。

總結

在本文中,我們簡要介紹了一下平均場博弈論,並推導了典型的平均場博弈論的方程組。在

(2.1)

中,我們只考慮了確定性的物件的狀態改變。我們也可以考慮受噪聲擾動下的狀態改變,即,

X_t

滿足

\begin{cases} dX_t=\alpha_t(X_t)dt+\sqrt{2\sigma}dW,\\ X_0=x_0,  \end{cases} \\

其中

\sigma

衡量了噪聲的大小,

W

為布朗運動。這時候,

(2.10)

中的方程組會變成二階的偏微分等式。目前的平均場的研究也包括了多個族群(例如,金融裡買賣不同型別股票的人與不同衍生品的人)、共同噪聲(例如,買股票的人都觀看同一個金融分析頻道)等因數的影響。隨之,類似

(2.10)

的方程也會變得更加複雜,並能建模更加複雜的真實情況。