原文傳送門

Cai, Qi, et al。 “Neural temporal-difference learning converges to global optima。” Advances in Neural Information Processing Systems。 2019。

特色

Temporal difference 是強化學習裡面很重要模組,這裡證明了神經網路擬合的價值函式網路能夠收斂到 mean-squared projected Bellman error (MSPBE) 的全域性最優點。證明思路上來說,主要基於之前的 Linear TD,然後說明神經網路的擬合其實是 implicit local linearization。

內容

先回顧一些概念:

Semi-gradient:TD 的目標是最小化 Q(x) 和 TQ(x‘) 的 MSE,但是求導的時候沒有計算 TQ(x’) 的導數,因此叫 semi-gradient;其中 x 代表 state-action pair,T 代表 Bellman operator。

Population gradient/stochastic gradient:強化學習由於是基於樣本的,因此更新都是使用的 stochastic gradient,而它的期望就交 population gradient。

先來看相應的演算法。價值函式使用的是一個兩層的神經網路,啟用函式使用的是 ReLU,可訓練的引數為 W,其中 b 是初始化之後就固定了的,只能為 -1 或者 +1。這裡除了正常的 TD update 之外還有一個投影,投影的區間是根據初始化確定的。

【強化學習 162】Neural TD

Population version

Population version 指的是把演算法第 6 行中的 stochastic gradient 替換為下圖中的第一行公式(gradient 的期望)。這個版本里面就沒有采樣隨機性,分析起來會比較容易一些。首先,我們分析一下最後收斂到的不動點的性質,具體分析的過程如下。其中,最重要的是利用到了無限寬神經網路的性質,即神經網路訓練過程中引數的每一維度的平均變化是幾乎為零的。這樣,類似

W^Tx

形式的項是幾乎不變的。

【強化學習 162】Neural TD

利用無限寬的性質,可以推導到不動點的性質。無限寬神經網路在 population version 上就能仿照 linear TD 來分析。

【強化學習 162】Neural TD

下面是 population version 的收斂性證明。

【強化學習 162】Neural TD

Stochastic version 主要的區別是加入了 stochastic gradient 和 expected gradient 的 bound。

【強化學習 162】Neural TD

如果真實的價值函式和可表示出來的價值函式族之間存在一定的距離,那麼就會多出藍色框中的這一項。(最後這兩塊的證明我都沒看,如果後面需要再來仔細看~)

【強化學習 162】Neural TD