【強化學習 162】Neural TD

原文傳送門

Cai， Qi， et al。 “Neural temporal-difference learning converges to global optima。” Advances in Neural Information Processing Systems。 2019。

特色

Temporal difference 是強化學習裡面很重要模組，這裡證明了神經網路擬合的價值函式網路能夠收斂到 mean-squared projected Bellman error （MSPBE）的全域性最優點。證明思路上來說，主要基於之前的 Linear TD，然後說明神經網路的擬合其實是 implicit local linearization。

內容

先回顧一些概念：

Semi-gradient：TD 的目標是最小化 Q（x）和 TQ（x‘）的 MSE，但是求導的時候沒有計算 TQ（x’）的導數，因此叫 semi-gradient；其中 x 代表 state-action pair，T 代表 Bellman operator。

Population gradient/stochastic gradient：強化學習由於是基於樣本的，因此更新都是使用的 stochastic gradient，而它的期望就交 population gradient。

先來看相應的演算法。價值函式使用的是一個兩層的神經網路，啟用函式使用的是 ReLU，可訓練的引數為 W，其中 b 是初始化之後就固定了的，只能為 -1 或者 +1。這裡除了正常的 TD update 之外還有一個投影，投影的區間是根據初始化確定的。

Population version

Population version 指的是把演算法第 6 行中的 stochastic gradient 替換為下圖中的第一行公式（gradient 的期望）。這個版本里面就沒有采樣隨機性，分析起來會比較容易一些。首先，我們分析一下最後收斂到的不動點的性質，具體分析的過程如下。其中，最重要的是利用到了無限寬神經網路的性質，即神經網路訓練過程中引數的每一維度的平均變化是幾乎為零的。這樣，類似