【強化學習 154】Bayesian Q-learning

比較老的文章了，但是很經典~

原文傳送門

Dearden， Richard， Nir Friedman， and Stuart Russell。 “Bayesian Q-learning。” Aaai/iaai。 1998。

特色

強化學習裡面一個核心就是做

探索

，即由於我們嘗試的次數不夠多，因此並不太清楚究竟什麼樣的動作好。

從貝葉斯的觀點來看，即我們對於環境有一個先驗的建模，透過我們嘗試得到的資料，我們可以逐步修正我們對於環境的建模，得到對於該模型的後驗估計。當資料較少的時候，我們對於模型估計的不確定性大；當資料較多的時候，我們對於模型的估計逐漸趨近於真實模型。而強化學習裡面的探索就是需要在對於模型估計不太準的時候，儘量透過選擇相應的動作，使得我們能夠獲得資料，從而對於模型（或者模型的某些感興趣的部分，比如能夠帶來更高收益的部分）估計地更加準確。

對於 model-based 的演算法來講，我們可以維護一個模型的後驗分佈；對於 model-free 的演算法來講，我們可以維護一個價值函式的後驗分佈。注意這裡的價值函式的分佈和 distributional RL 的分佈講的不是一回事，這裡刻畫的時候 epidemic uncertainty，而 distributional RL 講的是 aleatoric uncertainty。

這篇文章主要用高斯分佈和 normal-gamma 分佈建模了 return 的分佈和其後驗估計，並匯出了相應的更新公式、探索方式。

內容

一、如何建模價值函式的後驗分佈？

大體上：規定 return 的分佈（return 的分佈是高斯分佈） -> 規定 return 分佈的分佈（return 分佈的引數的先驗/後驗服從 normal-gamma 分佈）。

先不考慮價值函式和策略需要相互迴圈，這裡假設已經有

$\pi^*$

了，然後需要估計價值函式的後驗分佈。這裡首先認為 return 服從正態分佈

$\mathcal{N}(\mu_{s,a}, \tau_{s,a})$

，其中

$\tau$

是方差的倒數。

同時假設先驗是相互獨立的，也不去管取樣的相關關聯性，這樣得到的後驗也是相互獨立的。

接下來，對於規定 return 分佈的引數的先驗分佈

使用這個先驗分佈的好處是，其後驗分佈也能相應地表示成 normal-gamma 分佈：

二、有了後驗分佈之後如何取樣以促進探索？

這裡考慮了幾種方法：

Greedy

即在每個狀態下就選擇

$\mathbb{E}[\mu_{s,a}]$

最大的動作；

Q-value sampling

在每個狀態下按照“每個動作可能成為最優動作的機率”選擇動作，這個機率是從後驗分佈裡面計算得來的；

實際操作可以按照後驗分佈（normal-gamma 分佈）取樣得到

$\mu_{s,a_1}, \mu_{s,a_2}, \cdots$

，然後選擇一個最大的來執行。

Myopic-VPI

VPI 是 value of perfect information 的簡稱。在每個狀態下選擇如下表達式數值最大的行動

VPI 的匯出過程如下：

首先這裡有一個假設，即如果選擇了某一個動作 a，那麼我就能知道這個動作相關的真實均值

$\mu^*_{s,a}$

。（在真實情況中，選擇了某個動作之後，也只能得到一個樣本，而不是其真實均值，不過這個假設不成立造成的影響可以在上式 VPI 前加一個較小的係數來緩解。）

VPI 的含義是，如果選擇了某個動作，期望能得到有多少新的資訊量。有效的資訊量（大於零）的有兩種：如果我選擇了一個目前看起來最優的動作，但是被證明其實不是最優，那資訊量就是這個動作的均值和次優動作均值的差；如果我選擇了一個目前看起來不是最優，但是後來被證明它比現在最優的還好，那麼資訊量就是該動作的均值和之前被認為最優動作的均值的差。公式寫出來如下：