Reinforcement Learning, Fast and Slow

Cells - Trends in Cognitive Sciences 2019 Deepmind做的一個review型別的工作(四處刷知乎發現的文章,標題太吸引人了,索性繼續看了,不過這個期刊好強yyds)

1 研究的問題

雖然RL能下棋啊,打遊戲打敗人類,但是訓練一個這樣的agent需要的資料量要比人類達到同等水平要的資料量要大好多個數量級。所以,得出結論:

❗️ RL is powerful but slow(i.e. sample inefficient)

2 Slowness的來源

(1)the requirement for incremental parameter adjustment

用梯度方法更新引數去尋優的時候,小步長更可能獲得更優值,而大步長可能會導致網路訓練的不穩定,或者完全覆蓋掉先前Learning的結果(catastrophic interference)。

更新網路引數時為了穩定性和最優值,不得不選擇小步長,而這正是慢的原因之一。

(2)weak inductive bias

文中提出“strong inductive bias is what allows fast learning“, 而顯然通常的Neural Network 的歸納偏置比較少,假設空間很大,也就是low-bias learning systems,這就導致了sample-inefficient。 如果假設空間能夠縮小,而且最優解保持在假設空間中,那麼演算法效率高。

❗️ 文中認為提升sample efficiency 的兩個

關鍵方法

是:

(1) Episodic Deep RL ; (2) Meta-Learning

3 Episodic Deep RL: Fast Learning through Episodic Memory

前面提到,incremental parameter adjustment是slowness的來源之一。那麼,learn faster一個可行路徑就出現了:avoid such incremental updating!

如果我們直接去增大梯度下降時候的學習率,肯定不行,會導致catastrophic interference。

那麼episodic DRL就是個很好的選擇了,它的做法是:當前情況的內部表徵與儲存的過去情況的表徵進行比較。根據與當前情況最相似的過去情況的結果,選擇的行動是與最高價值相關的行動(感覺是個特徵值的查表匹配)。

題外話,早上看的一篇NeurIPS 2007的文章Hippocampal Contributions to Control: The Third Way講了episodic memory的在缺乏資料情況下的好處,它把我們通常的梯度下降方法定義為semantic memory(存機率分佈),而episodic memory是存特定的samples的,這個能帶來computational benefit。

當然,episodic DRL存在一個問題,就是對於observation的表徵還是得靠incremental parameters updating。

✔︎

Conclusion:

Fast Learning is enabled by slow learning。 (這個挺make sense的,畢竟對於人類也是一樣的,冷啟動學習總是慢的)

4 Meta-RL: Speeding up Deep RL by Learning to Learn

前文中提到了縮小假設空間(hypothesis set)可以加快學習,但這個是基於引入的strong inductive biases 是滿足我們最終要學會的最優點區域的。這是一個bias-variance 的trade-off, bias弱的時候,variance大,搜尋空間大,獲得最優值的機率也高,但是收斂速度也會慢。因此,這裡一個關鍵問題就是:how can the learner know what inductive biases to adopt?

一個自然的想法:利用過去的經驗去加速新的學習。這也是meta-learning的想法(learn to learn),也就是在一系列相關的RL任務上訓練(相當於給了inductive bias),這樣在新任務下也可以快速學會。

[強化學習4] Reinforcement Learning, Fast and Slow

這是一個Meta-Learning的例子,一個RNN在一系列相關的RL任務上訓練。網路中的權重調整非常緩慢,因此它們可以吸收任務之間的共性,但不能快速改變,以支援任何單個任務的解決方案。具體而言,每一次從環境的分佈中取樣得到一個環境,對於這個取樣的環境進行策略學習。內層能夠快速學會特定的任務,外層給的就是不同任務學習後得到的一個先驗

✔︎

Conclusion:

fast learning arises from, and is enabled by, slow learning。 (Once again)

5 Episodic Meta-RL

結合Episodic DRL 和Meta Learning -> Episodic Meta-RL。其中Meta-Learning 還是用RNN學hidden states, 之前episodic DRL 是把episodic memory link 到contexts with value estimates, episodic Meta-RL 則是link with stored activity patterns。

References: