摘要:介紹強化學習相關論文。

強化學習方面的最新研究論文

NeurIPS 2020 上的強化學習

以下是相關研究主題:

自然語言處理和對話式人工智慧

計算機視覺

強化學習

透過人工智慧和機器學習應對 COVID-19

NeurIPS 上的頂級強化學習研究論文

伯克利人工智慧研究實驗室 (BAIR) 在強化學習的前沿研究思想方面仍然是最富有成效的研究團隊之一。在今年的 NeurIPS 大會上,來自 BAIR 團隊、微軟研究院、卡內基梅隆大學、麥吉爾大學等研究實驗室的研究人員提出:

提高樣本效率和資料增強的新方法;

無人監督的環境設計;

多工強化學習的重新標記方法;

深度強化學習的潛變數模型;

離線強化學習的保守 Q 學習,等等。

Novelty Search in Representational Space for Sample Efficient Exploration(

https://

arxiv。org/abs/2009。1357

9

David Tao (McGill University), Vincent Francois-Lavet (McGill University), Joelle Pineau (McGill University)

提出了一種有效探索的新方法,該方法利用基於模型和無模型目標的組合學習環境的低維編碼。該方法使用基於低維表示空間中最近鄰居距離的內在獎勵來衡量新穎性。然後,利用這些內在獎勵進行樣本有效探索,並在表徵空間中規劃例程,以進行具有稀疏獎勵的困難探索任務。該方法的一個關鍵要素是使用資訊理論原理以某種方式塑造表示,以新穎性獎勵超越畫素相似性。在許多迷宮任務以及控制問題上測試了該方法,並表明與強基線相比,該探索方法具有更高的樣本效率。

程式碼:

官方程式碼(

https://

github。com/taodav/nsrs

)。

Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design(

https://

proceedings。neurips。cc/

/paper/2020/hash/985e9a46e10005356bbaf194249f6856-Abstract。html

Michael Dennis (BAIR), Natasha Jaques (Google Brain), Eugene Vinitsky (BAIR), Alexandre Bayen (BAIR), Stuart Russell (BAIR), Andrew Critch (BAIR), Sergey Levine (BAIR)

廣泛的強化學習 (RL) 問題——包括魯棒性、遷移學習、無監督 RL 和緊急複雜性——需要指定訓練策略的任務或環境的分佈。然而,建立一個有用的環境分佈很容易出錯,並且需要開發人員花費大量的時間和精力。我們提出無監督環境設計 (UED) 作為替代正規化,其中開發人員提供具有未知引數的環境,這些引數用於自動生成有效、可解決環境的分佈。現有的自動生成環境的方法存在常見的故障模式:域隨機化無法生成結構或使環境的難度適應代理的學習進度,而極小極大對抗訓練會導致通常無法解決的最壞情況。為了主agent代理生成結構化的、可解決的環境,引入了第二個對抗agent,它與生成環境的對手結盟。對手的動機是產生最大化回報(return)的環境,定義為主agent和對抗agent回報之間的差異。將該技術稱為主agent對抗誘導遺憾環境設計(PAIRED)。

程式碼:

官方 TensorFlow

https://

github。com/google-resea

rch/google-research/tree/master/social_rl

強化學習方面的最新研究論文

在 NeurIPS 2020 上配對

FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs(

https://

arxiv。org/abs/2006。1081

4v2

Alekh Agarwal (Microsoft Research), Sham Kakade (Microsoft Research), Akshay Krishnamurthy (Microsoft Research), Wen Sun (Microsoft Research)

為了處理強化學習 (RL) 中的維數災難,通常的做法是進行引數化假設,其中值或策略是某些低維特徵空間的函式。這項工作側重於表徵學習問題:如何學習這些特徵?在潛在(未知)動態對應於低秩轉換矩陣的假設下,展示了表示學習問題如何與特定的非線性矩陣分解問題相關。在結構上,在這些低秩 MDP 和潛在變數模型之間建立了精確的聯絡,展示了它們如何顯著推廣先前的公式,例如塊 MDP,用於 RL 中的表示學習。在演算法上,開發了 FLAMBE,它從事探索和表示學習,以在低秩轉換模型中證明有效的強化學習。在技術層面上,分析消除了在更簡單的塊 MDP 模型的先前結果中出現的可達性假設,並且可能具有獨立的興趣。

Rewriting History with Inverse RL: Hindsight Inference for Policy Improvement(

https://

arxiv。org/abs/2002。1108

9

Benjamin Eysenbach (Carnegie Mellon University, Google Brain), Xinyang Geng (UC Berkeley), Sergey Levine (UC Berkeley, Google Brain), Russ Salakhutdinov (Carnegie Mellon University)

多工強化學習 (RL) 旨在同時學習解決許多工的策略。一些先前的工作發現,用不同的獎勵函式重新標記過去的經驗可以提高樣本效率。重新標記方法通常會提出一個問題:事後看來,如果假設經驗對於某些任務是最佳的,那麼對於什麼任務它是最佳的?逆 RL 回答了這個問題。在本文中,展示了逆 RL 是一種跨任務重用經驗的原則性機制。使用這個想法將目標重新標記技術從先前的工作推廣到任意型別的獎勵函式。實驗證實,使用逆 RL 重新標記資料在達到目標的任務上優於先前的重新標記方法,並在先前方法不適用的更一般的多工設定上加速學習,

強化學習方面的最新研究論文

政策改進的事後推斷

Self-Paced Deep Reinforcement Learning(

https://

arxiv。org/abs/2004。1181

2

Pascal Klink (Technische Universität Darmstadt), Carlo D’Eramo (Technische Universität Darmstadt), Jan Peters (Technische Universität Darmstadt), Joni Pajarinen (Technische Universität Darmstadt, Aalto University)

課程強化學習 (CRL) 透過在整個學習過程中將代理暴露於一系列定製的任務中來提高代理的學習速度和穩定性。儘管取得了經驗上的成功,但 CRL 中的一個懸而未決的問題是如何為給定的強化學習 (RL) 代理自動生成課程,避免手動設計。在本文中,透過將課程生成解釋為推理問題來提出一個答案,其中逐步學習任務的分佈以接近目標任務。這種方法導致自動課程生成,其速度由代理控制,具有堅實的理論動機,並且易於與深度強化學習演算法整合。

程式碼:

官方程式碼實現(

https://

github。com/psclklnk/spd

l

)。

Reinforcement Learning with Augmented Data(

https://

arxiv。org/abs/2004。1499

0v5

Misha Laskin (UC Berkeley), Kimin Lee (UC Berkeley), Adam Stooke (UC Berkeley), Lerrel Pinto (New York University), Pieter Abbeel (UC Berkeley & covariant。ai), Aravind Srinivas (UC Berkeley)

從視覺觀察中學習是強化學習 (RL) 中一個基本但具有挑戰性的問題。儘管與卷積神經網路相結合的演算法進步已被證明是成功的秘訣,但當前的方法在兩個方面仍然缺乏:(a)學習的資料效率和(b)對新環境的泛化。為此,提出了增強資料強化學習 (RAD),這是一個簡單的即插即用模組,可以增強大多數 RL 演算法。在基於畫素和基於狀態的輸入上對 RL 的一般資料增強進行了第一次廣泛研究,並引入了兩種新的資料增強——隨機平移和隨機幅度尺度。展示了隨機平移、裁剪、顏色抖動、補丁剪下、隨機卷積等增強功能,幅度尺度可以使簡單的 RL 演算法在常見的基準測試中勝過複雜的最先進方法。RAD 在用於基於畫素的控制的 DeepMind 控制套件基準測試以及用於基於狀態的控制的 OpenAI Gym 基準測試中,在資料效率和最終效能方面設定了新的最先進技術。我們進一步證明,在幾個 OpenAI ProcGen 基準測試中,RAD 顯著改善了現有方法的測試時間泛化。

程式碼:

官方程式碼庫(

https://

github。com/MishaLaskin/

rad

)。

強化學習方面的最新研究論文

增強資料的強化學習

Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model(

https://

arxiv。org/abs/1907。0095

3v4

Alex Lee (UC Berkeley), Anusha Nagabandi (UC Berkeley), Pieter Abbeel (UC Berkeley & covariant。ai), Sergey Levine (UC Berkeley)

深度強化學習 (RL) 演算法可以使用大容量深度網路直接從影象觀察中學習。然而,這些高維觀察空間在實踐中提出了許多挑戰,因為策略現在必須解決兩個問題:表徵學習和任務學習。在這項工作中,透過明確學習可以加速影象強化學習的潛在表示來分別解決這兩個問題。提出了隨機潛在actor-critic(SLAC)演算法:一種樣本高效且高效能的RL演算法,用於直接從高維影象輸入中學習複雜連續控制任務的策略。SLAC 提供了一種新穎且有原則的方法,用於將隨機序列模型和 RL 統一為一個方法,透過學習緊湊的潛在表示,然後在模型的學習潛在空間中執行 RL。實驗評估表明,在一系列困難的基於影象的控制任務中,該方法在最終效能和樣本效率方面優於無模型和基於模型的替代方案。

程式碼:

https://

github。com/alexlee-gk/s

lac

)提供官方實現。

Conservative Q-Learning for Offline Reinforcement Learning(

https://

arxiv。org/abs/2006。0477

9v3

Aviral Kumar (UC Berkeley), Aurick Zhou (UC Berkeley), George Tucker (Google Brain), Sergey Levine (UC Berkeley, Google Brain)

在強化學習 (RL) 中有效利用以前收集的大型資料集是大規模現實世界應用程式的關鍵挑戰。離線 RL 演算法承諾無需進一步互動即可從先前收集的靜態資料集中學習有效策略。然而,在實踐中,離線 RL 提出了一個重大挑戰,標準的 off-policy RL 方法可能會由於資料集和學習策略之間的分佈偏移引起的高估值而失敗,尤其是在對複雜和多模態資料分佈進行訓練時。 在本文中,提出了保守 Q 學習 (CQL),旨在透過學習保守 Q 函式來解決這些限制,使得該 Q 函式下策略的預期值低於其真實值。從理論上表明,CQL 對當前策略的價值產生了下限,並且可以將其納入具有理論改進保證的策略學習過程中。在實踐中,CQL 使用簡單的 Q 值正則化器增強了標準的 Bellman 錯誤目標,該正則化器在現有的深度 Q 學習和 actor-critic 實現之上很容易實現。在離散和連續控制域上,表明 CQL 大大優於現有的離線 RL 方法,通常學習的策略可以獲得高出 2-5 倍的最終回報,尤其是在從複雜和多模態資料分佈中學習時。CQL 使用簡單的 Q 值正則化器增強了標準的 Bellman 誤差目標,該正則化器在現有的深度 Q 學習和 actor-critic 實現之上很容易實現。在離散和連續控制域上,我們表明 CQL 大大優於現有的離線 RL 方法,通常學習的策略可以獲得高出 2-5 倍的最終回報,尤其是在從複雜和多模態資料分佈中學習時。CQL 使用簡單的 Q 值正則化器增強了標準的 Bellman 誤差目標,該正則化器在現有的深度 Q 學習和 actor-critic 實現之上很容易實現。在離散和連續控制域上,表明 CQL 大大優於現有的離線 RL 方法,通常學習的策略可以獲得高出 2-5 倍的最終回報,尤其是在從複雜和多模態資料分佈中學習時。

程式碼:

https://

github。com/aviralkumar2

907/CQL

)提供官方實現。

NeurIPS 的其他重要研究論文

我們還想重點介紹兩篇不屬於任何特定應用類別的傑出研究論文:

耶魯大學研究團隊為深度學習設計的

AdaBelief Optimizer

麻省理工學院研究人員用於符號迴歸的

AI Feynman 2.0

AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients(

https://

arxiv。org/abs/2010。0746

8v2

Juntang Zhuang (Yale University), Tommy Tang (University of Illinois Urbana-Champaign), Yifan Ding (University of Central Florida), Sekhar C Tatikonda (Yale University), Nicha Dvornek (Yale University), Xenophon Papademetris (Yale University), James Duncan (Yale University)

最流行的深度學習最佳化器可以大致分為自適應方法(例如 Adam)和加速方案(例如具有動量的隨機梯度下降(SGD))。對於卷積神經網路 (CNN) 等許多模型,與 SGD 相比,自適應方法通常收斂得更快,但泛化性更差;對於生成對抗網路 (GAN) 等複雜設定,自適應方法通常是預設設定,因為它們具有穩定性。建議 AdaBelief 同時實現三個目標:自適應方法中的快速收斂、SGD 中的良好泛化和訓練穩定性。AdaBelief 的直覺是根據當前梯度方向的“信念”調整步長。將噪聲梯度的指數移動平均 (EMA) 視為對下一時間步的梯度的預測,如果觀察到的梯度與預測偏差很大,不信任當前的觀察並採取一小步;如果觀察到的梯度接近預測,相信它並邁出一大步。在廣泛的實驗中驗證了 AdaBelief,表明它在影象分類和語言建模方面以快速收斂和高精度優於其他方法。具體來說,在 ImageNet 上,AdaBelief 達到了與 SGD 相當的準確度。此外,在 Cifar10 上的 GAN 訓練中,與經過良好調整的 Adam 最佳化器相比,AdaBelief 展示了高穩定性並提高了生成樣本的質量。在廣泛的實驗中驗證了 AdaBelief,表明它在影象分類和語言建模方面以快速收斂和高精度優於其他方法。

程式碼:

https://

github。com/juntang-zhua

ng/Adabelief-Optimizer

)提供官方實現。

AI Feynman 2。0: Pareto-optimal symbolic regression exploiting graph modularity(

https://

arxiv。org/abs/2006。1078

2v1

Silviu-Marian Udrescu (MIT), Andrew Tan (Massachusetts Institute of Technology), Jiahai Feng (MIT), Orisvaldo Neto (MIT), Tailin Wu (Stanford), Max Tegmark (MIT)

提出了一種符號迴歸的改進方法,該方法旨在將資料擬合到帕累托最優的公式,在給定複雜性的意義上具有最佳精度。它透過通常對噪聲和不良資料的魯棒性提高了幾個數量級,並且還發現了許多難倒以前方法的公式,從而改進了之前的最新技術。開發了一種從神經網路擬合的梯度屬性中發現廣義對稱性(公式計算圖中的任意模組化)的方法。使用歸一化流將符號迴歸方法推廣到只有樣本的機率分佈,並使用統計假設檢驗來加速強大的蠻力搜尋。

程式碼:

https://

ai-feynman。readthedocs。io

/en/latest/

)提供官方實現。

強化學習方面的最新研究論文

強化學習方面的最新研究論文