【簡讀】Dueling RL: Reinforcement Learning with Trajectory Preferences

20211111 第89篇

arxiv。org/pdf/2111。04850。pdf

作者：Aldo Pacchiano， Aadirupa Saha， Jonathan Lee

Affiliations： Microsoft Research， Stanford University

本文屬於強化學習方向，但是所研究的問題卻和常規的強化學習問題有著不同的設定，在經典設定中，環境反饋的 reward function 是固定的（或者說其分佈是固定的）。目前有無數的工作致力於研究其 sample complexity 和 minimal regret，其中演算法的核心都在於 exploration 和 exploitation 之間的 balance。但是這一設定的缺陷在於，在實際的 task 中，reward function 往往是人為設計的，而我們學到的最優策略又與 reward design 關聯很大，甚至十分敏感。為了解決這一本質問題，我們推翻重來，跳出現有框架，轉而去研究一個新的問題，即：preference based reinforcement learning （PbRL），在這個設定中，關於 state， action， transition matrix 都與原來的一模一樣，只是如今我們沒有了 reward function。也就是說環境給予的反饋並不透過 reward 的方式實現，這雖然違背了人類“獎勵驅動行為”的底層機制，但是可以繞開一些技術上的問題。任意給定兩個 trajectory，環境可以幫助我們判斷它們之間的優劣關係，模型如下：

首先我們需要一個 embedding function for trajectories。

$\phi:S\times A\rightarrow \mathbb{R}^d$