【簡讀】Dueling RL: Reinforcement Learning with Trajectory Preferences
20211111 第89篇
arxiv。org/pdf/2111。04850。pdf
作者:Aldo Pacchiano, Aadirupa Saha, Jonathan Lee
Affiliations: Microsoft Research, Stanford University
本文屬於強化學習方向,但是所研究的問題卻和常規的強化學習問題有著不同的設定,在經典設定中,環境反饋的 reward function 是固定的(或者說其分佈是固定的)。目前有無數的工作致力於研究其 sample complexity 和 minimal regret,其中演算法的核心都在於 exploration 和 exploitation 之間的 balance。但是這一設定的缺陷在於,在實際的 task 中,reward function 往往是人為設計的,而我們學到的最優策略又與 reward design 關聯很大,甚至十分敏感。為了解決這一本質問題,我們推翻重來,跳出現有框架,轉而去研究一個新的問題,即:preference based reinforcement learning (PbRL) ,在這個設定中,關於 state, action, transition matrix 都與原來的一模一樣,只是如今我們沒有了 reward function。也就是說環境給予的反饋並不透過 reward 的方式實現,這雖然違背了人類“獎勵驅動行為”的底層機制,但是可以繞開一些技術上的問題。任意給定兩個 trajectory,環境可以幫助我們判斷它們之間的優劣關係,模型如下:
首先我們需要一個 embedding function for trajectories。
是一個 state-action pair 的嵌入函式,然後對於一個trajectory,其嵌入函式就為其上所有 state-action pair 的嵌入之和:
對於兩個 trajectory
,它們誰優於誰符合一個隨機的機率,而且:
我們可以看到,只要
越大,它就越佔優。所以我們的 optimal policy 應該滿足:
自然,其中的
我們是不知道的。
這篇文章基於 preference-based RL 的設定,把傳統 RL 的 sample complexity 遷移了過來。一方面,作者們提出了一個演算法,在已知 transition dynamics 的條件下達到了 regret bound
另一方面,作者們把這一演算法推廣到了不知道 transition dynamics 的情形,regret bound為