20211111 第89篇

arxiv。org/pdf/2111。04850。pdf

作者:Aldo Pacchiano, Aadirupa Saha, Jonathan Lee

Affiliations: Microsoft Research, Stanford University

本文屬於強化學習方向,但是所研究的問題卻和常規的強化學習問題有著不同的設定,在經典設定中,環境反饋的 reward function 是固定的(或者說其分佈是固定的)。目前有無數的工作致力於研究其 sample complexity 和 minimal regret,其中演算法的核心都在於 exploration 和 exploitation 之間的 balance。但是這一設定的缺陷在於,在實際的 task 中,reward function 往往是人為設計的,而我們學到的最優策略又與 reward design 關聯很大,甚至十分敏感。為了解決這一本質問題,我們推翻重來,跳出現有框架,轉而去研究一個新的問題,即:preference based reinforcement learning (PbRL) ,在這個設定中,關於 state, action, transition matrix 都與原來的一模一樣,只是如今我們沒有了 reward function。也就是說環境給予的反饋並不透過 reward 的方式實現,這雖然違背了人類“獎勵驅動行為”的底層機制,但是可以繞開一些技術上的問題。任意給定兩個 trajectory,環境可以幫助我們判斷它們之間的優劣關係,模型如下:

首先我們需要一個 embedding function for trajectories。

\phi:S\times A\rightarrow \mathbb{R}^d

是一個 state-action pair 的嵌入函式,然後對於一個trajectory,其嵌入函式就為其上所有 state-action pair 的嵌入之和:

\phi(\tau)=\sum_{i=1}^{K}\phi(s_i,a_i)

對於兩個 trajectory

\tau_1, \tau_2

,它們誰優於誰符合一個隨機的機率,而且:

P(\tau_1\succ\tau_2)=\frac{\exp(\phi(\tau_1)^{\top}w^*)}{\exp(\phi(\tau_1)^{\top}w^*)+\exp(\phi(\tau_2)^{\top}w^*)}

我們可以看到,只要

\phi(\tau)^{\top}w^*

越大,它就越佔優。所以我們的 optimal policy 應該滿足:

\pi^* = \arg\max_{\pi} \mathbb{E}_{\pi} \phi(\tau)^{\top} w^*

自然,其中的

\omega^*

我們是不知道的。

這篇文章基於 preference-based RL 的設定,把傳統 RL 的 sample complexity 遷移了過來。一方面,作者們提出了一個演算法,在已知 transition dynamics 的條件下達到了 regret bound

\widetilde{\mathcal O}\left(SHd\log(T/\delta)\sqrt{T}\right)

另一方面,作者們把這一演算法推廣到了不知道 transition dynamics 的情形,regret bound為

\widetilde{\mathcal O}\left((\sqrt{d}+H^2+|S|)\sqrt{dT}+\sqrt{|S||A|TH}\right)