在多智慧體強化學習中,有一些論文將attention框架作為通訊的基礎框架,因此我們需要了解什麼是attention,但看了許多多智慧體論文之後我發現他們用的attention和這個attention似乎有些區別,但anyway,這篇論文還是讓我理解了為什麼會出現attention這種結構。

推薦指數:★★★★★

本文適合閱讀人群:熟悉RNN與強化學習

本論文提出了一種基於注意力機制的任務驅動影象處理框架,將影象基於注意力機制的處理看作是控制問題,結合RNN和RL模型對該問題進行了解決,無論是需要學習的模型引數還是處理影象所需要的計算都獨立於輸入影象的尺寸。

模型框架

【神經網路】Attention:Recurrent Models of Visual Attention閱讀筆記

本模型基於RNN,每一時刻,智慧體首先處理感知到的資料,然後整合隨時間獲取的所有資訊,最後選擇

環境動作

以及下一時刻感知器要放置的位置。

感知器: 每一時刻智慧體只能觀測到環境(影象

x_t

)的部分資訊,本論文假設智慧體使用一個頻寬有限的感知器提取出影象

x_t

上位置

l_{t-1}

附近的一個類似於視網膜的表徵資料。感知器以較高的解析度編碼

l

附近的區域,然後以遞減的解析度編碼遠離

l

的畫素,最終能夠產生一個維度遠小於原影象

x

的向量。這種低解析度的表徵方法被稱為

glimpse

。glimpse感知器被用於

glimpse network

中,最終產生一個glimpse特徵向量

g_{t}=f_{g}\left(x_{t}, l_{t-1} ; \theta_{g}\right)

,其中

\theta_g=\{\theta^0_1,\theta^0_2, \theta^0_3\}

內部特徵:智慧體會儲存一個內部特徵,該內部特徵能夠總結從歷史觀測中提取到的所有資訊,它對智慧體對於環境的知識進行了編碼,從而能夠指導智慧體下一步的動作。內部特徵

h_t

依據核心網路(core network)更新:

h_{t}=f_{h}\left(h_{t-1}, g_{t} ; \theta_{h}\right)

。核心網路的輸入是glimpse特徵向量

g_t

動作:每一時刻,智慧體執行兩個動作:1)決定下一個時刻如何放置感知器,即決定

l_t

;2)決定能夠影響環境的動作

a_t

獎勵:根據任務型別來確定

這一過程是一個典型的部分觀測馬爾科夫過程(POMDP)。環境的真實狀態無法觀測,智慧體需要學習一個策略

\pi\left(\left(l_{t}, a_{t}\right) \mid s_{1: t} ; \theta\right)

,在每一個時刻

t

,將於環境的歷史互動

s_{1: t}=x_{1}, l_{1}, a_{1}, \ldots x_{t-1}, l_{t-1}, a_{t-1}, x_{t}

對映到下一個時刻的動作。在本論文中,策略用RNN來刻畫,而歷史

s_t

則總結在隱層特徵

h_t

中。

參考文獻

[1] V。 Mnih, N。 Heess, A。 Graves, and K。 Kavukcuoglu, ‘Recurrent Models of Visual Attention’,

arXiv:1406。6247 [cs, stat]

, Jun。 2014, Accessed: Oct。 11, 2021。 [Online]。 Available:

http://

arxiv。org/abs/1406。6247