為什麼要引入馬爾可夫性質到強化學習?快快到碗裡去2019-02-06 13:31:38

在強化學習中,agent與environment一直在互動。在每個時刻t,agent會接收到來自環境的狀態s,基於這個狀態s,agent會做出動作a,然後這個動作作用在環境上,於是agent可以接收到一個獎賞Rt+1Rt+1,並且agent就會到達新的狀態。

為什麼要引入馬爾可夫性質到強化學習?

所以,其實agent與environment之間的互動就是產生了一個序列:

S0,A0,R1,S1,A1,R2,。。。

我們稱這個為序列決策過程。而馬爾科夫決策過程就是一個典型的序列決策過程的一種公式化。有了馬爾科夫的假設,在解決這個序列決策過程才比較方便,而且實用。所以這也是這一節為何要學習馬爾科夫決策過程的原因了。

——————————-

為什麼要引入馬爾可夫性質到強化學習?