小蜜蜂問答

小蜜蜂問答

為什麼要引入馬爾可夫性質到強化學習？

快快到碗裡去發表于家居2022-01-12

快快到碗裡去2019-02-06 13:31:38

在強化學習中，agent與environment一直在互動。在每個時刻t，agent會接收到來自環境的狀態s，基於這個狀態s，agent會做出動作a，然後這個動作作用在環境上，於是agent可以接收到一個獎賞Rt+1Rt+1，並且agent就會到達新的狀態。

所以，其實agent與environment之間的互動就是產生了一個序列：

S0，A0，R1，S1，A1，R2，。。。

我們稱這個為序列決策過程。而馬爾科夫決策過程就是一個典型的序列決策過程的一種公式化。有了馬爾科夫的假設，在解決這個序列決策過程才比較方便，而且實用。所以這也是這一節為何要學習馬爾科夫決策過程的原因了。

——————————-

上一篇：<<朋友借了我5000塊一年多隻還了六百，催收不還有借條能起訴麼？有何依據？

下一篇：你怎麼看李敏鎬發福過氣被秀智拋棄這件事？>>

標籤： Agent 馬爾科夫決策序列 environment