夏乙

嶽排槐

發自 凹非寺

量子位 出品 | 公眾號 QbitAI

先別說話。

給自己幾分鐘的時間,玩一下這個遊戲,看看是否能順利通關。幾分鐘就好,別為難自己。因為普通人通關平均需要20分鐘。

遊戲地址:

https://

high-level-4。herokuapp。com

/experiment

推薦在PC端開啟,手機端玩不了。如果不在電腦前,可以看看我們試玩的動圖:

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

這是什麼鬼?簡直有點變態級的難度。

從某種程度上說,你在體驗AI打遊戲的感覺。

最近幾年,大家一方面讚歎AI自行學會了玩打磚塊等雅達利遊戲,而且達到甚至超過了人類玩家的平均水平。

另一方面大家也質疑說,人類看一眼就能上手的遊戲,AI卻需要學習非常久的時間。為什麼機器和人類之間的學習效率差這麼多?

加州大學伯克利分校

有一組科學家,就正在研究這個問題。

區別可能在於:人類帶著一大堆從現實世界中得來的

先驗知識

(prior knowledge)進入遊戲,大大提高了決策效率。

什麼意思?

還是基於開頭讓大家試玩的小遊戲,讓我們跟隨

伯克利

的研究人員們,一起來感受下。

定量分析

來,開始實驗。

先看看遊戲原始的樣子。

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

即便你不玩遊戲,也能看出來,玩家應該躲避粉色的怪物、地刺路障,然後透過跳躍和爬梯子,拿到右上角的鑰匙,接著開啟左上角的大門。

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

如果你想試玩,地址在:

https://

dry-anchorage-61733。herokuapp。com

/experiment

實驗表明,人類很快就能上手這個遊戲。平均完成時間1。8分鐘,平均死亡次數3。3,遊戲路徑探索達3011種。

好,接下來加大難度。

去掉語義

梯子的形狀,就是它的語義。人類看到梯子的形狀,就能聯想到可以攀爬。語義的重要性幾何?實驗方法很簡單,去掉遊戲中各種物體的細節,只用統一的色塊來表現。

整個遊戲就變成下面的樣子。

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

在這種遊戲中,人類完成遊戲的平均時間增加到4。3分鐘,死亡次數增加到11。1次,遊戲路徑探索達7205種。

試玩地址在此:

https://

boiling-retreat-38802。herokuapp。com

/experiment

你有沒有覺得其他玩家弱爆了?其實你忽略了一點。由於文章的表述結構,你先玩了正常版的遊戲,但如果你並不知道遊戲的原始設定,就能感覺出來遮蔽

語義資訊

的遊戲有多難。

因為在原始遊戲中,鑰匙和大門都可見。人類自然能想到先獲取鑰匙,再去開門。在遮蔽語義的版本中,玩家無從獲知這種資訊。

120位參與者中,只有42位在抵達“大門”(藍色方塊)之前,先取得了“鑰匙”(橙色方塊)。而且與原始遊戲相比,玩家獲取“鑰匙”後抵達“大門”的時間更長。

這個結果表明,在沒有語義的情況下,人類無法推斷獎勵結構,從而顯著增加了探索的時間。

為了進一步量化語義的重要性,接下來這個實驗不是簡單的遮蔽,而是改變了語義。

遊戲中粉色的怪物和地刺路障,替換成有正面含義的金幣和冰淇淋;而梯子、鑰匙和大門,分別被替換成有負面含義的火焰、地刺路障和粉色怪物。

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

這樣一來,參與實驗的玩家花了更長時間來過關。平均耗時6。1分鐘,死亡次數13。7次,遊戲路徑探索達9400種。這個結果表明,語義翻轉比遮蔽更具迷惑性。

混淆物體

雖然上述遮蔽之後,遊戲裡的物體都沒有傳達語義,但它們與背景截然不同。人類很容易推斷這些引人注意的物體是子目標,展開比隨機搜尋更有效的行動。

為了測試這一點,小遊戲的迷惑性進一步升級。平臺上每個空間位置,都使用了不同的

色塊

填充,然而大多數都是毫無作用的色塊。代表實際物體的色塊,位置和之前相同。當然,如果你是第一次玩這個遊戲,這次絕對要懵逼一下了。

遊戲畫面如圖。

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

試玩地址:

https://

high-level-1。herokuapp。com

/experiment

實驗結果:人類玩家平均通關時間是原來的四倍,達到7。7分鐘;死亡次數達到20。2;遊戲路徑探索達12232種。找到鑰匙與開啟門之間的耗時進一步增加。

抹平功能可視性

到目前為止的種種“折騰”,已經說明推斷出遊戲的基本獎勵結構,並不是一件易事。不過整個遊戲仍然對人類玩家有利。遊戲畫面中還是能很清楚的看到,各個平臺的位置,以及平臺之間的相互連線,黑色背景出賣了這一切。

怎麼辦?

抹平功能可視性的一種方法,就是用隨機紋理填充空白的區域。這些紋理與用於渲染梯子和平臺的紋理相似。再強調一下,這次實驗中各種物體的語義清晰可見。

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

試玩地址:

https://

fierce-sierra-47669。herokuapp。com

/experiment

實驗結果:人類平均通關時間4。7分鐘,死亡次數10。7,遊戲路徑探索達7031種。這個結果與遮蔽語義時相比,差異不大。可以認為,可視性與語義同等重要。

一旦人類玩家意識到,可以站在或者攀爬特定的紋理,就很容易透過

相似性

識別其他的平臺和梯子。看起來相同的事物,人類會認為具有相同的性質。

接下來繼續提升難度。

這次每個平臺和梯子的紋理

全都不同了

。人類再也無法用相似性展開推斷。

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

試玩地址:

https://

high-level-3。herokuapp。com

/experiment

這一次,人類平均通關時間7。6分鐘,死亡次數14。8,遊戲路徑探索達11715種。結果表明,視覺相似性是人類在遊戲中第二類重要的知識。

改變互動

以上,都是與視覺相關的研究。在這個遊戲中,玩家還得知道如何與不同的物體互動。例如遇到粉色的

怪物

可以跳過去,遇到梯子可以按上鍵⬆️往上爬。但是,深度強化學習控制的

智慧體Agent

並沒有這種先驗知識,必須一點點摸索如何與物體互動。

為了測試這種先驗知識的重要性,一個新的遊戲版本被建立了。我們先不說到底哪裡有了改動,你可以自己試試看。

試玩地址:

https://

calm-ocean-56541。herokuapp。com

/experiment

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

如上面動圖所示,單純按上鍵是沒辦法爬梯子的,在按住上鍵的同時,還得交替反覆按下左鍵和右鍵。

與原版遊戲相比,這個小改動將平均遊戲時間延長到3。6分鐘,死亡次數6,遊戲路徑探索達5942次。

終極挑戰

最後,綜合上述種種,就產生了開頭提到了變態級難度的小遊戲。

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

人類完成這個小遊戲的平均時間增加到20分鐘,死亡次數達40,各種遊戲路徑探索的次數提高了9倍。

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

這個遊戲實在是太難了,玩家放棄的比例非常高。

但這還不是最難的,其實伯克利的研究人員還搞出一個更難的版本。在那個版本里,重力方向做了翻轉,按鍵的響應也做了隨機的對映。

即便是玩過無數次的研究人員,也很難完成這個版本。

而且,他們也沒有放出這個版本的試玩地址。(如果哪位老師自己探索出來了,希望留言給我們)

當然還有一個

重力方向

旋轉90°的版本,可以挑戰一下。

地址:

https://

tranquil-earth-53211。herokuapp。com

/experiment

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

討論

這篇論文的實驗結果顯示,強化學習演算法再強,如果想像人類一樣高效完成獎勵稀疏的任務,還要從人類的認知中學習很多東西。關於物體的先驗知識,就在打遊戲這個獎勵稀疏的任務上幫了人類的大忙。

不過,有強大的

先驗

也不一定總是好事,有時候會限制探索範圍,以後的研究也應該注意在某些環境中,對探索少加約束。

另外,人類對於遊戲的先驗知識其實遠不止這篇論文所探討的“物體”,人們在打遊戲時還會假設遊戲有目標,右鍵上鍵通常是往前走等等。這些先驗,也都很值得探索。

研究人員最後根據實驗,對先驗知識的分類和重要性進行了排序。如下圖所示:

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

這項研究的論文Investigating Human Priors for Playing Video Games發表在ICLR 2018 Workshop上。

論文一作Rachit Dubey是伯克利

計算認知科學

實驗室的博士,其他作者也都來自伯克利,包括計算機系的博士生Pulkit Agrawal和Deepak Pathak,以及一作和三作的導師:計算認知科學實驗室主任Tom Griffiths和Alexei Efros。

影片講解

關於這篇研究論文,如果你有興趣,還可以看看這段講解影片。

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京

中關村

。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ‘ᴗ’ ի 追蹤AI技術和產品新動態