「羅馬法官問題」的最佳策略是什麼?知乎使用者2016-11-04 17:53:16

我自己想到一種方法:

三個法官既然不可以交流,那麼他們的處境就非常類似於囚徒困境裡的罪犯,在這裡我想利用

機率

的方法。

記判有罪為1,判無罪為0

則罪犯最終被判為有罪的情況為

110 或 101 或 011

假設法官有機率p判其有罪,則1-p判無罪(可以用一個特製骰子)

那麼最終判為有罪的機率z=3*p*p*(1-p)

所以最佳策略就是在p∈[0,1]求z的最值

我算出來

p約等於0.66667時,z的最大值為0.444444。

這是我想到的最好方法了,但我覺得還是不夠好。

「羅馬法官問題」的最佳策略是什麼?Fork2016-11-04 23:08:56

既然都獨立的,那就是機率問題,

000

001

010

011

100

101

110

111

這裡面011,101,110是有罪的,也就是隨機判刑的話,3/8的機率有罪

這裡我覺得要做的就是減枝

假設有一位法官心理想著我直接判有罪,然後,剩下的隨機判那麼就變成了1/2的情況有罪

如果2位法官都認定有罪,第三個隨便判,那麼也是1/2,

當所有人協商好了,就是1

===============================

然後是不努力分佈

Ex=np這個地方最高,np=2,p=2/3;

這個可以找個篩子:

1,2,3,4——-Guilty;5,6——-innocent

==============================

Pr(G=2)=p1p2(1-p3)+p1(1-p2)p3+(1-p1)(p2)(p3);

看作是三元方程

f(x,y,z)=xy(1-z)+x(1-y)z+(1-x)yz=xy+xz+yz-3xyz, 0

求導,求極值。

因為f(x,y,z)在,x,y,z的空間裡面連續,所以存在最大最小值,又因為可微,所以最大最小值的點

極值為0,在內部找到

{x = 0, y = 0,y=0} {x = 2/3, y = 2/3, z = 2/3}

這兩個極值點,所以可以找到最大值就是2/3的時候,機率是3*2/3*2/3*1/3=4/9,所以這就是最好的結果了,當然,如果加入邊界的話,當然是(1,1,0),(1,0,1),(0,1,1)這三個點最好,肯定定罪。總之,(0,1)空間裡最大4/9,不足一半;

正方體的稜上的最大值大概就是前面的1/2

在正方體6個頂點,有3個頂點是100%

「羅馬法官問題」的最佳策略是什麼?趙金昊2016-11-05 06:02:06

其實問題描述中應該做如下的約定:所有法官必須遵循同一套策略。

不然的話,直接令他們投兩個有罪一個無罪就好了……這可以視為並非由交流得到的呀。

如此來說,就沒有什麼好方法了嗎?也不一定……大家可以想一想呀

在多年的司法實踐中,法官們總結出了一套經驗:【離罪犯最近的法官投無罪,其他人投有罪就好啦】~

犯罪嫌疑人:【不,這不公平!我至少有55。6%的機率可以被釋放的!你們這是作弊!】

法官:【嗯,看來你還是先去玩一下阿瓦隆比較好呀……】

「羅馬法官問題」的最佳策略是什麼?Richard Xu2016-11-06 02:29:09

謝邀

@雷徹

Part 1 計算部分

一般兩個人的時候我們可以畫支付

矩陣

,三個人的話,通常是這麼畫:G=有罪 N=無罪

「羅馬法官問題」的最佳策略是什麼?

「羅馬法官問題」的最佳策略是什麼?

紅圈圈出的是最優反應,所以可以看出有四個

純策略納什均衡

:(

@寨森

(1)A選擇無罪,BC選擇有罪

(2)B選擇無罪,AC選擇有罪

(3)C選擇無罪,AB選擇有罪

(4)ABC均選擇無罪

再考慮

混合策略納什均衡

(1)如果只有一個人混合,只可能發生在另兩人選N的情況下(否則都有唯一的最優反應),此時選擇G和N是indifferent的。不妨假設是A進行混合(p機率選G,1-p機率選N),BC均選擇N,對B(或者C來說),選N的期望收益是0,選G的期望收益是p,只要p>0就應該選擇G,矛盾。

故不存在一個人混合的混合策略納什均衡

(2)如果有兩個人混合,一個人不混合。不妨假設是A不混合,BC各自混合。如果A選純策略N,B混合,此時C的最優反應是G而不是混合,所以A的純策略只能是G。假定B進行混合(p機率選G,1-p機率選N),由

對手無差異性

,C選擇G的收益(1-p)和C選擇N的收益(p)應當相同才會混合,因此p=1/2。對稱的,C的混合也應當是1/2有罪1/2無罪。此時A選擇G的收益是1/2,選擇N的收益是1/4,所以A選擇G仍然是最優反應。

因此,存在兩個人混合的混合策略納什均衡:有一個人選擇有罪,另兩個人選擇混合策略1/2有罪1/2無罪。

(3)如果有三個人進行混合,假定ABC三個人選擇G的機率分別是pA、pB、pC,由

對手無差異性

A:pB(1-pC)+(1-pB)pC=pBpC pB+pC=3pBpC

B:pA(1-pC)+(1-pA)pC=pApC pA+pC=3pApC

C:pB(1-pA)+(1-pB)pA=pBpA pB+pA=3pBpA

pA-pB=3(pA-pB)pC

pA-pC=3(pA-pC)pB

pB-pC=3(pB-pC)pA

這個方程組只有一組解:pA=pB=pC=2/3

所以三個人都混合的混合策略納什均衡是所有人都選擇混合策略2/3有罪,1/3無罪。

這裡有一個有趣的地方(雖然和題目無關):這個博弈的純策略和混合策略納什均衡

總共有8個

,屬於不滿足“

奇數定理

”的那個零測集。關於奇數定理參見

@Manolo

的這個回答:

是不是所有 2×2 博弈中,有兩個純策略納什均衡就一定有一個混合策略納什均衡? - Manolo 的回答

Part 2 解答部分

求出如上的三人博弈的納什均衡只解決了部分問題,納什均衡的一個問題就是:

當存在多個納什均衡時,我們不知道具體會發生哪個納什均衡

如果法官

可以提前商量

的話,那麼完全可以約定好一個規則,使得按照規則會

有兩個人選擇有罪另一個人選擇無罪

;反之,如果

法官並不能提前商量

,以上所有均衡都可能會發生,因為所有均衡都是

每個人在對別人的正確信念(belief)下的最優反應

注意這裡有兩點Remark:

第一,

法官在無法溝通的情況下,並不一定會選擇最優解

。用如下的Stag Hunt Game說明更容易一些:

「羅馬法官問題」的最佳策略是什麼?

「羅馬法官問題」的最佳策略是什麼?

兩個人去狩獵,他們只有合作都選擇抓鹿才能成功,並得到收益5;如果不合作,那麼抓鹿的人抓不到鹿,收益是0,而抓兔子可以確保收益3。

此時的

最優解是都去抓鹿(收益5)

,但是

事實上也可能會發生都去抓兔子(收益3)

。這兩個都是納什均衡(還有一個混合策略納什均衡,期望收益是3)。

第二,儘管線性規劃解出的結果和三個人混合的混合策略納什均衡的結果相同,但是

在使用線性規劃的做法時,背後的想法是錯的,

因為這相當於認為

有人可以告訴這三個人應該做什麼

,這

違背了“各自獨立判決”

的原則。(而且,如果真的有人可以告訴這三個人應該做什麼,

為什麼不直接命令其中一個人選擇無罪呢

?)

而混合策略納什均衡的基礎是,每個人都對其他人有一個(rational)belief,根據這個belief他們各自選擇了行動,而且根據他們的行動,這個belief是正確的。注意這裡面每個人

仍然是各自做決定

,同時他們的理性是common knowledge,因此稱他們知道其他人知道他們會這麼做決定,也知道其他人知道他們知道其他人知道他們會這麼做決定……依此類推。

那麼是不是就完全無解了呢?並不是,我在這個回答

有哪些簡單但有效的制度設計? - Richard Xu 的回答

中提到過

Focal Point

的概念,由於某些博弈之外的知識(Knowledge),使得博弈中的某些納什均衡比其它均衡更有可能被選擇。特別注意,Focal Point並不是(或者說,並不需要)事前商量,它只是依賴於事前的其它資訊而已。

幾個經典例子:

例1:兩個學生因為出去玩誤了考試,他們決定向教授說謊,稱是因為車胎爆了所以沒能趕回來考試。教授接受了這個理由,並給他們安排了一次補考,補考卷發下來之後,上面只有一道題:

哪個車胎爆了?

如果這兩個學生之前真的有過車胎爆了的經歷,那麼他們就存在一個Focal Point,他們都會回答上次爆了的那個車胎。

例2:就是我提到的那個在紐約碰頭的例子,如果我們都只知道紐約有個地標建築帝國大廈,那麼我們在沒有交流的情況下也會選擇去帝國大廈碰頭。

在這個問題中,如果這三個法官不是第一次進行合作,而且以往也發生過這樣的事情,那他們在這一次即使

不進行交流

,也可以按照先前的經歷,由某一個人選擇無罪。

或者,如果三個法官當中有兩個人的性格一直就是堅持有罪就是有罪而不會判無罪,而另一個人則相對靈活一些,那麼

無需交流

,也能達成前兩個人判有罪後一個人判無罪這個均衡。

或者,如果大家都

認為

這個問題當中不應該堅持純策略,那麼所有人都選擇混合策略,就會得到2/3有罪1/3無罪這個混合策略,事實上我個人認為這確實是

現實中最有可能出現的納什均衡

。(注意我用了“

認為

”這個詞,因為並不是不能堅持純策略)

然而,Focal Point依賴於博弈以外的資訊,在問題中沒有附加資訊的情況下,我們無法知道會發生什麼。事實上,博弈中很少存在

獨立於其他人的選擇(或者說對其他人的選擇的信念)的最優策略

(如果有這樣的策略,被稱為Dominant Strategy,即佔優策略;囚徒困境當中的“背叛”就是佔優策略),絕大多數情況下最優策略都依賴於信念(belief)。

另外一個有趣的地方(和題目有點關係)是,在這個問題當中,如果把“有罪就是有罪,無罪就是無罪”的法官稱為“強硬”的,那麼:

如果沒有法官是“強硬”的,很有可能達成2/3有罪1/3無罪這個納什均衡,罪犯有4/9的機率被判有罪;

如果有1個法官是“強硬”的,很有可能達成該法官判有罪,另兩個法官1/2有罪1/2無罪的納什均衡,罪犯有1/2的機率被判有罪;

如果有2個法官是“強硬”的,很有可能達成這兩個法官判有罪,另一個法官判無罪的納什均衡,罪犯一定會被判有罪;

如果有3個法官都是“強硬”的,那就沒得玩了,罪犯一定會被判無罪。

「羅馬法官問題」的最佳策略是什麼?知乎使用者2016-11-06 10:01:45

混合策略納什均衡,設三個法官都以p機率判有罪,能三個無罪的機率是(1-p)^3 一個有罪有兩無罪的機率是 3*p*(1-p)^2,3個有罪機率是p^3

這三者加起來就是罪犯被判無罪的機率,最小化之就是最優決策