2014年5月25日 星期日

剪刀石頭布重覆賽局

國小一年級和同學玩剪刀石頭布賽局,就發現採用以牙還牙策略(Tit-for-Tat:TFT)可以贏同學較多次,當時的班長還嘖嘖稱奇,問我用什麼方法?我當時不願告訴他,現在我來解釋為什麼會贏。
我們在上節證明如果是囚犯困境賽局進行長期的賽局,以牙還牙策略(Tit-for-Tat:TFT)的報酬是最高的。如果雙人賽局不是屬於囚犯困境的賽局,而殊死戰的零和賽局,用TFT的報酬還是最高的嗎?我們利用第三章的阿西與阿東雙人猜拳的報酬矩陣表4.12,來玩無限次的猜拳比賽,比賽前限定雙方策略規則如下:
1.阿西一直想贏上期阿東出的策略,例如:阿東上一期出「石頭」,阿西下一期認為阿西還會出「石頭」,於是出「布」。
2.阿東用TFT策略,採用阿西上期出的策略。例如:阿西上一期出「剪刀」,阿東下一期就出「剪刀」。
  
阿東
 
  剪刀石頭
阿西剪刀0, 0-1, 11, -1
石頭1, -10,0-1, 1
-1, 11, -10,0
      
表4.12雙人猜拳的報酬矩陣表
以下開始玩無限次的猜拳賽局:
1.假定第一期阿西出「石頭」,阿東出「剪刀」,第一期結果:阿東輸。
2.阿西會想阿東上期輸,猜阿東第二期一定會出「布」來贏我的「石頭」,所以我第二期出「剪刀」來贏阿東出的「石頭」。但是實際第二期阿東用TFT,用第一期(上一期)阿西出的「石頭」,來出第二期。
3.於是第二期阿西出「剪刀」而阿東出「石頭」,第二期結果:阿東贏阿西。
4.第三期阿西會想上期阿東出「石頭」贏,於是第三期猜阿東還是出「石頭」,於是出「布」想贏阿西第三期。第三期阿東用TFT,用第二期(上一期)阿西出的「剪刀」,來出第三期。
6.於是第三期阿西出「布」而阿東出「剪刀」, 第三期結果和上期一樣:阿東又贏阿西。
7.第四期阿西會想上期阿東出「剪刀」贏,於是第四期猜阿東還是出「剪刀」,於是出「石頭」想贏阿西第四期。第四期阿東用TFT,用第三期(上一期)阿西出的「布」,來出第四期。
8.於是第四期阿西出「石頭」而阿東出「布」, 第四期結果和上期一樣:阿東又贏阿西。
9.第五期阿西會想上期阿東出「布」贏,於是第五期猜阿東還是出「布」,於是出「剪刀」想贏阿西第五期。第五期阿東用TFT,用第四期(上一期)阿西出的「石頭」,來出第五期。
10.於是第五期阿西出「剪刀」而阿東出「石頭」, 第五期結果和上期一樣:阿東又贏阿西。
11.第六期阿西會想上期阿東出「石頭」贏,於是第六期猜阿東還是出「石頭」,於是出「布」想贏阿西第六期。第六期阿東用TFT,用第五期(上一期)阿西出的「剪刀」,來出第六期。
10.於是第六期阿西出「布」而阿東出「剪刀」, 第六期結果和上期一樣:阿東贏阿西。
以上第6項(第三期)和第10項(第五期)的結果一樣,只要阿西一直想贏上期阿東出的策略,而阿東只要用TFT策略,這演算法會一直重複下去(三期循環),阿東會一直贏阿西。阿西怎麼辦?總不能當一輩子的光叔(光輸)。
第三章我們算出阿西與阿東玩剪刀石頭布賽局的混合策略納許均衡為(1/3,1/3,1/3),雙方的「剪刀」「石頭」「布」三個策略的均衡機率各為1/3,阿西要用混合策略的方法,也就是用隨機亂數的方式來決定每一期出手的策略,機率「剪刀」=1/3、「石頭」=1/3、「剪刀」=1/3。這樣阿東就無法一直當常勝將軍了。
我們從以上例子發現:不只是囚犯困境的賽局,如果在限定的條件下,參賽者採用「TFT策略」一樣可以獲得較高的報酬。

沒有留言:

張貼留言