重複很多次之後，囚徒困境中的雙方會選擇合作嗎？

06-11

有限次博弈是否存在合作？

陳茁，我是不是萌萌噠？

這個問題的題干是「有限次博弈是否存在合作」，按照我的理解這是對「無名氏定理」的一個延伸。無名氏定理宣稱，囚徒困境博弈是存在解決方案的，這個解決方案是「重複博弈」。而這個解決方案的成立至少要求兩個必要條件：1. 博弈必須是無限次，或者至少，博弈的參與人認為博弈是無限次的；2. 參與人要有足夠的耐心，用指數貼現的跨期效用函數來說，就是貼現因子足夠接近 1。那麼，很多人自然就會有想法：當這兩個假設不成立的時候，是否存在合作的可能性？因此，應該考慮的是「有限次囚徒困境博弈是否存在合作」。因為畢竟，有很多靜態博弈當中就是存在合作現象的。

事實上，在過去的接近四十年的時間裡，「囚徒困境中的合作」是行為經濟學家率領一眾社會學家、人類學家甚至是生物學家對傳統經濟學的一次大反撲。這次反撲來自於大約在 1982 年人們觀察到了最後通牒博弈中的合作行為。最後通牒博弈並不是囚徒困境博弈，但是它們之間其實並不是全然沒有聯繫，特別是這個問題而言。這類博弈實際上描繪了「有限輪討價還價博弈」中的最後一輪，在這個博弈最原初的「故事」中，兩個議價者都已經喪失了耐心，於是一個議價者提出了一個報價，並威脅對方：要麼接受這個報價，要麼談判破裂。在雙邊壟斷的背景下，如果談判破裂雙方都無利可圖，所以預期到這一點的報價者應該會儘可能地壓縮對方得到的交易剩餘。但是這個「應該會」在實驗室中沒有被觀察到，在這四十年中，不斷有人質疑：

是不是實驗給的錢太少了所以被試們沒有認真玩？

是不是實驗用的被試都是在校大學生所以並不習慣於現實中的經濟互動？

是不是實驗做的次數太少了，等大家多玩幾次就沒有這個現象了？

這些質疑在這四十年中的大量（我不知道是不是有更誇張的詞能夠替換「大量」，我總覺得大量不足以描述這方面研究的數量之多）的實驗室數據告訴我們：你們這些質疑並不能完全解釋最後通牒博弈當中的合作行為。那麼，只有一種可能了：人們在意公平，願意為了公平犧牲物質利益。諾獎得主 Vernon Smith 從進化生物學的角度認為，這種僅見於高級靈長類動物的對公平的追求，才是人類能發展出市場經濟這種合作模式的根本，也就是說，市場經濟與公平之間的關係，非但不是對立的，反而是不能分割的。

我在這裡之所以要跑題說最後通牒博弈，是因為我們在最後通牒博弈當中得出的結論，其實放到囚徒困境博弈當中看起來是可以無縫對接的：因為人們在意公平，所以寧可合作。當然，我覺得這沒有問題，基於這個對個人偏好的限定，其實討論「有限次」還是「無限次」都沒有必要，單次囚徒困境博弈也是有合作解的。行為經濟學家 Matthew Rabin 在他 1993 年的力作中，利用 1989 年 GPS 合寫的「心理博弈理論」探究了當人們在意「別人怎麼看自己」和「別人怎麼看自己怎麼看別人怎麼看自己」等等高階信念的時候博弈中的合作解有怎樣的性質，我認為這是最正確的思路。千禧年之後，很多人的研究也在人的效用函數中加入了諸如身份、內疚等等社會心理因素，也能解釋囚徒困境中的合作。在這些研究中，根本就沒有「重複」什麼事兒。這些都與現實中的觀察一致，特別是實驗經濟學家對於公共物品供給的實驗研究，這是實驗經濟學經久不衰的最火的主題，沒有之一。

按理說，如果要解釋現實，他們的答案都已經足夠了，但是，這樣的解釋在某個層面上是有問題的，原因是實際上「囚徒困境博弈」的定義在這些解釋中是非常模糊的。其實，存在兩種層面的囚徒困境博弈：一是現實中的囚徒困境博弈，比如所謂的「公地的悲劇」，二是理論上的囚徒困境博弈，它是由教科書上常見的 2×2 收益矩陣定義的。這裡提醒各位注意：我們之所以認為第一個層面的囚徒困境博弈是一個囚徒困境博弈，是因為我們已經隱含地假設了「收益全部是物質的」，而當你從中發現收益不只是物質的這一點，你只能說明這不是一個囚徒困境博弈而已，而不能說明囚徒困境博弈存在合作解。這也是我不同意這些答案的原因：修改過效用函數的所謂囚徒困境博弈，根本就不是囚徒困境博弈。所以，這些答案的本質是答非所問的，就相當於我問你「囚徒困境博弈是不是存在合作」，你找了另外一個博弈告訴我存在合作，這是錯的。

同樣的道理，增加諸如報復、冷戰這樣的策略也不是囚徒困境博弈，同樣答非所問。

我的這個觀點也被賓默爾提出過。賓默爾在他 1994 年的《博弈論與社會契約》中提到：

數學定理一定都是同義反覆。數學定理是不可能錯的，因為它們並沒有說出任何實質內容，它們只是說出了事物是怎麼定義的而已。博弈論中的基本命題也有相同的特徵。（pp. 96）

因此，囚徒困境博弈存在合作解的唯一可能不是效用函數的設定有問題，而是納什均衡這個概念有問題。囚徒困境博弈的唯一的納什均衡就是互相背叛，這一點就像賓默爾說的那樣，是我們對收益矩陣的定義所決定的，是一種同義反覆，所以也就是不可能錯的。

如果我們在實驗室中能夠構建出真的囚徒困境博弈，也就是說，排除了任何個人偏好的干擾，那麼出現合作的唯一可能是大家不按照納什均衡所建議的那樣行動。所以，我們就必須要看納什均衡這個概念本身有什麼問題，當然，這個問題非常明顯，納什均衡要求理性的共同知識。這裡就涉及到 epistemological game theory 的內容了：簡單說，納什均衡出現要求博弈中的參與人互相相信對方也按照納什均衡指定的策略出招，即所有人都相信對方按照納什均衡的指示行動時，自己按照納什均衡的指示行動是最優的。但是這個信念並不是不言自明的，雖然從每種角度來看這個信念都是正確的，但正確的事情不發生有什麼稀奇呢？引汪丁丁教授在《交易費用與博弈均衡》中的一段話（剛翻譯完斯蒂格利茨的 Live，實在不想翻譯外文文獻了……）：

為了明確，我把甲的推理過程逐步列出：（1）甲選擇「不合作」的理由是什麼呢？如果他認為乙將會合作，他必定不會選擇「不合作」的策略，所以他必將認為乙將不合作。（2）為什麼甲認定乙將不合作呢？甲必定是已經設身處地在乙的位置上認定了甲將選擇「不合作」策略；因為否則乙必定會選擇「合作」，而不是不合作。（3）為什麼乙認定甲將不合作呢？在甲的推理中乙必定是已經設身處地在甲的位置上認定了甲認為乙將選擇「不合作」，所以甲將選擇「不合作」，所以乙才選擇「不合作」。（4）歸納原理可以推出，甲選擇不合作的理由是，甲認為：「乙認為：『甲認為』」……這是一個無限回歸推理過程。在這個推理鏈條中任何一個環節都需要假設以前所有環節所需要的假設。

所以，也難怪米羅斯基覺得納什均衡這種東西若不是納什這樣精神有問題的人是不可能想得出來的。

那麼下面，我們要問的問題就是，人們是不是會按照納什均衡給出的建議來行動。

關於這一點，最經典的證據莫過於脫胎於凱恩斯《通論》中「長期預期狀態」一章提到的「選美比賽博弈」。這個博弈的一個簡化版本是這樣的，所有人從 1 到 100 中猜一個數，誰的猜測最接近所有人平均數的 1/2，誰就得到獎勵。如果人們真的像納什均衡所預測的那樣有理性的共同知識，你的邏輯應該是這樣的：如果按照古典概型猜，平均數應當是 50，那我就猜 25，可是所有人都是這麼想的，所以我應該猜 12.5 才對……周而復始，博弈的唯一納什均衡是所有人都猜 1。可現實呢？我就不在這裡羅列實驗結果了，只能說我們當時玩的時候平均數是 14，因為我事先知道了這個遊戲的目的，我猜了 16，大差不差。提醒大家注意：當時的我絕對沒有任何「不理性」，僅僅是我預測到了很多人是不理性的而已。

另外一個很好的例子是剪刀石頭布博弈。當年這方面的研究發表出來的時候，很多人不理解做科研的人們都在幹嘛。根據經典博弈論的預測，剪刀石頭布博弈的唯一納什均衡是「完全隨機出招」，即決策者為三個招數賦予相同的概率：1/3。但是在重複博弈中我們發現，人們並沒有充分地隨機化自己的策略，而是遵循了「勝者不變」的策略。但是你要知道，這個策略肯定不是一個均衡，因為發現了這個規律的對手可以利用這個規律。

有這兩個例子，我們知道，納什均衡本身就不是一個對我們行為的好的預測，而是一個需要較高門檻的東西。

在重複博弈中，除了要求納什均衡，還要求「逆向歸納」。支撐「有限次博弈不能產生合作行為」這一命題的推理是這樣的：首先給定納什均衡，雙方在最後一輪一定會相互背叛，那麼，在倒數第二輪雙方就沒有通過合作來建立聲譽的必要性了。那麼，再給定雙方在倒數第二輪一定會相互背叛，那麼，在倒數第三輪就沒有通過合作來建立聲譽的必要性了。以此類推，雙方一定在第一輪就相互背叛。這段推理的本質就是逆向歸納，從控制論的角度，這是一個封閉的問題，因此是「可解的」，於是從最後一輪逆推到第一輪，得出了輪輪背叛的結果。當然，傳統的博弈理論對逆向歸納和它的孿生姐妹「子博弈完美」（如果沒有納什均衡則兩者並不等價）的批評主要在於：1. 它們不能保證「顫抖手完美」，2. 它們不能解釋「意外考試悖論」。但在我看來，逆向歸納這種推理過程本身，與納什均衡類似，也有對博弈參與人智能性的較高要求。

我們之所以願意相信納什均衡和逆向歸納的正確，是因為它是所謂「重複剔除劣策略」的結果，隱含地保證了參與人的「理性」。但是，是不是按照納什均衡的建議行動就是最好的呢？問這個問題的原因是，我們不妨猜測：如果納什均衡是最好的，那麼進化的壓力就應該保證人們不斷接近使用這個概念的完美智能，但如果不是，那就沒什麼好說了。

其實，很多人應該聽說過，上世紀七十年代就舉辦過一個「重複囚徒困境大賽」。舉辦者羅伯特·阿克塞爾羅德還專門為此寫過一本書，叫做《合作的進化》，上海世紀出版集團引進了這本書，有興趣的朋友可以找來看看。以下是關於比賽規則的書摘：

為了看看到底會發生什麼，我邀請了博弈論專家提送程序參加上述的計算機競賽。競賽是循環進行的，即每一個參賽程序都與其他程序相遇。按照事先宣布的競賽規則，每一個參賽程序還要與它自己以及一個「隨機」程序相遇。這個隨機程序，以相等的概率隨機地選擇合作或背叛。每輪遊戲有 200 次對局。（pp. 21）

可以看到，這是一個典型的有限次囚徒困境博弈。而在這場足以彪炳史冊的比賽中，贏得冠軍的反而是最簡單的「一報還一報」策略，這個策略是這樣的：首先選擇合作，如果對方在第 T 輪合作，那麼我就在第 T+1 輪背叛，也就是說，從第二輪開始，這個策略會複製之前的策略。之所以這個策略獲得了成功，是因為：

「一報還一報」的穩定成功的原因是它綜合了善良性、報復性、寬容性和清晰性。它的善良防止它陷入不必要的麻煩，它的報復性使對方試著背叛一次後就不敢再背叛，它的寬容性有助於重新恢複合作，它的清晰性使它很容易被對方理解，從而引出長期合作。（pp. 36）

怎麼解釋？

善良性是指不首先背叛。在參賽的 14 個程序中，是否善良是決定程序表現的決定性因素，所有會首先背叛的程序表現都低於不首先背叛的程序。作者說：「善良的規則在競賽中之所以表現好在很大程度上是由於它們相互之間相處得很好，而且對於具有一定的數量使得它們能夠大幅度互相提高它們的平均得分。只要對方不背叛，每個善良的規則一定是持續合作直到最後一步。」（pp. 24）而雙方從第一步開始合作將保證每一步都得到帕累托最優的結果，而不是納什均衡。
報復性這個容易理解。值得一提的是，作者指出，「兩報還一報」，即連續兩次背叛才懲罰一次其實表現比一報還一報更好，只是這個程序沒有參賽而已。作者說：「為了向可能的參賽者說明如何提交程序，一個示範程序被提供給了大家，事實上，如果有人簡單地把它剪下後寄回來，它將贏得這次競賽，可惜沒有人做。」也就是說，報復性並不是越強越好。
寬容性必須重點說，是指對方背叛之後重建合作的傾向。而在所有善良的程序中，寬容性最低的毫無疑問就是「一旦對方背叛一次則永不合作」。這個策略在比賽中叫「弗里德曼」，當然學過博弈論的朋友都知道，無名氏定理也叫做「弗里德曼定理」。在證明無限次重複囚徒困境博弈存在合作解時，我們也是證明了博弈雙方都採取「弗里德曼」時報酬是最高的，但僅在這次比賽中，弗里德曼的表現僅僅排在第七位。這是因為，很多程序會在一定條件下試探性地背叛一下，但弗里德曼太不寬容了，以致於所有試探性的背叛最終的結果都是永不合作。而一報還一報給了對手道歉的可能性，試探性地背叛遭到了報復後其他程序還是能與一報還一報快速重建合作關係。
清晰性是指，對方從你的行為中觀察、總結出你的行為模式的難易程度。可以發現，「一報還一報」和弗里德曼都是非常容易被發現模式的，而其他一些試圖在「一報還一報」策略上增加複雜性的程序表現其實沒有本體那麼好。

提醒大家注意：所有的程序都沒有假設逆向歸納，因為逆向歸納的成立在於所有人都具有關於逆向歸納的共同知識，所以也就沒有納什均衡的合法性。如果我清楚我在與一報還一報對局，那麼我依據逆向歸納求解出的最優反應是存在的（具體的最優反應依賴於我的時間偏好），而給定這個最優反應，一報還一報未必就是最優的。出現這個大規模合作的結果，是因為參與各方都沒有按照逆向歸納去求解納什均衡的能力。當參與雙方都不按照納什均衡給出的方案行事，合作出現了，而且情況比按照納什均衡行事更好。再所以，那種保證納什均衡的智力可能就不是進化壓力下的必然，這可能也就是老祖宗們說「難得糊塗」的含義。但是需要指出：這要求不止你糊塗，跟你對局的人也不能太精明……

博弈論真正有趣的地方在於推理，而這個風氣被行為經濟學帶歪了，弄得好像什麼現象改一改效用函數就能解決了。然而事實上，很多東西是能夠在不修改效用函數的情況下得以解決的，雖然我並不認為修改效用函數這種研究方案是沒有意義的。

我，也是這項工作其中的一員。

以上。

查看知乎原文（14 條討論）
推薦閱讀：

※多空博弈體系
※囚徒們的信仰是什麼？
※【概覽系列】《策略思維》——即時博弈裡面的囚徒困境與無限重複下的優勢策略
※囚徒困境獲得的證據合法嗎？由此獲得的證言屬於毒樹之果嗎？
※這種情況還算囚徒困境嗎？

TAG:選擇 | 合作 | 囚徒困境 | 困境 |