為什麼在囚徒困境中雙方的利己行為得到的是雙輸，在市場經濟中每個人利己行為的結果是共贏？

01-25

市場經濟中也不都是雙贏，但確實一般情況下還是可以有效運行的而非總是雙輸。這是因為囚徒困境是在許多假設條件下的一個模型，而現實經濟中情況要複雜的多。我們可以考慮針對每一個假設條件進行分析。前面已經有許多人各自說了一部分，我做一個不完善的小總結。

1.有限次重複博弈。囚徒困境中是一個一次博弈，屬於有限次博弈的情況，在這種情況下由於「一鎚子買賣」的問題導致了囚徒各自選擇了對個人最有利但對整體最不利的選擇。但現實經濟中很多市場行為不是有限次而是無限次的，在無限次重複博弈中由於大家都要考慮到還有後面的合作問題，不能因為這一次的短暫個人利益導致長期的合作利益受損，所以會選擇對整體最大化但不一定是個人利益最大化的選擇。這裡要注意的是這裡的無限次重複博弈並不一定是指真的需要無限次重複下去（這對現實經濟中來說也不可能），只要是博弈次數不定就可以了，因為只要雙方不確定這一次是否是最後一次，他們就不得不考慮未來合作的可能，在實際效果上有限不定次的博弈與無限次重複博弈是一樣的。在市場經濟中，沒有人能預知未來，正所謂今天你對我愛理不理，明天我讓你高看不起，經濟主體並不能確定是不是將來再也沒有碰上這一次的夥伴的機會，所以他們並不一定會像囚徒困境中的「一鎚子買賣」那樣得到雙輸的結果。

2.信息不對稱。囚徒困境中雙方都只能知道自己的選擇而無法知道對方的選擇，所以他們會做出雙輸的抉擇。而在市場經濟中雖然不能做到完全信息，但人們總會有各種各樣的方法來盡量收集信息以減少信息不對稱造成的損失。

3.支付矩陣的影響。為什麼在囚徒困境問題中，雙方在做出個人利益最優的選擇下卻在整體上是雙輸的結果呢，這很大程度上是因為支付矩陣的問題。所謂支付矩陣通俗地說就是雙方在各種情況下所能獲得的回報的矩陣。要說明支付矩陣的影響單純地靠文字難以說明，所以我在這裡會拿出一個簡單例子分析。

假如警察抓到兩個囚徒，並規定，如果雙方都不坦白，因為證據不足，但出於震懾罪犯，雙方都判1年；如果都坦白，那就都判8年；如果一個坦白一個不坦白，那麼坦白的作為獎勵無罪釋放，不坦白作為不合作警方的處罰要重判15年。於是可以得到一個博弈矩陣

矩陣中的數字代表兩人各自的收益，其中前面的數字是囚徒1的收益，後面的是囚徒2的收益。

我們先考慮囚徒1的選擇。因為最後的結果是取決於雙方共同的選擇，所以囚徒1很自然地要考慮囚徒2會怎麼選。他考慮到如果囚徒2選擇坦白，那麼他最好也選擇坦白，因為如果他坦白，他的收益是-8，而如果他不坦白，他的收益是-15。對應在矩陣中，囚徒2坦白就表示需要看第一列的兩個收益組合，因為是考慮囚徒1的收益，所以應該看前面的數字，明顯是第一行的-8大於第二行的-15，於是我們在-8下面畫條橫線表示這是較優的選擇。那如果囚徒2選擇不坦白呢？此時對於囚徒1來說，仍然是坦白比較好，因為此時他坦白的收益是0，而不坦白的收益卻是-1。於是再對應到支付矩陣中，囚徒2不坦白就是第二列的兩個收益組合，仍然看代表囚徒1收益的前面的數字，明顯是第一行的0大於第二行的-1，我們在0下面再畫一條橫線表示這是囚徒1在這一種情況下的最優選擇。

同樣的方法再對囚徒2的收益進行分析並同樣地對囚徒2在兩種情況下的最大化個人收益的選擇畫線，得到最終的矩陣。需要說明的是在對囚徒2進行分析的時候由於是假定囚徒1的選擇，所以應該是橫向地對比收益組合，並且需要觀察的數字是後面的數字。

我們可以清楚地看到在上圖中，只有（坦白，坦白）這個組合是都劃線了即對雙方而言都是最優的選擇，這也就是納什均衡的結果。所以最終博弈的結果就是兩人都選擇坦白，都被判了8年，雖然這明顯不如兩人都不坦白只被判1年，這就是所謂的囚徒困境，即在個人理性的情況下卻得到了整體的不理性。

有的聰明的同學可能發現了一個問題，之所以得到這麼一個結果，主要的原因在於收益數字之間的大小對比，如果對這個矩陣中的數字進行調整結果會如何呢？

現在我們假設警察改變了處罰的規則，如果雙方都坦白，那麼由於沒有證據，只能將兩人都無罪釋放。其他兩種情況的處罰不變。於是支付矩陣變成如下圖所示。

同樣地用下劃線法我們可以發現納什均衡的結果有兩個，即（坦白，坦白）和（不坦白，不坦白），他們都是畫了兩個下劃線。如果兩個囚徒是理性的話，雖然兩種結果對於個人而言都是最優的，但對於整體而言明顯（不坦白，不坦白）是更好的，於是實際上兩個囚徒就會選擇都不坦白，兩人都無罪釋放。

從這個例子中我們就可以看到，只是支付矩陣中的一個收益組合的變化就會導致結果的不同，囚徒困境問題一下不復存在，個人理性可以同樣引導出集體的理性。

並且從這個例子中我們可以看出，支付矩陣的變化來源於懲罰規則的變化即所謂的制度設計變化，這又給了我們一個重要提示，制度的設計至關重要，它會引導人們的行為，進而影響社會的公平與效率。

對應到題主的問題中而言，市場經濟中有許多制度上的設計（最典型的就是信譽機制，你不合作雖然可以獲得一次經濟利益，但這也會導致你的信譽受損，二者綜合起來你的收益未必會高）保證了大家採取合作的方式的支付要高於不合作，所以很多時候並不會出現雙輸的囚徒困境。

主要原因有兩點：

1、囚徒困境是單次博弈，參與者不會與對方有後續合作。而市場經濟下，雙方通常會有更多次的合作。選擇背叛意味著失去了後續合作的機會。（因此信譽好的企業，合作者更多，合作機會也更大）

2、囚徒困境的支付矩陣和市場經濟不同。因為市場監管的存在，對背叛行為會施加外部的懲罰，因此「背叛、背叛」不再是納什均衡，背叛不再是理性的選擇。（因此監管力度大的市場，違約的可能性更小）

我感覺是因為，囚徒困境的決策是單次的，並相互沒有溝通；市場經濟的決策是多次的，並可以根據市場反饋修正自己行為。當囚徒困境可以進行多次，應該也會是共贏。但我不能肯定。

微觀經濟學有解釋的，是因為在市場經濟中，大家能充分的了解信息，儘管還是存在信息不完全，但是囚徒困境中，他們是不能交流的，也就是失去了了解信息這個渠道，所以做出的選擇只能是自身效用最大

因為博弈論和國富論不兼容？

市場經濟不一定是零和遊戲，正和的時候更容易出現多贏局面。

菜鳥也來答一個

靜態博弈和動態博弈導致的不同的結果吧。囚徒困境中雙方不能溝通，市場經濟中人們通過不斷溝通取得共贏。

總結下來我認為有兩點吧：信息的通暢性和博弈的重複性。如果這兩點都不存在，那麼也會陷入囚徒困境，比如寡頭的一次博弈就是這樣。

prisoner dilemma是蠻經典的問題，在於如何定義payoff entry的值吧

每個人都想賣出股票，結果大量拋盤導致一字跌停誰也跑不了。還是知乎的老話，不問是不是就問為什麼的都是耍流氓。

市場經濟中個體追逐利益最大化的行為並不一定會導致雙贏，實際上這跟是不是市場經濟沒有什麼關係。

囚徒困境是理性個體追逐個人利益最大化導致的，多次的囚徒困境重複後，會達到帕累托最優的均衡，即在不傷害某一個個體利益的前提下，無法再提高其他個體的利益。

囚徒困境在市場經濟中也非常常見，只不過可能由於多次重複而最終達到了比較理想的均衡狀態。

以上。

因為情報的獲得量吧。囚徒困境每個人只有揭發和不揭發兩種選擇，兩人的選擇如圖(A為囚徒，○為揭發，X為不揭發。)

] 如果大勝得2分，小勝得1分，小負扣一分，大負扣兩分。可以得選「揭發」總分1分，選「不揭發」得-1分。在無法溝通和獲取情報，無法建立信任的情況下選「揭發」為最優。市場經濟就不同了，你可以得到充足的情報，由於損人利己的「大勝」需要對方配合才能獲得，而對方不可能配合，所以只能退一步取互利的「小勝」。