囚徒困境解说•如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。单次和多次重•单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。•在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。固定局数的囚徒困境试想像囚徒困境的情况进行十次。我们可以合理地设想,如果囚徒第一次被对方指控,第二次这个囚徒也会指控对方。相反,如果第一次别人保持沉默,建立了互信的关系,你也会保持沉默,达致帕累托最优。当然,两个囚徒都会有相似的想法,在第一局保持沉默,以期望建立互信关系,所以双方都会保持沉默。第二局时,双方亦应有相似的想法,继续保持沉默,以期继续在互信的情况下进行第三局,以致余下的八局。这种想法合理吗?在第十局时,互信的关系明显是没有意义的,因为十局已经完结,囚徒没有必要为维持互信的关系而沉默(没有第十一局),所以第十局囚徒一定会背叛对方的,理由和只有一局囚徒困境一样。问题是,既然大家都知道在第十局,无论如何对方都会背叛自己的,你在第九局保持沉默也是没有意思的,要知道,保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。下一个问题是,双方都有相同的想法,明知第九局对方会背叛自己,所以第八局保持沉默也是没有意思的,第七局亦然,如此类推,纳什均衡是十局都会互相背叛,建立互信关系是没有可能的。只有在囚徒困境的局数大家都不肯定的情况下,上述的推论才不会发生,才会出现互相保持沉默的现象经典囚徒困境来由•1950年,由就职于兰德公司的梅里尔·弗勒德(MerrillFlood)和梅尔文·德雷希尔(MelvinDresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(AlbertTucker)以囚徒方式阐述,并命名为“囚徒困境”。两个嫌疑犯(甲和乙)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”:如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判15年;如果都不坦白则各判1年。这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?经典案例——囚徒困境(15,0)(0,15)(1,1)乙甲合作合作背叛背叛(8,8)经典案例——囚徒困境囚徒困境解说囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比保持沉默(或抵赖)要来得低。试设想困境中两名理性囚徒会如何作出选择:若对方沉默、背叛会让我获释,所以会选择背叛。若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。囚徒困境解说二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑8年。这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默(不坦白),两人都只会被判刑1年,总体利益更高,结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低,这里存在着矛盾。囚徒困境的内在根源•在个体之间存在行为和利益相互制约的博弈结构中,以个体理性和个体选择为基础的分散决策方式,无法有效地协调各方面的利益,并实现整体、个体利益共同的最优。简单地说,“囚徒的困境”问题都是个体理性和集体理性的矛盾引起的。囚徒困境的启示“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时间的监禁的结果。“纳什均衡”对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。《国富论》中有这样一句名言:“通过追求(个人的)自身利益,他常常会比其实际上想做的那样更有效地促进社会利益”。从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说,“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此,从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己策略”。但它必须符合以下黄金定律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。•囚徒困境的现实意义就是个人理性导致集体非理性。在囚徒博弈的模型中,只存在一个纳什均衡,即:在参与者理性的情况下,坦白为最优策略。这同时导致了集体利益的最小化。事实上,在囚徒困境中的最佳策略取决于对方采用的策略,特别是取决于这个策略为双方合作留出多大的余地。而这个原则的基础是:以后对于现在的权重足够大,即:未来是重要的。囚徒困境的现实意义简单的说,就是如果你认为以后大家还要相处,那么最好选择合作;反之,如果你认为以后不再会相遇或对你以后的利益不太关心,那么就选择背叛(把对方供出来)。这样又回到问题的原点:如果未来是重要的,那么就要选择合作,而合作的策略取决于对方的策略。于是结论是:没有最优策略!囚徒困境的现实意义•在囚徒困境中,参与者会受到背叛(坦白)的短期诱惑,但是通过与对方建立长期的合作的模式,可以获得更多的长期的好处。•所以,要破解囚徒困境,就要跳出这个模型本身,从更高的层面上给以制度性的约束,或让大家都明白合作的好处。囚徒困境的现实意义囚徒困境的实际运用举例来是说,我是供应商,你是大超市,你可以选择拖欠货款,我也可以选择延迟发货或较低的质量,套用上面的模型:超市不合作合作不合作-5-52-8供应商合作-82111984年,美国联邦预算赤字实在太高了。裁减必要的巨额开支在政治上并不可行,因此,大幅增税应该是不可避免的。不过,谁愿意带头主张这么做呢?民主党总统候选人沃尔特·蒙代尔在竞选活动中提出增税政策,却被罗纳德·里根打得落花流水,因为里根许诺绝不加税。里根当选之后,这个议题陷入僵局,无论你怎么划分政治派别,民主党对共和党,众议院对参议院,还是政府对国会,各方都希望把提出加税的主动权推给对方。双方都知道,联合起来共同倡议加税和削减开支,可以共同分享荣誉,分担谴责。这么做与同时坚守被动,眼看巨额赤字上升而无所作为相比,显然会对整个国家更有利,即便对他们自己的政治生涯从长期而言也会有好处。囚徒困境的实际运用但是,假如自己提出这样的政策,而对方并不附和,则自己会落得糟糕的下场。显而易见,对每一方而言,保持被动是一个优势策略。而这正是真实发生的情况:这一届国会根本没有作出任何加税决定。这就是为什么美国是世界上最富有的国家,却同时又是最大的债务国的原因。囚徒困境的实际运用在这个假设的模型里,超市会想:如果供应商合作,我只要不合作,就可以得到2个单位的利润,而合作却只有1个单位的利润,显然不合作比合作好;如果供应商不合作,我若合作,则要损失8个单位的利润,但不合作却只损失5个单位的利润,显然还是不合作比较好。无论供应商是否合作,超市的最佳策略都是不合作。自然,供应商也会如此推理。按照博弈论的观点,这是唯一的平衡点,在这一点上,任何一方改变策略,都会得到更差的结果。•但是,这与我们的日常经验不符合。为什么现实中的供应商与经销商都会选择合作呢?原因在于:1.不嫉妒,现实中的博弈大多是非零合的。大家赚取自己应有的利润,没有理由去嫉妒对方的高额利润,因为对方的成功是你成功的前提。2.不首先背叛,对合作或背叛都要给于惩罚。在契约社会,有法律、行规的制约,背叛是要付出巨大的代价的。再回到囚徒困境中,则是黑社会团伙对囚犯家属的行动。这会让囚徒在做决策时,偏向于合作。当双方尝到合作的甜头,又知道背叛的惩罚后,合作就会成为第一选择。囚徒困境的解决方法应该在困境本身之外。囚徒困境的实际运用•大家都合作,大家都赢利,长期利益;一方不合作,一方盈利,短期利益;都不合作全都陪钱,没有利益;一般情况下,长期赢利都会比短期赢利要高的多。囚徒困境的实际运用囚徒困境的解释力——农业增产不增收假设在一给封闭的小地方,只有两家农户向市场供应稻谷,而稻谷是当地居民的当家粮,是家家户户的必需品,因为稻谷是这个小地方居民的必需品,所有他们对于稻谷的需求相当稳定,大致在1000担左右。如果稻谷的供给也在1000担左右,那么稻谷的交易价格在每担100元/担。而如果稻谷的供给比1000担多了几百担,那么因为供大于求,稻谷的价格会从100元/担下滑到50元/担甚至40元/担;相反,如果稻谷的供给比居民的需求少了几百担,造成供不应求,那么物以稀为贵,稻谷的交易价格马上大幅度上升。囚徒困境的解释力——农业增产不增收如果把生产750担稻谷叫做丰收,把生产250担叫做歉收,而每家农户生产稻谷的成本都是30000元,那么以千元为单位,两家农户净收入情况表述为如下博弈:00-54545-53030乙丰收歉收丰收甲歉收粮农的困境•情况一:两家都丰收,供应量1500担,价格跌到40元/担,销售收入都是30000元,减去生产成本30000元,净收入是0。•情况二:两家都歉收,供应量只有500担,价格升至240元/担,每家销售收入都是60000元,减去生产成本30000元,净收入是30000元。•情况三:一家收获750担,一家收获250担。价格是100元/担,收获750担的农户销售收入是75000元,减去生产成本30000元,净收入是45000元;收获250担农户销售收入则为25000,减去30000元成本后,净收入是负5000元。稻谷的供应量之比是3:1,净收入之比却是45000:-5000,一正一负,远远不止3:1囚徒困境的解释力——农业增产不增收上述粮农博弈没有体现参与人的策略选择,丰收歉收是老天爷的安排。所以对上述模型进行一定的改造:变成假设两家农户都丰收,但是两家农户都很有商业头脑,他们会盘算向市场供应多少稻谷能够实现最大利益。•所以,上述粮农困境实际上也是囚徒困境,对于每个粮农来说,都是丰收比歉收好,但是合在一起,两家农户都丰收,不如两家农户都歉收。囚徒困境的解释力——农业增产不增收囚徒困境的解释力——农业增产不增收如果把博弈参与人所得的单位由千元改为万元,并且把相应的数字四舍五入,-0.5变成-1,4.5变成5。00-155-133乙多卖少卖多卖甲少卖粮农的博弈对于每个粮农来说,不论对方多卖还是少卖,自己总是多卖比少卖好。结果,两家都选择多卖策略,得益都是0。•解决三农问题的根本途径,是把大部分农业人口从农业转移出来。这样,才能够做到农产品的产量相对于总人口保持在合适的偏向于紧俏的水平,从而农民的收入就能够增加,农村也就富裕了。这时候,农业成为香饽饽,变成诱人的十分有希望的行业。现实中的囚徒困境1、公共物品的提供(如:公共过道的路灯)2、招商引资中的“政策竞赛”3、文革中的“竞相揭发”4、贸易战……电信价格竞争的“囚徒困境”假设此博弈的参加者为电信运营商A与B,一开始的价格都是P0。A(中国电信)是老牌企业,实力雄厚,占据了绝大多数的市场份额;B(中国联通)则刚成立不久,翅膀还没有长硬,是政府为了打破垄断鼓励竞争而