1第四章重复博弈本章介绍基本博弈重复进行构成的重复博弈。虽然形式上是基本博弈的重复进行,但重复博弈中博弈方的行为和博弈结果却不一定是基本博弈的简单重复,因为博弈方对于博弈会重复进行的意识,会使他们对利益的判断发生变化,从而使他们在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加,必须把整个重复博弈过程作为整体进行研究。2重复博弈大多数重复博弈是静态博弈的重复,而重复博弈又是一个动态的过程,属于动态博弈的范畴。因此重复博弈与静态博弈和动态博弈都有关系。3本章分三节4.1重复博弈引论4.2有限次重复博弈4.3无限次重复博弈44.1重复博弈引论4.1.1为何研究重复博弈两家企业在一个市场上的传长期竞争;两个企业遵守一份为期10年协议方面的契约;商业中的回头客等等。由于长期合作,通过报复、制裁、威胁等手段的相互约束行为,追求共同的目标,考虑当前利益兼顾将来的利益。长期关系可以理解为博弈阶段较多,时间跨度较大的一般动态博弈。诚信、信任……4.1.2基本概念54.1.1为何研究重复博弈经济中的长期关系人们的预见性未来利益对当前行为的制约长期合同、回头客、常客和一次性买卖的区别有无确定的结束时间长期关系与短期关系前面讨论的都是社会经济活动中短期一次性合作或竞争关系,但社会经济活动中除了短期一次性关系以外,还存在许多长期反复的合作和竞争关系。如商业活动中的回头客。长期关系与短期关系之间的差别不只是时间跨度长短的数量问题,而是有重要性质的差别。在长期关系中,人们在考虑当前利益的同时,需要兼顾未来利益。6“冲突”何以能产生合作,就是因为重复博弈的存在瑞典皇家科学院2005年10月10日在斯德哥尔摩宣布,将2005年的诺贝尔经济学奖授予以色列希伯莱大学的罗伯特·奥曼(RobertJ.Aumann)和美国马里兰大学的托马斯·谢林(ThomasC.Schelling),以表彰他们“通过博弈论分析,促进了人们对冲突和合作的理解”。为此,他们获得1000万瑞典克朗(约合130万美元)的奖金。从约翰·纳什开始,在博弈论这座金矿中淘到诺贝尔经济学奖的有数十位之多,与博弈论领域相关的基础研究,据说已经是第五次折桂了。瑞典皇家科学院在授奖时说,罗伯特·奥曼第一次对重复博弈进行了全面正式分析。他们认为,“重复博弈的理论促进了我们对合作先决条件的理解,阐明了包括商业协会、犯罪组织在内的许多机构进行磋商和国际贸易协定的理由”。74.1.2基本概念有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。无限次重复博弈:一个基本博弈G一直重复博弈下去的博弈,记为G(∞)策略:博弈方在每个阶段针对每种情况如何行为的计划子博弈:从某个阶段(不包括第一阶段)开始,包括此后所有的重复博弈部分均衡路径:由每个阶段博弈方的行为组合串联而成82.重复博弈的策略、子博弈和均衡路径(1)重复博弈的策略重复博弈中每个博弈方在每个阶段都必须进行策略选择,因此博弈方的一个策略就是在每次重复时,针对其前面阶段所有可能的情况如何进行行动的计划。(2)重复博弈的子博弈重复博弈的子博弈就是从某个阶段(除第一阶段以外)开始,包括此后所有阶段的重复博弈部分。重复博弈的子博弈要么仍然是重复博弈,只是重复的次数较少,要么就是原博弈。(3)重复博弈的均衡路径重复博弈的路径是由每个阶段博弈方的行动组合串联而成的。而且对应前一阶段的每一种结果,下一阶段都有原博弈全部策略组合数那么多种可能的结果,如原博弈有m种策略组合,那么重复两次就有m2条博弈路径,重复T次就有mT条博弈路径,因此在重博弈中,博弈方在重复博弈中的策略空间要远远大于在每个阶段博弈中的策略空间,重复博弈的路径数往往是很大的,常常可以产生一些意想不到的均衡路径。93.重复博弈的得益方法之一是计算重复博弈的”总得益”,即博弈方各次重复得益的总和;另一种方法是计算各阶段的“平均得益”,即总得益除以重复次数。10+=其中,++=博弈总得益现在值为则考虑时间价值的重复,得益分别为,在某一均衡下各阶段次重复博弈的某博弈方如果一个,11.......1.......11,,11132211232121TtttTTTTTT+=其中,=++=现在值为无限次重复博弈总得益11..............111132212321ttt重复博弈的总得益11重复博弈的平均得益的平均得益为相同的现在值,则称得益序列阶段的得益,能产生与无限次重复博弈)各个重复博弈或作为重复博弈(有限次平均得益:如果一常数,,,,2121.............32212无限次重复博弈111ttt11)1(ttt.............)132212(随机停止和贴现率124.2有限次重复博弈4.2.1两人零和博弈的有限次重复博弈4.2.2唯一纯策略纳什均衡博弈的有限次重复博弈4.2.3多个纯策略纳什均衡博弈的有限次重复博弈4.2.4有限次重复博弈的民间定理134.2.1两人零和博弈的有限次重复博弈零和博弈是严格竞争的,重复博弈并不改变这一点。以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样,博弈方的正确策略是重复一次性博弈中的纳什均衡策略。以猜硬币博弈为原博弈的有限次重复博弈中,每个博弈方的惟一正确的策略是在每次重复时都采用一次性博弈的纳什均衡策略,即各以0.5的概率随机选正面和反面的混合策略。重复博弈的结果是双方的平均期望得益和期望总得益都为0。144.2.2两人零和博弈的无限次重复博弈两人零和博弈无限次重复的所有阶段都不可能发生合作,博弈方会一直重复原博弈的混合策略纳什均衡两人零和博弈的无限次重复与有限次重复博弈的结果并不会有什么不同:因为重复次数的无限增加也不能改变原博弈中博弈方之间在利益上的对立关系,也不会创造出潜在的合作利益,因此在这种博弈的无限次重复博弈中,博弈方仍然是每次重复都根据当时的最大利益行为,采用原博弈的混合策略纳什均衡。两人零和博弈无限次重复博弈会不会发生合作?154.2.2唯一纯策略纳什均衡博弈的有限次重复博弈定理:设原博弈G有唯一的纯策略纳什均衡,则对任意整数T,重复博弈G(T)有唯一的子博弈完美纳什均衡,即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍,平均得益的与原博弈G中的得益。-5,-50,-8-8,0-1,-1坦白不坦白囚徒2坦白不坦白囚徒1(-5,-5)-10,-10-13,-5-5,-13-6,-6坦白不坦白囚徒2坦白不坦白囚徒1(-10,-10)16有限次重复削价竞争博弈100,10020,150150,2070,70高价低价高价低价寡头2寡头1削价竞争博弈有唯一纯策略纳什均衡(70,70)有限次重复的结果仍然是(低价,低价)174.4多个纯策略纳什均衡的重复博弈5,53,32,00,22,06,00,20,61,1HMH厂商2ML厂商1L三价博弈原博弈存在两个纯策略纳什均衡(M,M),(L,L)以及混合策略纳什均衡。184.4.1多个纯策略纳什均衡的有限次重复博弈5,53,32,00,22,06,00,20,61,1HMH厂商2ML厂商1L三价博弈重复2次触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M,否则选L。博弈方2:同博弈方1195,53,32,00,22,06,00,20,61,1HMH厂商2ML厂商1L三价博弈2,23,13,11,34,47,11,31,78,8厂商1厂商2LMHHML两次重复三价博弈的等价模型如果重复n次,结论相似。采用触发策略实现比较好的结果,子博弈完美纳什均衡路径为:除了最后一次外,每次都采用(H,H),最后一次采用(M,M)。当重复次数较多时,平均得益接近于一次性博弈中(H,H)的得益(5,5)。20在上面的分析中,我们发现触发策略重复是一种非常重要的机制,采用这种策略就意味着对将来策略选择所作的可信的威胁或承诺可以影响到当前阶段的行动选择。但如果仔细分析,不难发现上述触发策略也可能存在值得推敲的问题,就是报复机制的可信性。惩罚别人也惩罚自己!5,53,32,00,22,06,00,20,61,1HMH厂商2ML厂商1L三价博弈关于“触发策略”的讨论21企业2HMLPQ5,50,60,20,00,06,03,30,20,00,02,02,01,10,00,00,00,00,04,0.50,00,00,00,00,00.5,4HMLPQ企业1重复2次博弈重复博弈其实,并不是每个重复博弈的触发策略都有可信性问题,触发策略在很多情况下是非常可信的。•可以证明,双方的上述触发策略组合(H,H),(M,M)构成该重复博弈的一个子博弈精炼纳什均衡,而且双方的触发策略中的报复都是可信的。22在博弈理论中,有两个著名的策略:1.触发策略(Triggerstrategies)。2.“一报还一报”策略:也就是若你采取不合作策略,我也采取不合作策略,但是如果你采取了合作策略,我也采取合作策略。这叫,或者称为“针锋相对”,英文叫Tit-for-Tat。23一报还一报的策略是这样的:第一次博弈采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。也就是说,一报还一报的策略实行了“胡萝卜加大棒”的原则。它永远不先背叛对方,从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报,哪怕以前这个对手曾经背叛过它,从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是“可激怒的”。而且,它的策略极为简单,对手一望便知其用意何在,从这个意义来说它又是“简单明了的”。“一报还一报”策略的优越性向我们充分展示了一个纯粹自利的人何以会选择善,只因为合作是自我利益最大化的一种必要手段。24美国密执安大学的罗伯特·埃克斯罗德(RobertAxerold)曾经主持过一次计算机比赛,看谁写出来的程序能够赢。参加者有政治学家、数学家、经济学家、社会学家,他们都详细研究过囚徒困境。获胜者是加拿大多伦多大学的罗伯布(AnatolRapoport)写的“一报还一报”(Tit-for-Tat)策略。25两市场博弈的重复博弈(重复一次)0,04,11,43,3厂商1厂商2BAAB两市场博弈纯策略纳什均衡:(A,B)和(A,B),对应得益为(1,4)和(4,1)混合策略纳什均衡:分别以1/2的概率随机在A或B中选择,双方得益为1/4×(3+4+1+0)=2两市场博弈的重复博弈26两市场博弈的重复博弈(重复两次)(A,B)+(A,B)OR(B,A)+(B,A)——(1,4)OR(4,1)连续两次采用混合策略——(2,2)(A,B)+(B,A)OR(B,A)+(A,B)——(2.5,2.5)轮换策略一次纯策略+一次混合策略——(1.5,3)OR(3,1.5)0,04,11,43,3厂商1厂商2BAAB两市场博弈27重复博弈不同策略、均衡及一次性博弈得益比较不同策略组合、均衡得益图示厂商2得益厂商1得益(1,4)(3,3)(2.5,2.5)(2,2)(3,1.5)(4,1)(1.5,3)28重复博弈不同策略、均衡及一次性博弈得益比较不同策略组合、均衡得益图示厂商2得益厂商1得益(1,4)(3,3)(2.5,2.5)(2,2)(3,