第四章重复博弈本章介绍基本博弈重复进行构成的重复博弈。虽然形式上是基本博弈的重复进行,但重复博弈中博弈方的行为和博弈结果却不一定是基本博弈的简单重复,因为博弈方对于博弈会重复进行的意识,会使他们对利益的判断发生变化,从而使他们在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加,必须把整个重复博弈过程作为整体进行研究。4.1.1为何研究重复博弈经济中的长期关系人们的预见性未来利益对当前行为的制约长期合同、回头客、长客和一次性买卖的区别有无确定的结束时间4.1.2基本概念有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。无限次重复博弈:一个基本博弈G一直重复博弈下去的博弈,记为G()策略:博弈方在每个阶段针对每种情况如何行为的计划子博弈:从某个阶段(不包括第一阶段)开始,包括此后所有的重复博弈部分均衡路径:由每个阶段博弈方的行为组合串联而成重复博弈的得益Ttt1t1T1-T32211t13221ttG(,)的平均得益为相同的现在值,则称得益序列阶段的得益,能产生与无限次重复博弈)各个重复博弈或作为重复博弈(有限次:如果一常数,,,,2121平均得益11)1(ttt虑贴现问题无限次重复博弈必须考考虑贴现因素有限次重复博弈不一定1t1113221)-1-1()-1-1(-1-1tttttppp如果抽到停止重复的概率为p,则抽到重复下去的概率为1-p,利率为。4.2有限次重复博弈4.2.1两人零和博弈的有限次重复博弈4.2.2唯一纯策略纳什均衡博弈的有限次重复博弈4.2.3多个纯策略纳什均衡博弈的有限次重复博弈4.2.4有限次重复博弈的民间定理4.2.1两人零和博弈的有限次重复博弈零和博弈是严格竞争的,重复博弈并不改变这一点。以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样,博弈方的正确策略是重复一次性博弈中的纳什均衡策略。上述结论也可以推广到非零或多个博弈方,但博弈方的利益严格对立,没有纯策略纳什均衡的其他严格竞争博弈中。在这些博弈作为原博弈构成的有限重复博弈中,惟一的子博弈完美纳什均衡就是所有博弈方都始终采用原博弈的混合策略纳什均衡策略4.2.2唯一纯策略纳什均衡博弈的有限次重复博弈定理:设原博弈G有唯一的纯策略纳什均衡,则对任意整数T,重复博弈G(T)有唯一的子博弈完美纳什均衡,即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍,平均得益的与原博弈G中的得益。-5,-50,-8-8,0-1,-1坦白不坦白囚徒2坦白不坦白囚徒1(-5,-5)-10,-10-13,-5-5,-13-6,-6坦白不坦白囚徒2坦白不坦白囚徒1(-10,-10)从结果看,两次重复囚徒困境相当于独立两次一次性的囚徒困境博弈,然后再把两次独立博弈的的得益相加。这个结果实际上具有一般意义。在有限次重复博弈中,如果原博弈存在唯一的纯策略纳什策略组合,则有限次重复博弈中的唯一的均衡解即各博弈方在每个阶段(即每次重复)中都采用原博弈的纳什均衡策略。由于在这样的双方策略下,均衡路径中的每个阶段都不存在任何不可信的威胁或许诺(纳什均衡策略肯定是可信的),因此这种均衡是子博弈完美纳什均衡。有限次重复削价竞争博弈100,10020,150150,2070,70高价低价高价低价寡头2寡头1削价竞争博弈有唯一纯策略纳什均衡(70,70)有限次重复的结果仍然是(低价,低价)重复囚徒困境悖论和连锁店悖论4.2.3多个纯策略纳什均衡博弈的有限次重复博弈5,53,32,00,22,06,00,20,61,1HMH厂商2ML厂商1L三价博弈2,23,13,11,34,47,11,31,78,8厂商1厂商2LMHHML两次重复三价博弈的等价模型触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复。博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M,否则选L博弈方2:同博弈方1触发策略在上述双方策略组合下,两次重复博弈的路径一定为第一阶段(H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。首先试探合作,一旦发觉对方不合作则也用不合作相报复的策略,称为“触发策略”。如果上面这个博弈的重复的次数不是两次,而是三次或者更多,一般说n次,结论也是相似的。当重复的次数较多时,平均得益接近于一次性博弈中(H,H)的得益(5,5)。触发策略的进一步讨论4,45,35,33,56,69,33,53,98,8厂商1厂商2LMHHML重复三价博弈的等价模型不可信报复第一阶段最佳选择不是(H,H),而是(M,M)。这意味着两次重复博弈的均衡路径是二次(M,M)。实际上,触发策略中报复机制的可信性是一个很复杂的问题,会受到相互预期等很多复杂因素的影响。博弈2博弈1HLMPQH5,50,60,20,00,0L6,03,30,20,00,0M2,02,01,10,00,0P0,00,00,04,1/20,0Q0,00,00,00,01/2,4这个博弈与前面的三价博弈的差别知识两博弈方都增加了两个可选策略,它有四个纯策略纳什均衡(M,M)、(L,L)、(P,P)和(Q,Q)。(H,H)不是纳什均衡。博弈方1:在第一阶段采用H,如果第一阶段结果是(H,H),那么第二阶段采用M,否则采用P博弈方2:在第一阶段采用H,如果第一阶段结果是(H,H),那么第二阶段采用M,否则采用Q双方的上述触发策略组合构成该重复博弈的一个子博弈完美纳什均衡,而且双发的触发策略中的报复都是可信的,因为双发触发策略中的报复机制不仅本身可以构成纳什均衡,而且自己也是有利的。两市场博弈的重复博弈(重复两次)(A,B)+(A,B)OR(B,A)+(B,A)——(1,4)(4,1)连续两次采用混合策略——(2,2)0.25(3+4+1+0)=2(A,B)+(B,A)OR(B,A)+(A,B)——(2.5,2.5)轮换策略一次纯策略+一次混合策略——(1.5,3)(3,1.5)如果两市场博弈重复3次,则博弈的结果缺失会进一步的改善。0,04,11,43,3厂商1厂商2BAAB两市场博弈重复博弈不同策略、均衡及一次性博弈得益比较不同策略组合、均衡得益图示厂商2得益厂商1得益(1,4)(3,3)(2.5,2.5)(2,2)(3,1.5)(4,1)(1.5,3)二次重复时没有条件运用的触发策略,在三次以上的重复中有了运用的条件。例如现在厂商1和厂商2可以采用如下触发策略:厂商1:第一阶段选A;如果第一阶段结果是(A,A),则第二阶段选A,如果第一阶段结果是(A,B),则第三阶段无条件选B。厂商2:第一阶段选A;第二阶段无条件选B,如果第一阶段结果是(A,A),则第三阶段件选A;如果第一阶段结果是(B,A),则第三阶段选。根据双方的上述策略,3次重复博弈的均衡路径是(A,A)到(A,B)再到(B,A)。其中第二、第三阶段本身就是原博弈的纳什均衡,因此不会有哪一方单独偏离。(3+1+4)/3=2.67101次(99*3+1+4)/101=2.99接近(3,3)如果重复博弈次数进一步增加,则接近程度还能进一步提高。4.2.4有限次重复博弈的民间定理个体理性得益:不管其它博弈方的行为如何,一博弈方在某个博弈中只要自己采取某种特定的策略,最低限度保证能获得的得益可实现得益:博弈中所有纯策略组合得益的加权平均数组定理:设原博弈的一次性博弈有均衡得益数组优于w,那么在该博弈的多次重复中所有不小于个体理性得益的可实现得益,都至少有一个子博弈完美纳什均衡的极限的平均得益来实现它们厂商2得益厂商1得益(1,4)(3,3)(1,1)(4,1)w=(1.1)在所有可实现得益或优于w=(1,1)的可实现得益中,只有处于(1,4)与(3,3)和(3,3)与(4,1)两条连线上,包括这三点本身的可实现得益有教重要的意义,因为它们代表了帕累托效率意义上最有效的均衡得益。民间定理的关键意义正是在于保证这些得益有一定次数重复博弈的子博弈完美纳什均衡的平均得益可以实现或逼近它们。这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契和信任,从而争取实现更好的博弈结果,都有相当重要的意义。4.3无限次重复博弈4.3.1两人零和博弈的无限次重复博弈4.3.2唯一纯策略纳什均衡博弈的无限次重复博弈4.3.3无限次重复古诺模型4.3.4有效工资率4.3.1两人零和博弈的无限次重复博弈两人零和博弈无限次重复的所有阶段都不可能发生合作,博弈方会一直重复原博弈的混合策略纳什均衡。因为无限重复次数的无限增加也不能改变原博弈中博弈方之间在利益上的对立关系,也不会创造出潜在合作利益。4.3.2唯一纯策略纳什均衡博弈的无限次重复博弈两寡头削价竞争博弈该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈4,40,55,01,1HLHL无限次重复两寡头削价博弈触发策略:第一阶段采用H,如果前t-1阶段的结果都是(H,H),则继续采用H,否则采用L。如果博弈方2采用L,总得益现值为如果博弈方2采用H,总得益现值为因此当时,此触发策略纳什均衡策略15...115215-14144VVV4/1两寡头削价竞争无限次重复博弈的民间定理厂商2得益厂商1得益(1,4)(4,4)(1,1)(4,1)(5,0)(5,0)),,(),(1),,(),,(11niininxxGiexGxxGeeG均得益为什均衡,各博弈方的平完美纳中一定存在一个子博弈次重复博弈,那么无限足够接近都成立,而对任意博弈方果的任意可实现得益。如表示用的纳什均衡的得益,记的静态博弈。用是一个完全信息理:设无限次重复博弈民间定古诺模型的无限次重复博弈和支持垄断产量的条件假定:,边际成本都为2。在无限次重复古诺模型中,当贴现率满足一定条件时,两厂商采用下列触发策略构成一个子博弈完美纳什均衡:在第一阶段生产垄断产量的一半1.5;在第t阶段,如果前t-1阶段结果都是(1.5,1.5),则继续生产1.5,否则生产古诺产量2。这种触发策略的实质同样是采用它的博弈方先试图合作,选择符合双方利益的产量,而一旦发现对方不合作,偏偏对对方有利的产量,则也可以选择纳什均衡产量来进行报复,双方都采取上述触发策略的博弈路径为每阶段都采用(1.5,1.5),双方每阶段得益都为*=4.5.21,8qqQQP其中设厂商1已采用该触发策略,若厂商2也采用该触发策略,则每期得益4.5,无限次重复博弈总得益的现值为:如果厂商2偏离上述触发策略,则他在第一阶段所选产量应为给定厂商1产量为1.5时,自己的最大利润产量,即满足:解得,此时利润为5.0625,高于触发策略第一阶段得益4.5。15.415.4222225.4max25.18max222qqqqqqq25.22q古诺模型的无限次重复博弈和支持垄断产量的条件但从第二阶段开始,厂商1将报复性地永远采用古诺产量2,这样厂商2也被迫永远采用古诺产量,从此得利润4。因此,无限次重复博弈第一阶段偏离的情况下总得益的现值为:当上述策略是厂商2对厂商1的同样触发策略的最佳反应,否则偏离是最佳反应。140625.540625.52179140625.515.4即古诺模型的无限次重复博弈和支持垄断产量的条件9/17时上述触发策略不是无限次重复博弈