第4章多阶段可观察行动博弈的应用•1、有限期博弈的单阶段偏离原则•——定理4.1在多阶段可观察行动博弈中,策略组合s是子博弈完美的当且仅当它满足单阶段偏离条件,即没有一个参与人i可以通过在某一阶段偏离s策略而在其他阶段采取s的行动而获得好处。•——更精确地说,策略组合s是子博弈完美当且仅当不存在参与人i和策略si,除了在时期t和历史行动ht下与策略si不同之外,且到达历史ht的策略si对s-i的反应比si更好。•——证明:必要性,根据子博弈完美的定义可知,s必须满足单阶段偏离条件,即这一条件是必要条件。•——充分性,反证法:假定策略组合s满足这满足这一条件,但并不是子博弈精练均衡。•——存在一个阶段t和历史ht,使某个参与人i有一个策略si,其在ht开始的子博弈中对s-i的反应比si更好。令t表示满足如下条件的最大值t’:对于某个ht,si(ht’)≠si(ht’)。•——单阶段背离条件暗含了tt,且因为博弈是有限的,t也是有限的。•——考察另一种策略si’:当tt时,策略si与策略si’相同,当从t之后与si相同。•——由于从t+1开始,策略si与策略si是相同的,单阶段背离条件暗含了,si’与si在从开始的每一个子博弈中是一样好的反应。因此,si’与si在历史ht下从t开始的子博弈中是一样好的。•——如果t=t+1,那么si’=si。这si与可以改进si的假设矛盾。•——如果tt+1,那么我们构建一个直到t-2与策略si一样的策略,并证明它与策略si是一样好的反应,如此等等。•2、无限期博弈的单阶段偏离法则重复博弈•1、重复博弈的定义•——重复博弈是一类特殊的动态博弈,指同样结构的博弈重复多次,其中每一次博弈称为“阶段博弈”。•2、重复博弈的基本特征•——阶段博弈之间没有“物质上”的联系,也就是说,前一阶段的博弈不改变后一阶段博弈的结构;•——所有参与人都观察到博弈过去的历史;•——参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。•3、囚徒困境的重复博弈•——在一个重复博弈中,每期收益只依赖于当期行动。一个行动序列的标准化收益被称为“平均贴现收益”。例如从0期•到T期每期收益为1,其总的贴现值为(1-δT+1)/(1-δ),而这一收益流的平均贴现值为1;•——在囚徒困境中,如果双方进行一次博弈,那么唯一的均衡是两个参与人都选择背叛;•——如果双方只重复有限次,那么子博弈完美要求两个参与人在最后一期博弈时都选择背叛。根据逆向归纳法,唯一的完美子博弈均衡就是两个参与人在每一阶段都选择背叛;•——如果博弈进行无限多次,那么“每一阶段参与人都选择背叛”仍然是一个完美子博弈均衡,且是唯一一个参与人每期行动都与上期行动相同的均衡;•——然而,如果期限是无限的,且δ1,那么下面的策略组合也是完美子博弈均衡:“开始时选择合作,只要没有参与人背叛就一直合作,但只要有一个参与人背叛,在以后的博弈中,就一直背叛。”•——这一策略面临两类子博弈:A类是没有参与人背叛,B类是背叛从t开始就已经发生。•——如果一个参与人在A类的每个子博弈都执行这一策略,那么他的平均贴现收益是1;但如果他在时间t偏离这一策略,并在此后(一直在B类子博弈中)一直背叛,那么他的标准收益是1-δt(2δ-1);•——当δ1/2时,显然其收益小于1。对于B类子博弈中的任何历史ht,从t往后一直奉行这一策略的收益是0,偏离一次后再奉行该策略,在t期收益为-1,在以后仍然是0;•——这样,在任何子博弈中,没有参与人可以从偏离一次后再奉行这一特定策略而获得好处,根据单阶段偏离条件,这一策略组合是一个完美子博弈均衡。具有多个静态均衡的有限重复博弈•1、两期重复阶段博弈•——如图4-2,如果博弈仅进行一次,那么将存在三个均衡:(M,L),(U,M),和一个混合策略均衡(3/7U,4/7M),(3/7L,4/7M),分别可以获得收益(4,3),(3,4),和(12/7,12/7))。•——很显然,在一次博弈中,有效收益(5,5)不能作为一个均衡获得。然而,在一个两阶段博弈中,如果δ7/9,那么下面的策略组合是一个完美子博弈均衡:在第一阶段选择策略组合(D,R)。如果第一阶段的结果是(D,R),那么在第二阶段选择(M,L);如果第一阶段的结果不是(D,R),那么在第二阶段使用混合策略均衡。•——这一策略组合在第二阶段是一个纳什均衡,因为第一阶段的背离只会给当期的收益增加1,但是同时却使•参与人1和2的第二阶段收益分别从4或3降到12/7。•——这样,只要1(4-12/7)δ或δ7/16,参与人1不会偏离。同时,只要1(3-12/7)δ或δ7/9,参与人2也不会采取偏离行动。Rubinstein-Stahl议价模型•1、基本模型•——问题:两个参与人分割一个大小为1的蛋糕,什么分割方案可以使双方可以达成一致呢?•——分割规则:在1,3,5,…,参与人1提出一个分割方案(x1,1-x1),让参与人2接受或拒绝。如果参与人2接受提议,那么博弈结束。•——如果参与人2在时期2k+1拒绝了参与人1的提议,那么在时期2k,参与人2提出一个分割方案(x2,1-x2)让参与人1来接受或拒绝。如果参与人1接受参与人2的提议,那么博弈结束。如果他拒绝,那么下一期又由他提议分割方案。依此类推。•——假定参与人1和2的贴现因子分别为δ1和δ2,这里x1表示参与人1提议时参与人1的份额,x2表示参与人2提议时参与人1的份额。•——这样,如果博弈在时期t结束,t是参与人i的提议阶段,参与人1的支付贴现值是Π1=δ1t-1xi,而参与人2的支付贴现值是Π2=δ2t-1(1-xi)。2、有限期博弈——如果博弈的期限T是有限的,那么运用逆向归纳法可以求解子博弈精练纳什均衡。——T=2。在第2期,参与人2出价,x2=0;在第1期,1-x1≥δ2。子博弈精练均衡的结果是参与人1得到1-δ2,参与人2得到δ2。——T=3,4,5,…,∞3、子博弈精练均衡结果与贴现因子δ和期限T之间的关系——如果δ1=δ2=0,即两个参与人是绝对无耐心的,那么不论T为多少,子博弈精练均衡结果是x=1,即提议人获得整个蛋糕;•——如果δ2=0,不论δ1为多少,子博弈精练均衡结果仍然是是x=1;•——如果δ1=0,δ20,那么结果是x=1-δ2;•——假定δ1=δ2=1,如果T=1,3,5,…,那么均衡结果是x=1;如果T=2,4,6,…,那么均衡结果是x=0。这样,参与人具有“后动优势”;•——如果0δi1,i=1,2,那么均衡结果不仅依赖于贴现因子的相对比率,而且依赖于博弈期限长度T和谁在最后阶段出价。然而,这种依存关系随T的变大而变小;•——定理(Rubinstein,1982):在无限期轮流出价博弈中,唯一的子博弈精练纳什均衡结果是:x*=(1-δ2)/(1-δ1δ2)。具体地,如果δ1=δ2=δ,那么x*=1/(1+δ);•——证明:当T=∞时,从参与人1出价的任何一个阶段开始的子博弈等价于从t=1开始的整个博弈。•——假定在时期t≥3参与人1出价,参与人1能得到的最大份额是M。在t-1时期,参与人1得到δ1M,参与人2得到1-δ1M;在t-2时期,参与人2得到δ2(1-δ1M),参与人1得到1-δ2(1-δ1M);•——由于从t-2开始的博弈与从t开始的博弈完全相同,因此,参与人1在t-2期能获得的最大份额一定与其在t期得到的最大份额相同,即x1=M=1-δ2(1-δ1M)。于是,有M=(1-δ2)/(1-δ1δ2);•——假定参与人1在t期可以获得的最小份额为m。t期的m等价于t-1期的δ1m,参与人2在t-1期最多得到1-δ1m。因此,参与人1在t-2期至少可以得到x1=m=1-δ2(1-δ1m)。于是,有m=(1-δ2)/(1-δ1δ2);•——因此,参与人1可以获得的最大份额与最小份额相同,均衡结果是唯一的:x=(1-δ2)/(1-δ1δ2);•——上面的证明表明,参与人1的子博弈精练均衡战略是:“在t=1,3,5,…时总是要求(1-δ2)/(1-δ1δ2),在t=2,4,6,…时接受任何大于或等于δ1(1-δ2)/(1-δ1δ2)的份额,拒绝任何较小的份额。”•——类似地,参与人2的子博弈精练均衡战略是:“在t=1,3,5,…时接受任何大于或等于δ2(1-δ1)/(1-δ1δ2)的份额,拒绝任何较小的份额,在t=2,4,6,…时总是要求(1-δ1)/(1-δ1δ2)。”•——(1-δ2)/(1-δ1δ2)=1-δ2(1-δ1)/(1-δ1δ2),这个等式表明,右边第二项是参与人1出价时参与人2的份额;•——如果参与人1提出更高的份额,那么参与人2将拒绝,而在t+1期要求(1-δ1)/(1-δ1δ2)。根据上面的等式(对称性)可以得到,参与人1的支付是δ1(1-(1-δ1)/(1-δ1δ2))=δ12(1-δ2)/(1-δ1δ2)(1-δ2)/(1-δ1δ2)。因此,更高的要求不是一个最优策略;•——同样,接受任何低于δ1(1-δ2)/(1-δ1δ2)的份额也不是最优的,因为等待一个阶段他就可以获得(1-δ2)/(1-δ1δ2)的份额。•——这个博弈还有许多其他纳什均衡。下列战略组合是一个纳什均衡:“参与人1总是要求x1=1的份额,拒绝参与人2任何x21的出价;参与人2总是要求1-x2=0,接受参与人1的任何出价”。•——但是这个纳什均衡并不是子博弈精练均衡:如果参与人2拒绝参与人1的第一次出价,提出x2≥δ1,参与人1应该接受。•——子博弈精练均衡结果是参与人贴现因子的函数。给定δ2,δ1趋近于1,参与人1得到整个蛋糕;反过来,参与人2得到整个蛋糕。也就是说,耐心优势的人总可以通过拖延时间使自己独吞蛋糕;•——当δ2=0时,参与人1也得到整个蛋糕;当δ1=0时,参与人2得不到整个蛋糕,但δ2=1除外。这一差异的原因是这个博弈还有一个“先动优势”:当δ1=δ2=δ<1时,x*=1/•(1+δ)1/2,即参与人1的份额总是多于参与人2的份额。如果每一阶段的长度任意小,这个先动优势将消失。•——另外,当δ1=δ2=1时,这个博弈也有无穷多个子博弈精练均衡,x*=1/2可能是一个聚点均衡(也是纳什议价解)。•——贴现率的现实解释,议价成本,利息,罚款。•——具体说明,假定δ1=δ2=1,但参与人i每出价一次要承担ci的损失。存在三种情况,(1)c1=c2=c;(2)c1<c2;(3)c1c2;重复博弈与无名氏定理•1、有限次重复博弈•——定理:令G是阶段博弈,G(T)是G重复T次的重复博弈(T∞)。如果G有唯一的纳什均衡,那么重复博弈G(T)的唯一子博弈精练纳什均衡结果是阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都是一次性博弈的均衡结果)。•2、无限次重复博弈和无名氏定理•——子博弈精练均衡的多重性是无限次重复博弈的普遍问题;•——例如,古诺竞争均衡模型:古诺均衡产量是q1c=q2c=(1-c)/3,均衡利润是∏1c=∏2c=(1-c)2/9;垄断产量是qM=(1-c)/2,垄断利润是∏M=(1-c)2/4;•——当两家企业在市场上只相遇一次,那么古诺均衡是唯一的纳什均衡。但如果博弈重复无限次,那么某种形式的默契合谋就可能作为均衡结果出现。•——考虑到冷酷战略:首先,选择生产qi=qM/2;继续选择qi=qM/2直到有一个企业选择qj≠qM/2,然后永远选择qic;•——比较合作与背离的收益可知,如果δ*≥9/17,那么默契合作(合谋)就是一个精练均衡结果。•——如果有n个寡头企业而不是两个,默契合作均衡要求δ不小于(1+4n/(n+1)2)-1。当n趋近于无穷时,δ*趋近于1。也就是说,企业越多,默契合作越困难。•——直观地讲,企业越多,每个企业一次性机会主义不合作行为中的净收益相对于长远利益的损失的比率越大,因此,机会主义行为的诱因越大。•——例如,小团体靠非正式的规则,大团体靠正式的规则和合约。囚徒困境:干坏事的合作人越多,事情越易败露。•——这个博弈也有多