第8讲不完全信息动态博弈(续2)——不完全信息重复博弈主讲人:张成科博士广东工业大学经济与贸易学院zhangck@gdut.edu.cn管理博弈论(ManagementGameTheory)目录导航一精练贝叶斯纳什均衡基本思路贝叶斯法则精练贝叶斯纳什均衡不完美信息博弈的精练贝叶斯均衡二信号传递博弈及其应用举例不完全信息重复博弈不完全信息重复博弈与声誉KMRW声誉模型该模型首先是由Kreps(克瑞普斯)、Milgrom(米尔格罗姆)、Roberts(罗伯茨)和Wilsom(威尔荪)于1982年提出。它主要研究不完全信息静态博弈G经过有限次重复时,博弈人之间的合作行为特征。因此,有必要先回顾完全信息静态博弈有限次重复的结论。(一)完全信息重复博弈及其结论零和博弈等博弈方的利益严格对立的博弈G的有限次重复,不会使各博弈人在某阶段的战略选择有所改变(即不会发生合作行为)。有唯一纯战略Nash均衡的博弈G,有限次重复G,不会使各博弈人在某阶段的战略选择有所改变(亦即不会发生合作行为)。特别地,有“连锁店悖论”。有多个纯战略Nash均衡的博弈G,有限次重复,有可能使各个博弈人通过选择象“触发战略”等形式,实现部分阶段的行为。1.有限次重复描述方式:将博弈看成是一个特殊的T阶段完全信息动态博弈,然后用子博弈精练Nash均衡讨论。结论:“连锁店悖论”(chain-storeparadox)Selten(1978);进入者在位者进入不进入默许斗争(40,50)(-10,0)(0,100)逆向归纳假定在位者有20个市场。直观告诉我们,如果进入者在第一个市场进入,在位者应该选择斗争,因为尽管从一个市场看,斗争是不值得的,但这样做可以遏止进入者在其他市场上的进入。唯一的精炼纳什均衡是:进入者总是进入;在位者总是默许。完全信息重复博弈及其结论零和博弈等博弈方的利益严格对立的博弈G的无限次重复,不会使各博弈人在某阶段的战略选择有所改变(即不会发生合作行为)。有纯战略Nash均衡的博弈G,无限次重复,有可能使各个博弈人通过选择象“触发战略”等形式,在适当的贴现率水平下,实现部分阶段的行为。1.无限次重复描述方式:将博弈看成是一个特殊的T=∞阶段完全信息动态博弈,然后用子博弈精练Nash均衡讨论。结论:(二)不完全信息重复博弈情形那么,这些结论,在不完全信息博弈G的重复博弈中,将会有什么样的变化呢?这正是本节要研究的。我们仅讨论G为不完全信息静态博弈时的情况,特别地,就以“囚徒困境”式博弈的不完全信息情况作为主要的讨论对象。描述方式:将T次重复博弈看成是一个特殊的具有T阶段不完全信息动态博弈,然后用精练贝叶斯Nash均衡的概念来讨论。Axelrod实验Axelrod(1981)实验表明:即使在有限次博弈中,合作行为也频繁出现。问题在哪里?一个可能的原因在于:我们前面假定不仅参与人的理性是共同知识,而且每个参与人可以选择的战略和效用函数都是共同知识。但现实不是这样。可能性:逆向归纳方法的问题(理性共识);信息不完全;正如我们前面讨论的谈判情况:如果信息是完全的,谈判一开始就达成协议,但现实中的谈判不是这样,原因在于信息不对称。不完全信息KMRW模型(1982);如果参与人对其他参与人的效用函数和战略空间的信息不完全,即使博弈重复的次数是有限的,人们也有积极性建立一个合作的声誉(reputation),合作会出现。以“囚徒困境”为例说明KMRW模型。囚徒困境博弈—完全信息时的模型坦白C抵赖D坦白C抵赖D-8,-80,-10-10,0-1,-1AB在以下讨论中,坦白=背叛,抵赖=合作单方不完全信息假定有两个参与人,A和B,进行囚徒困境博弈。如下图。参与人A有两中可能的类型:(1)“非理性”型,概率为p。该类型参与人A只有一种战略,针锋相对战略或者称为grimstrategy;(2)“理性”型,概率为(1-p)。该类型参与人A可以选择任何战略。参与人B有一种类型:理性型。对“非理性”的解释“非理性囚徒”:是对具有上面行为特征的另一类囚徒的概括;可以理解为讲义气、重信誉的人;内在化了声誉(reciprocity)社会规范的人;并不是指他的行为是不追求效用最大化,而是说他有一种特殊的成本函数或效用函数;使他更注重讲义气重声誉。“理性囚徒”:是指“机会主义者”或者非合作型参与人,是对完全信息情形下“囚徒”及其行为的一个简单化概括。不完全信息囚徒困境重复博弈的顺序重复博弈的顺序如下:自然首先选择囚徒A的类型;囚徒A知道自己的类型,囚徒B只知道囚徒A属于理性的概率为1-p,非理性的概率为p.两个囚徒进行第一阶段博弈;观测到第一阶段博弈结果后,进行第二阶段博弈;观测到第二阶段的博弈结果后再进行第三阶段博弈;如此类推;两理性囚徒的支付是各个阶段博弈支付的贴现值之和(设贴现率为1)。囚徒困境博弈坦白C抵赖D坦白C抵赖D-8,-80,-10-10,0-1,-1AB在以下讨论中,坦白=背叛,抵赖=合作两次重复囚徒困境博弈情形假设非理性囚徒A只采用一种战略(称为针锋相对战略):开始选择D,然后在t阶段选择囚徒B在t-1阶段的选择(即“你背叛我就背叛,你合作我就合作”)。此时,我们只需考察囚徒B在第一阶段的选择x,该x将影响囚徒A在第二阶段的选择。各选择情况如下表:两次重复囚徒困境博弈情形t=1t=2A非理性(p)理性型(1-p)B(理性型)背叛DX坦白C坦白CX坦白C囚徒B的期望支付情况若参与人B在第1阶段的行动X=D,其两阶段的期望支付总合为:U2D=[p×(-1)+(1-p)×(-10)]+[p×0+(1-p)×(-8)]=17p-18t=1时t=2时同理若参与人B在第1阶段的行动X=C,其两阶段期望支付总和为:U2C=[p×0+(1-p)×(-8)]+[p×(-8)+(1-p)×(-8)]=8p-16t=1时t=2时两次重复时的结论显然,当U2D≥U2c时,即17p-18≥8p-16亦即p≥2/9时,囚徒B将选择X=D.结论:如果囚徒A属于非理性的概率p≥2/9,囚徒B将在第一阶段选择抵赖(D),即合作行为发生。博弈重复3次(T=3)t=1t=2A非理性(p)理性型(1-p)B(理性型)合作DXX=?(D)坦白CXYt=3Y坦白C设非理性囚徒A仍只采用“针锋相对战略”,且p≥2/9,此时,各个博弈人的战略选择可归纳成上表。表4.7坦白C参与人A(理性)的选择可见,如果理性囚徒A和囚徒B在第一阶段选择X=D,那么后续阶段与T=2时相同。t=1t=2A非理性(p)理性型(1-p)B(理性型)合作DX=DX=D坦白CX=DYt=3Y坦白C坦白C表4.8参与人A(理性)的选择下面我们推导上表(表4-8)是精练BayesNash均衡的条件:由于假设非理性囚徒A只采用“针锋相对战略”,故囚徒B修正其先验概率为后验概率的规则是:若在t=1阶段,观测到囚徒A的选择为C,则修正p为P=0,否则P=p。共同知识参与人A(理性)的选择首先考虑理性囚徒A在第一阶段的战略。理性囚徒A选择D是最优的(即不让囚徒B区别自己的真实身份)。证明如下:给定囚徒B在第一阶段的选择D,则理性囚徒A在t=1阶段选择D的总期望效用为:V1D=(-1)+(0)+(-8)=-9对应的战略分别为:理性囚徒A为(D,C,C)囚徒B为(D,D,C)分离战略参与人A(理性)的选择若理性囚徒A在t=1第1阶段选择C,则囚徒B立即在t=2阶段判断出囚徒A的真实身份,从而囚徒B在t=2,3阶段将都选择C.这样理性囚徒A也只有选择C;双方的战略分别为:理性囚徒A(C,C,C)囚徒B(D,C,C)则理性囚徒A的总期望支付为:V1C=(0)+(-8)+(-8)=-16所以理性囚徒A在第一阶段选择合作是最优的。从而没有兴趣单方面偏离表4.8参与人B(囚徒2)的选择囚徒B有四种战略:(合作,合作,背叛)=(D,D,C);(背叛,合作,背叛)=(C,D,C);(背叛,背叛,背叛)=(C,C,C);(合作,背叛,背叛)=(D,C,C)。但是根据在两次重复博弈的讨论,囚徒B的战略(D,C,C)显然不是最优的,故只需考虑前三种。其次考虑囚徒B的战略:给定理性囚徒1在第一阶段选择D(总战略为(D,C,C)),囚徒2选择(D,D,C)的总期望支付为:U2(D,D,C)=[-1]+[p×(-1)+(1-p)×(-10)]+[p×0+(1-p)×(-8)]=17p-19t=1t=2t=3如果囚徒2选择(C,C,C),则整个三阶段重复博弈的路径变为:考察囚徒B的战略(D,D,C)t=1t=2A非理性(p)理性型(1-p)B(理性型)合作DX=C合作D背叛CX=CX=Ct=3X=C背叛C背叛CU2(C,C,C)=[0]+[-8]+[-8]=-16考察囚徒2的战略(D,D,C)因此只要U2(D,D,C)≥U2(C,C,C),即17p-19≥-16亦即p≥3/17则囚徒2选择(D,D,C)优于(C,C,C)。同理若囚徒2选择(C,D,C),则整个三阶段重复博弈的路径变为:考察囚徒2的战略(D,D,C)t=1t=2A非理性(p)理性型(1-p)B(理性型)DCDCCDt=3DCC此时,U2(C,D,C)=[0]+[-10]+[p×0+(1-p)×(-8)]=8p-18考察囚徒2的战略(C,D,C)因此只要U2(D,D,C)≥U2(C,D,C),即17p-19≥8p-18亦即p≥1/9则囚徒2选择(D,D,C)优于(C,D,C)。由于假定了p≥2/9,故p≥3/17和p≥1/9都成立。这说明,给定理性囚徒1的战略(D,C,C)情况下,囚徒2的最优选择为(D,D,C)。亦即没有兴趣单独偏离表4.8。考察囚徒2的战略(D,D,C)综合以上分析,只要囚徒A是非理性的概率p≥2/9,表4.8所示的战略组合就是一个精练BayesNash均衡。关于囚徒2的战略(D,D,C)的结论(五)结论11.只要囚徒A是非理性的概率p≥2/9,下表所列战略组合是一个精炼纳什均衡:非理性囚徒A采用“针锋相对战略”,理性型囚徒A采用(D,C,C),即在第1阶段选择合作,然后在第2和第3阶段选择背叛;囚徒2采用(D,D,C),即在第1和第2阶段选择合作,然后在第3阶段背叛。(五)结论22.可以进一步证明,如果p≥2/9,对于所有T3,下表所列战略组合是一个精炼纳什均衡:非理性囚徒1采用“针锋相对战略”,理性型囚徒1在t=1至t=T-2阶段一直选择合作,然后在第t=T-1和t=T阶段选择背叛;囚徒2采用在t=1至t=T-1阶段选择合作,然后在t=T阶段背叛。非合作阶段的总数量等于2,与T无关。背叛只在最后两阶段出现。(五)结论3--43.如果p2/9,合作行为不可能作为精炼纳什均衡出现。4.如果两个囚徒的类型都是私人信息(即每个囚徒都有p0的概率是非理性的)。则不论p多么小,只要重复的次数足够多,合作均衡就会出现。下面举例说明结论4:(五)举例说明结论4假定:非理性囚徒选择触发战略(“冷酷战略”):(1)开始选择D;(2)若在t阶段对方选择C,则从t+1阶段开始一直选C直到T阶段(即绝不原谅对方的任何背信弃义行为)。则Bayes法则推断后验概率就可以归结为:任何囚徒若在t=1阶段选择C,就将让对方识别为理性的囚徒身份。(五)举例说明结论4下面我们证明:只要T足够大,对理性囚徒而言,在t=1选择C不是最优的。以囚徒1为例:如果他是理性的,且在t=1阶段选择C,则囚徒2将在第二阶段后识别他的身份。这样,博弈的可能路径是:t=1t=2囚徒2非理性(p)理性型(1-p)囚徒1(理性型)DCD或CCCCt=3,…CCC此时,理性囚徒1的最大期望总支付为:u1C=[0]+[-8]+….+[-8]=-8(T-1)(五)举例说明结论4(五)举例说明结论4下面考虑:如果囚徒1是理性的,但他在t=1阶段不选择C,比如他冒充非理性的,选择“冷酷战略”,结果会怎样呢?当囚徒2是非理性的(概率为p),则博弈的路径为