第五章不完全信息动态博弈叶民强华侨大学工商管理学院第五章不完全信息动态博弈一、精练贝叶斯NE(PBNE)二、信号传递博弈及其应用举例三、PBNE的在精练及其他均衡概念四、不完全信息重复博弈与声誉五、博弈论均衡概念简要总结一、精练贝叶斯NE(PBNE)1、基本思路2、贝叶斯法则3、PBNE4、不完美信息博弈的PBNE1、基本思路在不完全信息动态博弈:①“自然”选择i类型θi,θi参与人i自知,其他人-i不知;②在N选择后,参与人i开始行动(有先有后(动态)),后行动者能观测到先行动者的行动,但不能观测到先行动者的类型(后者知前者的a,不知前者的θ),但a=a(θ),于是从a了解到θ(后行动者可以通过观察先行动者的行动a来推断其θ或修正对其类型的先验信念(概率分布),然后③后行动者选择自己的最优行动。先行动者预测到自己的行动将被后行动者所利用,就会设法选择传递对自己最有利的信息,避免传递对自己不利的信息。因此,博弈过程不仅是参与人选择行动的过程,又是参与人修正信念的过程(主观概率)。(1)两个例子–例1、“黔驴之技”–例2、市场进入(2)上一章的BNE无法全面分析上述动态博弈的均衡结果例1、“黔驴之技”①毛驴刚到贵州,是个庞然大物,老虎躲在树林偷偷地瞧(最优)②老虎走出树林,(想了解毛驴的真实本领的信息),有一天毛驴大叫一声,老虎被吓逃了(最优)③又过了几天,老虎习惯毛驴的叫声,老虎靠近毛驴,毛驴用蹄子去踢老虎,这一踢向老虎传递的信息是“毛驴不过这点本事而已”,老虎一下扑向毛驴,将其吃掉。这个故事里,老虎通过观察毛驴的行为逐渐修正对毛驴的看法,直到看清它的真面目,把它吃掉。这是一个PBNE,老虎的每一步行动都是给定它的信息下最优的。事实上,这个故事里,毛驴的行为也是很理性的,它知道自己技能有限,所以不到万不得已是不用那仅有的一技的,否则它早就被老虎吃掉了。精练贝叶斯均衡(PBNE):是不完全信息动态博弈均衡的基本均衡概念,它是泽尔腾(selten)的完全信息动态博弈子博弈精练NE和海萨尼(Harsanyi)的不完全信息静态BNE的结合。例2、市场进入假定有两个时期t=1,2参与人1在位者高成本低成本参与人2进入者2不进入在位者1为垄断者2进入两个企业进行Cournot博弈进入者2知道在位者1,概率µ属高成本,概率1-µ属低成本。在t=1(进入者2决定是否进入之前,作为垄断者的在位者1要决定p(或Q))以p为例:假定三种价格p=4,p=5或p=6=π=2,6或7高成本π=6,9或8低成本故在位者的最优垄断价格p=6高成本π=7p=5低成本π=9在t=2,①若进入者2进入,则在位者1的成本函数变成共同知识。a、若在位者1是高成本,两企业的成本函数相同,对称的Cournot均衡产量下的价格为p=5,每个企业i的利润πi=3(但扣除进入成本2,进入者的利润收益为1,即π2=1)b、若在位者1是低成本,则c2c1,p=4,π1=5,π2=-1。②若进入者不进入,t=2时期在位者仍为一个垄断者,即p与π同t=1时期,进入者π=0。构造了上述数据使得在完全信息情况下有:若在位者是高成本,进入者选择进入;若在位者是低成本,进入者选择不进入。高成本在位者使π进=1π不进=0;低成本在位者使π进=-1π不进=0。例2、市场进入图5.1市场进入博弈(2)上一章的BNE无法全面分析上述动态博弈的均衡结果①按上述结构可以有任意的BNE–在静态BNE中,参与人的信念(主观概率)是事前给定(高成本还是低成本是事前给定),而均衡概念没有规定参与人如何修正自己的信念。但是,如果进入者可以任意地修正自己有关在位者成本函数的信念,上述不完全信息动态博弈可以有任意的BNE。–例如:假定u=u*1/2(u为在位者属高成本的概率),下列战略组合是一个贝叶斯均衡:不论在位者选择什么价格,进入者总是认为在位者是高成本的概率为u*1/2,总是选择不进入;高成本的在位者选p=6,低成本的在位者选p=5。–这个战略组合是一个BNE,因为,给定信念u*1/2和在位者的战略,进入者选择不进入是最优(∵Eπ进=1×u*+(-1)(1-u*)=2u*-10);给定进入者总是选择不进入,在位者选择单阶段最优垄断价格是最优的(第一阶段的选择对第二阶段的结果没有影响),但这个均衡是不合理的(因为它包含一个不可置信的威胁:进入者不会修正对在位者成本函数的信念。因给定p=6不可能是低成本在位者的最优选择,如果在位者选择了p=6,进入者为什么仍然认为在位者是高成本的概率小于1/2呢?)。然而,在第二章,我们引入了SPNE(子博弈精练NE)概念删除那些包含不可置信威胁战略的NE。–但如上图5.1所示的不完全信息动态博弈中,子博弈精练均衡概念并不能给我们直接帮助,因为不完全信息博弈只有一个子博弈,即从初始者开始的整个博弈,因此,所有的均衡都是子博弈精练均衡。在图5.1,进入者的每个信息集都包含两个决策结,除非进入者知道自己处在每一个决策结上的概率,否则,他不可能作出决策。(2)上一章的BNE无法全面分析上述动态博弈的均衡结果②解决方法:SPNE不能直接用,但SPNE概念的逻辑是适用的。–SPNE要求均衡战略应满足:整个博弈构成NE,每一个子博弈构成NE。–仿照这一逻辑,定义:从每一个信息集开始的博弈的剩余部分称为一个“后续博弈”。–后续博弈(可分割信息集);子博弈(不可分割信息集)–SPNE:①完全信息;②在每一个子博弈上构成NE;③动态。–PBNE:①不完全信息;②给定每一个参与人有关其他参与人类型的后验信息(主观概率),参与人的战略组合在每一个后续博弈上构成BNE;③动态。2、贝叶斯法则统计学上:先验概率(事前概率,人们在修正之前的判断);后验概率(事后概率,执行后的概率)贝叶斯法则正是人们根据新的信息从先验概率得到后验概率的基本方法。假定参与人i有K个可能类型θk,概率为,有H个可能的行动ah,给定i∈θk,选的条件概率为(总有一行动会选到),则i选择ah的概率是:即i选择行动ah的“总”概率是每一种类型的i选择ah的条件概率p(ah|θk)的加权平均,权数是他属于每种类型的先验概率p(θk)。后验行动(选择ah)通过先验概率属于类型p(θk)来确定。1(),()1KkkkppHhkhkhapap11)|(),|(1111Pr{}(/)()(|)()(|)()KhhhKKhkkkobapappappap公式:2、贝叶斯法则假如我观测到i选择了ah,i∈θk的后验概率是多少?Pr{,}(|)()khkkiaihakhhkhkkaobapap并选的联合概率类型的参与人的先验概率事前选类型选择的概率类型参与人选择行动Pr{,}Pr{|}Pr{}hhaiakikhkhhobaobaoba给定情况下,选择的总概率事后选类型属于的后验概率可变换位置1{|}{}{|}{}2Pr{|}Pr{}(|)()jjhkkhkkkhKhhjpappapobaobapap公式:观察ah行动发生来考虑是哪种类型参与人,这就是贝叶斯法则。2、贝叶斯法则已知先验概率,求后验概率。例:好人坏人好事坏事GPBPGTBT则:一个人干好事的概率=他是好人的概率p(GP)×好人干好事概率p(GT|GP)+他是坏人的概率p(BP)×坏人干好事概率p(GT|BP)Pr()(|)()(|)()obpGTpGTGPpGPpGTBPpBP假定我们观测到一个人干了一件好事,那么,这个人是好人的后验概率为:(|)()Pr{|}(Pr{|}Pr{}(|)())Pr{}pGTGPpGPobGPGTobGPGTobGTpGTGPpGPobGT2、贝叶斯法则(1)设先验概率p(GP)=1/2,这个人是好人的先验概率为1/2。则,在观测到他干了好事之后,我们如何修正他是好人的先验概率依赖于我们认为这件好事好到什么程度。第一种情况:一件非常好的好事p(GT|GP)=1(好人一定干),p(GT|BP)=0(坏人绝不可能干)结论:他肯定是个好人(尽管事前认为这个人是好人的概率只有1/2),(从观察到一件非常好的好事,而这个人干了,那么这个人是好人)11(|)()2Pr{|}111(|)()(|)()1022pGTGPpGPobGPGTpGTGPpGPpGTBPpBP则第二种情况:一件非常一般的事,好人会做,坏人也会做,即p(GT|GP)=1,p(GT|BP)=1,结论:我们对他的看法不会改变。(一件任何人都会干的事,这个人干了,但这个人是好人的后验概率等同于其先验概率)1121Pr{|}2111122obGPGT则第三种情况:p(GT|GP)=1(好人会干),p(GT|BP)=1/2(坏人干与不干各为1/2概率,可能干也可能不干)结论:我们认为他是好人的可能性增加了,但他仍有1/3的可能性是坏人。322121211211}|{PrGTGPob2、贝叶斯法则(2)假如我们观测到这个人干了一件坏事,我们将如何改变对他的看法呢?–若我们相信,好人绝不会干坏事,只有坏人才会干坏事,那么我们可以肯定,他绝不可能是一个好人:021210210}{Pr)()|(}|{Pr21)(,21)(,0)|(pBTobGPpGPBTpBTGPobGPpBPpGPBTp即可假定:12121021)()|()()|()()|(}|{Pr2/1)(,2/1)(,}|{ppBPpBPBTpGPpGPBTpBPpBPBTpBTBPobGPpBPppBPBTp则若–则他肯定是一个坏人。2、贝叶斯法则(3)若我们原来认为他肯定是一个坏人,突然发现他干了一件好事,我们又该如何看待这个人呢?若我们认为坏人干好事并不仅仅是为了假装好人,p(GT|BP)=p,p(BP)=1,p(GT|GP)=q,p(GP)=0,我们对他的看法就不会改变。(|)()1Pr{|}1(|)()(|)()01pGTBPpBPpobBPGTpGTGPpGPpGTBPpBPqpPr{|}()Pr{}obGTBPpBPobGTp0是坏人干好事的概率q0是好人干好事的概率未定式;0001010)()|()()|()()|(}|{PrqGPpGPGTpBPpBPGTpBPpBPGTpGTBPob若我们认为坏人干好事的目的的仅仅是为了假装好人,若这个人是在知道我们认为他是坏人的情况下干了好事,则我们认为这个人是坏人的后验概率可以是[0,1]区间的任何数。这是因为p(BP)=1,p(GP)=0,p(GT|BP)=0,p(GT|GP)=q,而概率是[0,1]中的数,所以Prob{BP|GT}是区间[0,1]中的任意数。2、贝叶斯法则从上述例子中可以看到,我们如何改变对一个人的看法不仅依赖于我们认为他是好人或坏人的先验概率,而且依赖于我们如何“认为”好人干好事和坏人干好事的条件概率。这一点对于理解精练贝叶斯均衡概念是非常重要的,当然我们不能任意地“认为……”在PBNE中,i“认为”必须是正确的。即当我们取p(GT|BP)时,在给定信息情况下(包括这个人知道我们如何修正对他的看法)。若p(BP)=1,则p(GT|BP)是他的最优选择,或者说p(GT|BP)是均衡战略(极端地,当p(GT|BP)=1,干坏事一定是他的最优选择)。(|)()Pr{|}Pr{}pGTBPpBPobBPGTobGT3、PBNE(1)PBNE定义(2)PBNE(1)PBNE定义PBNE定义:i,i=1,2,…,n,θi∈Θi,θi是私人信息。令si是i的战略空间,si∈Si,,ui(si,s-i,θi)。pi(θ-i|θi)是属于类型θi的参与人i认为其他n-1个参与人属于类型θ-i=(θ1,…,θi+