2019/12/18重庆大学刘辛1第五章不完全信息动态博弈贝叶斯精炼均衡2019/12/18重庆大学刘辛2不完全信息动态博弈类型:自然首先选择玩家的类型,玩家自己知道,其他玩家不知道——不完全信息行动:行动有先有后,后行动者能观测到先行动者的行动,但不能观测到其类型。--动态博弈但是,玩家是类型依存型的,每个玩家的行动都传递有关自己类型的信息,后行动者可以通过观察先行动者的行动来推断自己的最优行动。2019/12/18重庆大学刘辛3不完全信息动态博弈先行动者预测到自己的行动被后行动者利用,就会设法传递对自己最有利的信息。不完全信息动态博弈过程不仅是玩家选择行动的过程,而且是玩家不断修正信念的过程。精练贝叶斯均衡是泽尔腾不完全信息动态博弈子博弈精练纳什均衡与海萨尼不完全信息静态博弈贝叶斯均衡的结合。2019/12/18重庆大学刘辛4黔之驴-驴虎博弈•黔无驴,有好事者船载以入。至则无可用,放之山下。虎见之,庞然大物也,以为神,蔽林间窥之。稍出近之,慭慭然,莫相知。•他日,驴一鸣,虎大骇,远遁;以为且噬己也,甚恐。然往来视之,觉无异能者;益习其声,又近出前后,终不敢搏。稍近益狎,荡倚冲冒。•驴不胜怒,蹄之。虎因喜,计之曰,“技止此耳!”因跳踉大㘎,断其喉,尽其肉,乃去。2019/12/18重庆大学刘辛5黔之驴-驴虎博弈•老虎通过不断试探来修正对毛驴的看法,每一步行动都是给定它的信念下最优的•毛驴也是如此•最终老虎将毛驴吃掉。2019/12/18重庆大学刘辛6基本思路-不完全信息动态博弈•市场进入博弈:玩家:在位者,进入者;T=1,市场上只有一个垄断企业,在位者,一个潜在进入者考虑是否进入;如果进入者进入,两个企业进行库挪特博弈,在位者获得垄断利润。类型:在位者有两种类型,高成本或低成本,进入者在博弈开始时只知道在位者高成本的概率是x,低成本概率是1-x。称为先验概率。2019/12/18重庆大学刘辛7收益价格P=4P=5P=6在位者高成本时的利润267在位者低成本时的利润6982019/12/18重庆大学刘辛8基本思路-不完全信息动态博弈•进入者只有一种类型:进入成本为2,如果进入,生产成本函数与在位者高成本函数相同。•T=2,如果进入者已进入,在位者成本函数为共同知识,若在位者为高成本,企业企业成本函数相同,对称库诺特均衡产量下的价格p=5时,每个企业利润为3,扣除进入成本2,进入者利润为1。•若在位者为低成本,两个企业成本函数不同,非对称库诺特均衡产量下的价格p=4,在位者利润是5,进入者成本为1,扣除进入成本2,其利润为-1。2019/12/18重庆大学刘辛9进入者收益价格P=4P=5P=6在位者高成本时的利润267在位者低成本时的利润698进入者进入在位者进入者在位者高成本p=531在位者低成本p=45-12019/12/18重庆大学刘辛10动态博弈•进入者只有一种类型:进入成本为2,如果进入,生产成本函数与在位者高成本函数相同。•T=2,如果进入者已进入,在位者成本函数为共同知识,若在位者为高成本,p=5时,每个企业利润为3,扣除进入成本2,进入者利润为1。若在位者为低成本,p=4,在位者利润是5,进入者成本为1,扣除进入成本2,其利润为-1。2019/12/18重庆大学刘辛11N高低在位者P=5P=6进入不进入进入不进入进入不进入进入不进入(6,0)(6,0)(7,0)(7,0)(6,0)(6,0)(9,0)(9,0)P=4进入者进入不进入(2,0)(2,0)进入不进入(8,0)(8,0)[x][1-x]在位者P=5P=6P=4第一阶段第二阶段(3,1)(7,0)(3,1)(7,0)(5,-1)(9,0)(5,-1)(9,0)(3,1)(7,0)(5,-1)(9,0)市场进入博弈-2阶段不完全信息动态博弈进入者只有一种类型:进入成本为2,如果进入,生产成本函数与在位者高成本函数相同。T=2,如果进入者已进入,在位者成本函数为共同知识,若在位者为高成本,p=5时,每个企业利润为3,扣除进入成本2,进入者利润为1。若在位者为低成本,p=4,在位者利润是5,进入者成本为1,扣除进入成本2,其利润为-1。2019/12/18重庆大学刘辛12基本思路-不完全信息动态博弈•T=2,企业的行动选择是一个简单的静态博弈决策问题,但在第一阶段,情况要复杂得多:•进入者是否进入依赖于它对在位者成本函数的判断:给定在位者是高成本时,进入者进入的净利润是1,低成本时进入者的利润是-1,当只当进入者认为在位者是高成本的概率大于1/2时,进入者才选择进入。•但与静态博弈不同的是,在观测到在位者第一阶段的价格选择后,进入者可以修正对在位者成本函数的先验概率x,因为在位者的价格可能包含其成本函数的信息。价格P=4P=5P=6在位者高成本时的利润267在位者低成本时的利润6982019/12/18重庆大学刘辛13N高低在位者P=5P=6进入不进入进入不进入进入不进入进入不进入(6,0)(6,0)(7,0)(6,0)(6,0)(9,0)(9,0)P=4进入者进入不进入(2,0)(2,0)进入不进入(8,0)(8,0)[x][1-x]在位者P=5P=6P=4第一阶段第二阶段(3,1)(7,0)(3,1)(7,0)(5,-1)(9,0)(5,-1)(9,0)(3,1)(7,0)(5,-1)(9,0)市场进入博弈二阶段不完全信息动态博弈(7,0)高成本在位者不会选择p=6低成本在位者不会选择p=52019/12/18重庆大学刘辛14基本思路-不完全信息动态博弈•低成本的在位者不会选择p=6,因此,如果进入者观察到在位者选择了p=6,就可以推断在位者一定是高成本,选择进入是有利可图的。•预测到p=6会招致进入者进入,即使高成本的在位者也可能不会选择p=6,而招致进入者的进入。相反,低成本在位者也不会选择p=5,如果p=5会招致进入者进入的话。•问题的核心是:不同的价格如何影响进入者的后验概率从而影响进入者的进入决策。价格P=4P=5P=6在位者高成本时的利润267在位者低成本时的利润6982019/12/18重庆大学刘辛15基本思路-不完全信息动态博弈•一个非单阶段最优价格会减少现期利润,但如果它能阻止进入者进入,从而使在位者在第二阶段得到的是垄断利润而不是库诺特均衡利润•如果垄断利润与库诺特均衡利润的差距足够大,如果在位者有足够的信心选择一个非单阶段最优价格可能是最优的。•在均衡情况下,在位者究竟选择什么价格,不仅与成本函数有关,而且与进入者的先验概率x有关。而不关x为多少,单阶段最优垄断价格不构成均衡。2019/12/18重庆大学刘辛16基本思路-不完全信息动态博弈•在静态贝叶斯均衡中,玩家的信念是事前给定的,均衡该概念没有规定玩家如何修正自己的信念。•如果进入者可以任意修订自己有关在位者成本函数的信念,上述不完全信息动态博弈可以有任意均衡。•如假定x1/2,下列战略组合是一个贝叶斯均衡:不论在位者选择什么价格,进入者总认为在位者是低成本的概率为x*1/2,总是选择不进入;搞成本在位者选择p=6,低成本在位者选择p=5。2019/12/18重庆大学刘辛17不完全信息动态博弈•但显然这个均衡是不合理的,因为它包含了一个不可置信威胁:进入者不会修正对在位者成本函数的信念。•给定p=6不可能是低成本在位者的最优选择,如果在位者选择了p=6,进入者为什么仍然认为在位者是高成本的概率小于1/2呢?2019/12/18重庆大学刘辛18基本思路-不完全信息动态博弈•完全信息动态博弈中引入了子博弈精练纳什均衡的概念概念剔除那些不可置信的威胁•不完全信息动态博弈中,只有一个子博弈,不能将上述方法直接用于求不完全信息动态博弈的均衡解,但可以借用这一方法逻辑。•将每个信息集开始的博弈的剩余部分称为一个“后续博弈”2019/12/18重庆大学刘辛19基本思路-不完全信息动态博弈•一个“合理”的均衡应该满足如下要求:给定每一个玩家有关其他玩家类型的后验信念,玩家的战略组合在每一个后续博弈上构成贝叶斯均衡•剔除这种不可信行为的方式是:假定玩家(在所有可能情况下)根据贝叶斯规则修正先验概念,并且,每个玩家都假定其他玩家选择的是均衡战略。2019/12/18重庆大学刘辛20基本思路-不完全信息动态博弈•精练贝叶斯均衡是贝叶斯均衡、子博弈精练均衡和贝叶斯推断的结合。它要求:1、在每个信息集上,决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布(信念);2、给定该信息集上的概率分布和其他玩家的后续战略,玩家的行动必须是最优的;3、每一个玩家根据贝叶斯法则和均衡战略修正后验概率。2019/12/18重庆大学刘辛21贝叶斯法则•在日常生活中,当面临不确定时,我们对某事件发生的可能性有一个判断,然后,会根据新的信息来修正这个判断。统计学上,修正之前的判断称为“先验概率”修正后的判断称为“后验概率”•贝叶斯法则就是人们根据新的信息从先验概率得到后验概率的基本方法。2019/12/18重庆大学刘辛22贝叶斯法则•假定玩家的类型是独立分布的,玩家i有K个类型,有H个可能的行动,өk和ah分别代表一个特定的类型和一个特定的行动。•如果我们观察到i选择了ah,i属于өk的后验概率是多少?kjjjhkkhhkkhhkpappapaobpapaob1)()()()(}{Pr)()(}{Pr2019/12/18重庆大学刘辛23贝叶斯法则人:好人(GP),坏人(BP)事:好事(GT),坏事(BP)•一个好人干好事的概率等于他是好人的概率p(GP)乘以好人干好事的概率p(GT|GP),加上他是坏人的概率p(BP)乘以坏人干好事的概率p(GT|BP):Prob{GT}=p(GT|GP)*p(GP)+p(GT|BP)*p(GT|BP)假定观测到一个人干了一件好事,那么这个人的是好人的后验概率是:}{Pr)()(}{PrGTobGPpGPGTpGTGPob2019/12/18重庆大学刘辛24贝叶斯法则}{Pr)()(}{PrGTobGPpGPGTpGTGPob假定我们认为这个人是好人的先验概率是1/2,观测到他干了好事之后如何修正他的先验概率依赖于他干的好事好到什么程度:1、是一件非常好的好事,坏人绝对不可能干,则p(GT|GP)=1p(GT|BP)=012/102/112/11}{PrGTGPob2019/12/18重庆大学刘辛25贝叶斯法则}{Pr)()(}{PrGTobGPpGPGTpGTGPob2、这是一个非常一般的好事,好人会干,坏人也会干:p(GT|GP)=1p(GT|BP)=13、介于上述两种情况之间:好人肯定会干,但坏人可能会干也可能不会干:p(GT|GP)=1/2p(GT|BP)=1/2212/112/112/11}{PrGTGPob322/12/12/112/11}{PrGTGPob2019/12/18重庆大学刘辛26贝叶斯法则}{Pr)()(}{PrGTobGPpGPGTpGTGPob假定我们观测到他干了一件坏事,我们相信,好人绝对不会干坏事,,那么可以肯定他绝对不是一个好人。假定我们原来认为他是个好人,大突然发现他干了一件好事,我们如何看待呢?02/12/102/10}{PrpBTGPob1102/1}{PrpqpGTBPob2019/12/18重庆大学刘辛27精练贝叶斯纳什均衡•精练贝叶斯均衡是均衡战略和均衡信念的结合,给定信念:是使用贝叶斯法则从均衡战略和所观测到的行动得到的。因此,精练贝叶斯均衡是一个对应的不动点:)~,,~(~),,,(),,(),~,,~(~1**1***1*1nnnnpppssssssppp信念给定战略是最优的;战略))~((~~));(~(***psppspss2019/12/18重庆大学刘辛28啤酒-蛋糕博弈•玩家1是一个善于打架的强者的概率是0.9,是一个不善于打架的弱者的概率是0.1•即使玩家1