Lecture-5-不完全信息动态博弈

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第五讲不完全信息动态博弈5.1不完全信息动态博弈阻碍进入:静态博弈5.1不完全信息动态博弈阻碍进入:静态博弈5.1不完全信息动态博弈阻碍进入:动态博弈5.1不完全信息动态博弈阻碍进入:动态博弈5.1不完全信息动态博弈精炼贝叶斯均衡(perfectBayesianEquilibrium,PBE)5.1不完全信息动态博弈例5.1.1:吓阻进入5.1不完全信息动态博弈例5.1.1:吓阻进入(1)由C1,在位者(I)形成信念𝑝和1−𝑝,分别为强势进入和弱势进入的概率:由C2,给定信念,在位者选择合作的期望支付为1−𝑝,选择价格战的支付为-1,因此在位者的最优选择是合作。给定在位者选择合作,进入者会选择强势进入。由C3,在均衡路径上,信念由进入者的策略决定p=1均衡•((强势进入,合作);p=1)•求解PBE时,一定要列举出信念5.1不完全信息动态博弈例5.1.2:吓阻进入(2)5.1不完全信息动态博弈例5.1.2:吓阻进入(2)由C1,在位者(I)形成信念𝜇和1−𝜇,分别为𝑐和𝑓的概率由C2,给定信念,在位者(I)的期望支付为•给定在位者选𝑐,进入者(E)的最优选择是𝑐,子博弈上得到支付3,因此在最初会选择In•给定在位者选𝑓,进入者(E)的最优选择是𝑐,子博弈上得到支付-2,因此在最初会选择Out5.1不完全信息动态博弈例5.1.2:吓阻进入(2)由C3,在均衡路径上,信念由进入者的策略决定•进入者的策略{In,c}决定在位者在均衡路径上的信念为𝜇=11/3,给定该信念,进入者的策略{In,c}与在位者的策略c互为最优反应,得到WPBE𝐼𝑛,𝑐,𝑐;𝜇=1•进入者的策略{Out,c}使得信念出现在非均衡路径上,此时任意信念为𝜇1/3,进入者的策略{Out,c}与在位者的策略f互为最优反应,得到WPBE𝑂𝑢𝑡,𝑐,𝑓;𝜇1/3由C4,在非均衡路径上,信念由进入者的策略决定•第二个均衡非均衡路径上的策略𝑐使得信念𝜇=1,与𝜇1/3矛盾,因此可以去掉唯一的均衡PBE为𝐼𝑛,𝑐,𝑐;𝜇=15.2信号博弈信号博弈的一般形式5.2信号博弈信号博弈的一般形式5.2信号博弈信号博弈的均衡信号传递博弈的所有可能精炼贝叶斯均衡可以划分为三类:分离均衡、混同均衡和半分离均衡。•分离均衡(SeparatingEquilibrium):不同类型的发送者以1的概率选择不同的信号,信号准确地揭示出类型。•混同均衡(PoolingEquilibrium):不同类型的发送者选择相同的信号,接收者不修正先验概率(发送者的选择没有信息量)。•半分离均衡(Semi-separatingEquilibrium):一些类型的发送者随机地选择信号,另一类的发送者选择特定的信号。5.2信号博弈R发送者发送者自然LR(2,1)(0,0)(1,0)(1,2)[]q[1]q(0,1)0.50.5L1t2t[]p(1,3)(4,0)[1]p(2,4)ududdudu5.2信号博弈该博弈可能存在的纯策略PBE有。•1、混同于行动L的PBE——无论发送者的类型是t1和t2,发送者的策略都为(L,L)•2、混同于行动R的PBE——无论发送者的类型是t1和t2,发送者的策略都为(R,R)•3、分离均衡——类型t1的发送者选择L,类型t2发送者选择R,发送者的策略都为(L,R)•4、分离均衡——类型t1的发送者选择R,类型t2的发送者选择L,发送者的策略都为(R,L)5.2信号博弈Case1:混同于行动L的PBE接受者分别在观察到L和R后形成信念𝑝和𝑞,由于在该情况下,发送者都选择L,因此𝑝=0.5(没有信念更新)。要使得均衡成立,需要接受者在给定信念下达到最优选择•观察到L后,接受者选择𝑢的支付为3∗0.5+4∗0.5=3.5,选择𝑑的支付为0∗0.5+1∗0.5=0.5,从而最优选择为𝑢。使得在均衡路径上类型𝑡1和𝑡2的发送者支付分别为1和2。•观察到R后,给定信念𝑞,接受者选择𝑢的支付为𝑞,选择𝑑的支付为2(1−𝑞)。若𝑞≥2/3,接受者的最优选择为𝑢,类型𝑡1和𝑡2的发送者支付分别为2和1;若𝑞≤2/3,接受者的最优选择为𝑑,类型𝑡1和𝑡2的发送者支付分别为0和1要使得均衡成立,还需要发送者选择L比选择R要好。•显然当𝑞≤2/3时,两种类型的发送者选择L会更好混同均衡:𝐿,𝐿,𝑢,𝑑;𝑝=0.5,𝑞≤2/35.2信号博弈Case2:混同于行动R的PBE接受者分别在观察到L和R后形成信念𝑝和𝑞,由于在该情况下,发送者都选择R,因此𝑞=0.5(没有信念更新)。要使得均衡成立,需要接受者在给定信念下达到最优选择•观察到R后,接受者选择𝑢的支付为1∗0.5+0∗0.5=0.5,选择𝑑的支付为0∗0.5+2∗0.5=1,从而最优选择为𝑑。使得在均衡路径上类型𝑡1和𝑡2的发送者支付分别为0和1。注意到此时,在非均衡路径上(即选择R),类型𝑡1的发送者至少得到1的支付,因此选择L不是最优,从而不能达成均衡。5.2信号博弈Case3:分离均衡(L,R)接受者分别在观察到L和R后形成信念𝑝和𝑞,由于在该情况下,只有类型𝑡1(𝑡2)的发送者选L(R),因此𝑝=1,𝑞=0。要使得均衡成立,需要接受者在给定信念下达到最优选择•观察到L后,接受者的最优选择为𝑢。使得类型𝑡1和𝑡2的发送者选择L的支付分别为1和2。•观察到R后,接受者的最优选择为𝑑。使得类型𝑡1和𝑡2的发送者选择R支付分别为0和1要使得均衡成立,还需要发送者𝑡1选择L,𝑡2选择R为最优。•发送者𝑡1选择L(支付为1)优于选择R(支付为0)•发送者𝑡2选择R(支付为1)的支付低于L(支付为2),从而无法达成均衡。5.2信号博弈Case4:分离均衡(R,L)接受者分别在观察到L和R后形成信念𝑝和𝑞,由于在该情况下,只有类型𝑡1(𝑡2)的发送者选R(L),因此𝑝=0,𝑞=1。要使得均衡成立,需要接受者在给定信念下达到最优选择•观察到L后,接受者的最优选择为𝑢。使得类型𝑡1和𝑡2的发送者选择L的支付分别为1和2。•观察到R后,接受者的最优选择为𝑢。使得类型𝑡1和𝑡2的发送者选择R支付分别为1和0要使得均衡成立,还需要发送者𝑡1选择R,𝑡2选择L为最优。•发送者𝑡1选择R(支付为1)与选择R(支付为1)无差异•发送者𝑡2选择L(支付为2)优于选择R(支付为0)分离均衡:𝑅,𝐿,𝑢,𝑑;𝑝=0,𝑞=15.2信号博弈5.2.1“啤酒饼干”博弈与“直观准则”5.2信号博弈5.2.1“啤酒饼干”博弈与“直观准则”5.2信号博弈5.2.1“啤酒饼干”博弈与“直观准则”若𝐵𝐷,对类型𝑡1的发讯者来说选择饼干严格由于啤酒,对类型𝑡2的发讯者来说选择啤酒严格由于饼干,于是存在唯一的分离均衡饼干,啤酒,决斗,不决斗;𝑝=0,𝑞=1若𝐵𝐷,不存在分离均衡,存在两类混同均衡饼干,饼干,决斗,不决斗;𝑝=0.1,𝑞≥0.5啤酒,啤酒,决斗,不决斗;𝑝≥0.5,𝑞=0.15.2信号博弈5.2.1“啤酒饼干”博弈与“直观准则”直观准则(IntuitiveCriterion):如果信息(m)后的信息集合在非均衡路径上,而且该信息m对类型𝑡𝑖的传讯者而言是均衡被占优的(equilibrium-dominated),即𝑡𝑖在均衡路径的报酬高于𝑡𝑖发送信息m之后的最高报酬,那么接讯者观察到信息m后对类型𝑡𝑖的信念应该为0。𝐵𝐷时,第一类混同均衡中接讯者观察到啤酒(非均衡路径)后的信念𝑞≥0.5是不合理的:类型为弱(𝑡1)的发讯者均衡中报酬为B+D高于D(这是传递信号啤酒后的最高报酬),根据直观准则,信念𝑞=0,因而这个PBE被剔除了。5.3声誉模型5.3.1“声誉”与连锁店悖论连锁店悖论:根据子博弈归纳,无论下图(左)的吓阻进入博弈重复多少次(有限次),均衡中每一个阶段博弈,进入者都会进入,在位者的也会采用原价。引入信息不对称:在位者有可能是“疯狂”的(如右图)理智在位者疯狂在位者5.3声誉模型5.3.1“声誉”与连锁店悖论考虑一个两阶段的吓阻进入的博弈,贴现因子为𝛿。为了简化起见,这里考虑给定进入者在第一期进入之后的博弈。5.3声誉模型5.3.1“声誉”与连锁店悖论策略:•疯狂的在位者:在第一期和第二期都一定选择低价,因此博弈中不用考虑其策略•理性的在位者:在第二期必选择原价(若进入者进入),因此主要考虑的是其在第一期的策略:原价or低价•在位者:这里考虑进入者在第一期进入之后的博弈,因此主要考虑的是进入者在第二期的策略,即观察到在位者第一期原价后,进入or不进;观察到在位者第一期低价后,进入or不进。信念•进入者在第一期结束之后,第二期决定是否进入之前形成信念𝜇(进入者为理智的概率)。5.3声誉模型5.3.1“声誉”与连锁店悖论分离均衡:•分离均衡中理智在位者选择原价,因此𝜇=0•理智的在位者第一期采用原价的总支付为50+50𝛿•观察到在位者第一期采用低价,进入者认为在位者一定是疯狂的,因此在第二期会选择不进入,这使得理智在位者第一期选择低价的总支付为100+30𝛿•分离均衡要求50+50𝛿≥100+30𝛿,即𝛿≤0.4当𝛿≤0.4时,存在分离均衡原价,低价,进入,不进;𝜇=05.3声誉模型5.3.1“声誉”与连锁店悖论混同均衡:•混同均衡中理智在位者选择低价,因此𝜇=𝑝•理智的在位者第一期采用原价的总支付为50+50𝛿•观察到在位者第一期采用低价,进入者认为在位者是理智的概率为𝑝。此时,其选择不进入的支付为0,选择进入的支付为𝑝∗10𝛿+(1−𝑝)(−10𝛿)。因此若𝑝≥0.5,进入者最优选择为进入,从而在位者选择低价的支付为30+50𝛿;若𝑝≤0.5,进入者最优选择为不进,从而在位者选择低价的支付为30+100𝛿。•混同均衡要求30+100𝛿≥50+50𝛿,即𝛿≥0.4当𝛿≥0.4,且𝑝≤0.5时,存在混同均衡低价,低价,进入,不进;𝜇=𝑝5.3声誉模型5.3.1“声誉”与连锁店悖论半分离均衡:•当𝑝0.5,且𝛿0.4时,不存在纯策略均衡•理智的在位者第一期在原价和低价之间随机选择,记其选择低价的概率为𝑦;观察到在位者第一期采用低价,进入者在进入和不进入之间随机选择,记其选择不进的概率为𝑥。•理智在位者的无差异条件:50+50𝛿=(1−𝑥)30+50𝛿+𝑥30+100𝛿⇒𝑥=2/5𝛿•进入者的无差异条件:0=𝜇(10𝛿)+(1−𝜇)(−10𝛿)⇒𝜇=0.55.3声誉模型5.3.1“声誉”与连锁店悖论半分离均衡:•𝜇=0.5须由在位者的策略和先验概率来决定:𝜇=𝑝𝑦𝑝𝑦+(1−𝑝)=0.5⇒𝑦=1−𝑝𝑝当𝛿0.4,且𝑝0.5时,存在半分离均衡1−𝑝𝑝概率低价,低价,进入,25𝛿概率不进;𝜇=0.5混同均衡的存在,意味着即使是理智的投资者也有可能在第一期进行价格战,从而建立起自己是“疯狂”的声誉来吓退进入者。5.3声誉模型5.3.2“声誉”与囚徒困境阿克斯罗德(Axelrod,1981)的实验结果表明,即使在有限次重复博弈中,合作行为也频繁出现。考虑存在信息不对称的囚徒困境•假定有两个参与人,A和B,进行囚徒困境博弈。如下图。•参与人A有两种可能的类型:“非理性”型,只采用一种策略,tit-for-tat(TFT),该类型概率为𝑝;“理性”型:可以选择任何策略,概率为1−𝑝;•参与人B只有一种类型:理性型。5.3声誉模型5.3.2“声誉”与囚徒困境对于“非理性”的解读•特殊的成本函数或效用函数;•情感因素(如讲义气、重

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功