经济博弈论完全且完美信息动态博弈本部分内容简介1.讨论动态博弈,所有博弈方都对博弈过程和得益完全了解的完全且完美信息动态博弈。动态博弈与静态博弈的区别主要体现在博弈方的选择、行为有先后次序等方面,故它们在表示方法、利益关系、分析方法和均衡概念等有所不同。2.介绍动态博弈分析的概念和方法,特别是子博弈完美均衡和逆推归纳法,并介绍各种经典的动态博弈模型。本部分主要内容3.1动态博弈的表示法和特点3.2可信性和纳什均衡的问题3.3子博弈和子博弈完美纳什均衡3.4几个经典动态博弈模型3.5有同时选择的动态博弈模型3.6动态博弈分析的问题和扩展讨论3.1动态博弈的表示法和特点动态博弈各博弈方先后选择行为,使得其在表示方法与策略方面与静态博弈有所不同。动态博弈的其它名称:多阶段博弈;序列博弈;扩展形博弈3.1.1扩展形表示扩展形可以反映动态博弈中博弈方的选择次序和博弈的阶段,常用来表示动态博弈阶段:动态博弈中一个博弈方的一次选择行为A开发不开发BB开发不开发开发不开发(-3,-3)(1,0)(0,1)(0,0)B(开发,开发)(开发,不开发)(不开发,开发)(不开发,不开发)开发A不开发-3,-3-3,-31,01,00,10,00,10,03.1.1扩展形表示例子:仿冒和反仿冒博弈设有一家企业的产品被另一家企业,如果被仿冒企业采取措施制止,仿冒企业就会停止仿冒;否则,它将继续仿冒。被仿冒企业:理论上,应当采取措施制止仿冒;现实中,制止仿冒需要代价仿冒企业:不被制止可能获得利益,但被制止可能“偷鸡不成蚀把米”。两个企业在仿冒和制止仿冒的问题上,存在着一个行为和利益相互储存的博弈问题。它是一个动态博弈。3.1.1扩展形表示A:仿冒企业;B:被仿冒企业ABBA不制止制止(-2,5)(2,2)(10,4)(5,5)不仿冒(0,10)仿冒不制止制止仿冒不仿冒当动态博弈的阶段很多,或博弈方在一个阶段有许多可以选择的行为,此时将难以用扩展形表示动态博弈,此时常直接用文字描述和数学函数式表示。如:下棋博弈产量博弈3.1.2动态博弈的基本特点动态博弈的策略和结果策略是在整个博弈中所有选择、行为的计划,它由各博弈方在各个决策结上的所有可选策略构成;得益对应每条路径,而不是对应每步选择、行为有时也用得益矩阵表示动态博弈,但不如扩展形好,因为其无法反映动态博弈的次序关系,及不同阶段之间的内在影响和联系。3.1.2动态博弈的基本特点动态博弈的非对称性动态博弈的非对称性——先后次序决定动态博弈必然是非对称的(如在信息拥有量上就是不对称的);先选择、行为的博弈方常常更有利,有“先行优势”。后行动的博弈方更具信息优势,但却不一定总能得到较好的结果。3.2逆推归纳法定义:从动态博弈的最后一个阶段博弈方的行为开始分析,逐步倒推回前一个阶段相应博弈方的行为选择,一直到第一个阶段的分析方法,称为“逆推归纳法”。逻辑基础:动态博弈中先行动的理性的博弈方,在前面阶段选择行为时必然会先考虑后行为博弈方在后面阶段中将会怎样选择行为,只有在博弈的最后一个阶段选择的,不再有后续阶段牵制的博弈方,才能直接作出明确选择。而当后面阶段博弈方的选择确定以后,前一阶段博弈方的行为也就容易确定了。逆推归纳法是动态博弈分析最重要、基本的方法。开金矿博弈:甲在开采一价值4万元的金矿时缺1万元资金,而乙正好有1万元资金可以投资。设甲想说服乙将这1万元资金借给自己用于开矿,并许诺在采到金子后与乙对半分成,乙是否该将钱借给甲呢?假定金矿的价值无可质疑,乙关心的是:甲采到金后是否会履行诺言跟自己平分。乙甲(0,4)(2,2)(1,0)不借借分不分开金矿博弈我们一般假设博弈方都是以自身利益最大化为目标,即他们不考虑道德因素。除非能把道德因素折算成数量化的效用综合进得益中。左图中,第一个数字为乙的得益。不借乙甲乙借不分分(1,0)不打打(0,4)(-1,0)(2,2)法律保障不足的开金矿博弈3.2逆推归纳法法律保障不足开金矿博弈的等价博弈均衡:({不借,不打},不分)乙甲乙打(2,2)不分分不借借(0,4)(-1,0)不打(1,0)甲乙(2,2)不分分不借借(0,4)(1,0)乙不借借(0,4)(1,0)不借乙甲乙借不分分(1,0)不打打(0,4)(1,0)(2,2)有法律保障的开金矿博弈(2,2)(1,0)均衡:({借,打},分)不借乙甲乙借不分分(1,0)不打打(0,4)(1,0)(2,2)有法律保障的开金矿博弈要充分保障社会公平和经济活动的效率,法律制度必须要满足两方面的要求:对人们正当权益的保护力度足够大;对侵害他人利益者有足够的震慑作用。如果达不到这种水平,则法律制度的作用就是很有限的,甚至完全无效。动态博弈中的纳什均衡均衡与均衡结果均衡:各博弈方完整的策略组合或行动方案均衡结果:博弈方均衡策略组合实际产生的行为结果B(开发,开发)(开发,不开发)(不开发,开发)(不开发,不开发)开发A不开发-3,-3-3,-31,01,00,10,00,10,0动态博弈中的纳什均衡纳什均衡:(开发,{不开发,开发}),(开发,{不开发,不开发}),(不开发,{开发,开发})均衡结果:(开发,不开发),(不开发,开发)B(开发,开发)(开发,不开发)(不开发,开发)(不开发,不开发)开发A不开发(开发,{不开发,开发})是该博弈的唯一一个可信均衡。-3,-3-3,-31,01,00,10,00,10,03.3子博弈和子博弈完美纳什均衡3.3.1子博弈3.3.2子博弈完美纳什均衡3.3.1子博弈定义:由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的,有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的一部分,称为原动态博弈的一个“子博弈”。习惯上,任何博弈本身成为自身的一个子博弈A开发不开发BB开发不开发开发不开发(-3,-3)(1,0)(0,1)(0,0)A开发不开发BB开发不开发开发不开发(-3,-3)(1,0)(0,1)(0,0)子博弈必须从一个单结信息集开始,如果一个信息集包含两个决策结,没有任何一个决策结可作为子博弈的初始结不借乙甲乙借不分分(1,0)不打打(0,4)(-1,0)(2,2)法律保障不足的开金矿博弈在完美信息博弈的每一个决策结都开始一个子博弈(即每一个决策结和它的后续结构成一个子博弈)乙甲不借借不分分(1,0)(0,4)(2,2)乙(-1,0)3.3.2子博弈完美(精炼)纳什均衡定义:如果一个完美信息的动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个“子博弈完美(精炼)纳什均衡”。泽尔腾(1865)引入子博弈完美(精炼)纳什均衡。目的是将那些包含不可置信威胁战略的纳什均衡从均衡中剔除。简单说,子博弈纳什均衡要求均衡战略行为规则在每一个信息集上都是最优的。A开发不开发BB开发不开发开发不开发(-3,-3)(1,0)(0,1)(0,0)纳什均衡:(开发,{不开发,开发}),(开发,{不开发,不开发})(不开发,{开发,开发})子博弈1:(不开发);子博弈2(开发)3.3.2子博弈完美纳什均衡子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺,因此是真正稳定的。子博弈完美纳什均衡必须对博弈方在所有选择节点处的选择做出规定,包括最终不在均衡路径上的节点。逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。3.4几个经典动态博弈模型3.4.1寡占的斯塔克博格模型3.4.2劳资博弈3.4.3讨价还价博弈3.4.4委托人—代理人理论3.4.1寡占的斯塔克博格模型先后选择产量的产量竞争博弈把古诺模型改为厂商1先选择,厂商2后选择,而非同时选择即可。QQPPqqQ8)(,21221cc121111112)](8[)(qqqqqcQPqu221222222)](8[)(qqqqqcQPqu221226qqqq211216qqqq根据逆推归纳法的思路,先分析第二阶段厂商2的决策。在第二阶段,厂商2决策时,厂商1选择的q1实际上已经决定了,并且厂商2知道q1,因此,对厂商2来说,相当于是在给定q1的情况下,求使u2实际最大值的q2,这样,q2必须满足:**211222062032uqqqqq厂商2对厂商1产量的一个反应函数。3.4.1寡占的斯塔克博格模型厂商1知道厂商2的决策思路,因此,在选择q1时就知道厂商2的产量q2*会依上述反应函数确定,所以可以直接将上式代入自己的得益函数,这样,厂商1的得益函数实际上转化为自身产量的一元函数:**221112112111121111,6632132quqqqqqqqqqqquq3.4.1寡占的斯塔克博格模型可见,当把厂商2的反应函数考虑进来以后,厂商1的得益就完全可以由他自己控制了,因此,他可以直接根据自己的得益函数求出使其最大化的产量:此时,厂商2的最佳产量是:产量得益厂商13单位4.5厂商21.5单位2.25**1111033uqqq**211331.51.52qq启示:在信息不对称的博弈中,信息较多的博弈方不一定以得到较多的利益。区别于单人博弈3.4.2劳资博弈该博弈过程为:先由工会决定工资率,再由厂商决定雇用多少劳动力工会代表的劳方效用:厂商的利润函数:其中:W:工资率;L:厂商雇佣的工人数,uuWL,()WLRLWL第一步:先分析第二阶段厂商的选择,即厂商对工会选择的工资率W的反应函数L(W)设工会提出的工资率为W,则厂商实际自己最大利益的雇佣数L为以下最大值问题。对上式关于L求导,解出L,就是在给定工会选择工资率W时厂商的最优雇佣数量。一阶导为零R’(L)-W=0的经济意义:厂商增加雇佣的边际利润。])([max),(max00WLLRLWLL3.4.2劳资博弈厂商取得最大利润的雇佣数对应的曲线上点A处的切线斜率一定等于工资率W,在L*(W)处,R(L)与WL之间的距离(正是厂商的利润)最大。)(*WLRL0WL厂商的反应函数R(L)斜率为W])([max),(max00WLLRLWLLA第二步:分析第一阶段工会的选择。由于工会了解厂商的决策方法,因此它完全清楚对应自己选择的每种工资率W,厂商将会选择的雇佣数一定是由上述方式决定的L*(W)。因此,工会需要解决的决策问题变成选择W*,使它满足如下最大化问题:如果给出工会效用函数的具体形式,就可以通过解这个最大值问题,求出符合工会最大利益的工资率W*。)](,[max*0WLWuW3.4.2劳资博弈工会的无差异曲线LW0)(**WL)(*WL0u1u2u3u*W)](,[max*0WLWuW3.4.3讨价还价博弈讨价还价:两人就如何分享1万元现金进行谈判,并定下如下规则:先由甲提出一个分割比例,对甲提出的比例乙可以接受也可以拒绝;如果乙拒绝甲的方案,则他自己应提出另一个方案,让甲选择接受与否;……只要任何一方接受对方的方案,博弈就结束,而如果方案被拒绝,则被拒绝方案与以后的讨价还价不再有关系。每一次,一方提出一个方案,与另一方选择是否接受为一个回合,讨价还价每多进行一个回合,由于谈判费用和利息损失等,双方的利益都要打一个折扣(其值在0—1之间,我们称为消耗系数。3.4.3讨价还价博弈三回合讨价还价:在第三回合,乙必须接受甲的方案。112不接受,出S接受不接受,出S2接受出S1)]10000(,[22SS)10000,(11SS)]10000(,[22SS3.4.3讨价还价博弈三回合讨价还价:在第三回合,乙必须接受甲的方案。112不接受,出S接受不接受,出S2接受出S1)]10000(,[22SS)10000,(11SS)]10000(,[22SS