第三章完全且完美信息动态博弈本章讨论动态博弈(DynamicGames),所有博弈方都对博弈过程和得益完全了解的完全且完美信息动态博弈。这类博弈也是现实中常见的基本博弈类型。由于动态博弈中博弈方的选择、行为有先后次序,因此在表示方法、利益关系、分析方法和均衡概念等方面,都与静态博弈有很大区别。本章对动态博弈的概念和分析方法,特别是子博弈完美均衡和逆推归纳法作系统介绍,并介绍各种经典的动态博弈模型。本章分六节3.1动态博弈的表示法和特点3.2可信性和纳什均衡的问题3.3子博弈和子博弈完美纳什均衡3.4几个经典动态博弈模型3.5有同时选择的动态博弈模型3.6动态博弈分析的问题和扩展讨论3.1动态博弈的表示法和特点3.1.1阶段和扩展形表示3.1.2动态博弈的基本特点3.1.1阶段和扩展形表示动态博弈各个博弈方的选择行为有先后次序,每个博弈方的选择行为会形成依次相连的时间阶段,因此动态博弈中一个博弈方的一次选择行为常称为一个“阶段”(Stage)。动态博弈中也可能存在几个博弈方同时选择的情况,此时博弈方的同时选择构成一个阶段。有些动态博弈的阶段很多,或者博弈方在一个阶段有许多可以选择的行为,此时扩展形表示动态博弈会很困难,或者根本不可能。无法用扩展形表示的动态博弈,通常可以直接用文字描述和数学函数式表示。例子:仿冒和反仿冒博弈设有一家企业的产品被另一家企业仿冒,如果被仿冒企业采取措施制止,仿冒企业就会停止仿冒;如果被仿冒企业不采取措施制止,那么仿冒企业就会继续仿冒。这两个企业在仿冒和制止仿冒的问题上,存在着一个行为和利益相互依存的博弈问题。假设仿冒最多进行2次,每种情况下得益情况如图所示。ABBA不制止制止(-2,5)(2,2)(10,4)(5,5)不仿冒(0,10)仿冒不制止制止仿冒不仿冒3.1.2动态博弈的基本特点一、动态博弈的策略和结果在动态博弈中,各个博弈方的选择和行为不仅有先后之分,而且一个博弈方的选择很可能有几次甚至多次,并且在不同阶段的多次行为之间有内在联系,是不可分割的整体。动态博弈博弈方决策的内容,也是决定博弈结果的关键,不是博弈方在单个阶段的行为,而是各博弈方在整个博弈中轮到选择的每个阶段,针对前面阶段的各种情况作相应选择和行为的完整计划,以及由不同博弈方的这种计划构成的组合。这种计划就是动态博弈中博弈方的“策略”。动态博弈的结果首先是指各博弈方上述类型的策略构成的策略组合。其次,动态博弈的结果是各博弈方的策略组合形成的一条联结各个阶段的“路径”。最后,实施上述策略组合的最终结果,就是上述路径终端处得益数组中的数字。所以,在一个动态博弈中,博弈的结果包括双方(或多方)采用的策略组合,实现的博弈路径和各博弈方的得益。二、动态博弈的非对称性动态博弈的非对称性——先后次序决定动态博弈必然是非对称的。由于后行为的博弈方有更多的信息帮助自己选择行为,可减少决策的盲目性,针对性地作选择,因此处于较有利的地位。对单人博弈,信息越多越有利;而对两人以上的博弈问题来说,信息较多的博弈方并不一定能得到更大的利益。先选择、行为的博弈方常常更有利,有“先行优势”。3.2可信性和纳什均衡的问题3.2.1相机选择和策略中的可信性问题3.2.2纳什均衡的问题3.2.3逆推归纳法3.2.1相机选择和策略中的可信性问题动态博弈仍然是具有策略和利益相互依存性的决策问题。静态博弈分析中针对具有策略和利益相互依存特性决策问题的核心分析方法——纳什均衡分析,在动态博弈分析中适用吗?纳什均衡分析在动态博弈中的失效,与动态博弈各博弈方策略中选择行为的“可信性”问题紧密相关。动态博弈中博弈方的策略是他们自己预先设定的,在各个博弈阶段针对各种情况的相应行为选择的计划。这些策略实际上并没有强制力,而且实施起来有一个过程,因此只要符合博弈方自己的利益,他们完全可以在博弈过程中改变计划。我们称这种问题为动态博弈中的“相机选择(ContingentPlay)”。相机选择的存在使得博弈方的策略中,所设定的各个阶段、各种情况下会采取行为的“可信性(Credibility)”有了疑问。不同版本的开金矿博弈——分钱和打官司的可信性基本问题:甲在开采一价值4万元的金矿时缺1万元资金,而乙正好有1万元资金可以投资。设甲想说服乙将这1万元资金借给自己用于开矿,并许诺在采到金子后与乙对半分成,乙是否该将钱借给甲呢?假设金矿的价值是经过权威部门探测确认的,没必要怀疑,则乙最需要关心的就是甲采到金子后是否会履行诺言跟自己平分。最上方的圆圈表示乙的选择信息集或称选择节点(node)。如果乙选择“不借”则博弈结束,他能保住1万元本钱而甲得不到开矿的利润;如乙选择“借”则到达甲的选择信息集,轮到甲进行选择。三个终端黑点处的数组,表示由各博弈方各阶段行为依次构成的,到达这些终端的“路径”所实现的各博弈方得益。乙决策的关键是要判断甲的许诺是否可信。乙甲(0,4)(2,2)(1,0)不借借分不分开金矿博弈一般假设博弈方都是以自身利益(得益)最大化为目标的,即他们不考虑道德因素。在这样的原则下,甲轮到行为时的选择必然是“不分”。乙当然清楚甲的行为准则,因此他最终合理的选择是“不借”。对乙来说,本博弈中甲有一个不可信的许诺。有不可信的许诺,使得甲、乙的合作最终成为不可能,这样开金矿的3万元社会净利益无法实现。有什么办法能使甲的许诺变成可信的,从而使乙愿意选择“借”,然后甲遵守诺言选择“分”,最终增加双方的利益呢?如果乙在甲违约时可以用法律武器,即“打官司”保护自己的利益,则双方的选择,以及相关的对对方选择的判断,都会发生变化,进而得到不同的博弈结果。假设打官司的结果是乙能收回本钱1万元,而甲则会失去全部采金收入。乙打官司的得益比不打官司的得益大,因此即使不考虑惩罚见利忘义的甲的心理快慰,乙的唯一选择也是打官司。甲完全清楚乙的思路,知道乙打官司的威胁是可信的,因此甲符合个体理性的选择是分钱。此时,甲“分”的许诺成了可信的诺言。不借乙甲乙借不分分(1,0)不打打(0,4)(1,0)(2,2)有法律保障的开金矿博弈——分钱打官司都可信在乙的利益受到法律保障的情况下,甲的分钱许诺变成可信的许诺。这样,乙第一阶段选择“借”就成了合理的选择。最终结果是乙在第一阶段选择“借”,甲在第二阶段选择“分”,从而博弈结束。此时乙的完整策略是“第一阶段选择借,若第二阶段甲选择不分,第三阶段选择打官司”,甲的完整策略就是“第二阶段选择分钱”。这就是这个三阶段动态博弈的解。结论:在一个由都有私心、都更重视自身利益的成员组成的社会中,完善公正的法律制度不但能保障社会的公平,而且还能提高社会经济活动的效率,是实现最有效率的社会分工合作的重要保障。但是要充分保障社会公平和经济活动的效率,法律制度必须要满足两方面的要求:一是对人们正当权益的保护力度足够大;二是对侵害他人利益者有足够的威慑作用。否则,法律制度的作用就是很有限的甚至完全无效。如果第三阶段乙选择打官司,并不能收回自己的本钱,而且要进一步承受1万元的损失。此时乙在第三阶段打官司是一种不可信的空头威胁(IncredibleEmptyThreats)。甲非常清楚乙的这种思路,他知道乙第三阶段打官司的威胁并不是可信的,这样他在第二阶段分钱的许诺自然也就不可信了。乙非常清楚在第一阶段选择不借才是保险的。乙甲乙打(2,2)不分分不借借(0,4)(-1,0)不打(1,0)法律保障不足的开金矿博弈——分钱打官司都不可信结论:在动态博弈问题中,各个博弈方的选择和博弈的结果,与各个博弈方在各个博弈阶段选择各种行为的可信程度有很大关系。有时候虽然有些博弈方很想或会声称要采取特定的行为,以影响和制约对方的行为,但如果这些行为缺乏以经济利益为基础的可信性,那么这些想法或声明最终就不会有真正的效力。3.2.2纳什均衡的问题由乙的策略“第一阶段借,当甲第二阶段选择不分时,第三阶段选择打”,甲的策略“第二阶段无条件‘分’”,构成的策略组合是一个纳什均衡。因为给定对方的策略,双方的策略都是符合自己最大利益的最佳策略,单独偏离对自己都是不利的。在双方的策略下,乙第三阶段的“打”并不需要真正实施,但因为它是保证第二阶段甲会选择“分”的关键,因此乙的策略中必须包含这个选择,即使单独改变这个选择不会影响利益(给定甲没有想到也改变策略),乙也不能随便改变该选择。乙甲乙打(2,2)不分分不借借(0,4)(-1,0)不打(1,0)法律保障不足的开金矿博弈——分钱打官司都不可信其实,该博弈中(不借-不打,不分)和(借-打,分)都是纳什均衡。但后者不可信,不可能实现或稳定。上述纳什均衡不稳定的原因,主要在于如果甲在第二阶段选择了“不分”而不是“分”,乙策略中设定的第三阶段“打”是不可信的,不可能真正实施,理由是该行为对乙自身也是不利的,追求自身利益最大化的乙的理性不允许他这么做。甲只要稍作分析就可以掌握乙的这个弱点,因此不可能理睬乙策略中的“打”官司威胁,在第二阶段不会选择“分”。反过来,乙也不会愚蠢到想靠一个明显不可信的威胁撑腰,冒险将资金借给甲,因此他在第一阶段也不可能“借”。结论:纳什均衡在动态博弈可能缺乏稳定性,也就是说,在完全信息静态博弈中稳定的纳什均衡,在动态博弈中可能是不稳定的,不能作为预测的基础。根源:纳什均衡本身不能排除博弈方策略中包含的不可信的行为设定,不能解决动态博弈的相机选择引起的可信性问题。解决途径:动态博弈的有效分析概念,除了要符合纳什均衡的基本要求以外,还必须满足另一个关键的要求,即它必须能够排除博弈方策略中不可信的行为设定,也就是各种不可信的威胁和承诺。3.2.3逆推归纳法定义:从动态博弈的最后一个阶段博弈方的行为开始分析,逐步倒推回前一个阶段相应博弈方的行为选择,一直到第一个阶段的分析方法,称为“逆推归纳法(BackwardsInduction)”。逆推归纳法是动态博弈分析最重要、基本的方法。逆推归纳法的逻辑基础:动态博弈中先行为的理性的博弈方,在前面阶段选择行为时必然会考虑后行为博弈方在后面阶段中将会怎样选择行为,只有在博弈的最后一个阶段选择的,不再有后续阶段牵制的博弈方,才能直接作出明确选择。而当后面阶段博弈方的选择确定以后,前一阶段博弈方的行为也就容易确定了。逆推归纳法的一般方法:从动态博弈的最后一个阶段开始分析,每一次确定出所分析阶段博弈方的选择和路径,然后再确定前一个阶段的博弈方选择和路径。逆推归纳到某个阶段,那么这个阶段及以后的博弈结果就可以肯定下来,该阶段的选择节点等于一个结束终端。我们甚至可以用不包括该阶段与其后所有阶段博弈的等价博弈来代替原来的博弈。乙甲乙打(2,2)不分分不借借(0,4)(-1,0)不打(1,0)法律保障不足的开金矿博弈——分钱打官司都不可信乙甲(0,4)(2,2)(1,0)不借借分不分法律保障不足开金矿博弈的等价博弈(一)乙不借借(0,4)法律保障不足开金矿博弈的等价博弈(二)(1,0)逆推归纳法事实上就是把多阶段动态博弈化为一系列的单人博弈,通过对一系列单人博弈的分析,确定各博弈方在各自选择阶段的选择,最终对动态博弈结果,包括博弈的路径和各博弈方的得益作出判断,归纳各个博弈方各阶段的选择则可得到各个博弈方在整个动态博弈中的策略。由于逆推归纳法确定的各个博弈方在各阶段的选择,都是建立在后续阶段各个博弈方理性选择基础上的,因此自然排除了包含不可信的威胁或承诺的可能性,因此它得出的结论是比较可靠的,确定的各个博弈方的策略组合是有稳定性的。3.3子博弈和子博弈完美纳什均衡3.3.1子博弈3.3.2子博弈完美纳什均衡由于在动态博弈中纳什均衡不能排除不可信的行为选择,不是真正具有稳定性的均衡概念,因此需要发展能排除不可能行为选择的新的博弈概念,以满足动态博弈分析的需要。塞尔顿(1965)提出的“子博弈完美纳什均衡”(SubgamePerfectNashEquilibrium)正是满足上述需要的博弈均衡概念。3.3.1子博弈定义:由一个