[102]5扩展式可理性化心灵有其莫明的理由。BlaisePascal扩展式博弈中,参与人可以在博弈进程中收集信息更新其主观先验信念,故而其信息比标准式博弈丰富得多。由此,研究扩展式博弈中的可理性化比之相应的标准式博弈要复杂得多。有两种方法可用于剔除那些不会被理性的主体所选择的策略:逆向归纳法和前向归纳法。后者相对奇特(尽管更能自圆其说),将在第9章讨论。作为迄今最受欢迎的分析技巧,逆向归纳法使用反复剔除弱劣策略的办法,来获得子博弈完美纳什均衡——该均衡在所有的子博弈中都是纳什均衡。若扩展式博弈有唯一的子博弈完美纳什均衡,则我们就称之为一般的。在本章中,我们提出形式逻辑工具并展示RobertAumann关于CKR隐含着逆向归纳法的著名证明(Aumann,1995)。这一定理曾广遭批评,也广受误解。我想澄清其中的一些问题,这些问题对于当前的博弈理论至关重要。我的结论是,Aumann完全正确,真正的罪魁是CKR自身。5.1逆向归纳法与劣策略在完美信息(即每个信息集中只有一个节点)扩展式博弈中,逆向归纳法的操作步骤如下。选择任意终端节点,并找到其父节点,即节点。假设参与人在节点进行选择,并假设参与人在节点的最大赢利从终点节获得。擦去从点开始的所有枝,则就成为一个终点,然后把的赢利绑定到新的终端节点。[103]同时,记录下在点的行动,这样你就可以在分析完毕后刻画出的均衡策略。对原博弈的所有终端节点重复上述程序,之后,你就会得到一个比原博弈少一级的扩展式博弈。好了,请不断重复上述过程。若最后的博弈树在每个节点都只有一个可能的行动,则当你把为每个参与人记录下的行动组合起来的时候,你就得到了一个纳什均衡。由于我们是从博弈的终端节点向后推移的,故我们称此为逆向归纳法。请注意,当参与人在多个节点行动,逆向归纳将剔除弱劣策略,因而也就有可能剔除掉使用弱劣策略的纳什均衡。而且,乍看起来,逆向归纳比标准式博弈的可理性化(§4.6)更强,后者等价于重复剔除严格劣策略。图5.1逆向归纳的一个例子原书p103,Figure5.1考虑图5.1逆向归纳的一个例子。我们从标记为(0,0)的终端节点开始,回溯到左边的Bob节点。在该节点,由于10,故劣于,于是我们擦去Bob出招为的枝及与其关联的赢利。我们再到原博弈树另一个终端节点(4,4),回溯到右边的Bob节点。在该节点,劣于,于是我们擦去劣势节点及其赢利。然后,我们将逆向归纳法运用到这个更小的博弈树上——当然,现在这已是再简单不过的了。我们找到第一个终点(9,1),它直接回溯到Alice的选择节点。[104]这里,是劣的,于是我们擦去该枝及其赢利。于是就得到了解:Alice选择,Bob选择,而赢利为(9,1)。从这个例子可明显看到,利用逆向归纳法并剔除弱劣策略,我们剔除了纳什均衡。这是因为,我们假定Bob出招去应对Alice的,而剔除了Bob的弱劣策略和。我们称乃不可置信的威胁。逆向归纳法剔除了不可置信的威胁。5.2子博弈完美令为扩展式博弈的一个信息集,该信息集由单一节点构成。令为包含有的节点群的最小集合类,满足如下条件:当时,的所有后续节点皆属于,且与位于同一信息集的所有节点皆属于。我们把从博弈继承而来的信息结构、枝以及赢利赋予给,而中的参与人正好是博弈中在的某些信息集上行动的参与人子集。显然,乃一扩展式博弈,我们称为的子博弈。若是博弈的子博弈,该子博弈以为根节点,那么的每一个到达的纯策略组合都会在中有一个副本,规定中的参与人运用在的每个节点上做出的选择要与其运用在的每个同样的节点上做出的选择相同。我们称是对子博弈的约束。假设是到达的根节点的一个混合策略;并令为指标集,满足当且仅当到达时有。令。那么,就是定义于上的混合策略,即所谓的对的约束。由于会到达,故0,而系数代表的是在到达的条件下出招为的概率。很明显,若是博弈的纯策略纳什均衡,而是的子博弈且的根节点可由达到,那么对的约束必定是中的纳什均衡。然而,如果不能到达的根节点,那么对的约束就不一定是中的纳什均衡。原因在于,若某个节点不能由达到,那么在该节点进行选择的参与人之赢利就并不取决于其在中的选择,但它却会依赖于他在中的选择。当一个扩展式博弈对每个子博弈的约束都是子博弈的纳什均衡时,我们才说该扩展式博弈的纳什均衡是子博弈完美的。[105]容易发现,同时行动博弈将没有严格子博弈(一个博弈总是其自身的子博弈;我们称整个博弈为非严格子博弈),因为对于至少一位参与人其所有的节点都在同一个信息集中。同样,在自然率先行动的博弈中,如果至少有一位参与人不清楚自然的选择,那么也没有严格子博弈。在另一个极端,完美信息(即每个信息集都只有单个元素)的博弈中,每个非终端节点都是子博弈的根节点。这使得我们可以用逆向归纳法寻找其子博弈完美纳什均衡,如§5.1所述。这一推理路线表明,逆向归纳法一般由反复剔除弱劣策略以及剔除非子博弈完美纳什均衡所构成。5.3子博弈均衡和不可信威胁右图的博弈有一个纯策略纳什均衡Rr,其中Alice赢得2而Bob赢得1。这个均衡是子博弈完美的,因为从Bob在处*选择的子博弈中,对于Bob来说r是赢利最大化的选择。该均衡也是通过逆向归纳法选择出来的。不过,还有一个纳什均衡,即,此时Alice赢得1而Bob赢得5。Bob会更偏好后一个均衡,若果他能以某种方法诱导Alice相信自己会选择,则她的最佳反应就会是L。然而,当Bob告诉Alice自己决意选时,如果Alice认为Bob是理性的,她就很清楚一旦博弈达到时他事实上会选择。因而,被认为是不合情理的纳什均衡,与此相反,子博弈完美纳什均衡倒是深受博弈论理论家的重视。5.4意外考试一群博弈论专家曾经开设了一门周一到周五集中授课的逻辑课程。几周之后,教授宣布,下周的某天将有一次意外考试。每个学员都在心里思忖“考试不可能在下周五,否则就不是意外”。**基于同样的推理,每个人都得出结论,考试不可能在下周四、下周三、下周二或者下周一。因此每个学生都断定,教授错了。基于相同的推断,每个同学都得出结论:考试不可能在下周的周四,周三,周二,周一。每个同学都断定,老师错了。[106]结果教授选择下周二考试,所有学生都深感意外。*原书是“从处”,从右图看则应为。本段落下一个(原文为)与此同误。——译者注**因为若周五考试,则周一到周四必不考;但周一到周四不曾考试,学生就会毫不意外地知道周五一定会考。——译者注图(原书p105,无图表序号)这是所谓的“意外考试”或“突击测验悖论”这一著名逻辑问题的版本之一。对该问题诸多解决方法的概述,请参阅Chow(1998)。解释五花八门,但没有哪个解被人们接受。有不少中肯的分析运用了标准逻辑或形式逻辑,去证明教授的命题是自指的或自相矛盾。既然无效命题毫无意义,教授预测正确也就不存在什么悖论。逆向归纳法表明,考试不会发生。但是,如果学员坚信这一点,那么考试就会是一个意外,不管它发生在哪一天。因此,逆向归纳法中的不合逻辑可以让理性的学员信服,教授的推测的确是合理的。但是,逆向归纳法的不合逻辑究竟是什么?我提出这个悖论是想说明利用逆向归纳法的非形式逻辑之风险。下面我们将提出更具分析性的精确方法。5.5逻辑悖论的共同知识若主体就一个命题集合做出推断时,排除了所有与该集合不相容的状态,我们不妨说这个主体是推理正确的。那么,我们以惯用的方式来定义主体集合的逻辑性共同知识(CKL)如下:对于任意整数集,知道知道……知道知道是推理正确的。一位父亲有690000美元要留给他的孩子Alice和Bob,这两人都不知父亲的财产规模。他决定给一个孩子340000美元,给另一个350000美元,概率各为1/2。不过,他不想让得到较少金额的孩子觉得自己被轻视,至少在他的有生之年是如此。于是他告诉孩子:“我将从集合中随机选择两个数字,随机指派给你们每人一个数字,并给予你们一笔遗产,价值等于所指派数字乘以10000美元。知道自己被指派的数字并能肯定算出你比你兄弟继承得更多或更少。”父亲令,他对自己声明的实质很自信,我们视这个声明为三个人的共同知识。[107]在逻辑性共同知识假设下,Alice思量了自己的处境,推理如下:“父亲很清楚,如果是S或者S,其中一个数会以正概率被选择指派给我,此时我就能肯定自己在继承权重的相对位置。”Alice知道父亲知道她是推理正确的,所以她知道且。但是,Alice推断,她的父亲知道她知道他知道她是合乎逻辑的,于是她断定,父亲知道他不能在S中包含2或99。但是,Alice通过CKL很清楚这一点,所以她断定父亲不会在S中包含3或98。完成这个递归论证,Alice认为S一定为空。然而,父亲将数字34给了一个孩子,将35给了另一个孩子,他们谁也不知道谁的更大。因此,父亲先前的说法是正确的,而Alice的推理是错误的。于是我们得到结论:在上述背景下,关于逻辑性的共同知识是无效的。当父亲把35放到S中,CKL就失效了,因为35已经被CKL排除了。乍看起来,CKL是逻辑性的一种无碍大局的延伸,甚至通常不会在上述问题中被提及,但实际上它会导致错误的推理,故必须抛弃。在这方面,CKL很像CKR,CKR乍看起来是理性的一个无碍大局的延伸,但事实上往往适得其反。5.6重复囚徒困境假设Alice和Bob进行囚犯困境对局,其中一个阶段展示在右图,共进行100次。常识告诉我们,参与人至少会合作95轮,实验证据确实支持这一看法(Andreoni和Miller1993)。但是,逆向归纳法论证表明,参与人恰恰是在第一轮就会背叛。要明白这一点,请注意到参与人会在第100轮背叛。既然如此,他们在第99轮的任何努力都无法延长合作,故他们都将在第99轮背叛。这一论证重复99次,我们便看到,他们都将在第一轮就选择背叛。虽然逆向归纳法通常消除了弱重复劣策略,但在本例中它只是消除了严格重复劣策略,故根据前面章节之分析,唯一的可理性化策略就是彻底背叛的纳什均衡。这对可理性化概念提出了一个问题,该问题至少同前面章节中标准式博弈情形的问题一样棘手。[108]不过,对于逆向归纳法的逻辑何以会打上折扣,本例中的扩展式提供了一种观点。逆向归纳法完全以与先前章节中相同的方式依存于CKR。不过,当前的例子中,每个参与人第一次都选择C,两人都知道CKR是无效的。在重复囚徒困境的终点,参与人已多次选择C。由于这些终点在给定CKR时并不能达到,故我们无法在终点假设存在CKR。上述针对逆向归纳法的批评由Binmore(1987),Bicchieri(1989),PettitandSugden(1989),Basu(1990),andReny(1993)等人提出。然而,上述批评并不正确。逆向归纳法的论证只是反证法的一个经典例子:假设一个命题,并证明该命题是错误的。在本例中,我们假定拥有CKR,然后通过反证法说明不会到达第100轮。这种论证没有漏洞。但是,把对“CKR暗含着逆向归纳法”这一命题的批评,建立在“如果CKR失效将发生什么”这一基础上,是不合逻辑的。对CKR暗含着逆向归纳法这一命题的不严密的批评,其误导性的吸引力在于这样的观察:每个参与人第一轮选择C,每个参与人知道CKR是失效的,因而在剩下的博弈中每个人都可自由采取符合自身利益的做法。例如,两人都可以采用针锋相对的战略,在一轮中选择C,然后在接下来的每一轮则照搬对手先前的行动,除了在博弈逼近100个回合终点时选择D之外。上述观点完全正确,但并非CKR暗含着逆向归纳这一命题的批判。的确,假设拥有CKR,在任何阶段,参与人都不会选择C。图表,原书P107如同我在接下来所主张的,逆向归纳法的问题是,CKR并非可以广泛接受的假设,因此逆向归纳法在理性背景下并不总是合理的。5.7蜈蚣博弈在Rosenthal的蜈蚣博弈中,Alice和Bob开始时每人有2美,轮流出招。在第一轮,Alice可以选择背叛(2)而窃取Bob的2美元,博弈将就此结束;当然,Alice也可选择合作(C)而不窃取,那么老天爷将给她1美元。尔后,Bob可以选择背叛(D)从Alice窃取2美元,[109]博弈将就此结束,或者他也可以选择合作