1东北财经大学数学与数量经济学院刘德海ldhai2001@163.com博弈论专题讲座(AdvancesinGameTheory)作业讲解张维迎《法律制度的信誉基础》一文的重复博弈模型试计算:(1)请将该动态博弈模型转化为静态博弈模型?(2)划线法求解静态模型的纳什均衡解?(3)如果无限次重复博弈,达成{信任,诚实}的均衡结果,需要如何设计合适的触发策略?贴现因子的成立范围为多少?分析:冷酷的触发策略设计为“当代理人诚实交易时保持信任,否则一旦不诚实则取消交易”;无限期重复博弈,代理人诚实交易的收益:U诚实=5+5δ+5δ2+…=5/(1-δ)代理人不诚实交易的收益:U不诚实=10+0=10当5/(1-δ)10时,即δ0.5时,双方将达成{信任,诚实交易}结局。委托人0,0代理人5,5-5,10不信任信任诚实不诚实诚实不诚实-5,105,50,00,0不信任信任代理人委托人主要内容:第一节传统博弈理论的研究范式;第二节纳什均衡的定义和几种实现途径;第三节纳什均衡的无效率:重复博弈和无名氏定理;第四节纳什均衡的多重性:焦点均衡和子博弈完美均衡;第五节纳什均衡的无效率:相关均衡和信号装置;第六节不完全不完美信息下纳什均衡存在性:贝叶斯均衡第三章传统博弈理论的简介4思考:从博弈论角度,如何看待世界的多样性和最优性(普适性)?传统博弈理论:参与者是完全理性的,根据所处环境能够达到最优化目标。——多重均衡的精炼(最优化):如何精炼出更好的均衡结果?演化博弈理论:参与者是有限理性的,只能达到满意解。——多重均衡存在的适用条件:根据不同的历史初始条件和外部随机事件干扰,存在演化的路径依赖现象。第四节纳什均衡的多重性:静态博弈的焦点均衡5静态博弈中多重均衡的选择:焦点原则和社会惯例Schelling在《冲突的策略》(1960)提出,决策过程中考虑到对称、效率、公平、风险占优等原则,以及一些社会文化惯例。举例:如图博弈中,参与者将选择哪个策略?结果:在三个均衡中,精炼结果是帕累托效率的纯策略(2,2)思考:在什么情况下会选择(1,1)?——当参与者B认为,A会采取安全策略G(即Minmax策略),则均衡结果为(1,1)TG1,10,01/2,1/22,2TG参与者A参与者B第四节纳什均衡的多重性:静态博弈的焦点均衡6最后通谍博弈(Ultimatumgame,简记为UG,Rothetc.1991):100元在两个人中分摊,其中一人首先提出方案,对方不接受则双方为0。理论分析结果:首先提出方案的人应该选择99元。实验结果:美国、南斯拉夫选50:50,日本、以色列选60:40。解释:人类决策考虑了公平等社会文化规范。最后通牒实验表明,人们宁愿什么也得不到,也不愿意放弃机会均等和程序公平。——“不患寡而患不均”《论语·季氏》世界银行《2006年发展报告:公平与发展》:总结10年来许多可控实验结果以及近期经济学研究的成果指出,世界上不同的文化和宗教都在关注公平与公正,公正是人们的一种偏好。第四节纳什均衡的多重性问题:焦点均衡托马斯·克罗姆比·谢林(ThomasCrombieSchelling)(1921-)是美国经济学家、马里兰大学公共政策学院教授,美国科学院院士,美国艺术与科学学院院士。研究领域是外交事务、国家安全、核策略和武器控制。“通过博弈论分析改进了我们对冲突和合作的理解”,谢林与罗伯特·奥曼2005年共同获奖。谢林最著名的著作《冲突的战略》(1960)开创了对议价和策略行为的研究,被认为是1945年以来西方影响最大的一百本书之一。1971年,他发表了广为引用的关于种族动态研究的论文“种族隔离的动态模型”。其中解释了纯白人居住区是怎样迅速变为纯黑人居住区的,即使白人居民中没有人绝对反对居住在混合居住区中。(乌鲁木齐市南区)谢林还参与了有关全球变暖的争论。[资料夹]2005年诺将得主—谢林(Schelling)主流的数理博弈论:采用数学语言和公理性的方法来进行研究的。谢林认为,决策主体的期望和行为无法通过纯粹的逻辑和数学推导而得。参与人在选择博弈战略时,不仅有数学上的考虑,也有传统、声誉、个性和社会等因素。谢林放弃传统经济学的抽象假设和理性概念,基于更接近现实的观察和众多的实际应用,运用小模型和熟练的语言技巧,分析人们之间的相互影响及个人的自我控制等冲突情形中的行为。该研究方法突破了新古典经济理论分析方法,创立了“非数理博弈理论”这一新的领域,从另一个角度完善和发展了现代博弈论。概念和理论框架:(1)议价和冲突管理理论。代表性著作《冲突的战略》(1960);(2)相互依存的选择和行为理论。代表性著作《微观动机与宏观行为》(1978);(3)自我控制理论。代表作著作《选择与结果》(1984)。[资料夹]非数理博弈理论“社会嵌入性”是指现代市场经济中交易或组织嵌入在参与人“社会网络”中。格拉诺威特1985在AJS发表开创性论文《EconomicActionandSocialStructure:TheProblemofEmbeddedness》发起了一场“新经济社会学”运动:一方面批评了杜克海姆和帕森斯(1951)“过度社会化”的社会学传统;一方面批评了经济学效用理论“社会化不足”的缺陷,认为规范系统既是内生于市场或组织的参与者行为中,又是嵌入到具体的外部社会网络中。这篇文章中提出了著名的社会学概念“嵌入性(embeddedness)”:个体或企业的经济关系是嵌入到实际的社会网络中。MarkGranovetter[资料夹]“社会嵌入性”(socialembeddedness)Bian,Yanjie.“BringingStrongTiesBackIn:IndirectConnection,Bridges,andJobSearchinChina”.AmericanSociologicalReview62,no.3(1997):366-385.边燕杰.找回强关系:中国的间接关系、网络桥梁和求职,《美国社会学评论》1997,62:366-385.格拉诺威特最著名的工作是在AJS发表的文章“TheStrengthofWeakTies”(后来形成专著“GettingAJob”),其基本的论断是“弱关系假设”,即你的家庭成员和密友(“strongties”)无法向一般熟人、较为疏远朋友等(“weakties”)提供给你多样化的知识。西安交通大学人文学院院长边燕杰思考:如何表述动态博弈问题?启示:运筹学的决策理论中,动态决策(序贯决策)问题的表述方法——决策树是由决策点、事件点和结果构成的树图;采用逆序解法;决策准则常为最大收益期望值准则EMV。类比:决策问题是博弈的一种特例,其中一方是自然参与者——博弈树VonNeumann和O.Morgenstern(1944)提出“扩展式”模型,又称博弈树。用来描述参与者的行动顺序和采取行动时拥有的信息。钻井出油0.55800-150无油0.450转让开采权16011复习:如何表述动态博弈问题?博弈树(gametree)的构成:结点:包括初始结点、决策结点(作出决策)、终结点(对应参与者报酬);若结点是有限的,则称有限次博弈。枝:从一个决策结到直接后续结的连线,每一个枝代表参与者一个行动;信息集:一个参与者无法作出区分的最大决策点集合(如图,囚徒B无法判断A的行动,因此其信息集为虚线连接)。子博弈:(1)开始于博弈树的一个结点,该节点对应一个单独信息集;(2)包含从节点开始的博弈树整个部分;(3)从不分割一个信息集(针对后续的节点)例:扩展式囚徒困境B(-8,-8)(0,-10)(-10,0)(-1,-1)A坦白抵赖坦白抵赖坦白抵赖例:扩展式囚徒困境B(-8,-8)(0,-10)(-10,0)(-1,-1)A坦白抵赖坦白抵赖坦白抵赖13动态博弈的核心问题:为了影响对方下阶段的行动,作出一些威胁或承诺。但这些威胁或承诺是否可信?举例:(1)威胁和承诺(怀柔)运用与外交中:20世纪初,美国总统西奥多·罗斯福提出“胡萝卜加大棒”政策,“说话温和,但带根大棒,就一定能成功。”(2)威胁和承诺运用于内政中:“宣帝作色曰:‘汉家自有制度,本以霸王道杂之,奈何纯任德教’”《汉书·元帝纪》,即法家的刑治与儒家的德治并用。第四节纳什均衡的多重性:动态博弈和子博弈完美均衡14在预测动态博弈的可能结局时,纳什均衡存在多重性现象,其中包含一些不可信的威胁或承诺,如何剔除?该问题属于选择,还是精炼?思考:决策理论中,如何处理多阶段动态规划问题?多阶段决策又称序贯决策:决策过程可以分为若干个相互联系的阶段,每个阶段需要作出决策,本阶段的决策影响到下一阶段的决策。动态规划的最优化原理(Bellman,1951):作为整个过程的最优策略具有这样的性质,无论过去的状态和决策如何,对先前决策形成的状态而言,余下的决策必须最优。(简言之:最优策略的子策略总是最优的)——例如优秀毕业生根据贝尔曼最优化原理,逆推法求解动态规划问题。第四节纳什均衡的多重性:动态博弈和子博弈完美均衡BellmanR:Anintroductiontothetheoryofdynamicprogramming,RANDCorp.Report,195315对于动态博弈,一种广泛认可的精练方法是子博弈完美均衡(SPE,SubgamePerfectionEquilibrium)基本思想:动态博弈中,双方都具有理性的“共同知识”。在纳什均衡的基础上(可自我实施的稳定均衡),依据反向归纳法进一步剔除那些不可信的威胁和承诺。子博弈完美均衡的定义:一个纳什均衡是子博弈完美纳什均衡,当该策略的每一个子博弈都产生一个纳什均衡,无论实际中是否能到达。——理解:不仅整体上是纳什均衡,而且每一个小步骤都是纳什均衡。存在性定理(Selten,1965):每个扩展式、完美信息博弈至少有一个纯策略子博弈完美纳什均衡。1965年,发表了最著名论文《一个具有需求惯性的寡头博弈模型》(德文)。这篇文章成为子博弈精炼均衡的正式定义,为获得诺奖奠定了基础。第四节纳什均衡的多重性:动态博弈和子博弈完美均衡16思考:为什么动态博弈纳什均衡中,存在着一些不可信的威胁或承诺?回忆:纳什均衡的形成——理性的参与者+既定的策略。但是,事先给定的对方策略是否合理?举例:如果试卷命题错误(策略),即使计算过程正确(理性),答案是否正确?该题目应该取消计分。由于动态博弈的核心问题是“可信性”,因此子博弈完美均衡是求解动态博弈问题的基本均衡概念。求解方法:后退归纳法。根据共同知识假设,参与者能够预见最后一期的行动,因此采取后退归纳法分析,从最后一个子博弈的结点出发,分析每一个子博弈的最佳策略(纳什均衡);直至博弈开始阶段,得子博弈完美纳什均衡SPE。第四节纳什均衡的多重性:动态博弈和子博弈完美均衡坦白抵赖坦白抵赖坦白抵赖例:扩展式囚徒困境B(-8,-8)(0,-10)(-10,0)(-1,-1)A×××17台独分子的“理性”目标设定:中国面临着本世纪初二三十年的战略机遇期,不希望有台海战争。台独分子觉得这是推进台独的大好时机,通过修宪等“切香肠”渐进方式来争取独立。台独分子的认知结构:要是中国威胁动武,陈水扁相信美国众议院亲台反华势力能发挥影响力,台海发生冲突后美国必会拔刀相助。中国面对美日联合干涉将知难而退,从而在美日卵翼下实现和平独立的台独梦想。大陆的认知结构:台湾问题事关中国核心利益。当前中国快速整军备战,目标能够在美日联合干涉下仍能有效遏制台独。举例1:台独与大陆的台海博弈18分析该动态博弈的纯策略纳什均衡?转化为策略时博弈模型,2个纯策略纳什均衡为{大陆威胁发动台海战争,台独维持现状}、{台独推动台独,大陆口头抗议},其中,大陆方有一个弱占优策略“口头抗议”。策略式博弈中,给定一方策略后,双方均无动机偏离,无法预测哪一个更有可能实现。现实中,陈水扁之流通过修宪、废统、公投等“切香肠”,预期结