第二十八章博弈论一、什么是博弈论(GameTheory)研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题,博弈论也成为对策论。在博弈论里,个人效用函数不仅仅依赖自身的选择,而且依赖于他人的选择,个人的最优选择是他人选择的最优函数。博弈论研究的是存在外部性的条件下个人选择问题。博弈论可划分为合作博弈(CooperativeGame)和非合作博弈(Non-cooperativeGame)。合作博弈与非合作博弈的区别在于人们相互合作时,当事人能否达成一个具有约束力的协议(bindingagreement),如果有就是合作博弈,非合作博弈没有。合作博弈强调的是团体理性(collectiverationality)、效率(effective)、公正(fairness)、公平(equality)。非合作博弈强调的是个人理性、个人最优决策,其结果可能是有效率的,也可能是无效率的。二、非合作博弈1、博弈论的基本要素博弈论包括:参与人、行动、信息、战略、支付函数、结果、均衡。参与人:博弈中选择行动以最大化自身效用的决策主体行动:参与人的决策变量战略:参与人选择行动的规则信息:参与人对有关对手的特征和行动的知识支付函数:参与人从博弈中获得的效用水平结果:博弈分析者感兴趣的要素的集合均衡:所有参与人的最优战略或行动的组合2、博弈的分类静态博弈(StaticGame):参与人同时选择行动或虽非同时但后行动者并不知道前行动者采取的具体行动。动态博弈(DynamicGame):参与人行动有先后顺序,并且后行动者能够观察到先行动者所选择的行动完全信息博弈:每一个参与人对所有其他参与人的特征、战略空间及支付函数有准确的知识;否则,就是不完全信息。静态动态完全信息完全信息静态博弈纳什均衡纳什(1950,1951)完全信息动态博弈子博弈精炼纳什均衡泽尔腾(1965)不完全信息不完全信息静态博弈贝叶斯纳什均衡海萨尼(1967-1968)不完全信息动态博弈精炼贝叶斯纳什均衡泽尔腾(1975)、KrepsandWilson(1982)3、完全信息静态博弈:纳什均衡纳什均衡:假设有n个人参与博弈,给定其他人战略的条件下。每个人选择自己的最优战略,所有参与人选择的战略一起构成一个战略组合。囚徒A囚徒B坦白抵赖坦白-8,-80,-10抵赖-10,0-1,-1囚徒困境囚徒困境反映了个人理性和集体理性的矛盾一种制度要发生效力,必须是纳什均衡,否则这种制度安排不能成立大猪小猪按等待按5,14,4等待9,-10,0智猪博弈男女足球芭蕾足球2,10,0芭蕾0,01,2性别之战AB进退进-3,-32,0退0,20,0斗鸡博弈进入者在位者默许斗争进入40,50-10,0不进入0,3000,3004、完全信息动态博弈:子博弈精炼纳什均衡纳什均衡存在三个问题:(1)一个博弈可能存在多个纳什均衡;(2)不考虑自身的选择对其他参与者的影响;(3)允许存在不可置信威胁的存在。子博弈精炼纳什均衡,将不可置信威胁剔除,要求参与者的决策在任何时点上都是最优,决策者需要随机应变,进而缩小了纳什均衡的个数。博弈的标准型:参与者、可选战略、支付函数博弈的扩展性:参与人、选择行动的时点、可供选择的行动集合、信息、支付函数子博弈精炼纳什均衡:参与人的战略在在每一个子博弈中都构成纳什均衡。斗争0.,300合作进入不进入进入者在位者40,50-10,10精炼均衡一定是纳什均衡,而纳什均衡却不一定是精炼均衡,不包含不可置信威胁的纳什均衡才是精炼纳什均衡。承诺行动:当事人使得自己的威胁变得可置信的行动。破釜沉舟、背水一战政策一致性5、不完全信息静态博弈:贝叶斯纳什均衡高成本情况进入者在位者默许斗争进入40,50-10,0不进入0,3000,300低成本情况进入者在位者默许斗争进入30,100-10,140不进入0,4000,400进入者的期望利润:40(10)(1)xx+−−品德优良者求爱求爱者你接受不接受求爱100,100-50,0不求爱0,00,0品德恶略者求爱求爱者你接受不接受求爱100,-100-50,0不求爱0,00,06、不完全信息动态博弈:精炼贝叶斯均衡精炼贝叶斯均衡:是精炼纳什均衡和贝叶斯均衡的结合,当事人根据所观察到的他人的行为来修正自己有关后者类型的“信念”(主观概率),并由此选择行动。精炼贝叶斯均衡满足:(1)给定每个人有关其他人类型的信念的情况下,他的战略选择是最优的;(2)每个人有关他人类型的信念都是使用贝叶斯法则从所观察到的行为中获得的。贝叶斯法则:概率统计中应用所观察到的现象修正先验概率黔驴技穷三、博弈模型的解法1、博弈的标准式表述博弈的标准式表述包括:(1)博弈的参与者;(2)每个参与者可供选择的战略集;(3)针对所有参与者可能选择的战略组合,其中每个参与者获得的收益。囚徒A囚徒B抵赖坦白抵赖坦白-1,-1-9,00,-9-6,-6n个参与者,每个参与者的序号为i,令Si代表参与者i可以选择的战略集合,其中任意一个特定的战略用si表示(其中,iisS∈)。令(1,......,nss)表示每个参与者选定一个战略形成的战略组合,ui表示第i个参与者的收益函数,1(,......,)inuss即为参与者选择战略1(,......,)nss时第i个参与者的收益。定义在一个n人博弈的标准式表述中,参与者的战略空间为S1,……,Sn收益函数为u1,……,un,我们用{}11,......,;,......,nnGSSuu=表示博弈。上述过程可称为“重复剔除严格劣战略”,此过程建立在理性参与人不会选择严格劣战略这一合情近理的原则上,但存在两个缺陷:(1)假定“参与者是理性的”是共同知识;(2)这一方法对博弈结果的预测经常是不准确的。参与者1参与者2左中右上中下0,44,05,34,00,45,33,53,56,6参与者1参与者2C1C2C3R1R2R32,121,101,120,120,100,110,120,100,13R3、C3、R2,(R1,C1)C2、R2、R3,(R1,C3)参与人1参与人2LRUD8,10-1000,97,66,5尽管按照重复剔除严格劣战略,会得到最后的均衡(U,L)但是参与人认为如果参与人2有不理性的可能,那么将不会选择U,因为如果参与人2不理性选择R,-1000损失过大、风险过大。2、纳什均衡的导出和定义每一个参与者要选择的战略必须是针对其他参与者选择战略的最优反应,理论推测结果可以叫做“战略稳定”或“自动实施”的,因此没有参与人愿意独自离开他所选定的战略,将这一状态称为纳什均衡。定义在标准式的博弈{}11,......,;,......,nnGSSuu=中,如果战略组合{}**1,...,nss满足对每一个参与者i,*is是(至少不劣于)他针对其他n-1个参与者所选战略{}****111,...,,...,iinssss−+的最优反应战略,则称战略组合{}**1,...,nss是该博弈的一个纳什均衡。即*********111111(,...,,,,...,)(,...,,,,...,)iiiiniiiinusssssusssss−+−+≥对所有iS中的is都成立,亦即*is是以下最优化问题的解:****111max(,...,,,,...,)iiiiiinsSusssss−+∈参与者1参与者2左中右上中下0,44,05,34,00,45,33,53,56,6参与者1参与者2左中右上中下0,44,05,34,00,45,33,53,56,6纳什均衡绝不可能在重复剔除严格劣战略的过程中被剔除掉,而重复剔除严格劣战略后所留战略不一定满足纳什均衡战略的条件,因此纳什均衡是一个比重复剔除严格劣战略更强的解的概念。3、逆向归纳法完全且完美信息动态博弈:(1)参与者1从可行集1A中选择一个行动1a,(2)参与者2观察到1a之后,从可行集2A中选择一个行动2a,(3)两人的收益分别为112(,)uaa和212(,)uaa。逆向归纳法:当在博弈的第二阶段参与者2行动时,由于其前参与者1已选择行动1a,他面临的决策问题可用下式表示:22212max(,)aAuaa∈假定1A中的每一个1a,参与者2的最优化问题只有惟一解,用21()Ra表示,这就是参与者2对参与者1的行动的最优反应。参与者1在第一阶段要解决的问题可归结为:111121max(,())aAuaRa∈假定参与者1的这一最优化问题同样有惟一解,表示为*1a,称为**121(,())aRa是博弈的逆向归纳解。一个三阶段博弈树:R′′L′′023012R′L′11R20L1