第二章纳什均衡与一致预期张维迎教授北京大学光华管理学院博弈的基本概念(1)•参与人(players):博弈中决策主体的集合:什么人参与博弈?每个人是什么角色?•行动(actions):每个人有些什么样行动可以选择?在什么时候行动?•信息(information):在博弈中的知识;每个人知道些什么(包括特征、行动等)?•战略(strategies):行动计划;每个人有什么战略可供选择?战略的完备性;博弈的基本概念(2)•支付(payoffs):每个人在不同战略组合下得到些什么?依赖于所有参与人的选择;•均衡(equilibrium):所有参与人最优战略的组合;•结果(outcomes):我们所感兴趣的东西。静态博弈•最简单的博弈:所有参与人同时选择行动,并且只选择一次;•“同时”是一个信息概念,而不一定与日历上的时间一致;囚徒困境(prisoners’dilemma)•囚徒困境坦白不坦白坦白不坦白-8,-80,-10-10,0-1,-1无论对方如何选择,每个人的最优选择:坦白。所以,我们可以预测,结果将是(坦白,坦白)占优均衡(dominant-strategyequilibrium)•一般来说,由于每个参与人的效用依赖于所有人的选择,因此每个人的最优选择(战略)也依赖于所有其他人的选择(战略)。但在上述例子中,一个人的最优选择并不依赖于他人的选择。这样的最优战略,被称为“占优战略”(dominantstrategy)。由所有参与人的占优战略构成的战略组合被称为“占优均衡”。•占优战略均衡的出现只要求所有人都是理性的,但不要求每个参与人知道其他参与人是否理性。•囚徒困境博弈有占优均衡,所以其结果很容易预测。个人理性与集体理性的冲突•“囚徒困境”表明个人理性与集体理性的冲突。•这样的例子很多:寡头竞争,军备竞赛,团队生产中的劳动供给,公共产品的供给,等等;•许多的制度就是为解决“囚徒困境”而存在的;公共产品(publicgoods)提供不提供提供不提供4,4-1,55,-10,0无论对方如何选择,每个人的最优选择:不提供。所以,我们可以预测,结果将是(不提供,不提供)公共产品与税收制度•比较私人产品与公共产品的不同:使用上排他性;•私人产品是志愿购买的,但公共产品可能需要强制购买;•税收制度就是保证公共产品的生产,解决公共产品生产上的“囚徒困境”“囚徒困境”的一般表示合作不合作合作不合作T,TS,RR,SP,P满足:RTPS;(S+R)T+T用法律解决“囚徒困境”合作不合作合作不合作T,TS,R-XR-X,SP,P满足:XR-T“智猪博弈”(boxedpigs)•有些博弈没有占优均衡,但通过剔除“坏”战略,我们可以预测博弈的结果。如“智猪博弈”按等待按等待3,12,47,-10,0这个博弈中,大猪的最优选择依赖于小猪的选择,但小猪的最优选择与大猪的选择无关。如果大猪知道小猪的理性的,大猪将选择“按”。均衡是“大猪按,小猪等待”。“劣”战略:无论对方选择什么,如果自己选择A得到的总是收益小于选择B得到的收益,A就是相对于B的劣战略。重复剔除占优均衡•“重复剔除严格劣战略”(iteratedeliminationofstrictlydominatedstrategy)的思路:首先找出博弈参与人的劣战略(dominatedstrategy)(假定存在的话),把这个劣战略剔除后,剩下的是一个不包含已剔除劣战略的新的博弈;然后在剔除这个新的博弈中的劣战略;继续这个过程,直到没有劣战略存在。如果剩下的战略组合是唯一的,这个唯一的战略组合就是“重复剔除占优均衡”(iterateddominanceequilibrium)。•如果这样的解存在,我们说该博弈是“重复剔除占优可解的”(iterateddominancesolvable).理性共识(commonknowledgeofrationality)•(1)Zero-orderCKR:每个人都是理性的,但不知道其他人是否是理性的;•(2)First-orderCKR:每个人是理性的,并且知道其他每个人也都是理性的,但并不知道其他人是否知道自己是理性的;•(3)Second-orderCKR:(1)+(2)+每个人知道(2)•Nth-orderCKR:R(b)C(b)R(b)……C(b)Risrational,重复剔除与理性共识•重复剔除不仅要求每个人是理性的,而且要求每个人知道其他人是理性的,每个人知道每个人知道每个人是理性的,如此等等,即理性是“共同知识”(共识)C1C2C3R1R2R310,41,598,49,90,399,81,980,100100,98这个博弈只要求一阶理性共识就可以预测均衡结果。如果把(下-左)的第一个数字改为11呢?最优选择•这个博弈只要求一阶理性共识就可以预测均衡结果:•如果R相信C是理性的,R就知道C不会选择C3,所以R的最优选择是R1;•如果C相信R是理性的,C就知道R不会选择R2,所以C的最优选择是C2。•但要C预期R不会选择R3,需要二阶理性共识;要R不预期C会选择C1,需要三阶理性共识。R排除C选择C1RbelievesCbelievesRbelievesCisrational(C1,C2)R1C2好事变坏事?•在单人决策中,个人给定选择在所有情况下的收益都增加,一个人的状况不会变得更坏,但博弈中则不同。上下左右上下左右-1,32,10,23,41,34,10,23,4选择越多,对理性共识的要求越高R1R2R3R4C1C2C3C45,100,111,2010,104,01,12,020,03,20,44,350,12,930,920,91100,90(1)Zero-orderCKR:CnotchooseC4forCisrational(2)1st-orderCKR:RnotchooseR4forR(b)C(3)2nd-orderCKR:CnotchooseC1forC(b)R(b)C(4)3rd-orderCKR:RnotchooseR1forR(b)C(b)R(b)C(5)4th-orderCKR:CnotchooseC3forC(b)R(b)C(b)R(b)C(6)5th-orderCKR:RnotchooseR3forR(b)C(b)R(b)C(b)R(b)Cso,(R2,C2)isanequilibrium不能用重复剔除解的博弈•许多博弈没有占优均衡,也没有重复剔除的占优均衡。考虑如下博弈:C1C2C3R1R2R30,44,05,34,00,45,33,53,56,6可理性化的选择•Rationalizablestrategy:不能被重复剔除的战略;或者说,可以被合理的信念(belief)所支持的行为;•例如:R理性化选择R1:–如果R(b)C选择C2,–如果R(b)C(b)R会选择R2;–如果R(b)C(b)R(b)C会选择C1;–如果R(b)C(b)R(b)C(b)R会选择R1Consistentlyalignedbeliefs(CAB)•考虑(R3,C3):对方不会犯预期错误:R选择R3,如果他认为C会选择C3;C会选择C3,如果他认为R会选择R3。•CAB:每个人对别人行为的预期(信念)是正确的;•Harsanyidoctrine:如果两个理性的人具有相同的信息,他们一定会得出相同的推断和相同的结论;•RobertAumann:rationalagentscannotagreetodisagree.纳什均衡与一致预期•纳什均衡:所有参与人的最优战略的组合:给定该战略中别人的选择,没有人有积极性改变自己的选择。•一致预期:基于信念的选择是合理的;支持选择的信念是正确的;•预期的自我实现:如何所有人认为这个结果会出现,这个结果就会出现。预期是自我实现的,预期不会错误。如果你认为我预期你将选择X,你就真的会选择X。哲学思考•如果参与人事前达成一个协议,在不存在外部强制的情况下,每个人都有积极性遵守这个协议,这个协议就是纳什均衡。寻找纳什均衡C1C2C3R1R2R3100,1000,050,10150,01,160,00,3000,0200,200纳什均衡:举例•广告博弈•纳什均衡:(做广告,做广告)战略做广告不做广告做广告4,415,1不做广告1,1510,10企业1企业2利用纳什均衡寻租•考虑股票市场融资的例子:设想企业价值是100,现在发行的流通股为100股,每股价值1元。现在假定经理想筹集100元,投资价值只有50元。有人买新股吗?•假定每一股配4股,价格为0.25元。如果股东不接受配股:原来一股1元的价值就变成0.3元(=150/500);如果接受配股,他持有的股票的价值是1.5元;因为配股的成本是1元,所以他的最优选择是接受配股。所有权配置与等级结构•考虑团队生产:让其中的一个人变成所有者工作偷懒工作偷懒6,62,20,88,0纳什均衡与学习过程R2R1NEq1q2双寡头竞争:Cournot博弈•两个企业同时选择产量,价格由市场决定;•假定需求函数为其中为企业1的产量,为企业2的产量•假定成本函数为:•那么,利润函数为:)()(21qqaQP+−=2qiiiqcqC=)()()()()(212222211111cqqaqcqQPqcqqaqcqQPq−−−=−=Π−−−=−=Π1q双寡头竞争(续)•企业最大化利润的一阶条件为:•纳什均衡产量:•纳什均衡利润为22)(22)(12222211qcaqRqqcaqRq−−==−−==321caqqNENE−==9)(221caNENE−=Π=Π垄断产量和垄断利润•垄断企业的目标函数:•垄断产量:•垄断利润:)()(cQaQQcQQPM−−=−=Π2caQM−=4)(2caM−=Π划拳博弈老虎鸡虫杠子老虎鸡虫杠子0,01,-10,0-1,1-1,10,01,-10,00,0-1,10,01,-11,-10,0-1,10,0混合战略纳什均衡•有些博弈没有“纯战略”纳什均衡,但有混合战略纳什均衡,如监督博弈。监督不监督偷懒不偷懒1,-1-1,2-2,32,2给定工人偷懒,老板的最优选择是监督;给定老板监督,工人的最优选择是不偷懒;给定工人不偷懒,老板的最优选择是不监督;给定老板不监督,工人的最优选择是偷懒;如此循环。纳什均衡的存在性问题•每一个有限博弈至少存在一个纳什均衡(纯战略或混合战略);•如果一个博弈存在两个纯战略纳什均衡,那么,一定存在第三个混合战略纳什均衡。风险与均衡•由于纳什均衡要求理性共识和一致预期,当人们可能犯小小的错误时,纳什均衡不一定被选择。如下面这个博弈中,多数人将选择“下”而不是“上”。上下左右8,10-1000,97,66,5只要B有千分之一的概念错误地选择右,A将选择下;如果B怀疑A怀疑自己可能犯错误,B将选择右。所以,出现的不是纳什均衡有问题的纳什均衡?C1C2C3R1R2R32,23,10,21,32,23,22,02,32,2