博弈论的内涵与外延1、博弈的收益矩阵初级经济学课程中我们通过寡头论断理论出不解除了纳什均衡、古诺均衡与斯塔克伯格模型的研究,初步展现了厂商之间策略互动的经典经济原理。然而真正能够展现经济主体之间的策略性互动,则必须通过博弈论来说明。为研究简化和直观,我们的分析只局限在为研究简化和直观,我们的分析只局限在策略数量有限的双人博弈,基于此我们可以用收益矩阵来表示博弈。假设两人的简单博弈。A可以选择“上”或“下”。参与人B可以独立选择“左”或“右”。写完后经过检查,他们最终获得的收益如表1所示。表1博弈的收益矩阵参与人左右参与人上1,20,1下2,11,0参与人A有两种策略:选择上,也可以选择下。参与人也具有两个独立的策略左和右。从参与人A的角度考虑,他选择下的结果明显好于选择上。同样,多余参与人B来说,其选择左的后果也要好于选择右的结果。因此,我们可以预期,均衡策略是A选择下,B选择左。在这种情况下,我们有一个占优策略。不论其他人如何选择,每个参与人都有一个最有策略。不论B如何选择,参与人A选择下总能得到较高的收益。因此,A肯定会选择策略下。同样,不论A选择何种策略,B选择左也能得到较高的收益。因此,这些选择优于其他选择,我们就得到一个占优策略均衡。如何在某个博弈中,每个参与人都有一个占优策略。那么,可以预期,这个占优策略组合就是博弈的均衡结果。一、纳什均衡在实际情况下并非处处都能得到占优策略均衡。例如表2中的报以结构就不存在占优策略均衡。当B选择策略左,A的到收益为2或0;当B选择策略右时,A得到的收益为0或1.这意味着,当B选择左时,A选择策略上;当B选择右时,A选择策略下。因为这是A的最优选择取决于其对B所选择策略的预期。但是,正是因为占优策略均衡时一个非常苛刻的要求。预期要求A的选择对于B的所有选择都是最有的,不如只要求A的选择对于B的最有选择是最有的。这是因为,如果B是一个消息灵活的聪明人,他就会选择最优策略(尽管B的最有选择也是取决于A的选择)。如果给定B选择,A的选择是最优的,并且给定A的选择,B的选择也是最优的,那么这样一组策略就是纳什均衡。纳什均衡可认为是关于每个参与人的策略选择的对他人行为的预期,而这些预期使得当任何一个人的选择被揭示后,没有人愿意改变自己的行为。表2纳什均衡参与人B左右参与人A上2,10,0下0,01,2从表2中看出,策略组合(上,左)是一个纳什均衡。如果A选择策略“上”,那么B所做的最优策略选择就是“左”,同样如果B选择“左”,那么A所作的最优策略选择是“上”。同理,策略组合(下,右)也是一个纳什均衡。纳什均衡是古诺均衡的一般化形式。古诺均衡中所选择的是产量水平,每一家厂商在选择产量时,都把另一家厂商的产量选择视同既定产量。每一家厂商都要在另一家厂商连续生产它所选择的产量水平——既坚持执行它所选择的策略——的假定基础上,最优化自己的选择。古诺均衡出现在当每家厂商都在另一家厂商的行为规定的情况下,最大化自己的利润的时候。一个博弈可能存在一个以上的纳什均衡,也可能根本不存在纳什均衡。表3不存在(纯策略)纳什均衡的博弈参与人B左右参与人A上0,00,-1下1,0-1,32、重复剔除的最优策略均衡在每个人参与人都有最优策略的情况下,最优策略均衡是很理想的,他反映了所有参与人的绝对偏好,根据最优策略均衡可以对博弈结构做出最肯定的预测。然而在大多数情况下,最优策略均衡是不存在的。假定猪圈内有一只大猪和一只小猪,在猪圈的一头有一个猪食槽,另一头安装一个按钮,控制猪食的供应。按一下按钮,有8个单位猪食进槽,但需要支付2个单位成本。若大猪先到,大猪吃到7个单位,小猪只能吃到1个单位;若小猪先到,大猪和小猪各吃到4单位;若两猪同时到达,大猪吃到5单位,小猪吃到3单位。每头猪都有两种策略:“按”与“等待”。支付矩阵见表4。表4、智猪博弈小猪按等待大按猪等待第一格表示两头猪同时按按钮,同时走到猪食槽,这大猪吃5单位,小猪吃3单位,口出2个单位成本,支付水平分别为3个单位和1个单位。这个博弈没有最优策略均衡。因为尽管“等待”是小猪的最优策略,但大猪没有最优策略。如果小猪选择“等待”,大猪的最优策略是“按”;反之,如果小猪选择“按”,大猪的最优战略是“等待”。大猪的最优策略依赖于小猪的策略。在此必须用“重复剔除严格劣战略”的思路找出均衡。这个思路具体为:首先找出参与人的劣策略(假定存在),把这个劣策略除去,重新构造一个不包含这个劣策略的新的博弈;然后再剔除新博弈中的劣策略,直至唯一的策略组合即均衡解。这个博弈的均衡解成为。“重复剔除的最优策略均衡”(iterateddominanceequilbrium)。首先剔除小猪的劣策略“按”。不管大猪“按”还是“等待”,小猪都会选择“等待”,而绝不会去“按”,在剔除“按”这个策略后的新博弈中,小猪只有一种策略“等待”,大猪仍有两个策略,但是等待就成为大猪的劣策略,剔除这个策略,剩下的唯一策略组合即是(按,等待)。如果小猪选择“等待”,大猪的最优策略只能是“按’.3,12,47,-10,0这个博弈结果有很多在现实生活中的实例。股份公司中,股东承担监督经理的之恩,但是股东中有大股东和小股东之分,他们从监督中的到得收益不一样。在监督成本相同情况下,大股东从监督中的到得“好处”显然多于小股东。大股东类似于“大猪”,而小股东则相当于“小猪”。博弈结果是,大股东必须承担监督经理人的职责,而小股东这可以“免费搭车”。股票市场,市场开发这样的例子比比皆是。3混合策略当每个参与人只选择一种策略并始终检测这个选择,这种策略称为纯策略。当考虑参与人策略选择的另一种方法,是允许参与人是他们的策略选择随机化——对每项选择都指定一个概率,并按照这些概率选择策略。如A可能以50%的概率选择“上”,以50%的概率选择“下”,同时B可能选择“左”的概率为50%,选择“右”的概率为50%,这种策略称为混合策略。如果A和B都采用上述的混合策略,即各自都以相等的概率选择其中的一种策略。那么,混合策略组合在收益矩阵四个方格中的每一个方格中出现的概率都是1/4。因此,A的平均收益是0,而B的平均收益为1/2。混合策略纳什均衡指在给定其他参与人的策略闲着概率,每个参与人都为自己确定选择每一种策略的最优概率。在表3中,如果参与人A以3/4的概率选择策略“上”,以1/4的概率选择策略“下”,参与人B以1/2的概率选择策略“左”,以1/2的概率选择策略“右”,那么这个混合策略组合就构成纳什均衡。举一个例子,在表6的博弈中,参与人是政府和流浪汉。流浪汉有两种策略:寻找工作或者游荡;政府也有两种策略:救济或不救济。政府帮助流浪汉,当前提是后者必须找工作。后者,不予救济。而流浪汉总有在得不到政府救济时才会寻找工作。这个博弈不存在纯策略纳什均衡。给定政府救济,流浪汉选择游荡时支付为3,而选择寻找工作只有2。因此流浪汉最优策略是选择游荡。同理,给定流浪汉游荡,政府的最优策略是不救济。给定政府不救济,流浪汉的最优策略是寻找工作;给定流浪汉寻找工作,政府的最有策略为救济。没有一个战略组合构成纯策略纳什均衡。然而,则这个博弈却存在混合策略纳什均衡。设想政府以1/2的概率选择救济,1/2的概率选择不救济。那么,对于流浪汉来说,选择寻找工作的期望效用为1/2x2+1/2x1=1.5。而选择游荡带来的期望效用为1/231/201.5,选择任何混合战略的期望效用都是1.5。所以,流浪汉的任何一种策略都是对政策所选择的混合战略的最优反应。如果流浪汉也选择这个混合战略,采用0.2概率选择公众,以0.8的概率选择游荡。政府的任何策略的期望效用都是0.2.(学生自己练习一下)。这样,我们得到一个混合战略组合,其中政府各异1/2的概率分别选择救济和不救济,流浪汉以0.2概率选择工作,0.8的概率选择游荡,每个参与人的混合战略都是给定双方混合战略时的最优选择。这个混合策略组合是一个纳什均衡。表6、社会福利博弈流浪汉寻找工作游荡政救济府不救济3,2-1,3-1,10,0性别战的例子,男女谈恋爱,晚上约会时或者去看足球比赛,或者去看芭蕾舞演出。男的偏好看足球,女的偏好芭蕾,但他们都宁愿在一起也不愿意分开看。支付矩阵如表7所示:表7、性别战博弈女足球芭蕾男足球芭蕾这个博弈存在两个纯战略纳什均衡:(足球,足球)和(芭蕾,芭蕾)。同时还可能存在一个混合战略纳什均衡。即男的以2/3的概率选择足球赛,1/3选择芭蕾。同样女的一1/3概率选择足球赛,2/3概率选择芭蕾。第三节完全信息动态博弈:子博弈精炼纳什均衡一、动态博弈与精炼纳什均衡上节分析了用混合策略来解决有些博弈中不存在纳什均衡的问题。除此以外,纳什均衡还有另外的问题,即有些博弈中可能不仅一个(甚至是无穷个)纳什均衡,但究竟哪个均衡实际上会发生难以回答。在纳什均衡中,参与人在选择自己的最优战略时,把其他参与人的策略作为给定,不考虑自己的选择将如何影响对手的策略。实际上在动态博弈中,当一个人行动在前,另一个人行动在后时,后者自然会根据前者的行动理性调整自己的选择。其事先设定的策略可能会在博弈过程中发生变化,这就是策略的“可信性”问题。前者在作选择是自然会理性地考虑这一点,所以不可能不考虑自己的选择对其对手选择的影响。由于在纳什均衡中,不考虑这种影响,事实上便允许“不可置信威胁”的存在,于是就增加了纳什均衡的个数。泽尔腾引入动态博弈分析完善了纳什均衡的概念,定义了与动态博弈对应的“子博弈精炼纳什均衡”。将纳什均衡中包含的不可置信的威胁策略剔除出去。他要求参与人的决策在任何时点上都是最优的,决策者是“随机应变”的。由于提出了不可置信的威胁,在许多情况下,精炼纳什均衡也就缩小了纳什均衡的个数。前面介绍的都是标准型博弈。博弈的标准型表达有3个要素:参与者、可选择策略以及支付函数。两人有限策略博弈的标准型可用一个矩阵来表示。而另一种博弈形式成为扩展型博弈。与标准型相比,扩张型表达包括五个要素:①参与人②每个参与人选择性动的时点③每个参与人在每次行动时可提供选择的行动集合④每个参与人在每次行动时有关对手过去行动选择的信息⑤支付函数假设企业A是市场上的唯一供给者,面临企业B可能的竞争威胁。企业A有两种可选策略,即斗争与默许。斗争变现为采用降低价格使B得收益为0,默许意味着维持高价格。企业B也有两种策略:进入或者不进入。假定进入之前垄断利润为300,进入之后寡头利润共为100(各得50),进入成本为10.各种策略组合下的支付矩阵见表8。表8市场进入阻挠博弈企业A高价低价企进入业不进入B这个博弈显然有两个纳什均衡,即(进入,高价),(不进入,低价)。(进入,高价)是纳什均衡,是因为给定企业B进入的话,企业A选择高价时得到利润50,选择低价时则没有利润,所以最优战略时高价2,10,00,01,240,50-10,00,3000,300(默许)。同理,给定企业A高价时,进入策略就成为企业B的最优选择。尽管在企业B选择不进入时,企业A采取任何一种策略都将是一样的,但只有当企业A选择低价时,不进入才是企业B的最优选择。因此,(不进入,低价)是纳什均衡,而(不进入,高价)不是纳什均衡。通过静态分析方法,得到两个纳什均衡。究竟发生哪个,我们只能用动态博弈理论来讨论。企业B先选择行动(进入或不进入),企业A后选择是合作或者斗争。如果企业B选择进入,企业A选择默许,则支付水平分别是40和50.在企业B选择进入后,企业A选择行动开始就是一个子博弈。泽尔腾认为:只有当参与人的策略在每一个子博弈中都构成纳什均衡,才可以成为近年纳什均衡。换言之,组成精炼纳什均衡的策略库尔必须在每一个子博弈中都是最优的。在市场进入博弈中,当给定企业B已经进入的情况下,在位者的“斗争”或“高价”策略一不再是最优的,这种“斗争”是不可置信的威胁,因为斗争的结构式没有利润的,而合作会带来50单位利润。所以(进入,低价)不是一个精炼纳什均衡,(进入,高价)是唯一的子博弈精炼纳什均衡。一个精炼均衡首先必须是一个纳什均衡,反之则不然。只有那些不包含不可置信威胁的纳什均衡才