--------“囚徒困境”两个犯罪嫌疑人被捕并受到指控,但除非至少一个人招人犯罪,警方并无充足证据将其按罪判刑.警方把他们关入不同的牢室,并对他们说明不同行动带来的后果.如果两个人都不坦白,将均被判为轻度犯罪,入狱一个月;如果两人都坦白招认,都将被判入狱6个月;最后,如果一人招认而另一人拒不坦白,招认的一方将马上获释,而另一人将判入狱9个月.博弈论经典例子第1章完全信息静态博弈(StaticGamesofCompleteInformation)第1章完全信息静态博弈一个博弈由三部分构成:参与者,参与者的战略(空间),参与者的收益构成.动)构成的集合.参与者的收益是参与者在博弈中的参与者的战略空间是参与者可选择的战略(行得益.参与者的“共同知识”.完全信息是指:所有参与者的收益函数是每个静态博弈是指所有参与者同时选择行动或战略.同时:(彼此没有信息交流).假设每个参与者选择且仅选择一次战略(行动).参与者是理性的.参与者是理性的是指参与者总是追求收益最大(参与者唯一的目标).1.1·A博弈的标准式表述经典例子;“囚徒困境”(prisoner,sdilemma)囚徒1-6-60-9-90-1-1沉默招认囚徒2沉默招认在此博弈中,每个囚徒有两个可供选择的战略:坦白,沉默.在一组特定的战略被选定后,两人的收益由上表中的数字给出,习惯上横行代表的参与者1的收益在两个数字中放在前面,列代表的参与者2的收益放在后面.一般情况下,博弈的标准式包括:(1)博弈的参与者,(2)每一参与者的战略集,(3)针对所有参与者可能选择的战略组合,每一个参与者获得的收益.一般来讲,我们只考虑n个参与者的博弈,其中参与者从1到n排序,设其中任一参与者的序号为i,令Si代表参与者i可以选择的战略集合(称为i的战略空间),其中任意一个特定的战略用si表示iiSs表示战略si是战略集Si中的要素)(有时写成),,(21nsss令后形成的战略组合.间,表示为.21nSSSS),,,(21niisssuu定义在一个n人博弈的标准表达式中,参与者的战略空间为,,21nSSS我们用,,,,21nuuunnuuuSSSG,,,;,,2121表示此博弈.表示每个参与者选定一个战略所有战略组合构成战略组合空iu表示第i个参与者选择战略si时,i的收益函数,即),(iiissu收益函数为注意:参与者同时选择战略(行动)并不意味着各方行动必须是同时的,只要每一个参与者在选择行动时没有信息交流即可.参与者永远是理性的!博弈模型已经构建,我们的任务是如何预知博弈的结果(?),换言之,如何寻找博弈的解.1·1·B重复剔除严格劣战略定义在标准式的博弈nnuuuSSSG,,;,,2121中,令和代表参与者的两个可行战略,如果iisis对其他参与者每一个可能的战略组合,参与者i或者相对与是严isis选择的收益都小于其选择的收益,则称战略isisisis相对于是严格劣战略,格占优战略,即:),,,,,(1121niiiissssssu),,,,,(1121niiiissssssu(DS)每一组可能的战略组合都成立.),,,(111niissss对其他参与者在其战略空间niiSSSS,,,,,111中的理由:理性的参与者不可能选择严格劣战略,“囚徒困境”(prisoner,sdilemma)囚徒1-6-60-9-90-1-1沉默招认囚徒2沉默招认用重复剔除严格劣战略方法解决“囚徒困境”不难验证,在囚徒困境中,对每一个参与者,沉默和招认相比是严格劣战略.因此每一个囚徒都会选择招认.故“囚徒困境”博弈的重复剔除严格劣战略解是(招认,招认).下面再看一个二人博弈的例子:参与人12,00,10,30,11,21,0左中右上下参与人2图1.1.1参与人1有两个可选战略,参与人2有三个可选战略S1={上,下},S2={左,中,右},如果2选择左,上优于下(1大于0),但如果2选择右,下就会优于上(因为20).但对参与人2来讲,右严格劣于中(21且10),因此理性的参与者2不会选择右的.那么如果参与人1知道参与人2是理性的,他就可以把右从参与人2的战略空间中剔除掉,即如果参与人1知道参与人2是理性的,他就可以把图1.1.1所示博弈视同为图1·1·2所示的博弈:1,01,20,30,1参与人2左中参与人1上下图1·1·2在图1·1·2中,对于参与人1来讲,下就成了上的严格劣战略,于是如果参与人1是理性的,(并且参与人1知道参与人2是理性的,这样才能把原博弈化为图1.1.2所示的博弈),参与人1就可以把下从参与人1的战略空间中剔除,余下图1·1·3所示博弈.但这时对参与人2,左又成为中的严格劣战略,参与人2可以剔除左,得博弈的解为(上,中).1,01,2参与人2左中参与人1上图1·1·3上面的过程可称为“重复剔除严格劣战略”.战略的原则之上,但它仍有两个缺陷:注意此过程建立在理性参与者不会选择严格劣第一每一步剔除都需要参与者间相互了解的意多步就需要假定“参与者是理性”是共同知识.的还要假定所有参与人都知道所有参与人是理性更进一步假设,如果我们要把这一过程应用到任这意味着,我们不仅需要假定所有参与人是理性的如此等等,以至无穷.第二对博弈预测的结果经常是不精确的.或者此方法根本不能使用.例如:6,63,53,55,30,44,05,34,00,4左中右上中下此博弈就不能用以上方法求解.由此引出纳什均衡的概念.纳什均衡概念是博弈理论的基石!它为博弈理论提供了分析框架.它的思想是:设想在博弈论预测的博弈结果中,给每个参与者选定各自的战略,为使该预测是正确的,必须使参与者自愿选择理论给它推导出的战略.这样每一个参与者要选择的战略必须是针对其他参与者选择战略的最优反应,这种理论推测的结果可以叫做“战略稳定”或“自动实施”的,因为没有参与者愿意独自离弃他所选定的战略,这一状态称做纳什均衡(NashEquilibrium).nnuuuSSSG,,,;,,2121定义:在n个参与者的标准式博弈中,如果战略组合),,,(21nsss满足对每一个参与者i,是(至少不劣于)他针对其他(n-1)个参与is者所选战略),,,,,(111niissss的最优反应战略,则称战略组合),,,(21nsss是该博弈的一个纳什均衡(纯战略).即:),,,,,(111niiiisssssu),,,,,(111niiiisssssu对所有中的都成立,isiS(NE)is亦即是以下最优化问题的解:niiiiSssssssuii,,,,max111关于纳什均衡解求解方法的说明:纳什均衡(纯战略)的定义提供好了求解纳什均衡的思路:niiiiSssssssuii,,,,max1111.假如最优化问题对每一个参与者i都有最大值点,is,,,2,1ni则is为其他参与者选定战略的函数,即is),,,,,,(1121niiissssss,,,2,1ni这样就会得到n个等式或方程,2.解以上n个方程联立的方程组,3.如果以上方程组有解,即得纳什均衡解.反之,不是针对其他参与人战略选不是博弈),,,(21nsssSi中存在另外一个战略),,,,,(111niissssis使得如果战略组合G的纳什均衡,就意味着至少存在一个参与人i,is参与人i的战略选择的最优反应战略,即在择),,,,,,(111niiiisssssu),,,,,,(111niiiisssssu如果博弈论提供的战略组合解),,,(21nsss不是纳什均衡的解,离理论的预测,则至少有一个参与者有动因偏使得博弈进行和理论预测不一致.和纳什均衡推导密切相关的是协议的理念:如果参与者之间要商定一个协议决定博弈如何进行,那么一个有效的协议中的战略组合必须是纳议.什均衡的略组合,否则至少有一个参与者不遵守协看下面几个例子:例一“囚徒困境”-1,-1-9,00,-9-6,-6囚徒2沉默招认囚徒1沉默招认对于囚徒1来讲,如果囚徒2选择战略“沉默”,那么,囚徒1选择“沉默”的收益为-1,选择“招认”的收益为0,当然选择“招认”.同理可得囚徒2的战略选择也是“招认”.因此,此博弈的纳什均衡解为(招认,招认).此时双方的收益为(-6,-6),很明显(-1,-1)的收益好于(-6,-6).但纳什均衡的结果是达不到的,此所谓的“囚徒困境”.这也正是博弈论的有趣之处,均衡的结果告诉我们一个很重要的结论:“囚徒困境”纳什个体理性和集体理性的矛盾,每个个体都追求个体收益最优,其结果可能是都达不到最优,相反,集体利益可能也受到损害.注:亚当.斯密:每个个体追求最优,结果集体最优.影响.纳什认为亚当.斯密忽略了个体选择时的相互6,63,53,55,30,44,05,34,00,4左中右上中下例2对于参与者1,如果参与者2选择左,则参与者1选择中(4>3>0),此时参与者1的收益为4,在4下面划一横线,同理可以求出参与者2选择中、右时,1的选择和收益.对于参与者2可用同样的方法求解.格子内数字都划线的对应的双方的战略组合(下,中)即为博弈的纳什均衡解.1,20,00,02,1帕特歌剧拳击克里斯歌剧拳击例3—性别战博弈易知此博弈有两个纳什均衡,(歌剧,歌剧);(拳击,拳击)结果到底是那一个呢?不得而知.此为纳什均衡解的多重性,是纳什均衡的缺陷之一,也是博弈论的一大难题.此博弈无纳什均衡(纯战略).例4—猜硬币博弈-1,11,-11,-1-1,1参与人2正面反面参与人1正面反面例5博弈双方1和2就如何分100元钱进行讨价还价.假设确定了以下规则:双方同时提出自己的要求的数额和1s,2s,100,021ss如果,则博弈双方的10021ss要求都能得到满足,即分别得到和但如果1s,2s则该笔钱就被没收.求该博弈的纳什,10021ss为什么?均衡,若你是其中一个博弈方,你会选择什么数额,解根据题意,参与者1,2要求的份额分别为,,21ss因此,参与者1,2的战略空间都为].1,0[21SS参与者1的收益函数为212111101sssssu当当因此,参与者1的最优反应函数是,121ss由对称性2的最优反应函数为,112ss双方的反应函方程121ss有无数解,所以该博数完全相同,弈有无数个纯战略纳什均衡),,(21ss21,ss其中121ss解.为方程另外,当参与者1均衡解是11s.1,021ss时,参与者2的一个均衡解为1,但是,依照题意,当121ss时,,02u依照纳什均衡解的定义,此时参与者也是纳什均衡解.参与者2的收益所以,当参与者1均衡11s时,2战略于是,121ss),,(21ss,1,021ss以及),1,1(解是该博弈的所有的所有解如果我是其中的一个参与者,我会选择得到50.因为在该博弈的无穷个纳什均衡中,(50,50)是比较称为“聚点”均衡.公平容易被双方接受的.11s纳什均衡解为满足方程例6考虑一个有N个人参加的游戏:每个人可以放最多100元钱到一部可以生钱的机器里,机器把所有人放进去的钱的总和增加到原来的3倍,然后再平均分给这N个人.求此博弈的纳什均衡.解:容易得出当N=1,2时,此博弈有唯一的纳什均衡.双方都放进100元钱,即(100,100)为纳什均衡.3,2,1.)(33ipnmpnmui当N=3时的情况如何?参与者i的收益函数为其中m,n,p分别为三个参与者放进机器里的钱数,m为参与者i放进机器里的钱数,n,p分别为其他两个参与者放进机器里的钱数,由可以看出,i的最优选择是:iu.1000m中的任意一个数.同理可分析另外两个参与者的选择.当N=4时情况