生活中的博弈论

154873088
6 ℃
2020-01-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-0GAMETHEORYOFLIFE生活中的博弈论北京师范大学珠海分校FacultyofInternationalBusinessCopyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-1书单经济思想的成长.亨利·威廉·斯皮格尔.中国社会科学出版社；经济分析史.约瑟夫·熊彼特.商务印书馆；经济学说史.鲁有章.人民出版社；致命的自负.哈耶克.中国社会科学出版社；当代中国经济改革教程.吴敬琏.上海远东出版社；穷人的银行家.尤努斯.生活·读书·新知三联书店；十年轮回:从亚洲到全球的金融危机.沈联涛.上海远东出版社；博弈论与经济行为.冯・诺伊曼.三联书店；市场的逻辑.张维迎.上海人民出版社.Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-2“要想在现代社会做一个有文化的人，你必须对博弈论有一个大致了解”——保罗·萨缪尔森Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-3博弈论和诺贝尔经济学奖1994：纳什（Nash）、海萨尼（J.Harsanyi）、泽尔腾（R.Selten）1996莫里斯（JamesA.Mirrlees）和维克瑞（WilliamVickrey）纳什的基本贡献是证明了非合作博弈均衡解及其存在性，建立了作为博弈论基础的“纳什均衡”概念；海萨尼把不完全信息纳入博弈论体系中；泽尔腾将博弈论由静态向动态的扩展，建立了“子博弈精练纳什均衡”的概念。这两位经济学家的贡献集中于运用博弈论对现实经济问题的解释。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-42001：阿克洛夫（Akerlof）、斯宾塞（Spence）、斯蒂格利茨（Stiglitz）这三位作为不对称信息市场理论的奠基人被授予诺贝尔经济学奖，以表彰他们分别在柠檬品市场等不对称信息理论研究领域做出的基础性贡献。这些贡献发展了博弈论的方法体系，拓宽了其经济解释范围。2002：弗农史密斯（Smith）2005：奥曼（Aumann）、谢林（Schelling）贡献主要在于通过实验室实验来测试根据经济学理论而做出预测的未知或不确定性。是对以博弈论为基础构建的理论模型进行实证证伪工作的一大创举。他们通过博弈理论分析增加了世人对合作与冲突的理解。其理论模型应用在解释社会中不同性质的冲突、贸易纠纷、价格之争以及寻求长期合作的模式等经济学和其他社会科学领域。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-5博弈论“博弈论”的英语原文是GameTheory，直译过来就是游戏论、运动论或竞赛论。什么叫博弈？博弈的英文为game，我们一般将它翻译成“游戏”。而在西方，game的意义不同于汉语中的游戏。在英语中，game即是人们遵循一定规则下的活动，进行活动的人的目的是使自己“赢”。奥林匹克运动会叫OlympicGames。在英文中，game有竞赛的意思，进行game的人是很认真的，不同于汉语中游戏的概念。在汉语中，游戏有儿戏的味道。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-6“鲜花插在牛粪上”假定条件：（1）假定有朵“鲜花”，同时有且只有两个人追求，一个是“俊男”，另一个是“牛粪”；（2）“俊男”在追求“鲜花”的同时，也有几个不错的女孩子在追求他；而“牛粪”则无人追；（3）假定“鲜花”选择伴侣的标准是：看谁更爱她，找一个爱她的人做老公。而更爱她的标准又是：看谁追她更有耐心；（4）假定两人是同时开始追求“鲜花”；（5）当鲜花选择的时间太久，俊男会失去追求他的靓妹；（6）假定两人都是风险厌恶型。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-7囚徒困境1950年，由就职于兰德公司的梅里尔·弗勒德（MerrillFlood）和梅尔文·德雷希尔（MelvinDresher）拟定出有关困境的理论，后来由顾问艾伯特·塔克（AlbertTucker）以囚徒方式阐述，并命名为“囚徒困境”。囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-8经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。若二人都互相检举（互相“背叛”），则二人同样判监2年。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-9嫌犯乙坦白沉默嫌犯甲坦白22100沉默0100.50.5Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-10囚徒困境假定每个参与者（即“囚徒”）都是利己理性人，即都寻求最大自身利益而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-11囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、我背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-12二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-13这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判监均比合作为高，总体利益较合作为低。这就是“困境”所在。例子有效地证明了：非零和博弈中，帕累托最优和纳什均衡是互相冲突的。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-14固定局数的囚徒困境概括而言囚徒困境进行第一次后会出现以下两种情况：甲在第一次中被乙指控，即会在第二次指控乙，最终导致，甲即时获释，乙服刑10年或二人同服刑2年这两种情况。双方均保持沉默，即会建立互信的关系，最终二人同服刑半年。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-15但互信的关系并非牢不可破，这一点也可以被利用，即甲乙在第一次中共同选择沉默而赢得对方的信任，但甲或乙中的一人在获得对方的信任后指控对方而获得自身最大的利益即自身即时获释，但对方将服刑10年。这是一个以牺牲对方利益而获得自身最大利益的一种策略。假设，两个囚徒均欲利用此策略，并将局数推演为十次，那么就会出现如下的情况：在第一局到第九局的过程中双方均会保持沉默，以期望建立互信关系，并在第十局指控对方，这将最终导致，二人同服刑2年。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-16再一次假设，双方都明确对方会使用与自己同样的策略，即知道对方会在第十局中指控自己，这样，在第九局时两者间的信任关系的建立即是没有意义的，如此类推，第八局到第一局中信任关系的建立也是没有意义的，即是十局都会互相背叛，也就是纳什均衡。也可推论，在如此的情况下，只有在囚徒困境的局数在不肯定的情况下（即双方均不知道进行的局数），才会出现互相保持沉默以获得信任关系的现象。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-17囚徒困境的一般形式有两个参与者和一个庄家。参与者每人有一式两张卡片，各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下，放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后，庄家翻开两个参与者卡片，根据以下规则支付利益：一人背叛、一人合作：背叛者得5分（背叛诱惑），合作者0分（受骗支付）。二人都合作：各得3分（合作报酬）。二人都背叛：各得1分（背叛惩罚）。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-18用支付矩阵表格展示支付如下（以红和蓝分别表示二参与者）：一般形式囚徒困境的支付矩阵以“T、R、P、S”符号表示以“胜－负”术语表示合作背叛合作背叛合作背叛合作3,30,5合作R,RS,T合作胜,胜大负,大胜背叛5,01,1背叛T,SP,P背叛大胜,大负负,负Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-19简单博弈获得的点数可以得出一些一般化的结论。T、R、P、S符号表符号分数英文中文T5Temptation背叛诱惑R3Reward合作报酬P1Punishment背叛惩罚S0Suckers受骗支付TRPS（解：从5310获得以上不等式）若以整体获分而言，将得出以下不等式。2RT+S或2R2P（解：2×35+0或2×32x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。合作在团体而言是支配性策略。）而重复博弈或重复的囚徒困境将会使参与者从注重TRPS转变成注重2RT+S。就是说将使参与者脱离困境。以上理论是道格拉斯•霍夫施塔特创建的。Copyright©2012byTheQingYiCulture&ArtCompany,Inc.Allrightsreserved.1-20囚徒困境的现实例子上述例子可能显得不甚自然，但现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子，将结果划成