囚徒困境北京城市学院13资源本王晨霁什么是博弈?词源:博弈是一个外来词:Game,即游戏,指人们在一定的规则下进行竞赛。博弈是人与人相处的一种状态:合作与竞争的状态。举例:生活中的合作与竞争什么是博弈?1928年,美籍匈牙利数学家冯·诺依曼发表名为《关于二人零和游戏的最大最小定理》的论文,标志博弈论作为一门带有方法论性质的学科开始创立。1940年,冯·诺依曼和奥地利经济学家摩根斯坦经四年合作出版了《博弈论与经济行为》,标志现代系统博弈理论开始形成。专业术语解释:研究决策主体的行为在直接相互作用时,人们如何进行决策以及这种决策如何达到均衡的问题。简单点:研究在不同情况下的策略选择的一种理论。经济学的三次“革命”“边际分析革命”“凯恩斯革命”“博弈论革命”博弈论与信息经济学代表着一种新概念、新方法论、新分析方法和一种全新的思想。生活中的博弈现象举例火车站候车室排队等候进站看电影时大多数人站起来教室门外停留一簇人两人共同完成一项任务,最后无人去做跟父母的讨价还价丈夫与妻子的斗气等候公交车、出租车让路囚徒困境两个小偷甲和乙联手作案,私入民宅被警方逮住但未获证据。警方将两人分别置于两间房间分开审讯,政策是若一人招供但另一人未招,则招者立即被释放,未招者判入狱10年;若二人都招则两人各判刑8年;若两人都不招则未获证据但因私入民宅各拘留1年。囚徒困境囚徒困境博弈乙招不招招甲不招(问题:甲、乙如何选择?)-8,-80,-10-10,0-1,-1博弈的结果对甲的分析:尽管甲不知乙是否招供,但他认为自己选“招”最好,因而甲会选择“招”。乙也同样会选择“招”。结果:各判8年;但若两人都不招,结果是两人只被判1年,但这种结果是不会出现的。这就是“囚徒困境”,体现了个人理性与集体理性之间的矛盾(颠覆新古典经济学的理论:个人理性的选择会自然而然的达到集体理性)。博弈的构成要素1.局中人(两人及其以上)其目的是通过选择行动(战略)来最大化自己的利润——理性的经济人假设2.行动参与人在某个时点的决策变量行动组合3.战略参与人在特定情况下的行动规则。“相机行动方案”博弈的构成要素4.支付在一个特定组合下参与人得到的收益或损失(可以为期望收益)5.信息关于参与人特征的信息6.结果最终出现的结果(大家比较感兴趣的东西)7.均衡所有参与人的最优战略组合囚徒困境博弈乙招不招招甲不招-8,-80,-10-10,0-1,-1占优战略均衡占优战略:无论其他参与人选择何种战略都是最优的战略。——劣战略甲的占优战略:当乙选择“招”,甲选择“招”最优;当乙选择“不招”,甲仍然选择“招”最优。因此,无论乙选择何种策略,“招”是甲的占优战略。占优战略均衡:所有参与人的占优战略组合在一起构成占优战略组合。(招,招)就是一个占优战略均衡。占优战略均衡对参与人理性的要求:对囚徒困境的进一步分析1.隔离的重要性2.若有人非理性会怎么样?若两个都不理性,则很可能会(不招,不招)最好是你是理性的,而对手非理性。3.事前达成一致协议会怎样?4.若允许他们在审讯室里一起单独交流10分钟,然后再决定是否坦白,结果会怎样?5.若加入黑帮,由老大来约束他们的行为会怎么样?生活中的“囚徒困境”例子商家价格战出售同类产品的商家之间本来可以通过共同将价格维持在高位而获利,如可口可乐和百事可乐,但实际上却是相互杀价,结果都赚不到钱(价格竞争和广告竞争)。当一些商家共谋将价格抬高,消费者实际上不用着急,因为商家联合维持高价的垄断行为一般不会持久,可以等待垄断的自身崩溃,价格就会掉下来。譬如,2000年我国几家生产彩电的大厂商合谋将彩电价格维持高位,他们搞了一个“彩电厂家价格自律联盟”,并在深圳举行了由多家彩电厂商首脑参加的“彩电厂商自律联盟高峰会议”。当时,国家有关部门还未出台相关的反垄断法律,对于这种在发达国家明显属于违法行为的所谓“自律联盟”,国家在法律上暂时还是无能为力的。寡头厂商在光天化日之下进行价格合谋,并且还通过媒体大肆炒作,这在发达国家是不可思议的。但是,尽管政府当时无力制止这种事情,公众也不必担心彩电价格会上涨。这是因为,“彩电厂商自律联盟”只不过是一种“囚徒困境”,彩电价格不会上涨。实际上,在高峰会议之后不到二周,国内彩电价格不是上涨而是一路下跌。这是因为厂商们都有这样一种心态:无论其他厂商是否降价,我自己降价是有利于自己的市场份额扩大的。用博弈矩阵解释厂商的价格战乙低价高价甲低价高价4,410,22,108,8例子为什么有一些职业联赛给运动员的薪酬这么高?职业运动员的才能非常专业化,除了打球之外不会做其他工作。因此,球队可以给球员一个较低的工资。而且,给运动员几百万的薪水有可能缩短他们的职业生涯,因为这样高的薪水很容易让一个运动员提早退休。但为什么运动员,特别是优秀运动员的薪水却是如此之高?因为每支球队在决定他们球员的薪水方面都面临一个“囚徒困境”。当其他球队提供的薪水都非常低,你的球队支付高薪水就能够获得很大的收益,因为你可以吸收到最优秀的球员,赢得所有联赛冠军,获得很高的票房收入。当其他球队提供高薪水,你若没有提供高薪水,你的队员就可能是最差的,这样你的票房收入就会很低。因此,给队员提供高薪水是每个球队的占优策略。结果是每个球队都给队员提供高薪水。不幸的是,他们全部支付高薪水只会比他们全部支付低薪水时的情况更糟糕。例子懦夫困境假设你作为一名士兵身处第一次世界大战的战场。你们在战场上遇到了敌军。假设你们都不怎么爱国,那么活命是你们最高目标。在战斗打响时,你的最佳策略是什么?若你的兄弟顽强抵抗,你最好逃跑;若他们也逃跑,你逃跑就显得更加明智。因此,你的最佳策略就是逃跑。但假如你这边的每个人都逃跑,敌军就很容易把你们一举擒获并加以歼灭。这时,类似囚徒困境的“懦夫困境”就出现了。就个人而言,懦夫一点比较有利;就团体而言,勇敢一点对大家都好。部队如何打破懦夫困境呢?在大部分的军队中,假如有士兵在战斗时逃跑,会被就地正法。因此,退缩就会被枪毙的压力反而对士兵有帮助。古罗马有这样的军规,军队排成直线向前推进的时候,任何士兵,只要发现自己身边的士兵开始落后,就要立即处死这个临阵逃脱者。未能处死临阵逃脱者的士兵也会判处死刑。西点军校:考试无人监考,作弊者会被立即开除。若发现作弊未能及时告发的同学也会被学校开除。结果,一旦发现有人舞弊,学生就会举报,因为他们不想由于自己保持缄默而被开除。利用囚徒困境让员工努力工作假设你开发出一种新产品,并请了20为业务员来推销,此时你要怎么决定每位业务员的工作量?由于这种产品过去从来没有卖过,所以你根本不知道能干又勤奋的业务员每个月到底该卖多少。(销售业绩受到很多其他因素的影响。)最好的办法是根据相对标准来评估每个业务员。相对的绩效标准会使员工陷入囚徒困境。以两个员工之间的博弈为例:假设两个人可选择每月工作20天或25天,且工作25天的员工所卖的东西会比工作20天的员工多。假设,只要两个员工工作时数一样,就会得到相同的评价。囚徒困境迫使每个员工不得不延长工时。为什么?虽然员工们都想轻松度日、浑水摸鱼,但当以相对的评估标准衡量员工时,囚徒困境的产生很难说服别人一起偷懒。换个立场来看,有时管理者可以利用囚徒困境,使员工更加卖力的工作。