[笔记]——博弈论经典例子的思考摘要:博弈论就是关于在包含相互依存情况中的理性行为的研究,是研究对策现象中各方是否存在最合理的行动方案,以及如何找到合理的行动方案的理论和方法。本文分析思考了博弈论的两个典型例子,也对博弈价格战提出了自己的看法,希望能带给大家一些启发。关键词:纳什均衡非合作博弈无限博弈田忌赛马战国时期,齐王和大将田忌赛马,双方各出三匹马各赛一局。各方的马根据好坏分别称为上马、中马、下马。田忌的马比齐王同一级的马差但比齐王低一级的马好一些。若用同一级马比赛,田忌必然连输三局。每局的赌注为1千金,田忌要输3千金。田忌的谋士建议田忌在赛前先探听齐王赛马的出场次序,然后用自己的下马对齐王的上马,用中马对齐王的下马,用上马对齐王的中马。结果负一局胜两局赢得1千金。但若事先并不知道对方马的出场次序,双方应取何种策略?双方采用的赛马出场次序安排及相应的结果(齐王赢的千金数)可由下表所示列出。齐王田忌上中下上下中中上下中下上下中上下上中上中下311—111上下中13—1111中上下1131—11中下上11131—1下中上1—11131下上中—111113由图可知,田忌赢的概率只有六分之一,孙膑只是掌握了齐王的思维定势侥幸赢了一把,在一把定胜负的时候管用,当试验的机会增多,田忌就输了。如果赛马的规则发生变化,每个人要将自己的马严格的划分等级,上等马速度必须比中等马快,中等马必须比下等马快,且比赛时同等级的马才可以比赛的话,那么田忌就只有输的份了。孙膑只是一时抓住了规则的某些漏洞耍了些小聪明才取得一盘的胜利,我们只对他的小聪明淡然一笑罢了。博弈根据不同的游戏规则会产生与之相适应的策略。囚徒的困境有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话:检察官说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们1年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,你将无罪释放,但你的同伙要被判10年刑。如果你拒不坦白,而被同伙检举,那么你就将被判10年刑,他无罪释放。但是,如果你们两人都坦白交代,那么,你们都要被判8年刑。”斯卡尔菲丝和那库尔斯该怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果是大家都只被判1年。但是由于两人处于隔离的情况下无法串供,所以,按照亚当·斯密的理论,每一个人都是从利己的目的出发,他们选择坦白交代是最佳策略。因为坦白交代可以期望得到无罪释放,但前提是同伙抵赖,显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此,坦白还有更多的好处。如果对方坦白了而自己抵赖了,那自己就得坐10年牢。太不划算了!因此,在这种情况下还是应该选择坦白交代,即使两人同时坦白,至多也只判8年,总比被判10年好。所以,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判8年的结局被称为“纳什均衡”,也叫非合作均衡。因为,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要延长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时问的监禁的结果。有理由相信现实生活当中不是冤家不聚头。结果第二次,第三次这两个囚徒又被抓到一起。有了第一次教训之后他们会在接下来的审讯里做何选择呢?这就是有限次重复的囚徒的困境。博弈论里有一种倒推法来解决这个问题。假设这个例子只重复5次,因为在狱中渡过太多的岁月之后他们都老到做不动坏事了。我们先看第5次他们会怎么选。显然第5次的面临的选择和第1次是一模一样的,因此没有理由相信这两个囚徒会在第5次审讯里合作。如果第5次不合作,为什么他们会在第4次合作呢?如此倒推,有限次重复的囚徒的困境和一次的结果没有任何不同,即双双坦白,入狱8年。如果把这种体验无限延长,或至少是他们俩知道肯定还有这种事,只是不知道什么时候才能停止这种把戏,这就是无限次重复的囚徒的困境,让我们再来看看这会不会有不同。因为无限博弈不存在最后一次,倒推法不再适用。假设一个人在监狱里呆久了会适应这种环境变得油滑。因此第一个8年最长,后来再进去的8年变得只有象6年一样长,再后来是4年...。因此这里引入一个表示监狱生活适应性指数的符号——&,0&1。这个&值越大表明对监狱生活越难适应,前一个8年和后一个8年差不多一样漫长。如果&越小则表示这个囚犯对环境适应很快,后来呆上8年都没什么感觉了。对于一个经常被判8年的人来说,他的受惩罚实际感受的总量是:(-8)+&(-8)+&[&(-8)]+...。易知,如果0&1,则1+&+&&+&&&+...的极限值是1/(1-&)。假设这两个囚徒选择这样一种战略:最开始选择抵赖,然后一直选择抵赖直到另一方选择了坦白,然后就永远选择坦白。这样的话其中任一个囚徒选择永远抵赖的总收益是:(-1)+&(-1)+&[&(-1)]+...=(-1)/1-&。如果其中某一次他选择了坦白,则那一次他将获无罪释放,之后对方将用永远坦白来惩罚他,他们俩都一直被判8年。因此总收益是:0+&(-8)+&[&(-8)]+...=(-8&)/(1-&)。如果要使某次坦白对其中一个囚犯有利,显然需要其中坦白一次这种选择所带来的收益(-8&)/(1-&)大于等于一直互相合作抵赖所带来的总收益(-1)/1-&,也就是&=1/8的情况下(即某人实在认为狱中岁月妙不可言,判得久对他来说无所谓,&值极低)才会有人选择中途坦白,否则在无限次重复的囚徒的困境当中他们都会选择一直抵赖以使自己能尽量减少在监狱中渡过时光。因此在无限次重复的囚徒的困境中最后的结果和一次或是有限次完全不同。在很大概率上囚徒会选择合作而不是各自为战。也就是说,在长期的双方关系中任何短视的行为都是得不偿失的。这个结果可以用来说明为什么我们的传统文化里强调人与人的关系以和为贵。数千年来中国一直是农业国家,农业人口缚系于土地,乡间邻里相对固定。因此人们彼此之间的很多利益冲突可以用无限次重复的囚徒困境来描述。也就是说如果某次利益是通过冲突而不是合作解决,那么失利的一方必然会设法报复,而且这种对立的情绪很有可能在后辈中延续,也就是无限次被重复,结果必然是双方都得不偿失。此所谓冤冤相报何时了!我的看法是:现实中囚徒要考虑更多的因素,即使他们合谋决定合作,他们商量好都抵赖,但是真正面对警察的审讯时,他们又会考虑对放是否会出卖自己,他们有可能会继续出卖对方。但是人都有报复心理的,如果一方违背了约定,虽然能很快出狱,但是若干年后呢,那位囚徒刑满释放后会放过他吗?考虑到若干年后的情况,两个囚徒也许会都选择抵赖。如果惩罚和奖赏的度发生改变:两人都坦白的话,则均判刑1年;A坦白B抵赖,则A无罪释放,B判刑5年;两人都抵赖的话,则均判刑3个月,这样的情况下,两个囚徒会做怎样的选择呢?这样两个囚徒都选择坦白的可能性比较大,毕竟一年的时间比较短,不必为了3个月的刑而冒坐牢5年的风险。这里涉及到了风险收益不对称问题,湖北省的一些官员,明明知道某些问题存在,却坐视不理,很大的原因就是风险收益不对称,不治理问题不会太大,治理好了奖励表彰也不怎么样,治理差了要受到责怪,于是湖北就有些落后,原因就是湖北的官太聪明了。总之,囚徒的困境涉及到的问题众多,不仅仅是心理与智力的较量,游戏规则的指定对结果产生的影响是比较明显的。而现实中我们要考虑的相关因素会更多,博弈论只有与我们已经掌握的情况充分的结合才能得出比较满意的策略。博弈价格战现在我们经常会遇到各种各样的家电价格大战,彩电大战、冰箱大战、空调大战、微波炉大战……这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战,百姓都会“没事儿偷着乐”。在这里,我们可以解释厂家价格大战的结局也是一个“纳什均衡”,而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的,即是一个“纳什均衡”。这个结果可能对消费者是有利的,但对厂商而言是灾难性的。所以,价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题,一是竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战,作为一种敌对博弈论其结果会如何呢?每一个企业,都会考虑采取正常价格策略,还是采取高价格策略形成垄断价格,并尽力获取垄断利润、如果垄断可以形成,则博弈双方的共同利润最大。这种情况就是垄断经营所做的,通常会抬高价格。另一个极端的情况是厂商用正常的价格,双方都可以获得利润:从这一点,我们又引出一条基本准则:“把你自己的战略建立在假定对手会按其最佳利益行动的基础上”。事实上,完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种状态下,每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。在这种均衡中,每一企业要使利润最大化,消费者要使效用最大化,结果导致了零利润,也就是说价格等于边际成本。在完全竞争的情况下,非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格,那么社会的经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强反垄断的意义所在。我对博弈价格战的看法是:各个公司的实力是不一样的,一些国际上知名的家电厂商,和国内厂商一样采取低价战略,同样低价的情况下,老百姓当然愿意选择国际知名的大公司的产品,因为国际知名大公司的产品有档次,质量也不会比国内的差。虽然说厂家都会亏本,但是国际大公司资金雄厚,他亏本几年甚至十几年都亏得起,国内一些脆弱的公司亏本几个月或者一年就倒下了,一家家国内家电厂商退出后,国际大公司形成垄断,适当提高价格,不久就会把以前亏损的钱弥补回来,也许还会赚得更多。但是当一些普通品牌家电厂商采取低价策略的时候,一些名牌家电厂商会采取提价的策略,也许一些经济能力差点的消费者会买相对便宜的普通品牌家电,但是有能力买名牌家电的人会觉得名牌家电不降价是因为质量好,所以尽管名牌家电提价后仍然获得了丰厚的利润,同时在中国这个社会,攀比非常严重,人们的思维定势是便宜没好货,在中国,少数消费者目前处于盲目消费阶段,不管多贵的东西都有人买,商家不愁卖不出去,。所以说,商家不管是采取提价还是降价都是可取的,但是要结合当时的情况,还有就是厂家的目的到底是为了立竿见影还是在几年后的翻盘。结语博弈渗透到生活的各个方面,实际情况往往比理论复杂得多,不按常理出牌也许会收到意想不到的效果,只有知己知彼才能做出最正确的决策。参考文献[1]、施锡铨著.博弈论.上海:上海财经大学出版社,2000[2]刘加福.新管理博弈学.中国纺织出版社,2005[3]张维迎.博弈论与信息经济学.上海人民出版社,1996[4]谢识予.经济博弈论.石家庄:复旦大学出版社,2002=105717博弈论是指某个个人或是组织,面对一定的环境条件,在一定的规则约束下,依靠所掌握的信息,从各自选择的行为或是策略进行选择并加以实施,并从各自取得相应结果或收益的过程,在经济学上博奕论是个非常重要的理论概念。下面介绍几个关于博弈论的例子:1。智猪博弈这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一