第三章零和游戏与混合策略赵国洪13602757107yes.but@163.com零和游戏——游戏者有输有赢,但整个游戏的总成绩永远为零。零和游戏:博弈当中的参与者,其利益可能严格对立,一人所得永远等于另一人所失。零和游戏“无毒不丈夫”也是零和博弈所致著名经济学家茅于轼曾说:“过去的帝王与将相就是这样一种博弈,他可以剥削你,抄你的家;你可以造他的反,夺他的天下。一方得利,一方受损,那是零和博弈。事实上也正是因为这种零和博弈反复上演,才使中国历史的每一页都充满了阴谋与血腥,并且使‘无毒不狠非丈夫’的文化观念深入到每一个中国人的意识中。”零和游戏零和游戏两个经济学家散步,甲经济学家看见了一堆狗屎,思索着对乙说。你吃了这堆狗屎吧,我给你100万块钱。乙犹豫了一会儿,但还是经受不住诱惑,吃了那堆狗屎。当然,甲守信地给了他100万块钱。过了一会,乙也看见了一堆狗屎,就对甲说:你吃了这狗屎,我也给你100万。甲经济学家也经受不住诱惑,吃了那堆狗屎当然。乙把甲给他的100万还了回去。故事还没有完。走着走着,乙忽然缓过神来了,对甲说:不对阿,我们谁也没有挣到钱,却吃了两对狗屎……甲也缓过神了,思考了一会儿说:可是,我们创造了200万的GNP阿!零和游戏“零和游戏”之所以广受关注,主要是因为人们发现,在社会的方方面面都有与“零和游戏”类似的局面,胜利者的光荣后面往往隐藏着失败者的辛酸和苦涩。但20世纪以来,“零和游戏”观念正逐渐被“非零和游戏”即“负和”或“正和”观念所取代。“负和游戏”指,一方虽赢但付出了惨重的代价,得不偿失,可谓没有赢家。赢家所得比输家所失多,或者没有输家,结果为“双赢”或“多赢”,称为“正和”。零和游戏有人认为,双赢只不过是把负面隐藏到我们不能观及的地方而已……也就是把危害转让到与自己利益无关的地方。“我们谁也没有挣到钱,却吃了两对狗屎。。。”甲之所以给乙钱,是因为甲看见乙吃狗屎感到了快乐.所以他们各吃了一堆狗屎,都没得到钱,但是都感到了一次快乐。假定中大只有一名警察,负责全校治安。中大只有一个小偷,实施偷盗。东区有一家士多,西区有一家银行。因分身乏术,警察一次只能在一个地方巡逻;而小偷也只能去一地偷盗。假定银行需保护的财产价格为2万元,士多的财产价格为1万元。若警察在某地巡逻,而小偷也选择了该地,就会被警察抓住;若警察没有巡逻的地方而小偷去了,则小偷成功。警察怎么巡逻才能使效果最好?零和游戏与混合策略佛罗伦萨“警察抓小偷”雕塑警察的一个最好的做法是,抽签决定去银行还是士多。因为银行的价值是士多的两倍,所以用两个签代表银行,比如如果抽到1、2号签去银行,抽到3号签去士多。这样警察有2/3的机会去银行进行巡逻,1/3的机会去士多。而小偷的最优选择是:以同样抽签的办法决定去银行还是去士多偷盗,只是抽到1、2号签去士多,抽到3号签去银行,那么,小偷有l/3的机会去银行,2/3的机会去士多。零和游戏与混合策略警察与小偷之间的博弈,所选策略应当是随机的,不能让对方知道自己的策略,哪怕是“倾向性”的策略。当博弈是零和博弈时,即一方所得是另外一方的所失时,对于任何一方来说,此时不可能有纯策略的占优策略。零和游戏与混合策略赢家的诅咒在《红男绿女》中,赌棍斯凯·马斯特森想起父亲给自己提的一个很有价值的建议:孩子,在你的旅途中,总有一天会遇到一个家伙走上前来,在你面前拿出一副漂亮的新扑克牌,连塑料包装纸都没有拆掉的那种;这家伙打算跟你打一个赌,赌他有办法让梅花J从扑克牌里跳出来,并把苹果汁溅到你的耳朵里。不过,孩子,千万别跟这个家伙打赌,因为就跟你确确实实站在那里一样,最后你确确实实会落得苹果汁溅到耳朵里的下场。但斯凯从来没有认真听取过他父亲的教诲。一分钟后,他就和内森打赌说内森不知道他的蝴蝶领结是什么颜色。如果内森知道是什么颜色,他一定愿意打赌,并且取胜。结果是,内森不知道什么颜色,所以他没有跟斯凯打赌。视频:《红男绿女》(18’-28’)赢家的诅咒即使你在拍卖中赢了,你也应该为此感到担忧。因为,你是最高的出价者,这一事实意味着其他人觉得这件物品不值你出的那个价。赢得拍卖后却发现自己出价过高,这种现象称为赢家的诅咒。纳什定理案例——房地产开发博弈假定:A、B两个开发商都想在广州开发一定规模的房地产,但广州市的房地产市场需求有限,只能满足一个房地产商的开发量;而且,每个开发商必须一次性开发这一定规模的房地产才能获利。在这种情况下,A和B都不存在一种策略完全优于另一种策略,也不存在一个策略完全劣于另一个策略。因为,如果A选择开发,则B的最优策略是不开发;如果A选择不开发,则B的最优策略是开发;类似地,如果B选择开发,则A的最优策略是不开发;如果B选择不开发,则A的最优策略是开发。案例——房地产开发博弈根据纳什均衡含义:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。开发商博弈的纳什均衡点不止一个,而是两个:(A开发,B不开发);(A不开发,B开发)。在有两个或两个以上纳什均衡点的博弈中,其最后结果难以预测。我们无法知道,最后结果是A开发,B不开发还是A不开发,B开发。曹操败走华容道赤壁之战,曹军八十万大军大败。曹操引兵逃跑。操行之间,前面有两条路,军士复曰:“两条路皆取南郡,不知从那条路去?”操问:“那条路近?”军士曰:“大路稍平,却远五十余里。小路投华容道,却近五十余里;只是地窄路险,坑坎难行。”操令人上山望之,回报小路山边有数处烟起;大路并无动静。操教前军便走华容道小路。诸将曰:“烽烟起处,必有军马,何故走到这条路?”操曰:“岂不闻兵书有云:‘虚则实之,实则虚之。’诸葛亮见识,故使数个小卒于山僻烧烟,令我军不敢从这条山路走,却伏兵在于大路等着。吾料已定,因此教走华容。”诸将皆曰:“丞相妙策,人不可及。”遂勒兵走华容道。但诸葛亮棋高一着,派关羽在华容道等候曹操。于是关羽上演了一场“只为当初恩义重,放开金锁走蛟龙”的捉放曹义举。曹操大败于华容道后,八十万大军只剩二十七骑。这是曹操和诸葛亮的一次零和博弈。曹操需选择走大路还是小路;而诸葛亮则需选择在大路还是小路上埋伏。博弈的关键是谁能猜到对方的策略选择。这个博弈不存在纯策略纳什均衡点。曹操败走华容道快过年了,一对新婚夫妇想一起回老家过年,然双方父母家在不同的省份,假如只能到一家父母家过年,夫想一起回夫家,妻想一起回娘家。这对夫妻很恩爱,不想分开过年。你知道这对夫妻最终上了开往哪一家的火车吗?案例——夫妻博弈案例——夫妻博弈丈夫和妻子商量晚上的活动。丈夫喜欢看拳击,而妻子喜欢欣赏歌剧。但两人都希望在一起度过夜晚。这个“夫妻博弈”有两个纳什均衡点:(歌剧,歌剧),(拳击,拳击)。有两个或两个以上纳什均衡点的博弈中,其最后结果难以预测。在“夫妻博弈”中,我们无法知道,最后结果是一同欣赏歌剧还是一起去看拳击。在博弈论中,可以选择出某个策略的纳什均衡,这个策略叫做纯策略。纯策略的纳什均衡只是博弈的一种特例。所谓纯策略是指参与者在他的策略空间中选取惟一确定的策略。纯策略是参与者一次性选取的,并且坚持他选取的策略。纳什定理与混合策略所谓混合策略是指参与者采取的不是惟一的策略,而是其策略空间上的概率分布。混合策略是参与者在各种备选策略中采取随机方式选取的。这就是纳什于1950年证明了的纳什定理。而这个博弈没有纯策略纳什均衡点,而有混合策略均衡点。最常见混和策略就是猜硬币游戏。比如在足球比赛开场,裁判将手中的硬币让双方队长猜正反面。由于硬币落下是正是反是随机的,概率都是1/2。那么,猜硬币游戏的参与者都是1/2的概率择正与反,这时博弈达到混和策略纳什均衡。纳什定理与混合策略“剪、布、锤”就不存在纯策略均衡,对每个小孩来说,自己采取出“剪”、“布”还是“锤”的策略应当是随机的。因此,每个小孩的最优混合策略是采取每个策略的可能性是l/3。在这样的博弈中,每个小孩各取三个策略的1/3是纳什均衡。纳什定理与混合策略两个不到十岁的小男孩,一起玩的时候发生争执,两人商量用‘剪刀、石头、布’,谁赢就听谁的。下面是他们的对话:甲说:“喂,咱们俩是好兄弟,非要分出胜负就太伤和气了。待会儿咱们都出‘剪刀’就算了事了,好不?”乙说:“没问题,好兄弟嘛!”他们说话的时候一脸的纯真。结果——甲出的是石头,乙出的是布。纳什定理与混合策略随机策略随机策略的最广泛用途在于以较低的监管成本促使人们遵守规则,同时解释了惩罚不一定要和罪行吻合的原因。违章停车的罚金是正常收费标准的许多倍。设想一下,假如正常收费标准是1美元/小时,按每小时1.01美元的标准进行处罚能不能让大家服服帖帖呢?有可能,条件是交通警察在你违章停车时一定能逮住你。而这需要大量的交警,费用巨大。监管当局有一个同样管用、代价又小的策略,就是提高罚金数目,同时放松监管力度。假如监管属于随机性质,我们必须定出一个超过罪行本身的惩罚。规则在于,预期的惩罚应该与罪行相称,而这种心理预期应该将被逮住的概率考虑在内。国税局的审查策略也是随机策略混合策略公司年饭抽奖,老板提出,今年特别奖不用抽签而是用玩游戏的方式来决定。游戏规则:大家围成一圈同时跟老板猜拳,猜赢老板或是平手的人可以参予比赛,猜输的就没有参赛资格。参赛者一直猜到剩下最后一个就是赢家而获得该奖项。如果你是该公司的员工,你如何增大你拿奖的概率?立刻跟两位同事商量:三个人合作,得到奖项大家平分。大家讲好第一次大家都出不一样的。至少确定第一回合之后,接着还会剩下两个人能够参予这个游戏。位置博弈麦当劳和肯德基为什么总是相邻设店?位置博弈他们为什么总喜欢贴身撕杀?位置博弈假设有条完全笔直的公路,连接城市A到城市B之间的交通。这条公路上每天行驶着大量的车辆,并且车流量在公路上是均匀分布的。假设麦当劳和肯德基要在这条公路上选择一个位置,招揽来往车辆。一个合乎逻辑的假定:通常情况下,车辆总是乐意到距自己最近的快餐店购买食物。1/4麦当劳3/4肯德基1/20A1B从资源的最佳配置来看,麦当劳、肯德基应该分别开在1/4、3/4处是最优。在这种均匀散布的情况下,每家快餐店所有拥有的客户从距离最近的城市到两家快餐店的中心为止,因此都拥有1/2的顾客量,同时对于开车的人们总体来说,这种策略的选择,车辆到快餐店的总的距离最短。位置博弈1/4麦当劳3/4肯德基1/20A1B肯德基与麦当劳都是百年老店,自然是精明之至,从经济学上就是具有经济理性,总是希望自己的生意尽可能地红火,至于其他人的生意的好坏则与己无关。出于这种理性,肯德基肯定会想到:如果将店铺从3/4点处向左移一点,将从麦当劳抢夺走部分顾客,这对于肯德基单方面来说无疑是一个好主意。当然麦当劳也不甘示弱,作为一个“理性人”,麦当劳自然也应该想到将自己的店铺从1/4点处向右移动以争取更多的顾客。不难想象,双方博弈的结果将使他们的店铺设置在l/2中点附近达到纳什均衡状态,甲乙两人相依为邻且相安无事地做起快餐生意。即使不是两家快餐店,而是很多家快餐店,也很容易分析得到结果:这些快餐店仍然会在1/2处设店达到纳什均衡。位置博弈同样的道理,如果地段的繁华等其他原因在一条路上上都可以认为到处相同的话,没有一个商家会将自己安置于某条路的一头,只要条件许可,超市将几乎趋向于相依为邻,这种现象完全可以看作公正的市场竞争的合理结果。这就是很多城市商业中心形成的原理,在博弈论中称为位置博弈。大部分电视台总是将最精彩的节目放在相同的时间段,甚至有些时候是在相同时间段播放类似的节目,比如你播“快乐大本营”,我就播“超级总动员”;你播“玫瑰有约”,我就播“单身男女”。人都说文人相轻,电视台也是这么相煎太急。政治家与苹果酒两个政党就要决定自己究竟处于自由-保守意识形态划分表的哪一个位置。首先是在野党提出自己的立场;然后执政党进行回应。假定选民平均分布在整个划分表的各个区间。为使问题具体化,我们把各个政治立场定为从0到100,0代表极左派,而100