博弈论与决策管理主讲老师:王若文王若文,湖南长沙人;1987年毕业于北京大学中兴通讯企管部经理、总裁秘书三一重工人力资源总监、行政副总裁彩虹集团人力资源总监、副总裁神州通集团人力资源总监、培训总监中华网CHINA.COM中国区人力资源总监2003年深圳首届“十大金领”人物之一;2004年深圳百名“特区之子”人物之一;2010年最受欢迎的“中式人本管理专家”;2011年金蝶公司全国巡场“领袖峰会”金牌主持2013年培训TOP100-最佳人力资源及领导力管理专家。清华大学总裁班、北京大学汇丰商学院、浙江大学、新疆财经大学、上海财经大学EMBA班特聘领导力和人力资源讲师。上市企业现职:广州通盈投资公司董事长七“到”轮回获取思想,更在乎获得方法;获得知识,更在乎解决问题。心到眼到耳到口到手到悟到做到P-4页优秀管理者的绝密八字微笑、主动、回避、韬光幽默、语气、适可、得让谦卑、顺从、真诚、舍得一打方法:先处理好心情,再学习好课程•斯大林时代的苏联,一个乐队指挥坐火车时看乐谱,两个克格勃军官以为是密码,就将他抓了起来,他说那是柴可夫斯基的乐谱,但无无济于事。•第二天,克格勃告诉他,已把他的同伙柴可夫斯基也抓起来了,正在招供。•他们俩面临一种艰难的选择:如一方招供另一方不招,坦白者从宽判1年,抗拒者从严判25年;如果双方都招供,则各以间谍罪判10年;如双方均不招供,克格勃无法定罪,各自坐牢3年。•他们被分别关押,请问应该招、还是不招?招还是不招?这是个问题•可能的思想斗争是什么?•坦白的原因1、可能会被判的很轻2、最坏的结果-10,-1,比-25,-3要好•抵赖的原因1、我没犯罪,不愿意招2、双方抵赖各-3,比双方坦白各-10好3、人云:坦白从宽牢底坐穿,抗拒从严回家过年一、博弈论简介博弈论(GameTheory)又名对策论,游戏论失火了,屋里人很多,你往哪个门跑—这就是博弈你的行动结果不仅取决于你的策略选择,同时也取决于他人的策略选择。它研究个体或组织之间存在利益冲突情况下如何进行最优决策。博弈论是40年代数学家冯·诺依曼和经济学家奥斯卡·摩根斯坦首先提出的。在经济学、政治学、社会学获得了巨大的应用。1994年诺贝尔经济学奖颁发给了3位博弈论专家:纳什Nash、泽尔腾Selten、哈桑尼Harsanyi。•中国人研究博弈论是有优势的:《三国演义》《孙子兵法》《三十六计》《厚黑学》都是博弈论教材,如何在人与人的博弈中取得成功。1994年诺贝尔经济学奖获得者:美国数学家JohnF.Nash;德国经济学家ReinhardSelten;美籍匈牙利经济学家JohnC.Harsanyi。1928年Nash出生于美国,1950年获Princeton大学数学博士学位,曾先后任教于MIT和Princeton大学。其博士论文《非合作博弈》首次区分了合作博弈与非合作博弈,并且提出了非合作博弈的纳什均衡概念。1930年Selten出生于现属于波兰的德国城市,1961年获法兰克福大学数学博士学位,曾先后任教于柏林自由大学、比勒菲尔特大学和波恩大学。Selten的主要贡献是首次对分析动态策略交互作用深化了Nash均衡的概念。1920年Harsanyi出生于匈牙利,1947年获布达佩斯大学博士学位,后逃亡澳大利亚,再到美国,1954年获斯坦福大学博士学位,曾先后任教于澳大利亚国立大学、加州伯克利分校。于2000年去世。Harsanyi研究和分析了不完全信息博弈,从而为信息经济学提供了一个理论基础。1996年,两位将博弈论应用于不对称信息下机制设计的经济学家莫里斯(Mirrlees)和维克里(Vickrey)获诺贝尔经济学奖。2001年三位经济学家阿克洛夫(Akerlof)、斯蒂格利茨(Stiglitz)和斯宾塞(Spence)因运用博弈论研究信息经济学所取得的成就而成为该年度的诺贝尔经济学奖得主。2005年诺贝尔经济学奖授予罗伯特·奥曼和托马斯·谢林,以表彰他们“运用博弈论的分析方法对现实的政治、经济问题进行分析,改变了我们对冲突与合作的理解”。博弈的分类1、静态博弈与动态博弈参与者行动的先后顺序,静态博弈是同时作出决策(不了解对手的决策方案),动态博弈是参与者先后作出决策(后行动的人知道先行动者的行动方案)。2、完全信息博弈与不完全信息博弈对其他参与者收益支付信息的掌握程度。不完全信息博弈中至少有一人不能确切了解其它决策者收益函数。3、合作博弈与非合作博弈能否达成一个有约束力的协议,合作博弈强调集体理性。(经济学主要讨论非合作博弈)4、一次性博弈与重复博弈博弈重复多次进行。(注意区分动态博弈)严格地讲,博弈论并不是经济学的一个分支,它是一种方法,应用范围除经济学外,还包括政治学、军事学、外交学、国际关系学、犯罪学等。但为何博弈论受到经济学的重视呢?主要原因有:1、博弈论在经济学中得到最广泛、最成功的应用,尤其在寡头市场理论中得到直接的应用。2、博弈论的许多成果也是借助于经济学的例子来发展的,经济学家对博弈论的贡献最大。3、博弈论与经济学的研究模式一样:理性人在给定约束条件追求自己的效用最大化。由于上述原因博弈论逐渐成为主流经济学最重要的组成部分。二、博弈论基本模型囚徒困境(完全信息静态博弈)(A、B共同犯罪被抓,警察分开审问)BA坦白不坦白A=10年A=25年B=10年B=1年A=1年A=3年B=25年B=3年坦白不坦白每一个人的结局不仅取决于自身的选择,同时也取决于对手的选择不管B坦白不坦白,我坦白总是会少坐一些牢1、囚徒博弈囚徒困境(完全信息下的静态博弈)“囚徒的困境(Prisoners’Dilemma)”,从博弈论角度看,这是一个存在占优均衡的博弈:因为对囚犯A,B来说,无论对方如何选择,“坦白”都是各自的最优选择。虽然从两名囚犯共同利益看,最好的选择是合作,即同时选择保持沉默,然而,由于猜忌,试图获得更大好处等竞争性动机阻碍了它们达到更好的互利选择,我们将看到,寡头垄断厂商经常面临类似的困境。启示:个体理性决策常常导致集体非理性结果“囚徒的困境”还对亚当·斯密的“看不见的手”的原理提出挑战。这位经济学圣人在《国富论》中的名言:“每个人都力图利用好他的资本,使其能实现最大的价值。一般说来,他并不企图增进公共福利,他所追求的仅仅是他个人的利益。但在他这样做的时候,有一只看不见的手引导着他去实现另一种目标,这种目标并非是他本意所要追求的东西。通过追逐个人利益,他经常增进社会利益。”按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。从某种意义上说,纳什提出的非合作博弈的囚徒悖论实际上动摇了西方经济学的基石。例:投标总工程量50,贿赂成本5,甲乙双方实力相当甲贿赂不贿赂贿赂不贿赂20200454502525问题:贿赂还是不贿赂?均衡:(贿赂,贿赂)乙2、投标博弈3、智猪博弈背景:在猪圈里住着一大一小两头猪。它们从同一个食槽获得食物。但食槽的按钮与食物的出口分布在相反的两端。每按一次按钮,可得10个单位食物,但需付出2个单位劳动。规则:若大猪按按钮:大猪吃6个单位,小猪吃4个单位;若小猪按按钮:大猪吃9个单位,小猪吃1个单位;若一起去按:大猪吃7个单位,小猪吃3个单位;问题:哪头猪将会去按按钮?小猪按等待按5,14,4等待9,-10,0大猪经济学中,这头小猪也被称为“免费搭便车者”现实社会之中的大猪和小猪何其之多:山寨版的横行股份公司治理中的大股东与小股东大企业的人才培训与小企业的挖脚股市中的散户跟随大户体制改革中的出头者职场团队中的小组长与组员公共设施或基础设施投资:富人与穷人…………4、斗鸡博弈假设两只公鸡遇到一起,每只都有两个行动选择:进攻或后退。后退是很丢面子的事情,若鸡甲进攻,乙后退,则甲赢。双方前进,两败俱伤。鸡乙进退鸡甲进-4,-41,-1退-1,1-1,-1双方都没有占优策略存在两个稳定的状态(纳什均衡):(-1,1);(1,-1)双方都避免两败俱伤,斗鸡博弈有两个纳什均衡,一方前进,另一方后退。由于有两个均衡点,结果无法预知。具体博弈结果还取决于其他因素。20世纪60年代苏美间的古巴导弹危机就是一个斗鸡博弈的很好例子。古巴导弹危机是冷战时期苏美之间最严重的一次危机,赫鲁晓夫1962年偷偷将导弹运到古巴对付美国,被美国U2飞机侦察到,美国派出携带核武器的战机、航母,威胁苏联限期从古巴撤出导弹。苏美这两只大公鸡均在考虑进还是退?战争的结果当然是两败俱伤,但任何一方退下来则是很不光彩的事。博弈结果是苏联从古巴撤回了导弹,做了丢面子的“撤退的鸡”,而美国坚持了自己的策略,做了“不退的鸡”。当然为了给苏联面子,同时也担心战争,美国也从土耳其撤了一些导弹。例:两个寡头进行价格战博弈的收益矩阵。10,1050,50-50,100100,-50低价低价高价高价厂商B厂商A三、博弈论中的均衡博弈论中的均衡是一组稳定的博弈结果。双方均不愿先改变策略。博弈的均衡是稳定的,因而是可以预测的。占优策略,又称支配性策略(dominantstrategy)此类博弈中存在一种策略,无论B选择何行动,该策略对A都是最优,则称此策略为博弈者A的占优策略。在本例中,厂商A和厂商B都有不受他人策略影响的占优策略,即选择低价。占优均衡,支配均衡每个参与者都有并都选择占优策略,由此实现的均衡称占优均衡。本例为(10,10)。1、占优均衡2、纳什均衡纳什均衡(非合作性均衡):纳什均衡是这样一组策略,它使所有博弈参与者都不能再提高其收益。此时,双方在对方给定的策略下均不愿意调整自己的策略。下例中,A有占优策略即正常价格策略,而厂商B没有占优策略,它必须根据A的占优策略来确定其战略选择,即其选择受A的选择的影响。100,20010,10150,-30-20,150高价格正常价格厂商B厂商A高价格正常价格3、占优均衡与纳什均衡的区别占优均衡:我所做的是:不管你做什么我所能做的最好的。你所做的是:不管我做什么你所能做的最好的。纳什均衡:我所做的是:给定你所做的我所能做的最好的。你所做的是:给定我所做的你所能做的最好的。占优均衡是纳什均衡的一个特例四、最大最小策略•迄今为止,对厂商行为的分析都建立在利润最大化基础上。但在一些竞争激烈的寡头垄断市场,冯·诺依曼和摩根斯坦认为决策者也可能采取一种风险厌恶策略,即确保在最坏的结果中得到最好的结果。•这种决策规则称最大最小策略(MaximinStrategy):博弈者在可能最少的利润方案中选择利润最大的方案。风险与均衡由于纳什均衡要求理性共识和一致预期,当人们可能犯小小的错误时,纳什均衡不一定被选择。如下面这个博弈中,假定你是A,则多数人将选择“下”而不是“上”。上下左右8,10-1000,97,66,5只要B有千分之一的概率错误地选择右,A的后果将是灾难性的,A将极力避免这种风险,因此会选择下。所以,出现的不是纳什均衡BA如果企业谋求利润最大化,将有两个纳什均衡,一家企业投资推出新产品,另一家企业不投资产品。最大最小策略,不是利润最大化策略,准确说,它是用来避免十分不利结果的。对企业1来说,如果它不投资新产品,利润最小是300万,如果它投资,利润最小是200万。对企业2数字也相同。两家企业都在最小利润中选最大值。结果是两家企业都不投资新产品。因为这样的策略能保证至少获得300万利润。战略不投资投资投资4,43,66,32,2厂商1厂商2(单位百万)不投资双寡头企业都在考虑是否投资推出新产品。•最大最小策略的结果并不是两种纳什均衡中的一种。•原因是这种决策所用的准则,不是利润最大化,而是避免亏损过多,最大最小策略是一种保守的策略。•不同的决策目标可能导致人们选择不同的策略,最终导致不同的博弈结果。五、重复剔除严格劣战略“重复剔除严格劣战略”的思路如下:1、首先找出博弈参与人的劣战略(dominatedstrategy)(假定存在的话),把这个劣战略剔除后,剩下的是一个不包含已剔除劣战略的新的博弈;然后再剔除这个新的博弈中的劣战略;继续这个过程,直到没有劣战略存在。如果剩下的战略组合是唯一的,这个唯一的战略组合就是