博弈论中的经典分析及启示囚徒困境

lmskokpk
0 ℃
2020-07-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

引言20世纪90年代至2008年，诺贝尔经济学奖五次（1994，1996，2001，2005，2007）授予了与博弈论相关的研究领域，总共有十位经济学家获奖，是获奖人数最多的领域（排在第二位的是金融）。博弈论研究的最大特点一般决策研究(数学表达）：Y＝f(x1,x2,…,xn)博弈论的决策研究（数学表达）：Y＝f(x1,x2,…,xn,z)(z为他人行为)特点：决策者目标函数的自变量中包含他人行为。严格地讲，博弈论是一种方法，应用范围不仅包括经济学，政治学、军事、外交、国际关系、公共选择，还有犯罪学，都涉及到博弈论。实际上，不少人把博弈论看成是数学的一个分支。纳什1951年的奠基性文章就是发表在数学杂志上。夏普里1953年的文章本身也是一篇数学手稿。一、博弈论基础知识1.博弈论的基本概念“博弈论”译自英文“GameTheory”。直译：“游戏理论”。游戏有下列特征：(1)都有规则。(2)都有结果（赢、输、平），结果能折算成数值。(3)都有策略或者说计谋，选择不同的策略或计谋往往带来不同的结果。(4)策略和利益有相互依存性，即每一个游戏者所得结果的好坏，不仅取决于自身的策略选择，也取决于其他参加者的策略选择。策略本身常常没有绝对的好坏之分，只有相对于他方策略的相对好坏。博弈论也称为“对策论”。其实并不是很恰当。因为“对策”在实际中常被用来表示具体的针对性反应方案，或站在某个决策方的立场上找针对其他方的对策。博弈论所研究的决策问题却是有开始、有次序、有结果的整个过程。“博弈”的通俗含意不过是弈棋、赌胜，但由于它是带有文言性质的词，因而显得学术味浓一些，既能反映这门学科的特点和实质，又给人一种高深莫测的感觉。博弈的简明定义：博弈即一些个人或其他组织，面对一定的环境条件，在一定的规则下，同时或先后，一次或多次，从各自允许选择的行为或策略中进行选择并加以实施，各自取得相应结果的过程。博弈论，是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。博弈论研究的对象是理性的参与者如何选择策略或如何作出行动的决定，使自己的目标最大化。2.构成一个博弈的基本要素博弈的七要素参与人、行动、信息、战略、支付函数、结果、均衡。参与人是博弈中选择行动以最大化自己效用的决策主体(可以是个人、团体等)；行动是参与人的决策变量；战略是参与人选择行动的规则，它告诉参与人在什么时候选择什么行动；信息指的是参与人在博弈中的知识，特别是有关其他参与人(对手)的特征和行动的知识；支付函数是参与人从博弈中获得的效用水平，是每个参与人真正关心的东西；结果是指博弈分析者感兴趣的要素的集合；均衡是所有参与人的最优战略或行动的组合。博弈的三要素1)博弈的参加者2)博弈方各自可选择的全部策略或行动的集合3)博弈方的得益3.博弈的表述形式（1）标准形式（策略形式）被擒，中计（主观）胜利（客观）逃脱，和被擒，胜利逃脱，和守城弃城攻城退兵诸葛亮司马懿捉住曹操，被捉扑空，逃脱扑空，逃脱捉住曹操，被捉华容道大路华容道大路诸葛亮曹操（2）扩展形式（博弈树）诸葛亮司马懿弃城守城进攻退兵进攻退兵擒住孔明胜利和和司马懿诸葛亮攻城退兵守城弃城守城弃城逃脱被擒被擒逃脱（3）联盟形式（特殊函数形式）4.博弈的类别博弈的分类表行动顺序信息静态动态完全信息完全信息静态博弈完全信息动态博弈不完全信息不完全信息静态博弈不完全信息动态博弈二、博弈论中的经典分析及启示1.囚徒困境“囚徒困境”博弈是1950年图克(Tucker)提出的。它非常简单，却反映了博弈的根本特征，是阐释众多经济社会问题的经典范式。警察抓住两个罪犯，分别关押，并与罪犯讲清：如果一人坦白，一人抗拒，坦白者立即释放，抗拒者判刑8年；若两人都坦白，按律从轻各判5年。罪犯知道，他们若抗拒，警察掌握的证据只能各判1年。最后的结果会怎样？-5，-50，-8-8，0-1，-1乙抗拒坦白甲抗拒坦白-5，-50，-8-8，0-1，-1乙抗拒坦白甲抗拒坦白此博弈的“均衡”为（坦白，坦白）该均衡就是大名鼎鼎的“纳什均衡”纳什均衡：在对方策略确定的情况下，每个参与者的策略都是最好的，没有人愿意先改变自己的策略。假如博弈中的所有参与人事先达成一项协议，这个协议是否可以自动实施?若当事人都会自觉遵守这个协议，这个协议就构成纳什均衡：没有人有积极性偏离协议。换句话说，如果一个协议不构成纳什均衡，它就不可能自动实施，因为至少有一个参与人会违背这个协议。结论：一种制度安排要生效，必须是纳什均衡。不满足纳什均衡要求的制度没有意义。类似囚徒困境应试教育公共产品供给不足（修路、公寓楼道的路灯）卡特尔的内在不稳定性产量限制、价格限制）商业诚信此博弈的纳什均衡为（3，3）乙诚信欺诈10，100，1818，03，3诚信甲欺诈交通规则乙守规违规10，100，1818，03，3守规甲违规启示：①个人理性与集体理性的矛盾；②冤假错案是怎样产生的；③个人的最优决策不一定带来集体的最优结果，集体的最优结果未必来源于个人的最优决策。领导的政绩？④改变博弈结果的根本方法是改变博弈的支付矩阵。囚徒困境的解脱有这样一个博弈乙甲不合作合作不合作1,15,0合作0,54,4此时，两者的纳什均衡为(不合作，不合作)。①奖励假如对采取“合作”策略的博弈方奖励3乙甲不合作合作不合作0,00,3合作3,03,3奖励矩阵为：最终结果为上述两个矩阵相加：乙甲不合作合作不合作1,15,3合作3,57,7博弈的纳什均衡为(合作，合作)，解开了囚徒困境。②惩罚思拉恩·埃格特森在《新制度经济学》中举的例子。非洲努埃尔人部落间有两个大家庭X、Y，每家拥有同样的武力潜能和侵犯倾向，每家拥有相当于10头牛的财产。每家都拥有两种策略：侵犯对方，不侵犯对方。博弈表述为：YX侵犯不侵犯侵犯4,418,2不侵犯2,1810,10纳什均衡为(侵犯，侵犯)，双方的收益为(4，4)。通过联姻，努埃尔人引入了一个惩罚矩阵：YX侵犯不侵犯侵犯-9,-9-9,0不侵犯0,-90,0由于亲戚关系，侵犯者遭受成本(包括心理成本)的损失。YX侵犯不侵犯侵犯-5,-59,2不侵犯2,910,10此时，X、Y就由非合作均衡变为合作均衡。上述方阵变为：2.赌胜博弈赌胜博弈属于“零和博弈”的范畴，是具有某种对称性的零和博弈。猜硬币博弈-1，11，-11，-1-1，1正面反面出硬币方正面反面猜硬币方石头.剪子.布博弈0，01，-1-1，1-1，10，01，-11，-1-1，10，0石头剪子布博弈方1石头剪子布博弈方2齐威王、田忌赛马3，-31，-11，-11，-1-1，11，-11，-13，-31，-11，-11，-1-1，11，-1-1，13，-31，-11，-11，-1-1，11，-11，-13，-31，-11，-11，-11，-11，-1-1，13，-31，-11，-11，-1-1，11，-11，-13，-3齐威王上中下田忌上下中中上下中下上下上中下中上上中下下中上上下中中上下中下上下上中以上三个博弈是零和博弈，没有纯策略纳什均衡。纯策略:单一的确定的策略。0，01，-1-1，1-1，10，01，-11，-1-1，10，0石头剪子布博弈方1石头剪子布博弈方2取胜原则：①保密（不泄漏自己的策略）；②避免自己的决策有倾向性；③让对方琢磨不透。混合策略：以一定的概率分布在备选策略中随机选取。启示：当博弈是零和博弈时，只有混合策略均衡。什么样的决策是科学决策？随机决策（当面对零和博弈时）科学吗？3.警卫与小偷案例1两地巡逻警卫负责A、B两地保安，A地财产2万元，B地1万元。警卫一次只能在一个地方巡逻，小偷一次也只能去一个地方。警卫在某地巡逻，小偷也去了该地，便不会失窃；小偷去了警卫没去的地方，则偷盗成功。警卫怎么巡逻效果最好?3，02，11，23，0巡逻A地巡逻B地盗窃A地盗窃B地警卫小偷这个博弈是零和博弈，没有纯策略纳什均衡点，但有混合策略均衡点。当警卫去A地巡逻时，小偷有的机会去A地，的机会去B地，此时，A的得益为：×3+×2=万元；当警卫去B地时，同样小偷有的机会去A地，的机会去B地，此时，B的得益为：×1+×3=万元。警卫总的得益为：×+×=万元。同理，我们可得小偷的总的得益为万元。31323232323131313132323737373737警卫的最优策略是：掷骰子决定去A地还是B地巡逻。掷l—4点去A地，掷5、6两点去B地，这样警卫有2／3的机会去A地，1／3的机会去B地。警卫的期望得益是：7/3大于2。小偷的最优策略是：同样掷骰子决定去A地还是B地偷盗，掷到1—4点去B地，掷5、6两点去A地，即小偷有l/3的机会去A地，2/3的机会去B地，期望收益为2/3万元启示：当博弈是零和博弈时，即一方所得是另外一方的所失时，只有混合策略均衡。博弈方的策略应当是随机的，不能让对方知道自己的策略，哪怕是“倾向性”的策略。如果对方知道你出其中一个策略的“可能性”大，你失败的可能性就大。案例2小偷和守卫：此案例为塞尔顿（1994年诺贝尔经济学奖得主）1996年3月在上海讲演中举的例子。有一仓库，小偷行窃时守卫睡觉，可获价值V的财物，小偷行窃时守卫没睡觉，则被抓，被抓后要坐牢，效用为–P。守卫睡觉而未遭偷窃有S的效用，因睡觉被窃遭解雇，得益为–D。小偷不偷，守卫无得也无失。守卫不睡，出一份力挣一份钱，也无得失。V,-D-P,00,S0,0小偷不偷偷守卫睡不睡分析：这个博弈不存在纯策略纳什均衡。小偷的策略–DPtPtS0守卫得益(睡)小偷偷的概率1小偷有“偷”与“不偷”两种策略。图中横轴表示小偷选择“偷”的概率Pt,“不偷”的概率等于1－Pt。守卫的策略–PPgPgS0小偷得益(偷)守卫睡的概率1V守卫有“睡”与“不睡”的策略，其概率分布也可用图表示。激励悖论（政策目标和政策结果的意外关系）–PPgPgS0小偷得益(偷)守卫睡的概率1VPg‘–P’加重对小偷的惩罚，相当于－P向下移动到－P’。短期内小偷会停止“偷”窃，但长期中，小偷减少“偷”窃会使守卫更多地选择“睡”觉。加重对小偷惩罚的主要作用是守卫可以更多地偷懒。–DPtPtS0守卫得益(睡)小偷偷的概率1Pt’–D’加重对失职守卫的处罚，意味着D增大到D’。短期效果是守卫更加尽职，长期中的真正作用，恰恰是会降低盗窃发生的概率。启示：怎样避免激励悖论？怎样运用激励悖论！4.智猪博弈猪圈里有一大一小两头猪。食槽在一头，按钮在另一头。按一次有10个单位食品进入食槽，但按者要支付2个单位。若同时按，同时跑向食槽，各支付2个单位，大猪吃7个单位，小猪吃3个单位。大猪按，小猪坐吃，大猪吃6个单位（支付2个单位），小猪吃4个单位。小猪按，大猪坐吃，大猪吃9，小猪吃1（支付2个单位）。都坐等，都没吃。5，14，49，-10，0小猪坐吃按大猪坐吃按智猪博弈（扣除支付）此博弈的纳什均衡：大猪按，小猪坐吃（4，4）启示：①多劳并不多得；②要推动工作，就要想办法找到“大猪”；③若你是“大猪”，做了好不仅不要想得好，还要能受委屈。（大德无名）