第6章博弈论基础解析

joytobylee
1 ℃
2020-04-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

博弈论基础（对应教材第6章）［现代博弈论开始于1928年冯诺伊曼的工作］本章学习要点• 理解博弈论的基本概念– 参与人，策略，收益（收益矩阵）– 最佳应对，占优策略– 纳什均衡– 混合策略，混合策略均衡– 帕累托最优，社会最优• 几种典型博弈的类型• 体会“情景博弈求解”过程中的思想博弈－从一个例子开始• “复习考试”还是“准备报告”？– 假设在截止日期前一天，你有两件要做的事情：一是复习（为了参加考试），二是准备（给一个报告）。你只能选择做一项。– 考试成绩可以预计• 如果复习，则考试成绩92分，没复习，则80分– 报告需要你和你的拍档合作完成• 如果你和拍档都准备报告，则每人都是100分• 如果只有一人准备报告，则每人都是92分• 如果两人都没准备报告，则每人都是84分– 那么你该选择做什么呢？（假设你和拍档各自独立考虑这个问题）例子：“考试-报告”博弈• 设你们都追求平均成绩的最大化：– 你和搭档都准备报告，则平均成绩均为(80+100)/2=90分– 你和搭档都准备 考试成绩可以预期： 如果复习，则考试成绩92分 如果没复习，则考试成绩80分 报告是你和你的拍档合作完成的： 如果你和拍档都准备报告，则每人100分 如果只有一人准备报告，则每人92分 如果两人都没准备报告，则每人84分考试，则平均成}} 若一方复习考试，另一方准备报告：}} 准备报告一方的得：(80+92)/2=86分(92+84)/2=88分}} 复习的一方得：(92＋92)/2=92分收益矩阵（表达收益的一种直观方式）你的拍档准备报告复习考试你准备报告复习考试90,9092,8686,9288,88• • 其中第一个数字是“你”的收益，第二个是“拍档”的收益（也称“回报”，payoﬀ）博弈的基本要素• 一般情况下，博弈具有三个要素：– （1）参与者（至少两个）；– （2）策略集：每个参与者都有一组关于如何行为的备选项，此处备选项指参与者的可能策略。– （3）收益（回报）：每个策略行为的选择，都会使参与人得到一个收益。• 这个收益结果还受互动中他人策略选择的影响。• 同一组策略，不同参与人的收益可能不同通常，收益的记号：P1(S,T),P2(S,T)博弈行为推理的几点基本假设• 每个参与人对博弈结构（收益矩阵）有充分了解。• 参与人都是理性的（ra:onal）– 追求自己的收益最大化（尽量大）– 也知道其他参与人也是如此• 决策的独立性– 不商量• 严格占优策略（strictlydominantstrategy）：对一个参与人（A）来说，若存在一个策略，无论另一个参与人（B）选择何种行为策略，该策略都是最佳选择，则这个策略就称为是A的严格占优策略。• 这个例子中，“复习考试”对双方都是严格占优策略。“考试-报告”博弈中的行为推理你的拍档准备报告复习考试你准备报告复习考试90,9092,8686,9288,88“囚徒困境”• 假设有两个疑犯被警察抓住。并且被分开关押在不同的囚室。• 警察强烈怀疑他们和一场抢劫案有关。但是，没有充足的证据。然而，他们都拒捕的事实也是可判刑的。• 两个疑犯都被告知以下结果：– “如果你坦白，而另外一人抵赖，则你马上释放；另外一人将承担全部罪行，将会被判刑10年– 如果你们都坦白，你们的罪行将被证实。但由于你们有认罪的表现——判刑4年。– 如果你们都不坦白，那么没有证据证明你们的抢劫罪，我们将以拒捕罪控告你们——判刑1年。– 另外一方也正在接受这样的审讯。你是坦白还是抵赖？”• 疑犯1和疑犯2的严格占优策略都是“坦白”• 尽管如果两人都抵赖会都判得少些– 刻画了“有关个体私利前，建立合作是十分困难”的模型。“囚徒困境”的收益矩阵疑犯2抵赖坦白疑犯1抵赖坦白-‐1,-‐10,-‐10-‐10,0-‐4,-‐4• 这种类型通常称为军备竞赛。竞争双方为保持彼此实力相当，都会选择生产更具危险性的武器，尽管对自己内部会有伤害– 运动员伤害身体，国家影响民生。“兴奋剂”博弈运动员2没服用服用运动员1没服用服用3,34,11,42,2关于“收益”的讨论（收益决定选择）• “考试-‐报告”博弈，如果降低考试难度：只要复习了，就会得到100分；否则，也可得到96分。你的拍档准备报告复习考试你准备报告复习考试98,9896,9494,9692,92囚徒困境类似，如果改变收益矩阵，情况也可不一样最佳应对与占优策略• 设S是参与人甲的一个选择策略，T是参与人乙的一个选择策略。在收益矩阵中的某个单元格对应这策略组（S，T）。– P1(S，T)：表示参与人甲从这组决策获得的收益– P2(S，T)：表示参与人乙从这组决策获得的收益• 最佳应对：针对参与人乙的策略T，若参与人甲采用策略S产生的收益大于或等于自己的任何其他策略，则称参与人甲的策略S是参与人乙的策略T的最佳应对。P1(S，T)≥P1(S’，T),其中，S’是参与人甲除S外的任何其他策略。严格最佳应对• 严格最佳应对：若S会产生比任何应对策略T的其他策略都更高的收益，则称参与人甲的策略S是对于参与人乙的策略T的严格最佳应对。P1（S，T）P1（S’，T）其中，S’是参与人甲的所有其他策略。• 注：最佳应对的概念是针对对方的某一个策略（T），相对于自己的所有策略而言的– 对于同一个T，最多只可能有一个严格最佳应对– 对于不同的T，最佳应对可能相同，也可能不同占优策略与严格占优策略• 定义：（从最佳应对角度给出）– 参与人甲的占优策略S，是指该策略对于参与人乙的每一策略都是最佳应对。– 参与人甲的严格占优策略S，是指该占优策略对于参与人乙的每一策略都是严格最佳应对。• 如果参与人有严格占优策略，则可预期他会采取该策略（与基本假设的一致性）。• 注：占优策略的概念是相对于对方所有策略而言的。并不是每人总有严格占优策略• 例子：“营销战略”博弈– 假设有两家公司，分别要规划生产并销售同一种新产品。该产品有两款可能的规格：廉价（低档）或高档。如何决策？– 设顾客总体被分成两个市场：一部分消费群体（60%）只购买廉价商品，另一部分消费群体（40%）只购买高档次商品。– 每家公司从廉价或高档次商品所得利润是等同的（因此利润仅取决于市场占有率）。– 每家公司都追求利润最大化。“营销战略”博弈• 假设– 若两家公司分别定位生产不同类型的产品，则每家公司都会得到该商品市场的全部份额。– 公司1品牌形象更佳。因此，若这两家公司在同一市场（廉价或高档次）中竞争，则公司1可以得到80%的市场销售量，公司2只能得到20％的市场。公司2廉价高档次公司1廉价高档次0.48,0.120.4,0.60.6,0.40.32,0.08• 可以预测此博弈的发展趋向。即公司1将会采取廉价策略，公司2将会采取高档次策略。博弈的行为推理• 如果参与人都有严格占优策略，则可以预计他们均会采取严格占优策略；• 如果只有一个参与人有严格占优策略，则这个参与人会采取严格占优策略，而另一方会采取此策略的最佳应对。• 如果两个参与人都没有严格占优策略呢？无占优策略例子（三客户博弈）• 假设有两家公司，都希望和A、B、C三个大客户之一洽谈生意。每家公司都有三种可能的策略：是否找客户A、B或C。• 他们决策的条件如下所示：– 若两家公司都找同一个客户，则该客户会给每个公司一半的业务。– 公司1规模太小，以至于不能靠自身找到客户源。所以，只要它和公司2分别寻找不同的客户洽谈生意，则公司1获得的收益将会是0（生意做不成）。– 假设公司2单独寻找客户B或C洽谈生意，则会得到客户B或C的全部业务。但是A是一个大客户。寻找客户A洽谈生意时，必须和其它公司合作才能接下业务。– 因为A是一个大客户，和它做生意的收益是8（假设两家公司合作，则每家公司会得到收益4）。但是，和B或C做生意的收益价值是2（合作的话，每个公司收益是1）“三客户”博弈的推理• 收益矩阵公司2ABCA公司1BC4,40，00，00,21,10,20,20,21,1• 两家公司都没有严格占优策略纳什均衡• 假定参与人甲选择策略S，参与人乙选择策略T。若S是T的最佳应对，且T也是S的最佳应对，则称策略组（S，T）是一个纳什均衡。– 在均衡状态，任何参与人都没有动机（理性的理由）去换一种策略。– 纳什均衡可以被看成是一种信念上的均衡• 互为最佳应对，谁也不可能通过单方面改变策略而得到额外好处，尽管如果两人都改变可能都会更好（相比都不改变而言）• 存在纳什均衡：(A，A)• 寻找纳什均衡的两种途径：– 一是，检查每一个策略组，看它们中的每一项是否是彼此间策略的最佳应对策略。– 二是，找出每个参与人对于对方每个策略的最佳应对，然后发现互为最佳应对的策略组。“三客户”博弈的纳什均衡公司2ABCA公司1BC4,40，00，00,21,10,20,20,21,1多重均衡：协调博弈• 多重均衡－－存在多个均衡• 例子：协调博弈– 假设你和你拍档都为一个合作项目准备幻灯片简报（双方不能通过电话等方式联系商量）。– 你必须决定是用微软的PPT或是用苹果的Keynote软件来制作你负责的半份幻灯片。– 假设你们使用同样的软件来设计，那就比较容易合并你们的幻灯片。• 存在两个纳什均衡：（PPT，PPT），（Keynote，Keynote）。• 如何预测协调博弈中参与人的行为？– 托马斯··谢林（获得2005年诺贝尔经济学奖）提出一种聚点的想法，利用一些其他外部因素，例如社会习俗。协调博弈的推理你的拍档PPTKeynote你PPTKeynote1,10，00，01，1• 谢林的聚点理论表明，可以预测到参与人会精选策略，倾向于收益情况更好的均衡。不对等协调博弈• 假设你和项目拍档都更喜欢使用苹果软件。你的拍档PPTKeynote你PPTKeynote1,10，00，02，2• 此时很难预测具体哪种均衡会被采取。• 可以通过了解他们之间平常发生冲突时解决的惯例来预测。两人的喜好不同呢• 假设你和你的拍档喜欢的软件不同。你的拍档PPTKeynote你PPTKeynote1,20，00，02，1• 选择何种均衡？要在高收益和由于另一方不合作而造成损失之间进行权衡。猎鹿博弈• 假设两猎人外出猎物。若他们合作，则可以猎到鹿（这可以给猎者带来最高的收益）。• 猎人若分开单干，都能猎到兔。• 若一方想单独猎鹿，则收益是0。另一方依然能猎到兔。猎人2猎鹿猎兔猎人1猎鹿4，40，3猎兔3，03，3多重均衡：鹰鸽博弈• 假设两只动物要决定一块食物在彼此之间何如分配。• 每种动物都可以选择争夺行为（鹰派策略）或分享行为（鸽派策略）。– 若两种动物都选择分享行为，他们将会均匀的分配食物，各自的收益是3。– 若一方行为表现为争夺，另一方行为表现是分享，则争夺方会得到大多数食物，获得收益是5，分享方只能得到收益为1。– 当两只动物都表现为争夺行为，由于在争夺中践踏了食物，则它们得到的收益将为0。• 很难预测参与者的行为• 纳什均衡概念能有助于缩小合理的预测范围，但它并不能给出唯一的预测。鹰鸽博弈推理动物2鸽派鹰派动物1鸽派鹰派3,35，11，50，0几种典型多均衡博弈类型对比动物2鸽派鹰派鸽派鹰派3，35，11，50，0你的拍档PPTKeynotePPTKeynote1，10，00，02，2你的拍档PPTKeynotePPTKeynote1，20，00，02，1猎人2猎鹿猎兔猎鹿猎兔4，43，00，33，3简单博弈的推理思路• 如果双方都有严格占优策略，则都会采用之• 如果只有一方有严格占优策略，则可以预测另一方会采用此策略的最佳应对• 如果不存在严格占优策略，则寻找纳什均衡– 存在一个纳什均衡，该均衡对应合理结果– 存在多个纳什均衡（需要额外信息辅助决策）• 协调博弈，鹰鸽博弈– 均衡有助于缩小考虑范围，但不保证有效预测• 如果不存在纳什均衡，该怎么办？• 此时，不存在一组互为最佳应对（纳什均衡）混合策略• 例子：硬币配对－“零和博弈”（zerosumgame）– 两个参与人各持一枚硬币，同时选择手中