博弈论基础(对应教材第6章)[现代博弈论开始于1928年冯诺伊曼的工作]本章学习要点• 理解博弈论的基本概念– 参与人,策略,收益(收益矩阵)– 最佳应对,占优策略– 纳什均衡– 混合策略,混合策略均衡– 帕累托最优,社会最优• 几种典型博弈的类型• 体会“情景博弈求解”过程中的思想博弈-从一个例子开始• “复习考试”还是“准备报告”?– 假设在截止日期前一天,你有两件要做的事情:一是复习(为了参加考试),二是准备(给一个报告)。你只能选择做一项。– 考试成绩可以预计• 如果复习,则考试成绩92分,没复习,则80分– 报告需要你和你的拍档合作完成• 如果你和拍档都准备报告,则每人都是100分• 如果只有一人准备报告,则每人都是92分• 如果两人都没准备报告,则每人都是84分– 那么你该选择做什么呢?(假设你和拍档各自独立考虑这个问题)例子:“考试-报告”博弈• 设你们都追求平均成绩的最大化:– 你和搭档都准备报告,则平均成绩均为(80+100)/2=90分– 你和搭档都准备 考试成绩可以预期: 如果复习,则考试成绩92分 如果没复习,则考试成绩80分 报告是你和你的拍档合作完成的: 如果你和拍档都准备报告,则每人100分 如果只有一人准备报告,则每人92分 如果两人都没准备报告,则每人84分考试,则平均成}} 若一方复习考试,另一方准备报告:}} 准备报告一方的得:(80+92)/2=86分(92+84)/2=88分}} 复习的一方得:(92+92)/2=92分收益矩阵(表达收益的一种直观方式)你的拍档准备报告复习考试你准备报告复习考试90,9092,8686,9288,88• • 其中第一个数字是“你”的收益,第二个是“拍档”的收益(也称“回报”,payoff)博弈的基本要素• 一般情况下,博弈具有三个要素:– (1)参与者(至少两个);– (2)策略集:每个参与者都有一组关于如何行为的备选项,此处备选项指参与者的可能策略。– (3)收益(回报):每个策略行为的选择,都会使参与人得到一个收益。• 这个收益结果还受互动中他人策略选择的影响。• 同一组策略,不同参与人的收益可能不同通常,收益的记号:P1(S,T),P2(S,T)博弈行为推理的几点基本假设• 每个参与人对博弈结构(收益矩阵)有充分了解。• 参与人都是理性的(ra:onal)– 追求自己的收益最大化(尽量大)– 也知道其他参与人也是如此• 决策的独立性– 不商量• 严格占优策略(strictlydominantstrategy):对一个参与人(A)来说,若存在一个策略,无论另一个参与人(B)选择何种行为策略,该策略都是最佳选择,则这个策略就称为是A的严格占优策略。• 这个例子中,“复习考试”对双方都是严格占优策略。“考试-报告”博弈中的行为推理你的拍档准备报告复习考试你准备报告复习考试90,9092,8686,9288,88“囚徒困境”• 假设有两个疑犯被警察抓住。并且被分开关押在不同的囚室。• 警察强烈怀疑他们和一场抢劫案有关。但是,没有充足的证据。然而,他们都拒捕的事实也是可判刑的。• 两个疑犯都被告知以下结果:– “如果你坦白,而另外一人抵赖,则你马上释放;另外一人将承担全部罪行,将会被判刑10年– 如果你们都坦白,你们的罪行将被证实。但由于你们有认罪的表现——判刑4年。– 如果你们都不坦白,那么没有证据证明你们的抢劫罪,我们将以拒捕罪控告你们——判刑1年。– 另外一方也正在接受这样的审讯。你是坦白还是抵赖?”• 疑犯1和疑犯2的严格占优策略都是“坦白”• 尽管如果两人都抵赖会都判得少些– 刻画了“有关个体私利前,建立合作是十分困难”的模型。“囚徒困境”的收益矩阵疑犯2抵赖坦白疑犯1抵赖坦白-‐1,-‐10,-‐10-‐10,0-‐4,-‐4• 这种类型通常称为军备竞赛。竞争双方为保持彼此实力相当,都会选择生产更具危险性的武器,尽管对自己内部会有伤害– 运动员伤害身体,国家影响民生。“兴奋剂”博弈运动员2没服用服用运动员1没服用服用3,34,11,42,2关于“收益”的讨论(收益决定选择)• “考试-‐报告”博弈,如果降低考试难度:只要复习了,就会得到100分;否则,也可得到96分。你的拍档准备报告复习考试你准备报告复习考试98,9896,9494,9692,92囚徒困境类似,如果改变收益矩阵,情况也可不一样最佳应对与占优策略• 设S是参与人甲的一个选择策略,T是参与人乙的一个选择策略。在收益矩阵中的某个单元格对应这策略组(S,T)。– P1(S,T):表示参与人甲从这组决策获得的收益– P2(S,T):表示参与人乙从这组决策获得的收益• 最佳应对:针对参与人乙的策略T,若参与人甲采用策略S产生的收益大于或等于自己的任何其他策略,则称参与人甲的策略S是参与人乙的策略T的最佳应对。P1(S,T)≥P1(S’,T),其中,S’是参与人甲除S外的任何其他策略。严格最佳应对• 严格最佳应对:若S会产生比任何应对策略T的其他策略都更高的收益,则称参与人甲的策略S是对于参与人乙的策略T的严格最佳应对。P1(S,T)P1(S’,T)其中,S’是参与人甲的所有其他策略。• 注:最佳应对的概念是针对对方的某一个策略(T),相对于自己的所有策略而言的– 对于同一个T,最多只可能有一个严格最佳应对– 对于不同的T,最佳应对可能相同,也可能不同占优策略与严格占优策略• 定义:(从最佳应对角度给出)– 参与人甲的占优策略S,是指该策略对于参与人乙的每一策略都是最佳应对。– 参与人甲的严格占优策略S,是指该占优策略对于参与人乙的每一策略都是严格最佳应对。• 如果参与人有严格占优策略,则可预期他会采取该策略(与基本假设的一致性)。• 注:占优策略的概念是相对于对方所有策略而言的。并不是每人总有严格占优策略• 例子:“营销战略”博弈– 假设有两家公司,分别要规划生产并销售同一种新产品。该产品有两款可能的规格:廉价(低档)或高档。如何决策?– 设顾客总体被分成两个市场:一部分消费群体(60%)只购买廉价商品,另一部分消费群体(40%)只购买高档次商品。– 每家公司从廉价或高档次商品所得利润是等同的(因此利润仅取决于市场占有率)。– 每家公司都追求利润最大化。“营销战略”博弈• 假设– 若两家公司分别定位生产不同类型的产品,则每家公司都会得到该商品市场的全部份额。– 公司1品牌形象更佳。因此,若这两家公司在同一市场(廉价或高档次)中竞争,则公司1可以得到80%的市场销售量,公司2只能得到20%的市场。公司2廉价高档次公司1廉价高档次0.48,0.120.4,0.60.6,0.40.32,0.08• 可以预测此博弈的发展趋向。即公司1将会采取廉价策略,公司2将会采取高档次策略。博弈的行为推理• 如果参与人都有严格占优策略,则可以预计他们均会采取严格占优策略;• 如果只有一个参与人有严格占优策略,则这个参与人会采取严格占优策略,而另一方会采取此策略的最佳应对。• 如果两个参与人都没有严格占优策略呢?无占优策略例子(三客户博弈)• 假设有两家公司,都希望和A、B、C三个大客户之一洽谈生意。每家公司都有三种可能的策略:是否找客户A、B或C。• 他们决策的条件如下所示:– 若两家公司都找同一个客户,则该客户会给每个公司一半的业务。– 公司1规模太小,以至于不能靠自身找到客户源。所以,只要它和公司2分别寻找不同的客户洽谈生意,则公司1获得的收益将会是0(生意做不成)。– 假设公司2单独寻找客户B或C洽谈生意,则会得到客户B或C的全部业务。但是A是一个大客户。寻找客户A洽谈生意时,必须和其它公司合作才能接下业务。– 因为A是一个大客户,和它做生意的收益是8(假设两家公司合作,则每家公司会得到收益4)。但是,和B或C做生意的收益价值是2(合作的话,每个公司收益是1)“三客户”博弈的推理• 收益矩阵公司2ABCA公司1BC4,40,00,00,21,10,20,20,21,1• 两家公司都没有严格占优策略纳什均衡• 假定参与人甲选择策略S,参与人乙选择策略T。若S是T的最佳应对,且T也是S的最佳应对,则称策略组(S,T)是一个纳什均衡。– 在均衡状态,任何参与人都没有动机(理性的理由)去换一种策略。– 纳什均衡可以被看成是一种信念上的均衡• 互为最佳应对,谁也不可能通过单方面改变策略而得到额外好处,尽管如果两人都改变可能都会更好(相比都不改变而言)• 存在纳什均衡:(A,A)• 寻找纳什均衡的两种途径:– 一是,检查每一个策略组,看它们中的每一项是否是彼此间策略的最佳应对策略。– 二是,找出每个参与人对于对方每个策略的最佳应对,然后发现互为最佳应对的策略组。“三客户”博弈的纳什均衡公司2ABCA公司1BC4,40,00,00,21,10,20,20,21,1多重均衡:协调博弈• 多重均衡--存在多个均衡• 例子:协调博弈– 假设你和你拍档都为一个合作项目准备幻灯片简报(双方不能通过电话等方式联系商量)。– 你必须决定是用微软的PPT或是用苹果的Keynote软件来制作你负责的半份幻灯片。– 假设你们使用同样的软件来设计,那就比较容易合并你们的幻灯片。• 存在两个纳什均衡:(PPT,PPT),(Keynote,Keynote)。• 如何预测协调博弈中参与人的行为?– 托马斯··谢林(获得2005年诺贝尔经济学奖)提出一种聚点的想法,利用一些其他外部因素,例如社会习俗。协调博弈的推理你的拍档PPTKeynote你PPTKeynote1,10,00,01,1• 谢林的聚点理论表明,可以预测到参与人会精选策略,倾向于收益情况更好的均衡。不对等协调博弈• 假设你和项目拍档都更喜欢使用苹果软件。你的拍档PPTKeynote你PPTKeynote1,10,00,02,2• 此时很难预测具体哪种均衡会被采取。• 可以通过了解他们之间平常发生冲突时解决的惯例来预测。两人的喜好不同呢• 假设你和你的拍档喜欢的软件不同。你的拍档PPTKeynote你PPTKeynote1,20,00,02,1• 选择何种均衡?要在高收益和由于另一方不合作而造成损失之间进行权衡。猎鹿博弈• 假设两猎人外出猎物。若他们合作,则可以猎到鹿(这可以给猎者带来最高的收益)。• 猎人若分开单干,都能猎到兔。• 若一方想单独猎鹿,则收益是0。另一方依然能猎到兔。猎人2猎鹿猎兔猎人1猎鹿4,40,3猎兔3,03,3多重均衡:鹰鸽博弈• 假设两只动物要决定一块食物在彼此之间何如分配。• 每种动物都可以选择争夺行为(鹰派策略)或分享行为(鸽派策略)。– 若两种动物都选择分享行为,他们将会均匀的分配食物,各自的收益是3。– 若一方行为表现为争夺,另一方行为表现是分享,则争夺方会得到大多数食物,获得收益是5,分享方只能得到收益为1。– 当两只动物都表现为争夺行为,由于在争夺中践踏了食物,则它们得到的收益将为0。• 很难预测参与者的行为• 纳什均衡概念能有助于缩小合理的预测范围,但它并不能给出唯一的预测。鹰鸽博弈推理动物2鸽派鹰派动物1鸽派鹰派3,35,11,50,0几种典型多均衡博弈类型对比动物2鸽派鹰派鸽派鹰派3,35,11,50,0你的拍档PPTKeynotePPTKeynote1,10,00,02,2你的拍档PPTKeynotePPTKeynote1,20,00,02,1猎人2猎鹿猎兔猎鹿猎兔4,43,00,33,3简单博弈的推理思路• 如果双方都有严格占优策略,则都会采用之• 如果只有一方有严格占优策略,则可以预测另一方会采用此策略的最佳应对• 如果不存在严格占优策略,则寻找纳什均衡– 存在一个纳什均衡,该均衡对应合理结果– 存在多个纳什均衡(需要额外信息辅助决策)• 协调博弈,鹰鸽博弈– 均衡有助于缩小考虑范围,但不保证有效预测• 如果不存在纳什均衡,该怎么办?• 此时,不存在一组互为最佳应对(纳什均衡)混合策略• 例子:硬币配对-“零和博弈”(zerosumgame)– 两个参与人各持一枚硬币,同时选择手中