(完整版)耶鲁公开课--博弈论笔记

king9521
1 ℃
2020-06-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

耶鲁公开课—博弈论笔记第一节、名词解释优势策略（Dominantstrategy）：不论其他局中人采取什么策略，优势策略对一个局中人而言都是最好的策略。即某些时候它胜于其他策略，且任何时候都不会比其他策略差。注：1、“优势策略”的优势是指你的这个策略对你的其他策略占有优势，而不是无论对手采用什么策略，都占有优势的策略。2、采用优势策略得到的最坏的结果不一定比采用另外一个策略得到的最佳的结果略胜一筹。严格劣势策略(strictlydominatedstrategy)：被全面的严格优势策略压住的那个策略，也就是说不是严格优势策略以外的策略。弱劣势策略：原来不是严格劣势策略，但是经过剔除严格劣势策略后，这个策略就成了严格劣势策略。例：囚徒困境囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。例：协和谬误20世纪60年代，英法两国政府联合投资开发大型超音速客机，即协和飞机。该种飞机机身大、装饰豪华并且速度快，其开发可以说是一场豪赌，单是设计一个新引擎的成本就可能高达数亿元。难怪政府也会被牵涉进去，竭力要为本国企业提供更大的支持。项目开展不久，英法两国政府发现：继续投资开发这样的机型，花费会急剧增加，但这样的设计定位能否适应市场还不知道；但是停止研制也是可怕的，因为以前的投资将付诸东流。随着研制工作的深入，他们更是无法做出停止研制工作的决定。协和飞机最终研制成功，但因飞机的缺陷（如耗油大、噪音大、污染严重等）以及运营成本太高，不适合市场竞争，英法政府为此蒙受很大的损失。在研制过程中，如果英法政府能及早放弃，本来可以使损失减少，但他们没能做到。最后，英国和法国航空公司宣布协和飞机退出民航市场，才算是从这个无底洞中脱身。这也是“壮士断腕”的无奈之举。人们往往会陷入类似的误区：一项工作的成本越大，对它的后续投入就越多。其实不仅是在制造协和飞机这样的重大项目上，就是在日常的生活中，人们在决定是否继续做一件事情的时候，不仅是看它对自己有没有好处，而且也过于注意自己是不是已经在这件事情上面有过投入。我们把那些已经发生、不可收回的支出，如时间、金钱、精力称为“沉没成本”。沉没的意思是说，你在正式完成交易之前投入的成本，如果一旦交易不成，就会白白损失掉。但如果对沉没成本过分眷恋，就会继续原来的错误，造成更大的亏损。在第一节课中得出的五个结论：1、不要选择劣势策略2、理性选择导致次优结果3、站在他人立场分析他们会怎么做4、先弄清你想要的，才能得到你想要的5、人人都是自私的第二节、囚徒困境的解决之道：1、多次博弈；2、设立规章制度，惩罚违规者；3、思想教育（效果待定）。博弈的要素：参与者i；策略S；收益U。符号的定义：Si表示参与者i的策略。S-i表示除参与者i以外其他人的策略。Ui表示i的收益。名词解释：共同知识：我知道这件事；你也知道这事；我知道你知道这事；你知道我知道你知道这事这事；此后循环。案例：老师在课堂上让每位学生从1-100中选择一个数字。选择到最接近全班平均数的2/3的学生为胜利者。学生共有50个左右。胜利者平分奖金5美元。解决方案：step1、假设每个人都选择100，平均数100*2/3＝66.66。所以不能选择67-100之间的数（严格劣势策略）。现实中有两名学生选择了。step2、剔除了step1中的严格劣势策略后，重复迭代，66*2/3＝44。所以不能选择44-67之间的数（弱劣势策略）。现实中有四名学生选择了。step3、44*2/3＝29，所以不能选择29-44之间的数。现实中有13个左右选择了30-34区间，。选择这个数区间的学生想法是1-100平均数是50，50*2/3＝33，所以选择33附近的数可能比较接近。这些学生低估了其同班同学的智商。step4、29*2/3＝19，所以不能选择19-29之间的数。现实中有12个选择了。选择这个区间的学生就像螳螂捕蝉中的螳螂，却没有想到还有更多的黄雀在后。......这么一直迭代下去，理论上如果所有学生都是理性人。平均数应当是1。现实中有12个学生选择了1。应该说选择了1的学生都看出了这个博弈的窍门。但是他们的选择不是最接近平均数的。因为在现实中不可能所有人都是理性人。最终12是最接近平均数2/3的数。有9人选择了这个数。结论：迭代剔除劣势策略是个好的方法，但在现实中不能过度迭代。因为不是所有人都是理性人，而且不是所有人都有共同知识（概念见前述）。应用案例：中间选民定理两个政治候选人，为了选举须确定自己的政治立场。共有10个立场：1、2、3、4、5、6、7、8、9、10。第个立场都有10%选票。两个候选人要在一系列的政治主张中选择一个。规则：选民会投票给观点最相近的候选人。距离相等，该立场平分选票。候选者希望选票最大化。step1：试证明:S2优于S1。比较1号候选人选择S1,S2其利益U1的大小。当2号候选人选择1号策略S1时U1(1、1)[表示2号候选人选择S1，1号候选人选择S1]为50%U1(2、1)[表示2号候选人选择S1，1号候选人选择S1]为90%当2号候选人选择2号策略S2时U1(1,2)=10%U1(2,2)=50%当2号候选人选择3号策略S3时U1(1,3)=15%U1(2,3)=20%当2号候选人选择4号策略S4时U1(1,4)=20%U1(2,4)=25%......下面选择S2得票率都比S1大5%，所以S2严格优于S1。同理S9优于S10。step2：试证明：S3优于S2剔除劣势策略S1，S10当2号候选人选择2号策略S2时U1(2,2)=50%U1(3,2)=80%当2号候选人选择3号策略S3时U1(2,3)=20%U1(3,3)=50%当2号候选人选择4号策略S4时U1(2,4)=25%U1(3,4)=30%当2号候选人选择5号策略S5时U1(2,5)=30%U1(3,5)=35%......下面选择S3得票率都比S2大5%，所以S3严格优于S2。同理S8优于S9。所以S2是弱劣势策略，以下同理可证S4优于S3，S5优于S4。迭代剔除后将剩下S5，S6。结论：政治家为了赢得更多选票，尤其是大量关键的“中间选民”，会表现的趋中，各个政治家之间的差别会变得很小。如美国选举时议题是：0.3%的税收差别，给不给移民发驾照，同性恋能否结婚之类对生活不会有重大影响的事项。缺陷：在现实中每个立场的选民数非均匀分布；非所有人都投票；选民不只考虑政治立场，还有性格，甚至外貌；政治候选人的口号与实际行动未必一致；候选人不止两位。第三节、之前的几节课中，各个案例都是有严格劣势策略的。接下来的几个案例中没有严格劣势策略，通过对这些没有严格劣势策略案例，可以模拟更复杂的现实情况，同时对数学的要求会加深。例：S1=u,m,dS2=L,R表格中的数值为play1,2选择不同策略时的得分，两个玩家都想得到更高的得分。在这个博弈中没有严格劣势策略，因为当play2选择不同策略时，play1的策略中没有一个是始终劣势于其他策略的。我们可以用画图的方式来分析没有严格劣势策略时Play1应该如何选择策略的案例。如图：X轴P（r）表示、play2选择R策略的概率；Y轴表示play1的预期得分。当P（r）＝0时，就是说play2选择L策略。play1选择u,m,d时的得分分别是5，1，3。当P（r）＝100%时，就是说play2选择R策略。play1选择u,m,d时的得分分别是0，4，2。将这六个点分别在图中标出，然后连成直线。就得出了三个函数：U1(u,p(r))=5-5p(r);......(play1选择u策略时，得分随play2选择R策略的概率变化而变化的函数)U1(m,p(r))=3p(r)+1;U1(d,p(r))=-2p(r)+4.其中三条直线有三个交点，分别位于P（r）＝1/3；1/2；3/5三处。结论：从图中可以看出，Play1要得分最高，要根据Play2的P（r）不同分三段来选择策略。当P（r）小于1/3时，应该选择u策略；当P（r）大于1/3小于3/5时；应该选择中间的线外外代表的策略d；当P（r）大于3/5时，应该选择m策略。上面这个案例是一个纯理论阐述，下面介绍足球比赛中点球时，射手应该如何选择的问题。这个案例的数据是基于实际比赛中的统计数据。例：点球表格中前列数字表示射手射中球的概率，如4表示40%中球率。L表示左，R表示右，M表示中。用前例中的方法画图：从图中可得出：为得到最高的点球成功率，当P(r)50%时，应该射手应该选择踢左边；当P(r)》50%时，应该射手应该选择踢右边；表示踢中路成功率的那条线始终没有最高概率，所以射手最好不要选择踢中路。这个模型的缺陷：没有考虑射手踢球的习惯；没有考虑守门员守中路的情况（考虑三个要素很复杂，而且中路是可以排除的严格劣势策略）；没有考虑球速。比赛中的真实概率数据：最佳对策定义：Ui(Si^,S-i)=Ui(Si`.S-i)或者Si^=MaxUi(Si,S-i)Si^表示对手策略S-i的最佳对策。Si`表示Playi的其它对策。第四节、例合伙人博弈：2个股东都持有公司50%股份；两者平分利润；每个股东要选择为公司投入多少时间，用工作小时数代表双方策略Si=(0,4)[0~4是连续的数，而非只能选整数]，双方可以在0至4个小时之间选择。这家公司利润：4*[S1+S2+b*S1*S2](0b1/4);{S1+S2可以表示两个股东工作时间的简单相加对利润的贡献，b*S1*S2可以表示由于两个股东相互协作对利润的贡献；考虑到了这两个部分，所以这个公式可以很好的反映现实的情况}所以，U1(s1,s2)=1/2[4*(S1+S2+b*S1*S2)]-S1的平方。{S1的平方表示股东1的努力成本}假设S2给定对U1(s1,s2)求导数U1(s1,s2)`=2(1+bS2)-2S1当U1(s1,s2)`=0时U1(s1,s2)值最大。所以当S1=bS2+1时，U1(s1,s2)最大。也就是S1的最佳策略（BR）。同理S2＝bS1+1是S2的最佳策略。[BR意为bestresponse]给定b=1/4画出BR的函数图在0S11和2S14这两个区间里play1没有最佳策略，所以play1不会选择这两个区间，从图上可以看出BR2(S2)只能选择红色一段。同理BR1(S1)也只能选择红色一段。将剩下的红色区间放大，并重复上一阶段剔除，如图：在1S15/4和3/2S12这两个区间里play1没有最佳策略，所以play1不会选择这两个区间，从图上可以看出BR2(S2)只能选择红色一段。同理BR1(S1)也只能选择红色一段。不断重复以上过程，最终会得到两直线交叉的那一点：S1=S2=1/(1-b)结论：1、在合伙中，个人的努力获得的边际效益不断减少，所以每个人都倾向于少工作；2、协同程度减少，会使人减少努力。在这个案例中S1=S2这个点就是著名的纳什均衡点（每个人都采用了各自最佳策略，或者说如果某情况下无一参与者可以独自行动而增加收益）。