1第3讲静态博弈如前所述,所谓“静态博弈”,是指所有参与人同时行动的博弈。这里的“同时行动”,并非真实意义上的时间区分——只要当任何一个参与人在做出选择时,都不知道其他参与人选择的策略,就称博弈的所有参与人为同时行动的。本节首先介绍反映博弈参与人策略性相互依存的“反应函数”,在此基础上,介绍两类适用于静态博弈的最简单均衡概念:(严格)占优策略均衡和重复剔除严格劣战略均衡,为即将在下一节介绍的Nash均衡作为准备。1.策略、反应策略与“策略性相互依存”——策略与“策略性相互依存”在博弈中,任何一名参与人都可以自由地选择其策略。但是,选择什么策略对于一位参与人来说才是最优的,则不是该参与人能够独自决定的,这要取决于其他参与人选择的策略。因此,在一个博弈的框架下,任何一名参与人的最优策略,都可以被看作是对其他参与人选择的策略作出的反应,也就是某种“反应策略”。博弈参与人之间的这种策略性相互依存,体现在每名参与人的策略对于其他参与人的策略的反应函数上。在一个静态博弈中,通过求解参与人i的支付最大化问题:max,isiiiiususs可以得到任意一名参与人策略is对于其他参与人策略is的反应函数:iiisss——反应函数(曲线)在此我们以一个例子,即上述“说实话”博弈,通过求解参与人(期望)支付最大化问题得到反应函数。Player2h,hh,tt,ht,tPlayer1H,H2.8,0.82.8,0.80.2,0.20.2,0.2H,T2.8,0.82.6,10.4,00.2,0.2T,H2.8,0.80.4,02.6,10.2,0.2T,T2.8,0.80.2,0.22.8,0.80.2,0.22首先考虑纯策略反应函数,也就是,假设参与人1和参与人2都只选择纯策略。通过考查参与人1的(期望)支付最大化问题,容易得到参与人1的策略对于参与人2的策略的反应对应:221222,,,,,,,,,,,,,,,,,,HHHTTHTTshhHHshtssTTsthHHHTTHTTsttorororororor同样的,通过考查参与人2的(期望)支付最大化问题,容易得到参与人2的策略对于参与人1的策略的反应对应:112111,,,,,,,,,,,,,,hhorhtsHHhtsHTssthsTHhhorthsTT更一般地,也可以直接考虑基于混合策略的反应函数。设参与人1选择,HH、,HT、,TH和,TT的概率分别为1、2、3和4,满足:1234,,,0,1,12341参与人2选择,hh、,ht、,th和,tt的概率分别为1、2、3和4,满足:1234,,,0,1,12341同样的,参与人1和参与人2的支付,可以表示为全部参与人选择的策略的函数:1112342.82.80.20.2212342.82.60.40.2312342.80.42.60.2412342.80.22.80.22112340.80.80.80.821240.80.231340.20.8412340.20.20.20.2基于参与人支付函数得到参与人反应函数的基本思路是:对于参与人i,讨论在参与人i采取3各种可能的混合策略组合条件下,选择自身各种纯策略时获得支付的大小。例如,对于参与人1而言,如果:12341234123412342.82.80.20.2max2.82.60.4,2.80.42.6,2.80.22.80.2那么纯策略,HH就是参与人1的最优策略。因此1,sHH,也可以表示成:11234,,,1,0,0,0s如果:12341234123412342.82.80.20.22.82.60.4max2.80.42.6,2.80.22.80.2那么纯策略,HH和,HT就是参与人1的最优策略,它们的任何线性组合也是参与人1的最优策略。这时参与人1的最优策略可以表示成:11234111,,,,1,0,0,0,1s在目前条件下,完成这一讨论是复杂的(尽管可以完成),我们把这一工作留至本节末尾(第4小节)。2.占优策略与占优策略均衡——占优策略如果在一个博弈中,无论其他参与人选择何种策略,当一名参与人i选择其某个策略is时获得的支付,均(严格)大于该参与人选择任何其它策略时获得的支付,即,,iiiiiiussuss,iiiisSsS,则称is是参与人i的“(严格)占优策略(dominantstrategy)”。如果在一个博弈中,一名参与人有一个严格占优策略,等价于该参与人的策略对于其他参与人策略的反应函数是一个“常数”,即:,iiiiissssS意味着这时参与人i的最优策略实际上不对其他参与人策略作出反应。在“囚徒困境”的例子中,容易验证:对于每名囚徒而言,“坦白”都是一个严格占优策略。——占优策略均衡如果在一个博弈中,每名参与人都有(严格)占优策略——即iI,存在is,使得:4,,iiiiiiussuss(,,iiiiiiussuss),iiiisSsS,那么所有参与人的策略组合12,,,nssss构成该博弈的一个“(严格)占优策略均衡(dominantstrategyequilibrium)”。在“囚徒困境”的例子中,容易验证:每名囚徒都选择“坦白”是一个严格占优策略均衡。一般而言,博弈的均衡未必具有结果预测上的意义。但是,如果一个博弈存在严格占优策略均衡,那么可以预见该均衡将作为博弈的结果出现。问题是,大部分博弈不存在严格占优策略均衡。——另一个例子(来自Dixit和Nalebuff(1993))一名博弈论教授在其课堂上常做这样的实验:要求每位同学在1和2之间选择一个数字,并根据每位同学的选择给与最终的奖励,所有同学的选择和最终奖励之间的关系如下:选择1的学生人数选择1的学生获得的支付选择2的学生获得的支付0-$0.501$0.05$0.552$0.10$0.603$0.15$0.65………29$1.45$1.9530$1.50-据说,这个实验最早是一位德州农机大学的教授在其课堂上给出的,首先是不允许同学们相互讨论的情况,然后是允许讨论——无论如何,选择1的学生无法超过半数。一种说法是,一个集体最终选择的平均数越低,表明这个集体的整体智商水平越低;另一种说法是,一个集体最终选择的平均数越低,表明这个集体的整体道德水平更高。3.(严格)劣策略与重复剔除(严格)劣策略均衡——(严格)劣策略“(严格)劣策略((strictly)dominatedstrategy)”,是一个与(严格)占优策略相关的概念。如果在一个博弈中,无论其他参与人选择了怎样的策略组合iisS,当一名参与人i选择其某个策略is时获得的支付,(严格)小于该参与人选择某一其它策略时获得的支付,即iisS,使得:5,,iiiiiiussuss(,,iiiiiiussuss)iisS,则称is是参与人i的一个“(严格)劣策略”。在考虑混合策略的情况下,无论参与人i的一个策略is是被他的某个纯策略(严格)占优,还是被他的某个混合策略(严格)占优,都称is是参与人i的一个“(严格)劣策略”。如果只考虑参与人的纯策略(相当于假设参与人不能选择混合策略),那么(严格)劣策略称为“(严格)劣纯策略”。考虑混合策略会减少参与人的(严格)劣策略。容易证明:如果is是参与人i的一个(严格)劣纯策略,那么is未必是参与人i的一个包含了混合策略的(严格)劣策略。——严格劣策略与“可理性化策略”严格劣策略有时又叫“不可理性化策略”,与之相对的概念叫“可理性化策略(rationalizablestrategy)”——称参与人i的一个策略is是他的“可理性化策略”,如果is不是参与人i的严格劣策略。正式的表达是:参与人i的一个策略is是他的“可理性化策略”,如果存在其他参与人的某些策略组合is,使得is是参与人i对于is的一个最优反应;否则,策略is是参与人i的“不可理性化策略”,也就是严格劣策略。可理性化策略的另外两个等价的表述是:(i)策略is是参与人i的一个可理性化策略,当且仅当“存在某种使得选择策略is成为参与人i的一个理性选择的情况”;或者(ii)策略is是参与人i的一个可理性化策略,当且仅当“存在某种支持参与人i选择策略is的‘信念(belief)’”。不可理性化策略:一个例子乙LR甲U3,00,1M0,03,1D1,11,0假设参与人乙以的概率选择纯策略“L”,以1的概率选择纯策略“R”,0,1。考虑6参与人甲选择其3个纯策略——“U”、“M”和“D”——为其带来的支付分别为:3U甲,31M甲,1D甲可见,当参与人乙以超过50%的概率选择“L”时,参与人甲的最优选择是“U”;当参与人乙以超过50%的概率选择“R”时,参与人甲的最优选择是“M”;当参与人乙以恰好50%的概率选择“L”时,参与人甲的最优选择是纯策略“U”和“M”的任意线性组合。无论如何,“D”都不会成为参与人甲的最优选择,因此是参与人甲的一个(考虑混合策略的)“不可理性化策略”或者“严格劣策略”。——剔除严格劣策略一般情况下,我们有理由认为参与人不会选择其严格劣策略(或者“不可理性化策略”)。有些博弈没有占优均衡,但通过剔除严格劣策略,我们可以简化博弈,甚至可以预测博弈的结果。一个例子:智猪博弈智猪博弈是另一个有关博弈的著名例子。假设一只大猪和一只小猪都是理性(并且满足共同理性)的,它们共同面对一个自动食槽:在每天一定的时刻,只要按下按钮食物就会投下。小猪按动等待大猪按动3,11,4等待6,-10,0问题是,食物投放口在食槽的一头,而按钮在食槽的另一头——因此,任何一头猪如果要去按动按钮,除了要付出往来于食槽两头的辛苦之外,还必须考虑从自己在食槽一头按下按钮到自己回到食槽另一头之间,食物可能已经被等在食槽另一头的猪吃的所剩无几。不妨设按下按钮后食槽能够投下6单位食物,而大猪相对于小猪有某种优势。我们可以用上7面的支付矩阵来刻画这一博弈:如果大猪和小猪同时去食槽一头按下按钮,并且同时回到食槽另一头争抢食物,大猪能够争得4单位,小猪能够争得2单位,并且,它们都付出了相当于1单位食物的辛苦;如果大猪前去按下按钮,待它回到食槽另一头时,小猪已经吃掉了3单位食物,在剩下的3单位食物中,大猪争得2单位,小猪争得1单位;如果小猪前去按下按钮,待它回到食槽另一头时,大猪已经吃完所有食物;如果两只猪都选择在投放食物一头等待,则都没有食物可吃。在这一博弈中,大猪的最优策略取决于小猪的策略:如果小猪选择“等待”,那么大猪应该前去按动按钮,这样它至少还能够得到2单位食物;如果小猪选择“按动”,则大猪的最优策略当然是“等待”。因为吃食的速度不如大猪,小猪的处境与大猪不同:如果大猪选择“等待”,那么小猪是否也应前去按动按钮?答案是否定的,原因是即使小猪前去按动按钮,待它回到食槽另一头时食物也已被大猪吃完——小猪只是白费力气。因此,“等待”是小猪的严格占优策略,而“按动”是小猪的严格劣策略。小猪无论如何都不会选择它的严格劣策略,意味着在博弈的支付矩阵中可以不必考虑小猪选择“按动”的情况,也就是,我们可以“剔除”小猪的严