第28章博弈论博弈论关注的是对策略互动的一般性分析。第十讲博弈论及应用28.1博弈的收益矩阵对于双人的简单博弈,我们用收益矩阵来描述博弈。此处的简单博弈指参与者的策略数量有限,且只进行一次的博弈。假设两人进行简单的博弈。参与人A有两个策略:“上”或“下”。参与人B有两个策略:“左”或“右”。当两个人同时行动后,二人的收益情况由收益矩阵反映,该矩阵A、B完全了解。参与人B左右参与人A上1,20,1下2,11,0博弈的收益矩阵当A上B左时,A得1B得2;当A下B右时,A得1B得0。当A下B左时,A得2B得1;当A上B右时,A得0B得1;那么在A、B完全了解收益矩阵的情况下,A、B如何确定自己的策略呢?参与人B左右参与人A上1,20,1下2,11,0A的思路如下:如果B选左,我就选下(21);如果B选右,我就选下(10)。因此,A的最优策略“下”与B的策略并没有关系,此时A的最优策略为“下”。B做同样的思考:如果A选上,我就选左(21);如果A选下,我就选左(10)。因此,B决定采取“左”。上述分析中,A的“下”、B的“左”被称为占优策略。占优策略:不论对方采取什么策略,该策略总是最优的。显然,在博弈中,参与人如果有占优策略,他一定选择占优策略。上述博弈中,A一定选择下,B一定选左。该博弈的结果一定是(2,1)。此时,我们定义一个占优策略均衡,即双方占优策略的组合(下,左)。运用该定义可以帮助我们寻找存在占优策略博弈的结果。28.2纳什均衡(NashEquilibrium)如果如下表所示,参与人不存在占优策略,那么该如何预测博弈的结果呢?参与人B左右参与人A上2,10,0下0,01,2A的思路如下:如果B选左,我就选上(20);如果B选右,我就选下(10)。因此,A没有占优策略。同样,B也没有占优策略。如果参与人没有占优策略,那么我们需要借助纳什均衡的概念寻找博弈的结果。纳什均衡(N.E.):如果给定B的选择,A的选择是最优的,并且给定A的选择,B的选择也是最优的,这样的策略组合称为纳什均衡。寡头垄断下,古诺均衡实际上就是纳什均衡。即给定A厂商的产量,B实现了利润最大化;给定B厂商的产量,A实现了利润最大化。在上面收益矩阵描述的博弈中,存在四个策略组合:(上,左)、(上,右)、(下,左)、(下,右)。参与人B左右参与人A上2,10,0下0,01,2根据N.E.的定义,请找出N.E.借助N.E.预测博弈的结果,往往会遇到两个问题:1、N.E.不止一个。2、一些博弈中不存在纳什均衡。如下面收益矩阵描述的博弈:参与人B左右参与人A上0,00,-1下1,0-1,328.3混合策略而现实中,参与人完全可以随机选择策略,例如参与人采取抛硬币的方法确定自己的策略——硬币正面朝上就“上”,反面朝上就下。该策略实际就是以50%的概率选择上,以50%的概率选择下。这种随机策略称为混合策略。如果将策略扩展到混合策略,那么对于简单博弈而言,混合策略纳什均衡总是存在的。迄今为止,参与人的策略均为纯策略。纯策略指参与人以100%概率选择的策略。28.4囚徒困境本节通过一个例子说明纳什均衡并不一定会导致帕累托有效率的结果。囚徒困境:合伙犯罪的两个囚徒被分别关在两个房间接受审讯。每个囚徒可以选择坦白,也可以选择抵赖。如果只有一人坦白,坦白者免刑,抵赖者入狱6个月;如果两人同时坦白,两人将被判入狱3个月;如果两个人都抵赖,证据不足,两人被判入狱1个月。囚徒B:坦白也是B的占优策略。囚徒A:如果B坦白,我最好坦白(-3-6);如果B抵赖,我最好坦白(0-1)。因此,不论B做什么,A的最优选择就是坦白。实际上,此处坦白是A的占优策略。参与人B坦白抵赖参与人A坦白-3,-30,-6抵赖-6,0-1,-1囚徒困境现实中囚徒困境的例子很多,例如冷战中的美苏争霸。当参与人具有占优策略时,博弈存在占优策略均衡,此处为(坦白、坦白),博弈结果为(-3,-3)。该结果有帕累托改进的可能,如果双方达成共识,互相信任,同时抵赖,大家的境况都可以改善。28.5重复博弈上节中囚徒无法摆脱困境,很大程度上源于假定双方是一锤子买卖,如果双方今后还要合作,即双方进行的是重复博弈,那么结果可能会有所改变。重复博弈分为有限重复博弈和无限重复博弈。我们从最后一次博弈开始分析,第10次博弈大家将面临永远不再合作的局面,那么A、B均会毫不犹豫地选择坦白,因为这是一次囚徒博弈中的占优策略。第9次博弈会出现什么情况呢?A清楚地知道对方最后一次肯定选择坦白。如果本次我选抵赖,对方可以选坦白而获利。既然下一次已经没有合作的可能,为避免单独入狱6个月的不幸发生,A决定第9次也选择坦白。当然B也会这样推理,进而选择坦白。有限博弈:如果囚徒博弈进行10次,那么结果会怎样呢?第8、7….1次博弈中,第9次的故事反复发生。所以只要博弈重复有限次,囚徒依然无法摆脱困境。如果,囚徒博弈重复无数次,结果会怎样呢?当博弈没有最后一次时,双方均意识到无休止地坦白非明智之举。经济学家证明:“针锋相对”的策略可以使博弈双方境况得到改善。“针锋相对”的策略:第一局选择抵赖(即表明愿意与对方合作),从第二局开始采用对方上一局的策略。例如,如果对方第一局抵赖,那么我第二局依然抵赖;如果对方第一坦白,那么我第二局坦白。如果对方第二局抵赖,那么我第三局选择抵赖,如此等等。该策略相当灵活,既可以对对方的背信进行及时惩罚,又体现了宽恕的一面,即对每次背信仅处罚一次。28.7序贯博弈迄今为止,我们考察的博弈均是两个人同时采取行动。本节我们学习一个人首先行动,然后,另一个人再作出反应。第27章描述的斯塔克伯格模型就是这样的例子。一个序贯博弈的例子:第一阶段,参与人A选择“上”或“下”。参与人B观察到A的选择,再选择“左”或“右”,该博弈的收益矩阵如下所示:参与人B左右参与人A上1,91,9下0,02,1此处介绍一种寻找纳什均衡的简便方法——画线法:前者纵向比,大者下面画线;后者横向比,大者下面画线;出现两条线者即纳什均衡。我们对收益矩阵画线,得到两个纳什均衡:(上,左)(下,右)原因在于收益矩阵在描述序贯博弈时,无法体现参与双方的策略是序贯做出的,因此描述序贯博弈我们采用博弈树或博弈的扩展形式来描述。而实际上,这两个纳什均衡中有一个是不合理。AB上B左左右右下1,91,90,02,1博弈的扩展形式参与人B左右参与人A上1,91,9下0,02,1AB上B左左右右下1,91,90,02,1序贯博弈中,先行者需要分析跟随者的反应,因此,分析博弈树是由后往前推算。首先考虑B的选择:如果A选“下”,如果A选“上”,那么B选“左”或“右”无差异;那么B选“右”比较明智(10)。A上1,9下2,1经过上述分析,博弈树可变成如下形式:然后考虑A的选择,A上1,9下2,1如果选“上”,得1;如果选“下”,可得2。因此A的最优选择是“下”。当先行者A选“下”,B的最优选择是“右”,因此该序贯博弈的均衡为(下,右)在该序贯博弈中,我们依据收益矩阵找到的N.E.(上,左)并不是合理的均衡,因为A选择“上”是愚蠢的。从博弈的结果看,B非常不幸,最终他只能得到1而非9。面临巨大落差,B极有可能威胁A,声称如果A选“下”,那他就选“左”,让大家一无所获。AB上B左左右右下1,91,90,02,1A对B的威胁不予理睬,因为A一旦选“下”,B就考虑自己的利益,明智地选“右”而非“左”。针对B的威胁,A会如何反应?B为了改善自己的境况,就必须让A相信自己的威胁。B可以跟第三方签一个合约,规定如果A选“下”,B若选“右”,B支付第三方2。右AB上左右1,91,9B左下0,02,1-2=-1若A知道B签了类似合约,就知道如果自己选“下”,B一定选“左”(0-1),那么为避免一无所获,A就会选“上”。本章小结1、纳什均衡的概念及应用2、纳什均衡应用中的问题(不唯一、不存在、无效率)3、序贯博弈求解应用逆向归纳法。第29章博弈论的应用本章我们考察博弈论中4个非常重要的问题——合作问题、竞争问题、共存问题和承诺问题。首先了解一个重要的分析工具——最优反应曲线(反应函数的图像)。29.1最优反应曲线考虑一个双人博弈,假定你是其中的一个参与人。对另外一人的任何选择,你的最优反应就是使你的收益最大化。B的选择:左A的选择:上列参与人B左右行参与人A上2,10,0下0,01,2A的最优反应:上B的最优反应:左B的选择:右A的最优反应:下B的最优反应:右A的选择:下如果行参与人A的可能选择r1(上),r2(下),…….,列参与人B的可能选择c1(左),c2(右)…….。对于行参与人A的每一个选择r,列参与人B的最优反应函数为:()Bbr对于行参与人B的每一个选择c,行参与人A的最优反应函数为:()Abc在上例中,列参与人B的最优反应函数:()()BBbb上=左;下=右行参与人A的最优反应函数:()()AAbb左=上;右=下列参与人B左右行参与人A上2,10,0下0,01,2纳什均衡是使得以下两个式子成立的一个策略组合(,)rc()()BAcbrrbc上例中纳什均衡为(上,左)(下,右),这两个组合满足:()()ABbb上=左;左=上()()ABbb下=右;右=下纳什均衡一旦实现,A、B均满意,无人愿意偏离该状态。最优反应曲线(函数)提供了一种相对简单的求解纳什均衡的方法。在第27章求解古诺均衡时,实际就是最优反应曲线的应用:122abyyb212abyyb两个厂商的反应函数如下:联立上述反应函数,得到古诺均衡(也是纳什均衡)。29.2混合策略本节利用最优反应曲线来寻求混合策略纳什均衡和纯策略纳什均衡。列参与人B左c右(1-c)行参与人A上r2,10,0下(1-r)0,01,2我们令A选择上的概率为r,那么(1-r)就表示选下的概率。c表示B选择左的概率,那么(1-c)就表示选右的概率。当r为0时,表示A选下;c为0时,表示B选右。参与人面临的是不确定下的选择,因此我们利用期望效用最大化分析双方的选择。A的期望收益=2rc+(1-r)(1-c)=3rc-r-c+1A的边际期望收益(MR=dR/dr)=3c-1列参与人B左c右(1-c)行参与人A上r2,10,0下(1-r)0,01,2c1/3,MR0,提高r可以使收益增大,r最大为1。根据以上特点可以画出A的最优反应曲线:rc1/301A的最优反应曲线A的边际期望收益(MR=dR/dr)=3c-1c=1/3,MR=0,期望收益达到最大值,r为[0,1]任意值;c1/3,MR0,降低r可以使收益增大,r最小为0;1列参与人B左c右(1-c)行参与人A上r2,10,0下(1-r)0,01,2B的期望收益=1rc+2(1-r)(1-c)=3rc-2r-2c+2B的边际期望收益(MR=dR/dc)=3r-2根据以上特点可以画出B的最优反应曲线:102/3B的最优反应曲线B的边际期望收益(MR=dR/dc)=3r-2r=2/3,MR=0,期望收益达到最大值,c为[0,1]任意值;r2/3,MR0,降低c可以使收益增大,c最小为0;r1/3,MR0,提高c可以使收益增大,c最大为1。rc将A、B的最优反应曲线放在一个象限中:1/311c0r三个交点分别对应两个纯策略纳什均衡(下,右)、(上,左)和一个混合策略纳什均衡(A以2/3的概率选上,B以1/3的概率选左)。2/3列参与人B左c右(1-c)行参与人A上r2,10,0下(1-r)0,01,2两条最优曲线有三个交点:(0,0),(1,1),(2/3,1/3)29.3合作博弈本节利用上节介绍的分析工具考察协调博弈。在该类博弈中,当参与人能够协调他们之间的策略时,他们的收益就会实现最大化。性别战男女约会看电影,男喜欢动作片,女喜欢文艺片,但他们宁愿看一部电影也不愿单独行动。他们的收益矩阵如下:女孩动作片文艺片男孩动作片2,10,0文艺片0,01,2我们已经知道,该博弈有三个纳什均