博弈论-完全信息动态博弈3

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章完全信息动态博弈(3)五、重复博弈•重复博弈•有限次重复博弈:连锁店悖论•无限次重复博弈无名氏定理•无限重复博弈的例子•参与人不固定时的重复博弈•不确定环境下的重复博弈0、重复博弈动态博弈:序惯博弈:参与人在前一阶段的选择将决定随后的子博弈的结构。重复博弈:是指同样结构的博弈重复多次,其中的每次博弈称为阶段博弈。重复博弈的基本特征:(1)阶段博弈之间没有物质上的联系(前一阶段博弈不改变后一阶段博弈的结构);(2)所有人都观察到过去博弈的历史;(3)参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。在重复博弈的每个阶段博弈中,参与人可同时行动,也可不同时行动。在后一情形中,每一阶段博弈本身就是一个动态博弈。影响重复博弈均衡结果的主要因素:博弈的重复次数:参与人可能为了长期利益而牺牲眼前利益从而选择不同的均衡策略。信息的完备性:当一个参与人的支付函数不为其他人所知时,该参与人可能有积极性建立一个好的声誉以换取长远利益(声誉模型)。重复博弈的分类根据阶段博弈的重复次数,可分为:有限重复博弈和无限重复博弈根据信息结构的出现,重复博弈可分为:(1)可观察行动的重复博弈:①连锁店悖论、重复囚徒困境博弈、古诺寡头垄断重复博弈等;②参与人不确定时的重复博弈(2)不完美信息重复博弈:双寡头重复博弈:厂商观察到每期的市场价格下选择产量,但不知道对手的产量;重复合伙关系:参与人观察到实现的产出但不知对方的努力水平。1、有限次重复博弈(1)市场进入阻挠博弈通常,进入门槛越低的行业,其平均利润率越低。一种解释是,在位者为了阻止潜在进入者的进入,主动放弃高定价,选择较低的竞争性价格(以此表示自己是低成本),从而阻止潜在进入者进入。另一种解释是,潜在进入者只要看到有利可图,由于其进入成本低,就将进入该行业。进入阻挠博弈模型设定:一个新企业(进入者)想进入被垄断企业(在位者)所把持的市场。进入者有两种策略可选择:进入还是不进入;在位者也有两种策略:默许还是斗争。设进入前垄断利润为300,进入之后寡头利润为100,进入成本为10,进入后双方争斗时利润均为0。该博弈有两个纯策略纳什均衡(默许,进入)和(斗争,不进入)。潜在进入者进入不进入在位者默许100,90300,0斗争0,-10300,0市场进入阻挠博弈的子博弈精炼纳什均衡进入者在位者不进入进入默许斗争(0,-10)(100,90)(300,0)•在单阶段博弈中,唯一的子博弈精炼纳什均衡结果是在位者默许,潜在进入者选择进入。有限重复次的市场进入阻挠博弈现在假定同样的市场有100个(理解为在位者有100家连锁店),进入者每次进入一个市场,博弈就变成了100次重复博弈。在位者是否可以以斗争来威胁以阻止潜在进入者进入?在有限次重复博弈中,斗争并不是一个值得置信的威胁。连锁店悖论首先考虑第100个市场,在博弈最后阶段,斗争已没有任何意义,在位者将默许,进入者将选择进入。再考虑第99个市场,因为不论在位者选择什么行动,第100个市场的均衡结果不受影响,在位者的最优选择仍然是默许。如此一直倒推回去,得到该博弈的唯一的子博弈精炼纳什均衡是在位者在每一个市场上都选择默许,进入者在每一个市场上选择进入。其他的纳什均衡如“在位者总选择斗争,进入者总选择不进入”,但不是子博弈精炼的。(2)有限次重复囚徒困境博弈在有限次重复囚徒困境博弈同样如此,“总是坦白”是唯一的子博弈精炼纳什均衡。囚徒B抵赖坦白囚徒A抵赖-1,-1-10,0坦白0,-10-8,-8定理定理:令G是阶段博弈,G(T)是G重复T次的重复博弈(T<∞)。那么,如果G有唯一的纳什均衡,则重复博弈G(T)的唯一子博弈精炼纳什均衡是阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都是一次性博弈的均衡结果)。G有唯一的纳什均衡是必不可少的条件。例:有两个纯策略纳什均衡的重复博弈在单阶段博弈中有两个纯策略纳什均衡(L1,L2)和(R1,R2)。现考虑两阶段重复博弈情形。在子博弈精炼纳什均衡中,参与人能否在第一阶段实现合作(M1,M2),使其收益最大化?参与人2L2M2R2参与人1L11,15,00,0M10,54,40,0R10,00,03,3预期若参与人均有这样的预期,若第一阶段出现合作(M1,M2),则第二阶段预期的纳什均衡是(R1,R2),若第一阶段出现其他结果,则第二阶段预期的纳什均衡是(L1,L2)。考虑策略:参与人1(2)在第一阶段首先选择M1(M2);在第二阶段,若第一阶段的博弈结果是(M1,M2),则第二阶段选择合作的纳什均衡策略R1(R2),否则选择惩罚的纳什均衡策略L1(L2)。该策略是一个子博弈精炼纳什均衡。两个阶段第二阶段参与人2L2M2R2参与人1L11,15,00,0M10,54,40,0R10,00,03,3第一阶段参与人2L2M2R2参与人1L12,26,11,1M11,67,71,1R11,11,14,4模型启示上述模型说明,对将来行动所作的可信的威胁或承诺可以影响当前的行动。上述模型亦表明,子博弈精炼的概念对可信性的要求并不严格。因为参与人会认为,过去的反正已经过去,即使第一阶段双方未能合作,在第二阶段选择较低的纳什均衡(1,1)也是一种愚蠢的行为。故参与人没有动机在第二阶段实施惩罚行为。参与人没有动机在第二阶段实施惩罚第二阶段参与人2L2M2R2参与人1L11,15,00,0M10,54,40,0R10,00,03,3第一阶段参与人2L2M2R2参与人1L14,48,33,3M13,87,73,3R13,33,36,6参与人有动机实施惩罚的例子L2M2R2P2Q2L11,15,00,00,00,0M10,54,40,00,00,0R10,00,03,30,00,0P10,00,00,04,1/20,0Q10,00,00,00,01/2,4第二阶段L2M2R2P2Q2L11,15,00,00,00,0M10,54,40,00,00,0R10,00,03,30,00,0P10,00,00,04,1/20,0Q10,00,00,00,01/2,4第二阶段预期策略(可视为一种谈判协议):若第一阶段出现合作(M1,M2)或(x,y),这里x、y分别是除M1、M2外的任何策略,则第二阶段结果为(R1,R2);若第一阶段出现(M1,y),y是除M2外的任何策略,为(P1,P2);若第一阶段出现(x,M2),x是除M1外的任何策略,为(Q1,Q2)。第一阶段L2M2R2P2Q2L14,411/2,43,33,33,3M14,11/27,74,1/24,1/24,1/2R13,31/2,46,63,33,3P13,31/2,43,37,7/23,3Q13,31/2,43,33,37/2,7((M1,M2),(R1,R2))是重复博弈的子博弈精炼均衡结果,且是帕累托最优的。而((R1,R2),(R1,R2))、((L1,L2),(L1,L2))也是子博弈精炼均衡结果。评析G中纳什均衡的唯一性是一个重要条件:当阶段博弈有多个纳什均衡时,在博弈最后阶段,参与人可以使用不同的纳什均衡惩罚第一阶段的不合作行为或奖励第一阶段的合作行为。解开连锁店悖论的方法解开连锁店悖论的办法之一是引入信息的不完全性(声誉模型)。解开连锁店悖论的办法之二是引入无限重复博弈(或以某一概率随机地确定是否继续开张新的连锁店)。当博弈重复无限多次时,存在着完全不同于一次博弈的子博弈精炼纳什均衡。2、无限次重复博弈与无名氏定理(1)无限重复囚徒困境博弈与有限次重复博弈不同,即使在每个阶段中有唯一纳什均衡的无限次重复博弈也存在多重纳什均衡。例如,在无限重复囚徒困境博弈中,单阶段博弈中不可能实现的合作也能作为子博弈精炼纳什均衡的结果出现。重复博弈的特点是参与人在每一阶段的行动空间和支付函数是完全一样的,新均衡的出现在于参与人的选择基于他们之前阶段获得的信息。无限次重复囚徒困境博弈的冷酷策略“冷酷策略(grimstrategies)”,又称“触发策略(triggerstrategies),是指:开始选择抵赖(合作),然后一直选择抵赖(合作),直至有一方选择坦白(背叛),然后永远选择坦白(背叛)。囚徒B抵赖坦白囚徒A抵赖-1,-1-10,0坦白0,-10-8,-8只要参与人有足够耐心(贴现因子δ≥1/8,这里δ=1/(1+r),r为贴现率),每一阶段(抵赖,抵赖)是一个子博弈精炼纳什均衡结果,双方都坚持“冷酷策略(触发策略)是一个子博弈精炼纳什均衡。囚徒B抵赖坦白囚徒A抵赖-1,-1-10,0坦白0,-10-8,-8纳什均衡首先,(冷酷策略,冷酷策略)是一个纳什均衡。给定对方选择冷酷策略,选择冷酷策略对自己是最优的:给定对方坚持冷酷策略(δ≥1/8),自己不会选择首先坦白;给定对方坚持冷酷策略,一旦某方选择坦白,由于对方将坚持坦白,因而自己坚持冷酷策略永远坦白也是最优的。囚徒B抵赖坦白囚徒A抵赖-1,-1-10,0坦白0,-10-8,-8子博弈精炼纳什均衡其次,(冷酷策略,冷酷策略)是子博弈精炼的纳什均衡。将子博弈划分为两类:(1)类型A,没有任何参与人曾经坦白(与原博弈相同);(2)类型B,至少有一个参与人曾经坦白。在类型B中,冷酷策略要求参与人只是重复单阶段博弈的纳什均衡,自然也是整个子博弈的纳什均衡。其他但该博弈还有许多其他子博弈精炼均衡,例如,参与人在每一个阶段都选择坦白。针锋相对策略(tit-for-tatstrategy)(又称投桃报李,一报还一报,以牙还牙):1)每个参与人开始选择抵赖(合作);2)然后,在阶段t,简单地重复t-1阶段对手的行动。若贴现因子为1,该策略是否是子博弈精炼的纳什均衡策略?分析若囚徒B选择针锋相对策略:首先,囚徒A没有激励在开始时选择坦白(即囚徒B的针锋相对策略在均衡路径上是最优的)。其次,如果囚徒A开始时选择坦白,囚徒B对其进行惩罚是不理性的行为(即囚徒B在非均衡路径上不是最优的)。因此,针锋相对策略不是一个子博弈精炼纳什均衡策略。无名氏定理无名氏定理(弗里德曼,1971):令G为一个n人阶段博弈,G(∞,δ)为以G为阶段博弈的无限次重复博弈,a*是G的一个纳什均衡(纯策略或混合策略),e=(e1,e2,…,en)是a*决定的支付向量,v=(v1,v2,…,vn)是一个任意可行的支付向量,V是可行的支付向量的集合。那么,对于任何满足vi>ei的v∈V,存在一个因子δ*<1使得对于所有的δ≥δ*,v=(v1,v2,…,vn)是一个特定的子博弈精炼纳什均衡结果。囚徒困境博弈中的可行支付集(-8,-8)(-1,-1)(-10,0)(0,-10)(抵赖,抵赖)(坦白,坦白)(坦白,抵赖)(抵赖,坦白)子博弈精炼均衡可达到的可行集(-8,-8)(-1,-1)(-10,0)(0,-10)(抵赖,抵赖)(坦白,坦白)(坦白,抵赖)(抵赖,坦白)(2)古诺寡头垄断的无限重复博弈在古诺寡头垄断重复博弈中,某种形式的合谋就有可能作为均衡结果出现。考虑冷酷策略:首先选择生产qi=qM/2(qM表示垄断情形下的最优产量);继续选择qi=qM/2,直到有一个企业选择qj≠qM/2,然后永远选择qi=qic(qic表示企业i的古诺均衡产量)。如果:)()1(329)(64)(928)(222cacaca即当δ≥9/17,则默契合作(合谋)将是一个子博弈精炼均衡结果。特别地,对任何q*∈[qM/2,qic]都是冷酷策略精炼纳什均衡的一个特定结果。设想参与人选择如下冷酷策略:首先选择生产qi=q*;继续选择qi=q*,直到有一个企业选择qj≠q*,然后永远选择qi=qic(qic表示企业i的古诺均衡产量)。则当以下条件满足时,企业i没有积极性偏离q*:其中,于是,只要又因对任何q*∈[qM/2,qic]都有:**)2(*qqca4*)(2qcad179*3)(5*)3(9qcaqca*3)(5*)3(9*qcaqcaciddcid111*故当δ≥9/17

1 / 77
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功