第15章-精炼贝叶斯Nash均衡的应用

宝贝o聪
1 ℃
2020-04-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第四部分：不完全信息动态博弈第十五章精炼贝叶斯Nash均衡的应用主要内容：一、不完全信息下的讨价还价谈判二、有限重复“囚徒困境”的信誉模型ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng主要内容：一、不完全信息下的讨价还价谈判二、有限重复“囚徒困境”的信誉模型第十五章精炼贝叶斯Nash均衡的应用ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•考察企业(用F表示)与工会(用U表示)就工资问题进行的谈判。为简化分析，假定企业雇佣的工人数是一定的。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•用wr表示工会成员不受雇于该企业时仍可获得的收入即工会的保留工资，π表示企业的利润。假设π的真实值为企业的私人信息，只有企业知道；工会不知道π的真实值，但知道π在区间[πL,πH]上服从均匀分布。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•所以，利润π可以看成是企业的类型。为简化分析，不妨假定wr=πL=0。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•假设工资谈判最多持续两个时期。•在第一个时期，工会提出工资要价w1，如果企业接受该要价，则博弈结束。此时，工会和企业的收益分别为w1与π-w1。如果企业拒绝要价，博弈进入第二时期，工会给出第二个工资要价w2。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•如果企业接受这一要价，则工会和企业的收益现值分别为和。这里既反映了折现因素，又体现出因谈判延长使有效的合同期较第一期变短而带来的收益减少。如果企业拒绝工人的第二个要价，则博弈结束。双方的收益均为0。2w2wControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng自然HL[p][1-p]HwLw1A1RFFFFU,HHHww,LHLww,HLHww,LLLww,HHHww0,0,LHLwwUU,HHHww0,0[q][1-q][r][1-r]F0,0,LHLww0,0,HLHww0,0,HLHww0,0,LLLww0,0,LLLwwFFFFFFF2A2R2A2R2A2R0,02A2R2A2R2A2R2A2R2A2RHwLwHwLwHwLwHwLwHwLw1A1R1A1R1A1RControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•在完整的博弈(而非上图所示的简化后博弈)中，工会的一个战略是第一期的要价w1和第二期的要价函数w2(w1)，该函数表示在每一种可能的要价w1被拒绝后的w2•在每一信息集中，工会的推断为这些决策结上的概率分布。用表示工会在第一期的推断，用表示(第一期要价w1被拒绝后)工会第二期的推断。1()21()wControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•在模型中，企业的一个战略包含了两个决策。•如果企业的利润水平为π时，愿意接受第一期的要价w1则A1(w1|π)=1，如果企业利润水平为π并将拒绝w1时，则A1(w1|π)=0。类似地，如果企业利润为π，且第一期的要价为w1，企业愿意接受第二期的要价w2，则A2(w2|π,w1)=1，相同条件下企业拒绝w2，则A2(w2|π,w1)=0。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•博弈存在惟一的精炼贝叶斯Nash均衡(1)工会第一时期的工资要价为如果企业利润π超出则企业接受；否则拒绝。122243Hw*1122243Hw*1w*1wControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng(2)如果第一期的要价被拒绝，工会修正其对企业利润的推断，认为π服从区间的均匀分布。工会第二期的工资要价(在被拒绝的条件下)为如果企业利润π高于w2，则企业接受要价，否则便拒绝。*10,*1w***12122243HwwControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•在每一期，高利润企业接受工会的要价，而低利润企业拒绝，并且工会第二期的推断反映出高利润企业将会接受第一期要价的事实。•同时，低利润企业忍受一个时期的罢工，以降低工会第二期的工资要价。利润非常低的企业发现，即使第二期降低了的工资要价仍然过高，无法接受，便再次拒绝。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng主要内容：一、不完全信息下的讨价还价谈判二、有限重复“囚徒困境”的信誉模型第十五章精炼贝叶斯Nash均衡的应用ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•在现实的博弈中，参与人对其他参与人的支付及知识都可能存在不完全信息。例如，一个参与人对其对手支付的不确定，以及对其对手的知识(如对手是否理性、理性程度如何)的不确定等等。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•KMRW信誉模型证明：正是博弈中的这种不完全信息会对博弈的均衡产生影响，使得在完全信息中不可能出现的“合作”，在不完全信息情况下出现。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•KMRW信誉模型的关键在于：假设关于参与人类型的信息是不完全信息，类型不同，预期的博弈方式也不同，所以每个参与人关心其他参与人对自己类型的推断。这样，在信誉模型中每个参与人的信誉就可概括为其他参与人关于他的类型的当前的信念。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfengKMRW模型的阶段博弈为：8,8-2,1010,-21,121背叛合作合作背叛ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•假设参与人1为完全理性的参与人，而参与人2可能是完全理性的，也可能是非完全理性的，是否完全理性参与人2自己清楚，但参与人1不知道。在这种情况下参与人2就存在两种类型。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•假设参与人2是非完全理性的可能性为p，是完全理性的可能性为1-p。•这里关于参与人2类型的推断即为参与人2的信誉。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•假设非完全理性的参与人在博弈中只会采取“一报还一报”的战略(或者触发战略)。•参与人2一旦偏离了“一报还一报”战略，则“参与人是完全理性的”就成为共同知识，于是此后就不会再有参与人选择合作。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•在这种情况下，理性的参与人2就有动机去假扮“非完全理性”类型。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng在重复博弈中，博弈的顺序如下：•“自然”选择参与人2的类型。参与人2只能选择“一报还一报”战略的概率为p，可以选择任意战略(即“完全理性”)的概率为1-p。参与人2知道自己的类型，但参与人1不知道参与人2的类型；(1)参与人1和2进行以上图所示博弈为阶段博弈的有限重复博弈；(2)参与人1和2在重复博弈中的支付为各个阶段博弈支付的简单之和，即不考虑贴现。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•只要阶段博弈的重复次数足够大，参与人2为非完全理性的可能性足够高，那么参与人就可以在阶段博弈中形成合作，即在上述不完全信息重复博弈中，当T和p足够大时，存在这样的精炼贝叶斯Nash均衡——在均衡中，参与人在某些阶段博弈中都选择“合作”。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng讨论T=2的情况：•用C表示“合作”，B表示“背叛”。•与在完全信息有限重复囚徒困境中最后一个阶段的情况相同，在上述重复博弈的第二阶段即最后阶段，参与人1和完全理性的参与人2都将选择C，而非完全理性的参与人2的选择依赖于参与人1在第一阶段的选择；在博弈的第一阶段，非完全理性的参与人2选择C，而完全理性的参与人2则会选择B。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•现在只需考虑参与人1在第一阶段的选择(用X表示)，他的选择将会影响到非完全理性的参与人2在第二阶段的选择。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•如果X=C，则参与人1在重复博弈中的期望收益为非完全理性参与人2完全理性参与人2参与人1t=1t=2CBXXBB[8(1)(2)][10(1)1]191pppppControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•如果X=B，则参与人1在重复博弈中的期望收益为[10(1)1][1(1)1]92ppppp非完全理性参与人2完全理性参与人2参与人1t=1t=2CBXXBBControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng•因此，如果，则参与人2将会选择C。•即p≥3/10。也就是说，如果参与人2为非完全理性的可能性不小于3/10的话，参与人1在第一阶段的最优选择为C即选择“合作”。•在以下的讨论中，假设p≥3/10。19192ppControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng讨论T=3的情况：•给定p≥3/10，如果参与人1和完全理性的参与人2在第一阶段选择C，则参与人1在第二阶段开始前对参与人2类型的推断仍为[p,1-p]，所以博弈在第二、三阶段的均衡路径就与前面X=C相同。ControlScienceandEngineering,HUSTAllRightsReserved,2007,LuoYunfeng考察完全理性的参与人2的选择•假设参与人1在第一阶段选择C，完全理