第五章有限理性和进化博弈本章介绍有限理性基础上的进化博弈分析。完全理性在现实中很难满足,当社会经济环境和决策问题较复杂时,人们必须存在很大的理性局限。有限理性对人们的决策、行为选择方式有很大影响,有限理性基础上的博弈分析与完全理性博弈分析也有很大区别。进化博弈分析是有限理性博弈分析的基本框架。本章介绍以最优反应动态和复制动态为核心,以进化稳定策略为基本均衡概念的进化博弈分析,包括基本方法、概念和各种经典模型等。本章分四节5.1有限理性博弈及其分析框架5.2最优反应动态5.3复制动态和进化稳定性:两人对称博弈5.4复制动态和进化稳定性:两人非对称博弈5.1有限理性博弈及其分析框架5.1.1有限理性及其对博弈的影响5.1.2有限理性博弈分析框架传统的博弈均衡,特别是Nash均衡及其完美是以博弈规则、参与人的理性以及参与人的得益都是共同知识(commonknowledge)为前提的,这并不完全符合现实。进化博弈的基本思路是:有限理性的经济主体不可能正确地知道自己所处的利害状态,它只是通过它认为最有利的策略逐渐模仿下去,最终到达一种均衡状态。在这样变化的系统中,采用得益高的策略的参与人的比率逐渐上升。5.1.1有限理性及其对博弈的影响博弈论分析研究的是参与人在特定的问题中的行为和策略,因此重要的不是人们始终一贯的理性,而是在具体问题上的理性,因此在具体问题中完全理性的假定仍有可能成立,但理性的局限的情况也很普遍。在分析复杂问题时就可能具有很大的理性局限性。如果具体的博弈中博弈方不满足完全理性的假设,称为有限理性博弈方(boundedlyrationalplayer),相应地有有限理性博弈。完全理性包括理性知识、分析推理能力、识别判断能力和准确行为能力等多方面完美性要求,其中任何一方不完美就不是完全理性。但有限理性有多种情况和层次:较高的层次和较低的层次。有限理性意味着博弈方往往不会一开始就找到最优策略而是会“在战争中学习战争”,必须通过“试错”来寻找较好的策略。在有限理性博弈中具有真正稳定性和较强预测能力的均衡,必须是能够通过博弈方的模仿、学习的调整过程达到的,具有能经受错误偏离的干扰的均衡,是在受到少量干扰后仍然能够“恢复”的均衡。这时博弈分析的核心不是博弈方的最优策略的选择,而是有限理性的博弈方组成的群体成员的策略调整过程、趋势和稳定性,这里的稳定性是指采用特定策略的成员的比例不变,而非某个博弈方的策略不变5.1.2有限理性博弈分析框架有限理性博弈分析的关键是确定博弈方学习和调整的模式(机制),进化博弈主要采用的是生物进化的“模仿者动态”机制模拟博弈方的学习和动态调整,但由于博弈方的学习能力的差异,需要多种机制来模拟。最优反应动态:有快速学习能力的小群体成员的反复博弈复制动态:学习速度很慢的成员组成的大群体随机配对的反复博弈进化稳定策略(ESS)5.2最优反应动态5.2.1协调博弈的有限博弈方快速学习模型5.2.2古诺调整过程5.2.1协调博弈的有限博弈方快速学习模型前提:少数有快速学习能力的有限理性的博弈方之间的反复博弈和策略进化这种分析框架对博弈方的理性假设为相当快的学习能力,虽然在复杂局面下准确判断分析和运用预见性的能力较差,但它们能对不同策略的结果作出比较正确的事后评估并相应地调整策略。5.2.1协调博弈的有限博弈方快速学习模型50,500,4960,6049,0A博弈方2BAB协调博弈通过纳什均衡分析不难发现,该博弈有两个纯策略纳什均衡A,A)和(B,B)。这两个纳什均衡中,后者明显帕累托优于前者。前者是相对于后名的风险上策均衡。因此、如果是在完全理性博弈方之间进行这个博弃,通常的预测结果应该是(B,B),但如果我们考虑博弈方相互对对方理性的信任问题,或者对风险的敏感性等因素,那么风险上策均衡(A,A)可能是更好的预测:也就是说,由于该博弈是一个有多重纳什均衡的博弈,因此在一次性博弈中,博弈结果也有不确定性,很难作出完全保险的预测。这种协调博弈正是人们在决策方面经常遇到的难题。5.2.1协调博弈的有限博弈方快速学习模型50,500,4960,6049,0A博弈方2BAB协调博弈12345•假设共有5个博弈方分别处于如图中圆周上的5个位置上(可理解为5户居民环山而居),每户居民都与各白的左右邻居反复博弈。反应、策略调整规则推导BtxAtxtxtxBtxtxAiiiiii时,采用;当时,采用当的得益:采用的得益:采用61/22)(61/22)(60)](2[0)(49)](2[50)(假设为在t时期博弈方i的邻居中采用A策略邻居的数量,该数量有0、1、2三个可能的值。采用B策略邻居的数量相应为2-,也有0、1、2三个可能值。txitxi50,500,4960,6049,0A博弈方2BAB协调博弈12345BtxAtxtxtxBtxtxAiiiiii时,采用;当时,采用当的得益:采用的得益:采用61/22)(61/22)(60)](2[0)(49)](2[50)(由于取0、1、2三个整数。因此上述反应规则实际就是。如果在t时期博弈方i的两个邻居中只要有1个采用A,那么博弈方在在t+1时期采用A.如果两个邻居都没有采用A。那么博弈方i在t+1时期采用B。特点:博弈方i在t+1时期的策略与自己在第t期采取策略反而没有直接关系;txi50,500,4960,6049,0A博弈方2BAB协调博弈12345最优反应动态模拟:初次博弈1个AABABABABBBAAAAABAAAABAABB5个博弈方经过4个时期的调整,最终收敛到了所有博弈方都采用A的稳定状态。初次博弈相邻2个AAAAAAAABAABBBAA初次博弈相连3个ABAABAAAAAA结论:除了初次博弈时所有博弈方都采用B的一种情况以外,从其余所有的情况出发,经过或多或少时期的最优反应动态法则的调整,最终都会收敛到所有博弈方都采用A的稳定状态。上述分析证明了在上述设定下,所有32种可能种初次博弈情况中,只有一种是稳定于所有博弈方采用B的状态,其余31种都会收敛到采用A的状态。这说明所有博弈方都采用A策略和所有博弈方都采用B策略都是有限理性博弈方进行协调博弈的稳定状态。所有博弈方都采用A的稳定状态是具有稳健性的,相反,所有博弈方都采用B的均衡状态却不是稳健的。在上述协调博弈最优反应动态的两种稳定状态中,只有所有博弈方都采用A的一种同时具有在博弈方的动态策略调整中会达到,又对少量偏离的扰动有稳健性两个性质。同时具有这两种性质的稳定状态,在进化博弈论中被称为“进化稳定策略”A称为进化稳定策略,B则不是进化稳定策略。因为一旦某个博弈方偏离B,那么最优反应动态会使博弈方的策略离该状态越来越远,因此该均衡并不是真正稳定的。5.2.2古诺调整过程古诺模型反应函数23231221qqqq1博弈方12.5博弈方23最优反应动态模拟:不难看出,上述动态调整过程趋向收敛于两寡头各生产2单位产量,也就是完全理性博弈的古诺产量,也就是惟一的纯策略纳什均衡。这正是这个有限理性博弈的稳定状态,由于这个稳定状态也具有对微小扰动的稳健性,因此它是这个博弈在上述最优反应动态下的进化稳定策略(ESS)。假设:这两个博弈方都是有限理性的,但都属于知道自己的反应函数(意味着知道自己的利润函数),只是不知道对方的利润、反应函数,也没有预见能力。21.51.7532.2152.2541.8751.9375……5.3复制动态和进化稳定性:两人对称博弈5.3.1签协议博弈的复制动态和进化稳定策略5.3.2一般两人对称博弈复制动态和进化稳定策略5.3.3协调博弈的复制动态和进化稳定博弈5.3.4鹰鸽博弈的复制动态和进化稳定策略5.3.5蛙鸣博弈的复制动态和进化稳定策略5.3.1签协议博弈的复制动态和进化稳定策略签协议博弈:1,10,00,00,0同意博弈方2不同意同意不同意两个纯策略纳什均衡:(同意,同意),(不同意,不同意),前一个纳什均衡帕累托优于后一个纳什均衡。假如是在完全理性的基础上进行该博弈,可以预期结果是(同意,同意)。下面是在理性层次较低的有限理性博弈方组成的大群体成员随机配对反复博弈的分析框架内进行分析。5.3.1签协议博弈的复制动态和进化稳定策略2)1(00)1(00)1(1xuxuxuxxuxxxunyny假设群体中采用“同意”博弈方的比例x,则不同策略期望得益和平均得益为:签协议博弈:1,10,00,00,0同意博弈方2不同意同意不同意根据上述结果可以看出,除非x=0(即所有博弈方都是“不同意”类型),否则两类博弈方的得益就有明显差异,“同意”类型博弈方的得益高于“不同意”类型的,也高于平均得益(因为0<x<1),“不同意”类型的则低于“同意”类型的得益和平均得益。只要博弈方有基本的、包括直觉和经验的判断能力,早晚会发现上述得益差异,得益较差类型的博弈方或早或迟会发现改变策略对自己是有利的,并开始模仿另一种类型的博弃方。这意味着两种类型博弈方的比例x和1-x不是固定不变的,而是随时间变化的,可以写成时间的函数。2)1(00)1(00)1(1xuxuxuxxuxxxunyny•博弈方策略类型比例动态变化是有限理性博弈分析的核心,其关键是动态变化的速度•模仿的速度取决于两个因素,一是模仿对象的数量大小(可用相应类型博弈方的比例表示),因为这关系到观察和模仿的难易程度;二是模仿对象的成功程度(可用模仿对象策略得益超过平均得益的幅度表示),因为这关系到判断差异的难易程度和对模仿激励的大小。以采用“同意”策略类型博弈方的比例为例,其动态变化速度可用下列微分方程反映:3222)1()()(xxxxxxxuuxdtdxy动态微分方程的相位图dx/dtx010.53222)1()()(xxxxxxxuuxdtdxy稳定状态、不动点:x*=0,x*=1可以看出,只有开始时所有博弈方都采用“不同意”策略,没有一个博弈方采用“同意”策略,即x=0。除此以外,该博弈从其他所有初始情况出发的复制动态过程,最终都会使所有博弈方都趋向于“同意”,也就是x=1。需要注意的是,即使上述学习过程已经停止了,意味着所有博弈方都通过学习找到了最好的策略,也不能排除博弈方还会“犯错误”,也就是说博弈方仍然可能偏离上述复制动态收敛到的纳什均衡策略。这给我们提出的进一步问题是:如果博弃方的策略偏离复制动态收敛到的稳定状态,学习过程是否还会再回到同样的稳定状态?或者换句话说,复制动态收敛到的稳定状态对于少量“错误”的干扰具有稳健性吗?进化稳定策略的检验2)1()1(000)1(101)1(nynyuuuuu意”意”策略选择了“不同比例的博弈方偏离“同ESSx一个进化稳定策略是在上述复制状态下的因此1因为且接近于1,因此犯错误博弈方的期望得益远远低于没有犯错误的博弈方,也远低于群体平均得益,因此犯错误的博弈方会逐步改正错误,最终仍然会趋向于x=1,即所有博弈方都采用“同意”策略。01yu进化稳定策略的检验2)1(000)1(10)1(ynnyuuuuu意”同意”策略选择了“同比例的博弈方偏离“不不是进化稳定策略00xuuny5.3.2一般两人对称博弈复制动态和进化稳定策略一般模型a,ac,bd,db,c策略1博弈方2策略2策略1策略2一般2X2对称博弈•进化博弈设定是在一个大群体的成员中进行随机配对的反复博弈。•基本模型是两个博弈方之间的对称博弈。含义是两个博弈位置是无差异的。•其中a、b、c、d可以是任何得益,根据问题设定。复制动态分析2121)1()1()1(uxuxudxcxubxaxu)])(1()()[1())(1(21dbxcaxxxuuxxdx/dtx1x])1([)(2111uxx