科学发展与社会和谐的互动机制研究何伟电话:13983785167Email:cqswdxhw@tom.com博士教授博弈论系列选题背景•竞争是一切社会、经济关系的根本基础。•人是经济人具有自利行为。•构建社会主义和谐社会,合作是关键。•在没有集权约束的情况下,能否出现合作?•在面临“合作”还是“不合作”这两难选择中,你应该怎样做?有没有一个“最优的”的策略?•合作及其实现路径是什么?•作为社会经济活动的参加者和制度设计者,如何才能促进有效的合作?…...…...对这些问题的回答极大地影响着人们在与他人的社会、政治、经济交往时的思维和行为。1.完全公平的政治是可能存在的吗?(发展与和谐、效率与公平、竞争与合作的关系)1.1民意能保证决策的正确性吗?人们都承认:民主制度比独裁制度要好。但是为什么民主比独裁好?1.少数服从多数。因为胳膊反正拗不过大腿,真要打起来,少数势必打不过多数。民主乃是人类有史以来发现的唯一的和平变革方式。2.多数人的决定比少数人的明智。3.多数人也可能犯错误,可是在意见变为决策的过程中,正确意见总会出现,而且会逐渐为多数人接受。请用“是”、“不是”回答(一)•“请问,青少年犯罪率上升,你担心吗?”•“你认为在我们的中小学里缺乏严格的纪律训练吗?”•“你认为年轻人欢迎在他们生活中搞一些模拟军事活动吗?”•“对青年人提出挑战性的要求,他们会积极响应吗?”•“也许你赞成重新恢复兵役?”•_____引自《是,首相》民主反映民意,民意能保证决策的正确性吗?请用“是”、“不是”回答(二)•“请问,你是不是担心爆发战争?”•“你对军备的增长很不高兴吧?”•“你认为发给青年人枪支并教他们如何杀人,有危险吗?”•“你认为违反人们的意志,强迫他们拿起武器是错误的吗?”•“也许你反对恢复兵役?”_____引自《是,首相》民主反映民意,民意能保证决策的正确性吗?投票箱里的妖怪•A、B、C三位竞选某一公职,而9位选民的偏好如下:•2位认为A是第一,B第二,C第三;•4位认为C是第一,A第二,B第三;•3位认为B是第一,A第二,C第三。•选民的选择不变,三种不同的投票规则,产生了三位不同的优胜者,这个结果叫人深思,似乎决定胜负的不是个人的政治主张,而是游戏规则。•那么,究竟谁才是“民众真正的期待”呢?1.2Arrow(阿罗)不可能性定理(完全的民主可能存在吗?)在正常理性的情况下,即使知道所有投票者的偏好,也不可能通过一定的方法从每个投票人的偏好次序得出整个集体的偏好次序,不可能通过一定的程序准确地表达集体偏好,从而促成“完美”的公共决策。阿罗在福利经济学上的这一贡献使他获得1972年诺贝尔经济学奖。Arrow不可能性定理的换一种说法:社会的选择方法不可能既是有效率的,又是民主的。物理学上的“测不准原理”(1927年海森伯提出测不准关系),说明对粒子的坐标和动量不可能同时进行准确的测量。hpxh是普朗克常数。阿罗从此得出:“对于每一存在真正意见分歧的选择,存在一个独裁者。”这就是说,在社会选择中,国家的权威是不可避免的。(构建社会主义和谐社会与党的领导)“科学发展观,核心是以人为本,基本要求是全面协调可持续,根本方法是统筹兼顾。”(在中国共产党第十七次全国代表大会上的报告)第一要义是发展,2.合作及其实现途径零和博弈与非零和博弈研究竞争性问题的理论和方法博弈论零和博弈非零和博弈你输我赢(下棋,体育比赛)你死我活你的也是我的你好我好大家都好皆大欢喜有钱大家赚2.1合作问题的提出竞争是一切社会、经济关系的根本基础两个基本假设:1人都是利己主义者2不存在集权怎么会产生合作呢?最著名的回答是由托马斯·霍布斯在300多年前给出的,他悲观地认为,在有政府存在之前,自然王国充满着由自私的个体的残酷竞争引起的矛盾,生活显得“孤独、贫穷、野蛮和浅薄”。按照他的观点,没有集权的合作是不可能产生的。因此,一个强有力的政府是必要的。我们所见到的合作现象•为了国家安全而寻求的合作•关税谈判•欧佩克的合作•两个公司商定共同的价格水平•管理者之间的互通有无•…….我们所见到的不合作现象•违背合同,不遵守协议•违规行为•工作中互相拆台,互不支持•记者为得到更多消息而对消息来源加以保密•体育比赛•向对方提供具有误导性、欺骗性等不真实信息•房地产开发商有意隐瞒房源、价格等信息,诱使消费者购房•……不合作是否能给各方带来好处?个体对自身利益的追求整体的利益损失个体利益的更大损失我们的假设是:每个个体都在追求自身利益最大化,但问题是:价格大战贸易壁垒这一类问题都是“囚犯的困境”。实事上,许多重要的政治、社会和经济过程的最好的模型都是以“囚犯困境”为基础的。基本模型“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(向警察坦白,从而背叛他的同伙),或者保持沉默(不向警察坦白,也就是与他的同伙合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以警方就给这两个囚犯来了一点儿刺激:(1)如果他们保持沉默,也就是与对方合作,则他们会被无罪释放(R=3:对双方合作的奖励)。(2)如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金(T=5:对背叛的诱惑)。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏(S=0:给笨蛋的报酬)。(3)如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏(P=1:对双方背叛的惩罚)。TRPS假设“囚犯困境”式的游戏可以进行多次乃至无限多次:如果两位自私者玩一次这个游戏如果两位自私者玩有限次这个游戏如果两位自私者玩无限次这个游戏结论背叛背叛????在非零和对策情况下,如何选择我们的策略呢?显然,Nash均衡点并没有给我们提供一个满意的结论。那么,在这样一个两难选择中到底能不能找到令人满意的答案呢?难道我们真的无路可走了吗?对未来的考虑,是会影响现在的决策的•如果对策者想将对策继续下去,就一定会考虑未来的收益,因而要考虑未来对现在的影响。•一般说来,对策者可能会认为未来的收益并没有当前的收益那么重要。折扣系数w用来反映未来对现在影响程度的一个常数在考虑未来利益的情况下,是否存在最优策略?命题1如果折扣系数w足够大,则不存在独立于对方所采用的策略的最优策略。答案:一个令人伤心的命题!一个特定策略的有效性不仅取决于它自己的特性,而且取决于它要相遇的其他策略的特性。不存在单一的最优策略(独立于对方的最优策略)的论证留下了这样一个问题,在两个个体有足够大的概率打交道的情况下,会出现什么样的行为模式。2.2第一次计算机模拟竞赛(目的:为寻找“最佳”的对策策略)为寻找“最佳”的对策策略,美国密西根大学的RobertAxelord教授组织了一次别开生面的的计算机竞赛。竞赛方式:每位参赛者提交一个体现在每一步选择合作或不合作规则的程序;每个程序要和所有其它程序比赛,还要和一个“随机”程序(随机地选择合作或背叛)比赛;每次比赛的局数为200次;记录下每个参赛程序的得分。合作背叛合作R=3,R=3S=0,T=5背叛T=5,S=0P=1,P=1“一报还一报”的平均得分:504分前8名参赛者提供的游戏规则都是“善良的”,它们的平均得分是:472-504分后7名都是不善良的,它们的平均得分为:401分“善良的”规则:从不首先背叛1.善有善报不首先背叛或至少在游戏快要结束之前不背叛,是区分这次计算机“囚犯困境”竞赛中成功的规则和不成功的规则的唯一特性。2.除了善良,还需要宽容宽容性对方背叛之后的合作倾向第一名“一报还一报”:一次惩罚后就让过去的过去了。第八名“弗雷德曼”:决不首先背叛,但一旦受到挑衅,就永远报复下去。(得理不让人,太缺少宽容性)3.“恶有恶报”步1,2011111232323232323232步21,4032324444444444444444步41,6044444444444444444444步61,8044444444444444444444步81,10044444444444444444444步101,12044444444444444444444一个狡诈的规则:“乔斯”基本想法:试图偶尔背叛而不受到惩罚。比如,它十次会有一次在对方合作之后背叛,而不是在对方合作后总是合作。“一报还一报”与“乔斯”的对局结果(236分-241分〕1-双方合作;2-“一报还一报”合作;3-“乔斯”合作;4-均不合作这次竞赛的的很重要的教训是认识到在双方竞争的环境下,避免反射效应是很重要的。不善良的规则在比赛中表现不佳。“乔斯”的平均得分为304分,排在第12位。进一步的分析表明•许多人在游戏中没有受到挑衅就早早开始背叛,这个特点从长远来看是要付出大代价的。•任何参赛者所显示出的宽容性比理想的要小得多。•最与重不同的规则“DOWNING”,由于对其它人的初始假设太悲观而做了蠢事。为了更好地应付双方竞争的环境,有许多东西要学。即使是政治学、社会学、经济学、心理学和数学方面的策略专家,也会犯诸如太计较自己的利益、不够宽容、和对对方的反应太悲观等错误。2.3第二次计算机模拟竞赛(目的:为了进一步验证“一报还一报”策略的成功)为了验证“一报还一报”策略的胜利不是偶然的,Robert教授组织了第二次计算机模拟竞赛。第二轮竞赛的参赛者,都得到了一份关于第一轮竞赛的详细分析报告。他们不仅知道第一轮竞赛的结果,而且知道用于分析成功的思想和概念以及所发现的易犯的错误。因此,第二轮比赛比第一轮比赛有一个更高的起点。第二次比赛共有62个程序,它们的提供者来自:计算机科学、物理学、数学、心理学、经济学、政治学、社会学和进化生物学的教授,他们来自美国、加拿大、英国、挪威、瑞士和新西兰。参加第一轮比赛的对策论专家们也被邀请再试一次。在第二轮竞赛中,63个规则(包括随机程序)在循环赛中有3969个配对方式,共有上百万次的对局。谁是第二次胜利者?胜利者还是:“一报还一报”策略•超过一半的参赛程序是善良的。显然大部分参赛者吸收了第一轮中首先背叛没有好处的教训。•前15名中只有一个是不善良的。后15名中只有一个是善良的。规则是否善良与最后得分的相关性为:0.58“一报还一报”是第一轮中提交的最简单的程序,但它赢得了竞赛。它也是第二轮中最简单的程序,又赢得了第二轮竞赛。虽然所有的参赛者都知道“一报还一报”赢得第一轮竞赛,但没有人能设计出比它更好的程序。(多伦多大学阿纳托尔·拉帕波特教授又一次提交)2.4合作的建立及进化一个成功的决策规则所具有的4个特征善良的:只要对方合作你就合作,避免冲突。它的善良性防止陷入不必要的麻烦。可激怒的:面对他人无理的背叛要坚决反击,它的报复性使对方试着背叛一次后就不敢再背叛。宽容的:在反击挑衅之后要显出宽容来,它的宽容性有助于重新恢复合作。清晰的:行为要简单明确,容易让对方识别和适应。它的清晰性使它容易被对方理解,从而引出长期的合作。“一报还一报”为什么能够取胜?“一报还一报”能为大家所遵守吗?命题2(证明略)当且仅当折扣系数w足够大时,“一报还一报”是集体稳定的。且w是T、R、P、S的函数。①如果w大于等于2/3,“一报还一报”是集体稳定的。②如果w小于2/3,“背叛和合作交替”策略会占便宜;如果w小于1/2,“总是背叛”策略会占到便宜。只要未来对现在有足够大的影响,没有人能够通过采用其它策略而干得更好。长期的相互关系对合作稳定性的重要性一旦一个制造商开始走下坡路,即使是他最好的客户也开始以抱怨质量问题、不符合规格要求、到货迟缓或各种各样的原因而要求拒付货款。商业中的最有力的道德执法者是持续的关系,即人们相信你能与客户或供应商继续做生意。当一个失败的公司失去这个自动的执法者,任何手段都将无法代替。Mayer,1974在一个小镇或同一种族的邻里之间就容易