什么是统计建模和统计建模大赛□荣智/文国家统计局定于2008年开展面向全国政府统计系统的职业技能竞赛活动——统计建模大赛,各省、自治区、直辖市统计局及国家统计局机关将分别组队参加比赛。大赛对于提高统计队伍的职业素养和专业能力,培养统计工作者的创新精神、团队意识,塑造积极进取、团结合作的统计文化具有重要意义。一、什么是统计建模统计建模是以计算机统计分析软件为工具,利用各种统计分析方法对批量数据建立统计模型和探索处理的过程,用于揭示数据背后的因素,诠释社会经济现象,或对经济和社会发展作出预测或判断。随着计算机和网络技术的快速普及和广泛发展,我们面对着数据和信息爆炸的挑战,如何迅速有效地将数据提升为信息、知识和智能,是统计工作者面临的重要课题。而统计建模将统计方法、计算机技术完美结合,带动以数据分析为导向的统计思维,发现和挖掘数据背后的规律,为经济社会的发展提供更好更多的统计信息。大赛题目一般来源于社会、经济和管理科学等方面经过适当简化加工的实际问题,不要求参赛者预先掌握深入的专门知识,只需要学过统计专业的基本内容,较为熟练地掌握统计分析方法,并且具备一定的统计工作经验。题目有较大的灵活性供参赛者发挥其创造能力。参赛者应根据题目要求,完成一篇包括模型的假设、建立和求解、计算方法的设计及计算机实现、结果的分析和检验、模型的改进等方面的论文(即答卷)。大赛评奖以假设的合理性、建模的创造性、结果的正确性和文字表述的清晰程度为主要标准。我们从下面一个例子,看一看什么是统计建模。案例:从交通事故数据能够得到什么结论?基本数据:各省市自治区改革开放以来的交通事故数据。数据应该包括机动车(货运,大客车、小轿车、农用车、拖拉机、各种摩托车和工程车等)、非机动车(自行车、三轮车)、其他(如电动、加力自行车和机动三轮车,虽然可能非法)、残疾人车、兽力车、行人等等;数据也应该包括事故等级,事故个数、死亡人数、财产损失、受伤人数等;肇事者的职业、年龄、驾龄、教育程度、是否酒后驾车(很重要!)、是否疲劳驾车、是否打手机、车速、路况(街道、普通公路、等级公路、高速公路)、事故时间段等等(这些都是交管部门的标准记录)。数据应该覆盖至少10年(最好有月度数据)。附加数据:各省市自治区相应年份的经济资料,包括各种道路的里程、各种机动车的保有数等。问题:1.找出各种车辆的各种事故的概率(及影响因素)、这些事故数量的影响变量(比如年龄因素、是否喝酒、山区或闹市区、时间段、何种道路、车辆种类,等等)。2.找出在什么因素(变量)下最容易出事、什么因素(变量)下最容易造成重大人身伤害、什么因素(变量)造成财产损失最大。3.找出各省市自治区事故的各自特点,并且按照事故模式把各省市自治区分类,同时按照经济分类进行比较。说明交通事故与经济发展之间的关系。4.找出各地和全国事故的趋势,以及这些趋势与经济(包括道路里程、机动车数量等)之间的关系。并且对未来事故进行预测。5.对各省市自治区,根据各种与交通事故相关的变量进行排序。要求:一切根据数据。任何所采用的统计方法要说明条件和假定。任何输出的结果要有说明和解释。根据上述案例,不难形成这样一个判断:在一定意义上,统计建模是一种命题作文,它有以下几个特点:一是统计建模从经济社会发展的实际情况出发,找出事物发展的趋势和规律,如果脱离了这一点,统计建模也就失去了意义。二是统计建模从数据出发,找出数据之间的联系,用数据说话,数据是统计建模最大的特质。三是统计建模将统计分析方法和计算机技术有效结合,包括收集数据、利用统计分析软件对数据进行分析等。四是统计建模涉及数据收集、整理、分析等方面,对建模者的能力要求较为全面。二、竞赛中的常见题型赛题题型通常包括三个部分:(一)实际问题背景问题可以是社会、经济、管理、生活、环境、自然现象、工程技术方面的问题,也可以是现代科学中出现的新问题。任何问题都可以成为统计建模的问题。(二)若干假设条件有如下几种情况:1.只有过程、规则等定性假设,无具体定量数据;2.给出若干实测或统计数据;3.给出若干参数或图形;4.蕴涵着某些机动、可发挥的补充假设条件,参赛者可以根据需要自己收集或模拟产生数据。(三)要求回答的问题往往有几个问题,而且经常没有唯一的答案。一般有以下两种:1.比较确定性的答案(基本答案);2.更细致或更高层次的讨论结果(往往是讨论最优方案的提法和结果)。三、统计建模的步骤(一)明确问题。统计建模强调问题导向,因此,首先要明确需要求解的问题。(二)收集信息:在明确问题的基础上,根据题目的要求,从可用的数据库中收集和整理出各种必要的信息。(三)模型假设:利用统计分析方法,对问题做出必要的、合理的假设,使问题的主要特征凸现出来,忽略问题的次要方面。(四)模型构建:根据所做的假设以及事物之间的联系,构造各种量之间的关系,把问题转化为统计分析问题,注意要尽量采用适当的统计分析模型及方法。(五)模型求解:利用构建的模型进行计算,并得到与问题有关的一些信息。如果必要,可对问题作出进一步的简化或提出进一步的假设。(六)模型分析:对所得到的信息进行分析,形成判断,特别要注意当数据变化时所得结果是否稳定。(七)结果检验:分析所得结果的实际意义,与实际情况进行比较,看是否符合实际,如果不够理想,应该修改、补充假设,或重新建模。(八)撰写论文:在上述基础上形成论文,论文应包括问题的阐述、假设的叙述、模型构建的过程、模型求解结果、主要结论以及对结论的评价。四、论文的基本内容提交的论文应包括三个部分:(一)标题、摘要部分题目——写出较确切的题目摘要——200-300字,包括模型的主要特点、建模方法和主要结果。(二)主体部分1.问题提出,问题分析。2.模型建立:(1)提出假设条件,明确概念,引进参数;(2)模型构建;(3)模型求解。3.计算方法设计和计算机实现。4.主要的结论或发现。5.结果分析与检验。6.讨论——模型的优缺点,结果的意义。7.参考文献。(三)附录部分计算程序,框图。各种求解演算过程,计算中间结果。各种图形、表格。五、统计建模比赛(一)对参赛人员的要求统计建模大赛以小组为单位,每小组3人,要共同完成好统计的命题作文,需要小组成员合理分工、密切配合。典型的分工是:数据收集和处理、统计分析方法和模型、论文写作。但分工其实不用那么明确,小组之间的讨论、交流、互动最为重要。一般来讲,小组中一定要有一个人能熟练掌握多种统计分析方法,善于思考问题;一定要有一个人能熟练掌握指定的统计分析软件,善于做数据分析,一定要有一个人有较好的文笔、缜密的逻辑,善于把小组的工作呈现出来。(二)比赛环境半封闭环境,提供软件、数据等资料。