西南财经大学统计建模大赛论文统计数据质量的研究——基于电力消费与国民经济的研究参赛队员:队长:徐琳(研一统计)队员:郭亚丹(研一统计)邹银屏(2009级电商)刘文杰(2010级统计)邢万里(2010级统计)-2-目录摘要:.........................................................-3-引言:.........................................................-3-一、数据质量评估概述........................................-4-1、数据质量评估的背景.....................................-4-2、统计数据的含义.........................................-4-3、建立统计数据质量评估体系的必要性.......................-4-4、建立统计数据质量评估体系的目的与原则...................-5-5、统计数据质量的评估方法.................................-5-(1)、逻辑性评估方法....................................-5-(2)、从异常值的角度对数据质量进行评估..................-6-(3)、从误差的角度对数据质量进行评估....................-7-(4)、从核算的角度进行的评估............................-8-二、中国电力与国民经济发展间的关系概况......................-9-三、数据分析...............................................-11-1、纵向时间序列分析........................................-12-(1)主要指标的长期趋势分析............................-13-(2)长期趋势预测......................................-21-2、横向数据回归分析........................................-28-a、国内生产总值和电力总消费量的关系........................-29-b、分析国内生产总值和各行业电量消费的关系..................-31-c、综合预测................................................-35-3.数据质量诊断准则.........................................-35-(一)相对误差系数....................................-35-(二)电力消费弹性系数分析.............................-36-四、分析结果及结论............................................-38-参考文献:....................................................-39--3-摘要:在知识经济时代,随着经济全球化和世界竞争一体化的进程的加快,统计数据信息对我国社会主义市场经济管理作用逐渐增强,社会各界对统计信息的需求也越来越广范。统计数据为人们传递信息,了解社会,制定决策提供了基础依据。尤其当我国加入WTO后,我国社会市场经济体制的逐渐建立,社会各界对统计信息的需求日益广泛,对统计数据质量的关注更多,要求更高。因此统计所面临的外部环境和内部环境都发生了巨大的变化,因此传统统计方法下的统计数据质量既是机遇又是挑战。中国官方统计数据也受到不少的质疑。引言:随着中国经济的快速发展,人民的生活水平越来越高,生产和生活对电力的以来程度愈来愈大,电力消费与国民经济之间关系更加紧密。1978年,KraftJ和KraftA首先对能源和经济增长之间的关系进行了研究,分析了美国能源消耗和经济增长自检的因果关系。2005年黄超以1978-2002年这25个年份的年发电量和国内生产总之数据为统计样本,运用恩格尔-葛兰杰两步法,发现电力生产和经济增长之间存在协整关系。2004年林柏强论述了政府的短期措施对解决电力短缺的局限性,认为电力能源规划应该根据GDP与电力需求建的长期关系制定。-4-上述研究结果为深入研究我国电力消费与经济增长之间的关系提供了良好的基础。然而,上述文献要么从定性方面分析,要么基于定量分析但缺乏时效性,而且很多文献都侧重研究电力短缺原因和应对措施。关键字:统计数据国内生产总值电力消费时间序列分析回归分析一、数据质量评估概述1、数据质量评估的背景近年来我国经济持续、快速增长,引起了世界的关注,作为衡量经济发展规模和水平的宏观经济统计数据及其质量也成为国内外相关机构和研究者关注的焦点问题之一。同时,准确而充分的统计信息是决策与科学研究的基础,统计数据质量问题关系到宏观经济决策的科学性,也直接影响到科学研究特别是社会科学研究能否产生正确的研究结果。因此对统计数据质量作出科学的评估,具有重要现实意义和应用价值。2、统计数据的含义在国际官方统计界,对统计数据质量的概念下的定义:一是注重从用户角度来衡量,强调用户对统计信息的满意程度;二是统计数据质量是一个具有丰富内涵的综合性概念,需要建立一个开放、透明的统计数据质量评估管理体系,应从多方面来衡量。因此一个全面而系统的数据质量的概念可以定义为:统计信息在其一定的标准上对其用户需求的满意程度。3、建立统计数据质量评估体系的必要性-5-不论从能否正确评估数据质量本身来看,还是从其对一国的社会稳定、经济安全与高效率、科技进步等方面的深远影响来看,建立科学合理的统计数据质量评估体系都是十分必要的。首先,建立统计数据质量评估体系并依此提供统计数据的质量报告,从而恰当的使用统计数据。其次,统计机构本身也需要对其产生的统计数据质量进行评价,一次来检测其工作改进的结果,并将该结果反馈到下一个阶段的统计工作中去,从而使其工作得到持续不断的改进。4、建立统计数据质量评估体系的目的与原则统计数据质量评估,是对调查、汇总、整理完毕的统计数据的质量进行科学的、实事求是的分析和评价,对其准确性进行评估以便了解他的误差大小,以便正确使用。统计数据质量的高低,直接影响统计分析的科学性和决策的正确性,因此,评估的目的是为了掌握统计数据的可靠程度或差错率的大小,以便正确使用统计数据。对数据质量的评估,应建立在充分调查研究的基础上有根据的进行。5、统计数据质量的评估方法(1)、逻辑性评估方法Ⅰ.基于规则的逻辑性评估方法基于规则的逻辑性评估方法主要是将经过各种专业审核的有关统计数据资源集中在一起,从总体上检验数据相互建是否平衡和是否符合逻辑。基于规则的逻辑性评估方法既可用与原始调查资料,也可以用于汇总数据。Ⅱ.基于相关性的逻辑性评估方法-6-许多社会经济现象在数量上存在着相互依存的关系,一个社会经济现象发生变化是,影响着另一个社会经济现象也发生数量上的变化,并且在一定的生产级数田间下,反映现象的各个指标之间存在的关系相对稳定。基于相关性的逻辑性评估方法就是在相关性较高的指标中,根据指标之间的这种关系,从已知正确的指标来岁被评估指标作出评估意见,即如果指标间关系出现较大波动,则可以初步判定被评估指标存在一定的质量问题。这种方法主要是根据指标间的比例关系、部分指标与总体指标间结构关系以及相关指标的弹性系数等方面进行判断,也可以运用回归分析等计量方法。在用该方法对统计数据质量进行评估时,需要做一下的模型假设:a、相关指标间的关系并非永远稳定;b、与被评估指标相关联的统计数据也必须是可靠的;c、与被评估指标相关联的指标往往不止一个,根据不同的关联指标进行判断的结果应该一致。(2)、从异常值的角度对数据质量进行评估异常值又称离群值、野值、极端值等,是指在数据集中与众不同的数据,使人换衣这些数据并非随机偏差,而是产生与完全不同的机制(总体与分布)。异常值数据产生主要有两方面的原因,一是由客观因素造成的,如总体条件突然变化或人们未知的某个因素的突然出现等等;二是由主观的因素造成,即人为的因素如被调查人员虚报、瞒报数据、调查人员算错或抄错数据等等。因此从异常值角度对数据质量进行评估,不但要识别出异常值,还要会结合异常值产生的背景判-7-断其是否产生统计质量问题。对异常值检验的统计方法可分为基于统计分布的方法、基于探索性数据分析的方法和基于时间序列分析的方法等。1)基于统计分布的异常值检验这种方法的假定给定的统计数据服从一个随机分布(如正态分布、Γ分布等),并用不一致性测试来识别异常点。2)基于探索性数据分析的异常值检验数据分析级数的整个操作步骤大体可以分成两大步骤:探索阶段和实证阶段。探索性数据分析提供了丰富多彩的详细考察一组数据的方法,分离出数据的模式和特点,把他们很清晰的显示给分析者。探索性分析能够在不毁坏原始数据中其他数据的前提下而突出的异常数据或没有用处的数据,从而为判断数据质量提供依据。适合此类目的的探索性分析方法主要有茎叶图法、字母值法、箱线图法、编码表、悬浮式直方图等等。探索性数据分析方法具有不受极端值影响,展示数据具有包含信息量大,且能简单、只管的显示出极端值,以及不需要过多数学计算,易于理解,易于为基层人员接受的他点。3)基于时间序列的异常值分析与探索性分析中的不同,时间序列分析中的异常点是以多种形式出现的,并且只有在一个描述性模型中才能对其进行定义和识别。(3)、从误差的角度对数据质量进行评估统计数据质量问题本质上是误差问题,即所提供的统计数据与客观-8-的社会经济现象实际的数量特征之间的差距问题。在实践中绝对精准的数据是不存在的。从误差的角度评估统计数据质量的方法,主要适合于对原始调查数据质量的控制和检验,并且随着抽样调查技术在我国应用的发展,应用这种方法对原始数据质量进行评估,显得异常的重要。(4)、从核算的角度进行的评估从核算角度对数据进行评估,是根据被评估指标所要求的核算方法,通过探究指标核算中存在的问题,分析其存在的原因,最大限度的挖掘现有资料,重新对其进行估算,并依据估算的结果对其官方估计值进行检验。质量管理数据自身质量评估的八个基本维度质量评估的基本维度数据特征及基本描述目的性1.满足数据用户的当前或潜在需求的能力;2.主动搜集数据,而不是被动统计;3.有完整的数据记录格式和数据管理系统准确性1.统计数据正确表征质量过程的能力;2.通常用误差来描述;3.一般只具有相对性,而不具有绝对确定性。有效性1.测量方法科学有序;2.取得数据的过程可控,是人的主动行为。技术性1.应用统计级数进行质量改进需要这些数据;2.连续观察;3.不需要人工干涉、观察、等级或者估计数据。可得性获得质量数据的制度和技术条件,即现有的管理技术和测量手段满足数据生成的基本条件。-9-一致性当数据足够多的时候,统计量无限接近质量特征的真实值,即大样本数据具有统计级数分析和建模的有事和可靠性。可比性可比性强调当使用不同的方法或概念时,地区和时间上的可比较程度。可解释性也称清晰性,主要是指与统计数据相关的辅助信息的可用性,具体包括统计指标辅助说明,图标、地图或其他解释方法,统计质量信息。本文主要是从误差的角度和异常值的角度对数据质量进行评估。二、中国电力与国民经济发展间的关系概况电力工业是国民经济的一项基础产业,也是国民经济发展的先行产业。世界各国的发展表明:国民经济每增长1%,电力工业要相应增长1.3%~1.5%才能为国民经济其他各部门的快速稳定发展提供足够的动力。在现代社会中,电力工业的发展水平已成为反映国家经济发达程度的重要标志;人均消费电能的数量也成为衡量人们现代生活水平的重要指标。发达国家单位GD