天津商业大学理学院《调查与数据分析前沿讲座》课程论文专业班级:统计学专业1202姓名:段雨婷学号:20122695指导教师:马丽娜日期:2015.12.251大数据对统计的影响1大数据和统计学随着人类科学技术的飞速发展,特别是随着电脑-互联网的普及,我们正进入了大数据时代。许多科学研究领域产生了多种多样的复杂超高维海量大数据,如基因学、天文学、宇宙学、流行病学、经济学、金融学、功能性磁共振成像以及图像处理等领域。大数据通常超出常用软件工具的捕获、组织、管理和在可容忍的时间内处理这些数据的能力,面对这些高速增长的复杂超高维海量大数据的挑战,各个领域的科学家需要具有高速提取所需信息的能力。1.1大数据时代和大数据的定义格雷布林克在《纽约时报》2012年2月的一篇专栏中称,“大数据时代”已经降临,在商业、经济和其他领域中,管理者决策越来越依靠数据分析,而不再是依靠经验和直觉。“大数据”概念之所以被炒得如火如荼,是因为大数据时代已经到来。据不完全统计,一天之内,互联网产生的全部数据可以刻满1.68亿张DVD。国际数据公司的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年的数据量增长到1.2ZB,2011年的数据量高达1.82ZB,相当于全球没人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量为200PB,全人类历史上所有语言资料累计的数据量大约是5EB。在大数据时代,因为等同于数据的知识随处可寻,对数据的处理和分析才显得难能可贵。因此,在大数据时代,能从纷繁复杂的数据中提取有价值的知识才是创造价值的源泉。大数据的定义众说纷纭,是因为大数据所涉及的内容太大,大家看待它的角度都不一样,于是出现了仁者见仁智者见智的局面。在大数据时代,数据引领人们生活,引导商业变革和技术创新。从大数据的时代背景来看,我们可以把大数据作为研究对象,从数据本身和处理数据的技术两个方面来理解大数据,从而理解大数据就有了狭义和广义之分。狭义的大数据是指数据的结构形式和规模,是从数据的字面意义进行理解的。广义的大数据不仅包括数据的结构形式和数据规模,还包括处理数据的技术。而不论是从广义的角度,还是狭义的角度来看,大数据的核心是数据,而数据就是统计研究的对象,从大数据中寻找有价值的信息关键在于对数据进行正确的统计分析。因此,大数据应该在现有数据处理技术水平的基础上引入统计学的思想。1.2统计学的定义统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。统计学主要又分为描述统计学和推断统计学。给定一组数据,统计学可以摘要并且描述这份数据,这个用法称作为描述统计学。另外,观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称做推论统计学。这两种用法都可以被称作为应用统计学。另外也有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。就统计学自身而言,大数据时代的到来无疑是一个巨大的机遇。通过对大数据的统计推断,2我们能够研发出强有力的统计工具,这显然会给统计界带来切实的利益,将有利于统计学科理论和方法在更广阔的天地中长足发展,有利于促进对自然和科学的深度理解。反过来,就统计学对其他学科的影响来说,通过对复杂数据开展深入系统的创新性研究,将产生新的统计思想,新的统计工具和形成新的统计理论,从而推动其他重要领域和科学前沿取得突破。2大数据对统计学的影响维克多在《大数据》中提到传统的数据分析思想应做三大改变:其一,在大数据时代,样本就是总体,要分析与某事物相关的所有数据,而不是依靠少量的数据样本。其二,要转变数据测量的思想,要乐于接受数据的纷繁芜杂,而不再追求精确的数据。其三,不再探求难以琢磨的因果关系,转而关注事物的相关关系。毫无疑问,上诉三个转变均与统计研究工作息息相关,从统计研究工作角度理解维克多的三个转变将会更深刻、更全面。在非普查年份,抽样调查是传统的数据收集方式。在大数据概念下,样本就是总体,数据是一切可记录、可储存的信号,它存在这不规则和模糊不清的特性。传统的数据收集方法在大数据背景下具有很大的局限性,甚至连处理和分析都无法用传统的应用软件进行。在数据结构简单、规模小的数据时代,受到数据量以及数据处理水平的限制,统计要全面准确地反映总体就必须要求有限数据量具有更高的精确度。在大数据时代,数据的不精确性是允许的,我们不再担心海量数据库中某个数据点对整体的影响。我们在接受纷繁复杂的各类型数据时,更加关注大数据的发展轮廓和趋势,适当的忽略微观层面的精确度,可以让我们在宏观层面拥有更好的洞察力。在过去的统计工作中,我们习惯寻找客观事物的因果关系,即使我们很难去确定彼此之间的缘由,我们仍然习惯去寻找因果。在大数据时代,海量数据间结构复杂、数据变量之间关系纵横交错,预设客观事物间因果关系以及分析因果关系变得相对复杂,很多因果关系难以寻求,也没有意义寻求。我们转而关注的是不同变量间的相关关系,也许相关关系不能告诉我们事情为何发生,但它会提醒我们事情正在发生。3结论一个新生事物的出现必将导致传统观念和技术的革命。随着大数据时代的到来,模型将不再重要,现今统计学最得意的回归预测方法将逐渐被淘汰。大数据的到来将对传统的统计方法进行考验,现在其他学科和行业涌入大数据的热潮,如果统计学不能参与的话,将会面临着被边缘化的危险。目前统计学的目标仍然是通过获取数据和分析数据发现实质,统计方法和理论对数据的要求过高,而大数据是充满了各种随机的、非随机的误差和偏倚,并不能满足统计学中的苛刻要求。我们在看到大数据给统计学带来机遇的同时,也应看到现在的统计方法的缺点,分布式大数据和数据流的环境给统计学带来了挑战。统计学家不应该固守传统数据的环境,必须积极学习新生事物,积极适应新的数据环境,扩展统计学的应用领域,创造出适合大数据时代的新统计方法。3参考文献[1]田茂再.大数据时代统计学重构研究中的几个热点问题[J].统计研究.2015(5).[2]陈建宝,鞠芳煜,禚铸瑶.大数据时代下的统计学[J].统计研究.2015(5).)[3]张荣颖.大数据时代对统计工作的影响[J].管理世界.2015(17).[4]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究.2014(01).