大数据与统计学浙江工商大学李金昌引言作为归纳分析的科学,统计学可以从亚里士多德的“城邦政情”算起,但作为一门数据分析的科学则应从配第的《政治算术》算起。300多年来,统计学围绕如何收集、整理和分析数据这一主线而发展,构建起了庞大、多元、融合的应用方法体系,帮助解决了各个领域大量复杂的现实问题。统计学的发展,是根据数据的型态和问题的本质来改变的,不是因为我们会做他背后的数学而发展的。不要因为(统计的)问题困难而去做它;也不要因为它难而不做。(贺吉士J.L.Hodges,1922-2000)R.C.Rao:统计的分析形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。大数据时代的来临,迫使统计学站在一个新的起点上。1998年,《科学》杂志刊登的一篇介绍计算机软件HiQ的文章《大数据的处理程序》中第一次正式使用了大数据(bigdata)一词。2008年9月《自然》杂志出版“bigdata”专刊。最近几年,关于大数据的文献迅速增加,但绝大多数出于计算机领域的学者之手,较少有基于统计学视角的深度学术讨论。一、对大数据的认识最早与大数据概念有关的学科:天文学、气象学和基因学,一开始就依赖于海量数据分析方法。但从现代意义上看,大数据可以说是计算机与互联网相结合的产物,前者实现了数据的数字化,后者实现了数据的网络化。大数据的本意是,所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。4V特点:Volume、Velocity、Variety、Value。大数据自古有之?人类曾经开展过的人口普查、产业普查等数据,是否属于大数据?在计算机技术与网络化未得到充分发展以前,人们自然难以联想出大数据这个概念。从统计学的角度看,大数据不是主要基于人工设计而获得有限、固定、不连续、不可扩充的结构型数据,而是主要基于现代信息技术与工具自动记录、储存、能连续扩充、大大超出传统统计记录与储存能力的一切类型的数据,最大特征是数字化基础上的数据化。一定程度上看,大数据并不是一个严格的概念,而是一个比喻式的称呼。(一)如何理解大数据的“大”一是“全体”的意思,即大数据就是全体数据,并且数据量必须达到一定的规模。二是“可扩充”的意思,即大数据就是可以不断扩充容量的数据,任何数据一旦发生就可以被记录、被吸收。三是“有待挖掘”的意思,即大数据就是有待挖掘的数据。大数据可能包含着丰富的、具有大价值的信息,但被超大量的数据所掩盖、所分散而导致价值密度低,只有挖掘才能发现。(二)如何理解大数据的“数据”历史告诉我们,数据的含义是随着人类认识社会与自然现象的视野的变化、以及认识能力与技术水平的提升而改变的,经历了从传统运算型数据到现代数字化数据的变化过程。把一切信息都看成数据是当今社会的一个特征,是一个自然进化的结果。大数据中的数据其实就是一切可以通过数字化手段记录的信息。大数据除了结构型数据与非结构型数据的分类外,还可作以下分类:如果从大数据产生的途径或渠道来看,大数据可以分为社交网络数据、人机交换数据和感应数据(机器数据)。如果从功能上看,大数据可以分为交易型数据、流程型数据和交互型数据。需要特别指出的是,网络数据在大数据中占有特殊的份量,又可分为自媒体数据、日志数据和富媒体数据三类。从时间维度上,还可以把网络大数据分为以用户数据、日志数据为代表的历史数据,以及以视频监控数据和流媒体数据等为代表的流式数据,其中历史数据蕴含着大量有价值的信息。基于数据的分类,储存数据与管理的方式——数据库也有两种类型:关系型数据库(SQL接口)和非关系型数据库(NOSQL接口)。(三)大数据是不是好数据?首先,大数据不会自动产生好的分析结果,不会自动把隐藏其中的秘密呈现出来,如果数据不完整、取舍不当或遭受破坏,那么就会产生错误的结论。其次,大数据是动态的,具有阶段性特征,同样的关联词在不同时段可能具有不同的含义,围绕关联词的话题会随着时间的推移而会发生某些偏离,从而导致有偏的结论。第三,对于我们所关心的研究主题,可能会受到大量没有实际意义、实际内容甚至虚假信息的干扰,让我们面对一堆数据无从下手,大数据变成了大迷惑,甚至变成了大错误。第四,大数据中有很多小数据问题,这些问题并不会随着数据的增加而消失,反而可能更严重。二、数据的变化与统计分析方法的发展(一)数据的变化回顾历史可以发现,数据的变化与统计分析方法的发展呈现高度吻合的关系。有一种观点认为,数据的变化过程可以分为三大阶段:数据的产生、科学数据的形成和大数据的诞生。数据的产生:数的产生基于以下三个要素,一是数,二是量,三是计量单位。数起源于人类祖先对“多”或“少”的认识,阿拉伯数字的产生实现了数的抽象性和可计算性。数的概念及数的基本逻辑关系形成以后,人们将数的神秘性作为探寻与研究的目标之一,不断建立起更加完备的、抽象的数的体系。以数为基础,测量、计量和比较事物就有了精确表达的语言,这在实践中就表现为量,它是客观事物所具有的能体现差异程度的一种属性,是事物可以用数来表现的规定性,包括量的规模、量的关系、量的变化、量的界限与量的规律。在以数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据——有根据的数。科学数据的形成:科学数据的形成得益于对数据的科学研究,是在科学研究过程中基于科学设计、通过有针对的观察和测量获得的、用以认知自然现象和社会现象的变化规律或用以验证已有理论假设的数据。哲学家培根所倡导的“实验观察-归纳分析”的方法思想和笛卡尔所倡导的数理演绎方法,将数据的使用提高到了科学方法论的地位,使数据成为了科学研究的基本要素,并使如何科学收集数据成为了研究课题。近代科学将数据融于自然科学研究范式的实践,不仅提高了人类认识事物的精确性,更为重要的是其逐步形成的数学化思维与方程表达式解决了不同物理量之间的数值关系表达问题,从而为开展相关事物之间的定量研究提供了途径。17世纪的自然哲学家开普勒对第谷大量的天文观察数据的使用,推导出了行星运动三大定律;伽利略对地球表面物体运动的数据测量建立了自由落体运动规律;牛顿利用大量的天文观察数据和实验测量数据,创立了牛顿力学体系。科学数据因其所具有的共享性与精确性等特点而成为了科学研究的普适语言。在自然科学对数据进行科学研究的同时,社会科学领域也对数据进行了科学范式的研究,并发现了例如平均人、恩格尔系数、基尼系数等定律。就统计学而言,它的产生与发展过程就是对科学数据进行研究的过程,每一种统计分析方法都是在对科学数据进行科学研究的基础上形成的。大数据的诞生:20世纪中期开始的生物基因测序研究所积累的大量数据,面临着如何理解和处理的新挑战。同样的问题逐渐蔓延到各个学科领域,包括天文学研究,基本粒子研究,气象学研究和社会学研究等。1966年,国际科技数据委员会(CODATA)成立,旨在促进全球科技数据的共享。面对海量数据、快速增加的数据,人们开始重新审视和定义数据。如果说计算机技术等的快速发展,是大数据产生的基础因素,那么人类对数据理念的深化、对数据多样性的追求、对信息的永不满足,是大数据产生的内在因素。以非结构化数据为主体的大数据,正在改变着一切,而以大数据为研究对象,通过挖掘、提取等手段探寻现象内在规律的学科——数据科学也应运而生。总结:数据产生之初,其根本的功能就是体现事物或现象的量的大小或多少,便于计数与比较,数据大多自然获得、被动利用;科学数据以研究与管理为目的,一般是主动获得、主动利用;而大数据的特征则是丰富的数据资源与主动获得数据相结合,数据类型多样化。当然,数据的演变是一个渐进的过程,它不是简单的一种形式代替另一种形式,而是一个由简单到复杂的各种形式相互包容、不断丰富的过程。(二)统计分析方法的发展如果说数据是表现事物特征的精确语言、认知世界的重要工具、治理国家的必备依据和科学研究的必备条件,那么数据分析则是让数据充分说话、最大限度发挥功能、有效满足不同需要的根本要求。在科学数据研究基础上形成的具有通用性质的方法就是统计方法。纵观统计学发展史,统计数据大体上经历了这样一个过程:只能收集到少量的数据—尽量多地收集数据—科学利用样本数据—综合利用各类数据—选择使用大数据,而统计分析经历了不同阶段,相应地产生了大量观察法、统计分组法、综合指标法、归纳推断法、模型方程法和数据挖掘法等分析方法,并且借助计算机及其软件的程度也越来越深。配第的《政治算术》和格朗特的《关于死亡表的自然观察和政治观察》,开启了社会经济现象数据分析的先河。但他们所能运用的数据资源非常有限,只能算是最初级形态的数据而非真正意义上的科学数据。他们的分析方法现在看来十分简单,但在当时非常了不起,其数据加方法的思想影响至今,特别是他们所倡导的大量观察法、统计分组法成为了统计学最基本的研究方法。特别是,格朗特通过不完整但足够量的登记数据初步发现了大数法则,提出了数据简约的概念,通过推算方法初创了生命表,探讨了数据的可信性问题,并提出了人口数的推算公式。没有他们这种将数据与方法相结合的“形”,就不可能产生统计的“学”。随着数据分析意义的显现,以及受到大量观察法的影响,人们开始尽可能多地收集数据,包括登记数据、普查数据、测量数据、实验数据和观察数据。统计学也进入到了科学数据研究阶段。社会经济领域的数据一般都是登记数据与调查数据,为了科学表明数据的意义,实现数据表现与现象内涵的统一,就产生了用统计指标来表现数据特征的方法,即统计指标法。随着分工细化、记录数据增加,在社会经济领域出现了成组、成群相关的数据,以及专门调查获得的数据(例如人口调查、产业调查等),逐渐产生了各种运用统计指标体系进行综合分析的方法,例如综合评价法、主成分分析法、聚类评判法等。为了从数量上弄清楚经济运行过程中各部门、各环节之间的关系,人们研究发明了投入产出分析法。为了科学核算经济活动成果,掌握经济总产出的构成与去向,在经济学原理和科学指标内涵的基础上,产生和发展了国民经济核算法。为了掌握物价的综合变动,反映复杂现象的发展方向,产生了综合指数分析法。为了掌握社会经济现象变动规律、预测未来发展趋势,产生了时间序列分析法。基于实验数据,统计学产生了概率论、分布理论、回归分析方法、小样本分布理论和假设检验方法。众所周知,14世纪欧洲以骰子为工具的赌博非常盛行,围绕骰子可能出现的情况和赌本分配问题,再加上取球、抛掷硬币等实验,帕斯卡、费马、惠更斯、伯努利、狄莫弗等人共同研究建立了概率论,发明了大数定律,发现了二项分布与超几何分布,并为正态分布理论的建立奠定了基础。随着概率论被引入到统计学中,帮助解决了人口推算、寿命保险、生命表编制、产品质量控制等诸多比赌博更为复杂的现实问题。同样,高尔顿通过对遗传学实验数据(甜豌豆种植的实验数据)以及抽样观察数据(亲子身高的观察数据),发现了回归现象,发明了在各个领域得到广泛应用的回归分析法并提出了相关系数的初步概念(相关指数),奠定了模型方程法的基础,极大地提高了人们开展统计分析的能力。戈赛特则利用酿酒公司仅有的小样本实验数据,发明了著名的小样本“t”分布理论,推进了推断统计方法的发展。费歇尔基于人为的女士品茶的实验数据和达尔文关于施肥方法影响作物高度的实验数据的研究,构建了假设检验的基本方法并得到了广泛的应用。基于观察数据,统计学产生了误差正态分布和最小平方法。对天文观察数据研究而形成的误差正态分布和最小平方法在统计学中具有极重要的地位。开普勒的观察数据,经过伽利略、辛普森、拉普拉斯等人的探求,最终由高斯导出了著名的误差正态分布。凯特勒等统计学家及时地将拉普拉斯的中心极限定理与高斯的误差正态理论运用于社会数据的研究,使正态分布的应用盛行一时。在误差理论基础上,高斯、勒让德等人发现了最小平方法,并迅速从天文学和测地学的数据研究应用扩展到其他领域,尤其是与回归分析相结合后成为了统计分析最常用的方法,至今仍为主流。皮尔逊对生物观