评述中国科学:信息科学2015年第45卷第1期:1{44www.scichina.cominfo.scichina.com引用格式:李学龙,龚海刚.大数据系统综述.中国科学:信息科学,2015,45:1{44,doi:10.1360/N112014-00290大数据系统综述李学龙¬*,龚海刚¬中国科学院西安光学精密机械研究所光学影像分析与学习中心(OPTIMAL),西安710119电子科技大学计算机科学与工程学院,成都611731*通信作者.E-mail:xuelongli@opt.ac.cn收稿日期:2014–09–30;接受日期:2014–11–21国家自然科学基金(批准号:61125106)资助项目摘要随着科学、技术和工程的迅猛发展,近20年来,许多领域(如光学观测、光学监控、健康医护、传感器、用户数据、互联网和金融公司以及供应链系统)都产生了海量的数据(更恰当的描述或许是\无限的数据,例如,在光学观测和监控等应用中,数据都是源源不断而来的,形成了\数据灾难),大数据的概念也随之再次引起重视.与传统的数据相比,除了大容量等表象特点,大数据还具有其他独特的特点,例如大数据通常是无结构的,并且需要得到实时分析,因此大数据的发展需要全新的体系架构,用于处理大规模数据的获取、传输、存储和分析.本文对大数据分析平台进行了尽可能详尽的文献调研,首先介绍了大数据的基本定义和大数据面临的一些挑战;然后提出了大数据系统框架,将大数据系统分解为数据生成、数据获取、数据存储和数据分析等4个模块,这4个模块也构成了大数据价值链;随后讨论了学术界和工业界中和大数据相关的方法和机制;最后介绍了典型的大数据系统基准和大数据的一些科学问题.本文意图为非专业读者提供大数据的全景知识,也为高级读者定制自己的大数据解决方案提供辅助思想,希望能够对大数据相关的科技和工程人员起到一些参考作用.关键词大数据数据获取数据存储数据处理数据分析1引言近年来,“大数据”已广为人知,并被认为是信息时代的新“石油”,这主要基于两点共识.首先,在过去20年间,数据产生速度越来越快.据国际数据公司IDC报道[1],2011年产生和复制的数据量超过1.8Z字节,是过去5年数据增长的9倍,并将以每两年翻倍的速度增长.其次,大数据中隐藏着巨大的机会和价值,将给许多领域带来变革性的发展.因此,大数据研究领域吸引了产业界、政府和学术界的广泛关注.例如,产业界报告[2]和公共媒体(Economists[3]1),NewYorkTimes[4],美国国家公共广播电台[5,6])中充斥了大数据的相关信息;政府部门设立重大项目加速大数据的发展[7];Nature2)和Science3)等期刊也发表了大数据挑战相关的论点.毫无疑问,大数据时代已经到来.1)EconomistT.Drowninginnumbers–digitaldatawillfloodtheplanetandhelpusunderstanditbetter.)BigData.2008.)SpecialOnlineCollection:DealingwithBigData.2011.:大数据系统综述大数据的数据集大小以难以想象的速度增长,给数据处理带来了极大的挑战.首先,信息技术的发展使得数据的生成和消费变得更容易.例如,每分钟有72小时长度的视频被上传到Youtube服务器4).大数据的这种大容量特性使得数据难以可伸缩地从分布式的地点收集并集成.第二,数据采集后,如何以最小的硬件和软件代价存储和管理这些海量异构数据是非常具有挑战性的问题.第三,由于大数据的异构性、规模性、实时性、复杂性和隐私性等特点,大数据分析必须在不同层次(建模、可视化、预测和优化)高效地挖掘数据以提高决策效率.这些挑战迫切地需要对整个数据管理系统的各个层次(从体系架构到具体机制)进行变革.但是如果能有效地管理大数据,就能够给许多领域,如科学和环境建模、健康医护和能源保护带来巨大的变革.国际策略咨询公司McKinsey的研究报告[2]表明,全球个人位置信息的潜在价值达到7000亿,并且能降低产品开发和集成成本的一半以上.然而,传统的数据管理和分析系统是基于关系型数据库管理系统(RDBMS)的.这些系统在处理结构化数据时性能突出,但是对半结构化或无结构化数据的处理却无法提供有力的支持.此外,RDBMS可以通过增加昂贵的硬件向上扩展(scaleup),但是无法通过并行增加硬件实现向外扩展(scaleout).显然,传统的RDBMS无法处理如今大数据的规模和异构性.为了解决这些挑战,学术界和产业界从不同角度提出了大数据系统的解决方案.而云计算平台可以作为大数据系统的基础设施层以满足特定的基础设施需求,例如成本效率、灵活性以及向上或向下扩展的能力.分布式文件系统[8]和NoSQL数据库[9]适用于数据持久存储和模式自由(schemefree)的海量数据管理.MapReduce[10]编程框架在处理组聚合(group-aggregation)任务,如网站排名方面,获得了极大的成功.Hadoop[11]则集成了数据存储、数据处理、系统管理和其他模块,提供了强大的系统级解决方案,成为大数据处理的主流.基于这些革新性的技术和平台,可以构建多样的大数据应用.本文对大数据领域进行系统性的介绍,为理解大数据平台、开发大数据应用以及从事大数据的研究提供指导.本文引入了大数据系统的通用框架,该框架将大数据平台分为数据生成、数据获取、数据存储和数据分析4个处理阶段,并对每一个阶段的当前研究进展进行了调研,提出了架构设计的工程级观点,对大数据的不同分析实例进行了探讨.此外,本文还比较了大数据系统的评价基准,并归纳了大数据存在的科学问题和研究方向.2大数据国内外现状大数据的快速发展,使之成为信息时代的一大新兴产业,并引起了国内外政府、学术界和产业界的高度关注.2.1国外研究现状早在2009年,联合国就启动了“全球脉动计划”,拟通过大数据推动落后地区的发展,而2012年1月的世界经济论坛年会也把“大数据,大影响”作为重要议题之一.在美国,2009年至今,Data.gov(美国政府数据库)全面开放了40万政府原始数据集,大数据已成为美国国家创新战略、国家安全战略以及国家信息网络安全战略的交叉领域和核心领域.2012年3月,美国政府提出“大数据研究和发展倡议”,发起全球开放政府数据运动,并投资2亿美元促进大数据核心技术研究和应用,涉及NSF,DARPA等6个政府部门和机构,把大数据放在重要的战略位置.英国政府也将大数据作为重点发展的科技领域,在发展8类高新技术的6亿英镑投资中,大数据的注资占三成.2014年7月,欧盟委员4)YoutubeStatistics.:信息科学第45卷第1期会也呼吁各成员国积极发展大数据,迎接“大数据”时代,并将采取具体措施发展大数据业务.例如建立大数据领域的公私合作关系;依托“地平线2020”科研规划,创建开放式数据孵化器;成立多个超级计算中心;在成员国创建数据处理设施网络.在学术界,美国麻省理工大学(MIT)计算机科学与人工智能实验室(CSAIL)建立了大数据科学技术中心(ISTC).ISTC主要致力于加速科学与医药发明、企业与行业计算,并着重推动在新的数据密集型应用领域的最终用户体验的设计创新.大数据ISTC由MIT作为中心学校,研究专家们来自MIT、加州大学圣巴巴拉分校、波特兰州立大学、布朗大学、华盛顿大学和斯坦福大学等6所大学.通过明确和资助领域带头人、提供合作研究中心的方式,目标是发掘共享、存储和操作大数据的解决方案,涉及Intel,Microsoft,EMC等多家国际产业巨头.同时,英国牛津大学成立了首个综合运用大数据的医药卫生科研中心,该中心的成立有望给英国医学研究和医疗服务带来革命性变化,它将促进医疗数据分析方面的新进展,帮助科学家更好地理解人类疾病及其治疗方法.该中心通过搜集、存储和分析大量医疗信息,确定新药物的研发方向,减少药物开发成本,同时为发现新的治疗手段提供线索.而以英国为首的欧洲核子中心(CERN)也在匈牙利科学院魏格纳物理学研究中心建设了一座超宽带数据中心,该中心将成为连接CERN且具有欧洲最大传输能力的数据处理中心.在产业界,国外许多著名企业和组织都将大数据作为主要业务,例如IBM,Microsoft,EMC,DELL,HP等国际知名厂商都提出了各自的大数据解决方案或应用.IBM宣布了收购StarAnalytics(星分析公司)软件产品组合的消息.除了StarAnalytics,在IBM最新的收购计划中,Splunk和NetApp是最热门的收购目标.据不完全统计,从2005年起,IBM花费超过160亿美元收购了35家与大数据分析相关的公司.此外,IBM还和全球千所高校达成协议,就大数据的联合研究、教学、行业应用案例开发等方面开展全面的合作.无疑,欧美等国家对大数据的探索和发展已走在世界前列,各国政府已将大数据发展提升至战略高度,大力促进大数据产业的发展.2.2国内研究现状我国政府、学术界和产业界也早已经开始高度重视大数据的研究和应用的工作,并纷纷启动了相应的研究计划.挂一漏万,鉴于我们的了解面所限,本文仅能够简要介绍其中的一些.在政府层面,科技部“十二五”部署了关于物联网、云计算的相关专项.2012年,中国科学院院长白春礼院士呼吁中国应制定国家大数据战略.同年3月,科技部发布的《“十二五”国家科技计划信息技术领域2013年度备选项目征集指南》中的“先进计算”板块己明确提出“面向大数据的先进存储结构及关键技术”,国家“973计划”、“863计划”、国家自然科学基金等也分别设立了针对大数据的研究计划和专项.目前已立项“973计划”项目2项,“973计划”青年项目2项,国家自然科学基金重点项目2项.地方政府也对大数据战略高度重视,2013年上海市提出了《上海推进大数据研究与发展三年行动计划》,重庆市提出了《重庆市人民政府关于印发重庆市大数据行动计划的通知》,2014年广东省成立大数据管理局负责研究拟订并组织实施大数据战略、规划和政策措施,引导和推动大数据研究和应用工作.贵州、河南和承德等省市也都推出了各自的大数据发展规划.在学术研究层面,国内许多高等院校和研究所开始成立大数据的研究机构.与此同时,国内有关大数据的学术组织和活动也纷纷成立和开展.2012年中国计算机学会和中国通信学会都成立了大数据专家委员会,教育部也在人民大学成立“萨师煊大数据分析与管理国际研究中心”.近年来开展了许多学术活动,主要包括:CCF大数据学术会议、中国大数据技术创新与创业大赛、大数据分析与管理国际研讨会、大数据科学与工程国际学术研讨会、中国大数据技术大会和中国国际大数据大会等.3李学龙等:大数据系统综述在产业层面,国内不少知名企业或组织也成立了大数据产品团队和实验室,力争在大数据产业竞争中占据领先地位.3大数据基础本节首先介绍了大数据的一些主流定义,随后介绍大数据的发展历史,并讨论两种大数据处理方式:流处理和批处理.3.1大数据定义随着大数据的流行,大数据的定义呈现多样化的趋势,达成共识非常困难.本质上,大数据不仅意味着数据的大容量,还体现了一些区别于“海量数据”和“非常大的数据”的特点.实际上,不少文献对大数据进行了定义,其中三种定义较为重要.属性定义(Attributivedefinition):国际数据中心IDC是研究大数据及其影响的先驱,在2011年的报告中定义了大数据[1]:“大数据技术描述了一个技术和体系的新