12·论坛 / PERSPECTIVE·科研信息化技术与应用2013,4(1):12–18【编者按】大数据的挑战和机遇译者:李翠平,王敏峰中国人民大学,北京100072ExcerptsfromtheTranslationofChallengesandOpportunitieswithBigDataLiCuiping,WangMinfengRenminUniversityofChina,Beijing,100072,China大数据时代已经到来,对大数据管理和分析的研究是当前信息领域的重大热点问题。2012年3月,美国20余位知名专家经过了约三个月的深入研讨,撰写发布了白皮书“ChallengesandOpportunitieswithBigData”,文章阐述了大数据处理流水线的各个阶段,指出了其中的诸多技术挑战,提供了重要的解决思路。在国家科技重大专项“核心电子器件、高端通用芯片及基础软件产品”的课题中安排翻译了这篇文章,作为研究人员的参考。本刊对译文进行了节选发表于此,以飨读者。如何在保留数据的同时可靠地存储其正确的元数据,现有技术对此还无能为力。现在的数据很多都是非结构化的,如推特(tweets)和博客(blogs)数据都是弱结构的文本片段,图像和视频数据虽具有存储和播放结构,但这种结构并不适合进行上下文语义分析和搜索,如何将各种内容转化为有结构的格式以供日后分析?当数据可以与其他数据链接(集成)时,数据的价值才会呈爆炸式增长,考虑到当今大多数数据是直接以数字格式生成的,如何干预数据的产生过程,以方便日后的数据链接,又如何与以前产生的数据进行自1 概述近年来,人们已经认识到基于数据进行决策分析具有广阔的前景,对“大数据”的热情和重视也与日俱增,但目前其巨大潜力和目标实现之间还存在着巨大的鸿沟。大数据的异构性、规模、及时性、复杂性和隐私问题从各个环节阻碍了数据价值的创造。在数据采集环节,当数据如海啸般涌来时,我们需要马上决定什么样的数据需要保留,什么样的数据可以丢弃,同时13李翠平等译:大数据的挑战和机遇动链接?对数据的分析、组织、检索和建模也是基础性的挑战。数据分析在许多应用中成为一个显著的瓶颈,主要缘于两个方面:一是缺乏可扩展性的基础算法,二是有待分析的数据比较复杂。此外,能被非技术领域专家理解的结果的表达方法,对提取可用的知识也是至关重要的。在过去的35年里,数据管理原理(如物理和逻辑独立性、描述性查询和基于成本的优化等)引领了一个数十亿美元的产业。更重要的是,这些技术的进步使第一代智能应用成为可能,并为现在的大数据管理和分析奠定了基础。如今,面临与大数据相关的许多新的挑战和机遇,保留这些技术精华的同时,数据管理平台的诸多技术需要重新考虑,并将带来新一轮基础技术的进步。而下一代的大数据管理和分析平台、产品和系统都将基于这些新技术。虽然这些问题的研究有很大的难度,要求从根本上重新思考数据分析系统,但我们相信,对此研究的需求将非常紧迫,而且对于大数据的重大投入,如果导向正确的话,不仅可以带来科学上的重大进步,还将为下一代的科学、医学和商务发展奠定基础,并有可能在今后几年为美国经济创造出巨大的价值。2 引言在很多应用领域,数据正以史无前例的规模汇集,与以往基于猜测或模型进行决策不同,如今,人们大多是根据数据本身进行决策。大数据分析现在几乎推动着社会生活的方方面面,包括移动服务、零售业、制造业、金融服务、生命科学和物质科学等。大数据给科学研究带来了变革[CCC2011a]。如今,斯隆数字太空观测[SDSS2008]已经成为全世界天文学家的中心资源。在天文学领域,天文学家的工作发生了大幅度转变。以前,天文学家的主要工作是进行太空拍照。如今,所有照片都已经存放在数据库中。天文学家的任务变为从数据库中发现有趣的物体或现象。在生物科学领域,目前已经建立起将科学数据存入公共数据存储的良好传统。生物学家经常创建一些公共数据集供其他领域科学家使用。事实上,生物信息学领域有一个专门的学科致力于整理和分析这些数据。随着技术的进步,特别是新一代测序技术的问世,实验数据集越来越多,数据规模也在成倍增长。大数据在给科学研究带来变革的同时,也为教育带来变革[CCC2011b]。最近,一项在纽约市35所学校进行的不同教学方法的定量比较发现:使用数据指导教学是五种最有效的教学手段之一[DF2011]。同时,通过连续监测、提前预防和个性化医疗,信息技术在降低医疗成本的同时可以提高医疗质量[CCC2011c]。麦肯锡估计[McK2011],仅就美国而言,在医疗领域,信息技术的应用每年可节省3000亿美元。类似地,大数据的价值还体现在多个方面,例如:城市规划(通过融合高清晰度的地理数据)、智能交通(通过分析与可视化现场的详细的道路网络数据)、环境建模(通过无处不在的传感器网络收集数据)[CCC2011d]、能源节省(通过发现使用模式)、智能材料(通过基因组计划发现新材料[MGI2011])、社会计算(由于获取数据的成本降低,该类方法越来越受欢迎)[LP+2009]、金融风险分析(通过合同网络的综合分析寻找金融实体之间的依赖关系)[FJ+2011]、国土安全(通过分析潜在的恐怖分子的社交网络和金融交易)、计算机安全(通过分析日志信息和其他事件,即安全信息和事件管理(SIEM))等。2010年,企业和用户存储了超过13EB(13×1018B)的新数据,这比美国国会图书馆的数据大50000多倍。根据麦肯锡公司最近的一份报告[McK2011],对于最终用户而言,全球个人定位数据的潜在价值估计为7000亿美元,可导致减少高达50%的产品研发和组装费用。麦肯锡预测大数据将对就业产生很大影响。在美国,大约需要140000至190000名具有“深度分析”经验的分析师;此外,还需要150万懂得与数据打交道的管理人员。无独有偶,最近美国总统科技顾问委员会(PCAST)关于网络和信息技术研发的报告[PCAST2010]将大数据定位为能够“促进优先发展”的“研究前沿”。14科研信息化技术与应用,2013,4(1)大数据的潜在好处显而易见,在某些方面甚至已初见成效。但要充分发挥这一潜力仍需面对许多技术挑战,数据规模(Volume)首当其冲,除此之外,还有许多其他挑战,例如大数据分析,其主要困难来自于数据的多样性(Variety)和实时性(Velocity)[Gar2011]:多样性通常是指异构的数据类型、表示和语义解释;实时性指数据到达的速度很快,而能够进行处理的时间很短。另外,例如数据的隐私问题和可用性也是很大的问题。大数据分析的过程涉及多个不同阶段,如图1所示。每个阶段都存在挑战性。大数据分析目前遇到的主要瓶颈是:能够根据数据提出问题并分析问题的人太少[NYT2012],需要从根本上重新思考该如何实现数据分析。虽然我们可以使用现有的计算技术或通过功能扩展来解决某些方面的大数据问题,但更需要我们解决的难题是如何结合现有系统的良好特性,设计出新的方案。本文针对图1中的每一部分进行了分析,并讨论什么是已经完成了的,什么是我们在探寻开发大数据中依然存在的挑战。在下文中,我们首先讨论流水线中的5个阶段,然后讨论大数据分析中的5个跨阶段挑战,最后,讨论结合所有这些功能的系统整体架构。3 数据处理流水线中的各个阶段3.1 数据采集和记录人类对周围世界的感知、监测会产生大量数据,科学实验和仿真可以很容易地产生PB级的数据,对这些数据的有效采集是我们面临的第一个挑战。有许多数据是不重要的,需要研究有效的数据约减技术,既能将数据智能地约减到一个能够处理的规模,又能不丢失有用信息。此外,因为数据太大,无法将所有数据存储下来后再进行约减,需要研究“在线”分析技术,来不间断地处理随时到达的数据流。如何自动地生成正确的元数据。元数据用来描述数据收集过程中哪些数据被记录了、以及它们是如何记录和度量的。元数据采集系统可以最大限度地减少人类在记录元数据时的负担。数据采集阶段中的另一个重要问题是数据的可溯源性。在数据产生时记录下的信息是毫无用处的,除非这些信息可以被解释并沿着数据分析的流水线进行传输。因此,我们既要研究如何生成正确的元数据,又要研究如何能够沿着数据分析流水线进行数据溯源。3.2 信息提取和清洗通常,上一阶段收集到的数据的格式并不适合图1大数据分析流水线。大数据分析过程的主要环节如图的上半部分所示。图的下半部分是大数据分析的需求。这些需求使得分析任务具有挑战性。Fig.1TheBigDataAnalysisPipeline.Majorstepsinanalysisofbigdataareshownintheflowattop.Belowitarebigdataneedsthatmakethesetaskschallenging.获取/记录分析/建模系统整体异构性规模及时性人机协作隐私阐释抽取/清洗/注释集成/聚集/表达15李翠平等译:大数据的挑战和机遇进行分析,我们需要一个信息提取的过程,将所需要的信息从原始数据中抽取出来,并表达成适合分析的格式。要正确完善地将所需数据提取出来是一个技术挑战,而这些数据类型及来源各异。这些数据包括文本、数字、图像,并且还包括视频。提取的过程往往高度依赖于某个应用程序。无处不在的监控摄像机和全球定位系统使得从手机、相机以及其它便携设备中提取丰富且高精度的位置和轨迹(即,在空间中的运动)数据成为可能。此外,数据本身可能不准确或有错误。现有数据清洗的工作都以在有效数据或误差模型上的公认约束作为假设;对于许多新兴的大数据领域来说,这些却并不存在。3.3 数据集成,聚集与表达面对异构的数据,仅仅做到记录并存储是不够的。相对于简单的数据定位、识别、理解和引用,数据分析具有更大的挑战性。因为数据规模很大,要对其进行有效分析,分析过程必须按照完全自动化的方式进行。这就要求计算机能够理解数据在结构上的差异,明白数据所要表达的语义,然后“机械”地进行分析。对大数据分析来说,设计一个好的适于分析的数据库是非常重要的。要让其他人士,例如领域专家,也能够设计出好的数据库,或是在设计过程中,用设计工具协助他们,或是完全放弃整个传统的设计过程,开发出在没有好的数据库设计的情况下,也能有效地使用数据库的技术。3.4 查询处理,数据建模和分析查询和挖掘大数据的方法与传统的小样本统计分析有着根本的不同。大数据往往是含有噪声的,动态的,异构的,相互关联和不可信的,即便这样,含有噪声的大数据也可能比小样本数据更有价值,因为从频繁模式和相关性分析得到的一般统计量通常会克服个体的波动,往往会发现更多可靠的隐藏模式和知识。此外,互相连接的大数据形成大型异构信息网。通过信息网,冗余的信息可用于弥补缺失数据、交叉核对数据不一致、验证可信关系、揭示固有聚类、发现隐藏的关系和模型。数据挖掘需要集成的、经过清洗的、可信的、可高效访问的数据,需要描述性查询和挖掘界面,需要可扩展的挖掘算法以及大数据计算环境。与此同时,数据挖掘本身也可以用来提高数据质量和可信度,帮助理解数据的语义,提供智能的查询功能。只有能够鲁棒地进行大数据分析,大数据的价值才能发挥出来。另一方面,从数据得出的知识有助于纠正错误,并消除歧义。大数据也使下一代可实时应答的交互式数据分析成为可能。将来,系统应该能够根据网站的内容自动构造查询,自动提供热门推荐,自动分析数据的价值并决定是否需要保存。目前,在保证交互式响应的同时如何进行TB级的复杂查询处理已成为一个重要的研究课题。目前大数据分析还存在另一个问题,数据库管理系统和数据分析软件之间没有实现无缝集成,如果能够实现此无缝集成将有利于提高数据分析的表达能力与性能。3.5 解释如果用户无法理解分析的结果,大数据分析将失去意义。决策者必须能够对所提供的分析结果进行解释。这个解释不能凭空做出。通常,它涉及对所有假设的检验和对分析的回溯。此外,如前所述,分析过程存在很多可能的误差源:计算机系统可能有缺陷、模型几乎总是带有假设、结果可能基于错误的数据。因此,负责任的用户不会完全相信系统。相