22专题第 8 卷 第 9 期 2012 年 9 月马 帅 李建欣 胡春明 北京航空航天大学大数据科学与工程的挑战与思考引言IBM前董事长兼首席执行官郭士纳(LouisGerstner)认为,“计算模式每隔15年发生一次变革”:1965年前后出现大型机,1980年前后出现PC,1995年前后发生了互联网革命,2010年前后随着信息世界网络化、普适化、智能化,网络与传统技术交叉、融合,催生出云计算、物联网等新兴产业平台。虽然计算模式几经变迁,从单机到多机到协同等,围绕数据处理能力的研究应用一直都是IT发展的永恒主题。2007年美国总统科学技术顾问委员会(President’sCouncilofAdvisorsonScienceandTechnol-ogy,PCAST)的报告以及英国e-Science计划前首席科学家托尼·海(TonyHey)的著作《第四范式:数据密集型科学发现》(TheFourthParadigm:Data-intensiveScientificDiscovery)都揭示出数据分析已经成为继理论、实验和计算之后的第四种科学发现基础,成为产生经济价值的新源泉。它有助于分析社会学、市场预测以及医学等领域的关键词:互联网 大数据规律和趋势,形成“真理尽在数据中”的效应。“数据科学”随之成为一个新兴的研究领域。早在20世纪70年代,针对商业事务处理需求,数据处理的基础软件开始出现,而软件从过去的文件系统、操作系统、数据库系统,无一例外都是以更有效的数据处理为目标,来实现对数据更有效、更客观的分析和处理。然而,数据处理在科学计算、商业计算和社会计算等不同时期发生了本质变化。在科学计算时期,以科学数据的实时处理为主要目标,算法及算法复杂性是研究重点。在商业计算时期,以金融、电信等商业智能分析为主要目标,数据流程管理以及数据智能分析成为研究重点。如今,在社会计算时期,数据大规模、个性化和大众化特性显著,例如2011年InternetWorld统计互联网用户近20亿,社交网站Facebook活跃用户已突破8亿,其上市使风投获千倍回报,彻底改变了传统IT的应用模式。在社会计算时期,网络和应用升级推动数据量几何级数增长,数据变得愈为重要。继人力、资本之后,数据成为一种新的非物质生产要素,成为支撑科学研究和各类应用服务不可或缺的战略资源。社会计算进入了“大数据”时代。2012年3月29日,美国政府宣布了“大数据研究与发展计划”,初始启动经费2亿美元,其重要性堪比当年的“信息高速公路计划”,这标志着大数据已经上升到国家战略层面。目前大家对大数据的基本特征还没有统一的认识和定义。一部分观点认为大数据只是对海量数据、数据规模等的描述和称谓,另一部分观点认为大数据就是指基于现有技术、方法和理论所无法处理的数据。然而,无论我们如何认识和描述大数据,科学、商业和社会中涌现的各类数据及其规模、处理能力,已经使得数据或信息从“匮乏”、“充足”进入到“无能为力”的时代。本文以大数据科学与工程为切入点,以互联网网络化应用的大数据处理需求为核心,围绕大数据的三个关键问题,重点阐23第 8 卷 第 9 期 2012 年 9 月述五个方面的研究:(1)海量异构数据模型理论与管理技术;(2)海量复杂数据智能分析理论与技术;(3)大数据分布式处理技术;(4)数据质量管理基础理论与技术;(5)大数据的安全与隐私保护。大数据的三个关键问题在“数据科学”领域,大数据管理及处理能力已经成为引领网络时代IT发展的关键。获取大量真实的运行数据并建立对其进行动态高效处理的能力,将成为产业竞争力的体现。在这样的背景下,社会计算引起的应用模式变革将深刻地影响或改变IT技术的研究理论和手段。在互联网数据为各领域应用带来新契机的同时,由于数据的异质异构、无结构及不可信等特征,互联网时代大数据的管理和分析研究需要解决可表示、可处理和可靠性三个关键问题。可表示问题 当前互联网中的数据向着异质异构、无结构趋势发展。非结构化数据在互联网大数据中占有的比例大幅增加。美国弗雷斯特研究公司(Forrester)分析师在2010年《政府今天所面临的挑战》[46]报告中预计:“数据将会在今后的5年内增加8倍,其中非结构化数据在各组织机构的数据中所占份额超过70%到80%,并且这些非结构化数据的增长速度是结构化数据的10~50倍”。从数据管理的角度看,非结构化数据很难按照统一的模型进行分析处理,比结构化数据处理难得多。正是这些非结构化数据,使企业面对信息的快速增长猝不及防。因此,如何有效地表示这些非结构化数据成为首要问题。可处理问题 如今数据规模急剧扩张,远远超越现有计算机处理能力。图灵奖获得者吉姆·格雷(JimGray)和IDC公司曾预测,全球数据量每18个月翻一番。目前全球数据的存储和处理能力已远落后于数据的增长幅度。例如,淘宝网每日新增的交易数据达10TB;eBay分析平台日处理数据量高达100PB,超过了美国纳斯达克交易所全天的数据处理量;沃尔玛是最早利用大数据分析并因此受益的企业之一,曾创造了“啤酒与尿布”的经典商业案例。现在沃尔玛每小时处理100万件交易,将有大约2.5PB的数据存入数据库,此数据量是美国国会图书馆的167倍;微软花了20年,耗费数百万美元完成的Office拼写检查功能,谷歌公司则利用大量统计数据直接分析实现。此外,在数据处理面临规模化挑战的同时,数据处理需求的多样化逐渐显现。相比支撑单业务类型的数据处理业务,公共数据处理平台需要处理的大数据涉及在线/离线、线性/非线性,流数据和图数据等多种复杂混合计算方式。例如,2011年Facebook首度公开其新数据处理分析平台PUMA,通过对数据多处理环节区分优化,相比之前单纯采用Hadoop和Hive进行处理的技术,数据分析周期从2天降到10秒之内,效率提高数万倍。因此,互联网数据规模的集聚使IT数据的处理能力成为保持企业核心竞争力的关键。大数据的高效处理已经成为一个核心问题,而数据处理在不同阶段形式不同。传统数学方法已无法适应不确定、动态大数据的分析,需要将计算科学与数学、物理等学科结合,建立一种新型数据科学方法,以便在数据多样性和不确定性前提下进行数据规律和统计特征的研究。可靠性问题 由于互联网的开放性,使得大数据管理系统在数据输入时的质量确保和数据输出时的隐私保护面临考验。在传统数据库中假设数据是确定的,而互联网的数据采集和发布更灵活,容易将各种类型的不确定数据大量引入系统,造成数据中含有各种各样的错误和误差,体现为数据不正确、不精确、不完全、过时陈旧或者重复冗余。据高德纳公司(Gartner)统计,在全球财富1000强公司中有超过25%的公司关键数据不正确或不精确。在美国企业中有1%~30%的公司数据存在各类错误和误差,仅就医疗数据而言,有13.6%~81%的关键数据遗缺或陈旧。而数据是企业降低成本、损失和增加收入不可或缺的工具,例如英国BT公司24专题第 8 卷 第 9 期 2012 年 9 月(BritishTelecom)因使用数据质量工具而创造的企业效益每年高达6亿英镑。同时,用户在享受数据价值的同时,也面临日益严重的安全威胁和隐私风险。趋势科技称2011年为数据泄露年,国内CSDN网站被曝600万用户的数据库信息数据保护不妥,导致用户密码泄露。据安全机构统计,此次隐私信息泄露涉及5000万互联网用户。而著名社会网络Facebook的Beacon广告系统可以追踪到5500万用户在其他网站的活动,严重威胁用户隐私信息。因此,大数据的可靠性已经成为一个重要问题。一方面通过数据清洗、去冗等技术提取有价值数据,实现数据质量高效管理;另一方面实现对数据的安全访问和隐私保护,两方面已成为大数据可靠性的关键需求。因此,针对互联网大规模真实运行数据的高效处理和持续服务需求,以及出现的数据异质异构、无结构乃至不可信特征,数据的表示、处理和质量已经成为互联网环境中大数据管理和处理的三个重要问题。海量异构数据模型与存储在信息时代,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。不断膨胀的信息数据使系统资源消耗量日益增大,运行效率显著降低。海量异构数据资源规模巨大,新数据类型不断涌现,用户需求呈现出多样性。针对海量异构数据,如何构建一个模型来对其进行规范表达,如何基于该模型来实现数据融合,以及对其进行有效存储和高效查询是亟须解决的问题。数据模型现有的数据模型主要有关系模型、扩展关系模型、面向对象模型、E-R(Entity-Relation)模型以及分层式数据模型等。基于关系数据库,研究者提出用结构化的方法管理非结构化数据[1],并采用关系模型表达非结构化数据的描述性信息[2],但关系模型无法表达非结构化数据的复杂结构。扩展关系模型是在关系模型的二维表结构中,增加新的字段类型,表达非结构化数据信息。在多媒体数据库和空间数据库中,多采用面向对象模型。这种模型将具有相同静态结构、动态行为和约束条件的对象抽象为一类。各个类在继承关系下构成网络,使得整个面向对象的数据模型构成一个有向无环图。面向对象模型能够根据客观世界的本来面貌描述各种对象,能够表达对象间各种复杂关系。该模型存在的问题是缺乏坚实的理论基础,并且实现复杂。阿斯兰多根(Y.AlpAslandogan)等人在SCORE系统中提出了用E-R方法表达图形数据的逻辑模型,西德特(Siadat)等人[3]和朱(Chu)等人[4]也提出了基于E-R方法的非结构化数据模型。在基于内容的多媒体数据检索系统中,马库斯(Marcus)等人[5]和阿玛托(Amato)等人[6]提出了基于语义描述、底层特征、原始数据的分层式数据模型。但是,这些模型不能很好地表达各类非结构化数据的各组成部分的关系以及各类数据之间的关系。现有的非结构化数据管理技术,包括基于文本的信息检索系统、基于内容的信息检索系统和多媒体数据库系统,各自具有独立的数据表达方法与操作。在海量非结构化数据管理中,用户不仅希望使用基于文本和内容的信息检索,还需要进行数据分析、数据挖掘等一体化、智能化的数据处理。这就需要建立一种将非结构化数据的文本描述性信息与特征等信息整体表达,并且能够描述各种非结构化数据的统一数据模型。数据存储目前海量异构数据一般采用分布式存储技术。现有的分布式存储系统有美国麻省理工学院的CFS[7]、加州大学圣地亚哥分校的TotalRecall[8]、谷歌文件系统(Googlefilesystem,GFS)[9]以及HDFS(Hadoopdistributedfilesystem)[10]。目前的存储架构仍不能解决数据的爆炸性增长带来的存储问题,静态的存储方案满足不了数据的动态演化所带来的挑战。因而在海量分布式存储和查询方面仍然需要进一步研究。25第 8 卷 第 9 期 2012 年 9 月复杂数据智能分析技术现在从海量的非结构化数据中归纳、过滤信息并依据这些信息进行快速、准确地决策已经成为用户最为迫切的需求。复杂数据的智能分析包括海量图数据的匹配分析和海量社交数据分析等。图匹配查询图的表达能力强,应用广泛,在社交网络、生物数据分析、推荐系统、复杂对象识别、软件代码剽窃检测等领域都起着重要的作用。图匹配的核心的关键问题是建立满足新型应用需求的图匹配理论和模型,并提供高效的匹配查询技术,以提高查询的效率和查询结果的准确性。大数据时代的图匹配理论和技术是目前国际上数据库领域的研究热点之一。从查询语言的功能来看,图的查询语言可以分为两类。一类是Ad-hoc图查询语言,用以完成图中的某个单项查询任务。通常这类图的查询没有明确规定查询语言的语法,比如最短路径[11]、邻接查询[12]、可达性查询[13]、图同态及其扩展查询[14]、子图同构查询[15]、图模拟查询[16]及其扩展查询[17]等。另一类是通用图查询语言,可以完成多项查询任务,通常这类图的查询明确规定了查询语言的语法和表达能力,比如GraphQL[18]等。通过拓展已有的图查询语言来设计新型的图查询语言是目前的一个研究热点,通过增强其表达能