《大数据》第1期“研究”——大数据是数据、技术,还是应用2015-06-12大数据是数据、技术,还是应用朱扬勇1,2,熊赟1,21.复旦大学计算机科学技术学院上海201203;2.上海市数据科学重点实验室(复旦大学)上海201203摘要:通常认为大数据是一个现有技术难以处理的复杂而庞大的数据集,这将导致一个谬误的出现:大数据都不能被处理,能处理的都不是大数据。显然,如何定义大数据是一个问题。分析了已有的大数据定义和现象,发现数据、技术和应用是大数据的三要素,定义大数据是为决策提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题所用到的所有可能的数据,而不是一个领域的所有数据。还给出了大数据应用遇到的问题及技术挑战,并指出大数据未来的研究方向。关键词:大数据;数据科学;数据界DefiningBigDataZhuYangyong1,2,XiongYun1,21.SchoolofComputerScience,FudanUniversity,Shanghai201203,China;2.ShanghaiKeyLaboratoryofDataScience,FudanUniversity,Shanghai201203,ChinaAbstract:Generally,bigdataisregardedasatermaboutdatasetssolargeorcomplexthatconventionaldatatechnologiescannothandle.Thisstatementofbigdataleadstoconfusion:noneofbigdatahasbeenhandledbyexistingdatatechnologies;ornoneofcurrentsuccessfuldataapplicationscanbecalledasbigdata.Therefore,whatisthebestwaytodefinebigdatabecomesaproblem.Data,technology,andapplicationwereregardedasthreeassociatedkeyfactorsofbigdatabyanalyzingthestate-of-the-artofbigdata.Acomprehensivedefinitiononbigdatawasdefinedastheumbrellaofbigdataset,bigdatatechnology,andbigdataapplication.Here,bigdatasetmeansalldatathatcanbeacquiredandwererelatedtoonedecision-makingapplicationinsteadofalldatainanareaoranenterprise.Inaddition,theissuesinbigdataapplicationsandthemainchallengesinbigdatatechnologieswerediscussed.Finally,thefuturedirectionsofbigdataresearchwerepresentedincludingdatascienceandthetechnologiesofbigdatareservationanddevelopment.Keywords:bigdata,datascience,datanature1引言1997年NASA研究员MichaelCox和DavidEllsworth在IEEE第8届国际可视化学术会议中首先提出了“大数据”术语[1],但并没有引起太多重视;2008年9月《Nature》学术杂志出版了一期大数据专刊[2],使得大数据在科学研究领域得到了高度重视;2012年3月美国政府发布《大数据研究和发展倡议》[2],大数据引起了主要国家和全社会的重视。一场大数据引发的变革渗透到各个角落。一个概念让政治界、商业界、学术界的各个领域都为之兴奋不已,超过了当年计算机的诞生,也超过了互联网的诞生。大数据引起政治界重视,世界强国推出大数据战略,说明大数据关系到国家竞争力、关系到国家发展、关系到国民大众;大数据引起商业界重视,跨国公司率先运用大数据,说明大数据已经实用,商业价值重大,是企业竞争的利器;大数据引起学术界重视,说明大数据科学问题众多,需要科技攻关。然而,关于什么是大数据却众说纷纭,以至于出现一些相互矛盾的现象,最典型的矛盾现象是:技术领域说大数据是当前技术所不能解决的,而应用领域却给出了大量关于大数据成功应用的案例。“大数据都不能被处理,能够处理的都不是大数据”或者“大数据都不能用,能用的都不是大数据”这是一个谬误。事实上,到目前为止,大数据还没有一致的定义,政治界、商业界、学术界按照各自的理解推进大数据。甚至在信息技术领域,大数据概念也是争论不休的,各研究方向也都带上了大数据的帽子,似乎大数据技术将取代信息技术,这显然是有问题的。本文探寻大数据概念的内涵、大数据问题和技术挑战,给出了一个大数据的定义,指出了大数据应用面临的6个问题(以下简称“6用问题”),分析了信息化和大数据的差异,提出了“6用问题”带来的技术挑战,并进行了展望。2大数据概念严格地说,到目前为止,还没有一个明确的大数据定义,各领域按照自己的理解来研究和发展大数据。最直接的问题是大数据是数据还是技术?显然,这个问题并不容易回答。2.1现有定义的问题目前,大数据有如下几个定义。MichaelCox和DavidEllsworth在提出“大数据”术语时指出:数据大到内存、本地磁盘甚至远程磁盘都不能处理,这类数据可视化的问题称为大数据[1]。维基百科的定义[3]:大数据是一个复杂而庞大的数据集,以至于很难用现有的数据库管理系统和其他数据处理技术来采集、存储、查找、共享、传送、分析和可视化。4V定义[4,5]:大数据为具有4V特征的数据集。4V特征是指:价值(value),数据价值巨大但价值密度低;时效(velocity),数据处理分析要在希望的时间内完成;多样(variety),数据来源和形式都是多样的;大量(volume),就目前技术而言,数据量要达到PB级别以上。香山科学会议定义[6]:2013年5月召开的第462次香山科学会议给出了技术型和非技术型两个定义。●技术型定义:大数据是来源多样、类型多样、大而复杂、具有潜在价值,但难以在期望时间内处理和分析的数据集。●非技术型定义:大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。这些定义总体来讲是从技术领域看问题的。可以看出,大数据是难以处理的数据集,即大数据是一个数据集。但是,如果大数据只是一个数据集,那么处理大数据的技术叫大数据技术吗?与之前的信息技术是否有区别?在应用方面更难说清楚。例如,是否可以说“用大数据解决问题”?显然,一个数据集是不能解决任何问题的。所以,大数据不仅仅是数据集,但也不仅仅是技术,还有大数据应用。上述定义最大的问题是,均认为大数据是指当前技术难以(所不能)处理的数据集。但当技术改进了,能够处理了,还是不是大数据?于是,一个典型的矛盾现象出现:技术领域说大数据是当前技术所不能解决的数据集,而应用领域却给出了大量关于大数据成功应用的案例。这是对大数据的谬误:大数据是当前技术难以(所不能)处理的数据集,那么,所有能够被处理的数据集都不是大数据,所以没有大数据的成功应用,即“大数据都不能被处理,能够处理的都不是大数据”或者“大数据都不能用,能用的都不是大数据”。另外一个现象是大数据之争,即常常有各种领域的人在一起争论什么是大数据。由于技术领域和非技术领域对大数据的理解不同,这两个领域谈论的对象其实是不同的,技术领域说的大数据是指大数据技术,而应用领域说的大数据是指大数据应用。事实上,经过长期信息化建设,几乎所有的行业和单位都积累了庞大的数据资源,所以,数据和基于数据的应用涉及几乎所有的人。可以将大数据人群分成3类:有大数据的人群、做大数据的人群和用大数据的人群,很多时候大家在谈论大数据的时候,实际上是在谈论不同的东西,即有大数据的人谈论数据资源及其规模、做大数据的人谈论大数据带来的技术挑战、用大数据的人则谈论大数据带来的决策变革,即3类人群谈论的是不同的大数据概念。出现大数据谬误和大数据之争的现象源于大数据概念不清晰,需要一个清晰的定义来避免这些现象的发生。2.2数据、技术和应用是大数据的3要素大数据到底是数据、技术,还是应用?大数据首先是一个技术术语,来自技术领域,或者更准确一点是来自IT(informationtechnology)领域。自MichaelCox和DavidEllsworth[1]于1997年首次提出“大数据”以来,在术语发展过程中,始终提及的大数据问题是指“现有技术所不能处理的数据集”,即大数据是一个技术挑战。直到2012年3月美国政府发布《大数据研究和发展倡议》[2],大数据一词开始在非技术领域使用。大数据在非技术领域的主要表述为:大数据是决策方式的重大变革,决策依靠数据分析而不是直觉经验,主要的内涵是“大数据改变了人类生产和生活方式,是一次大变革”[6,7]。大数据的4V定义涵盖了所有技术型定义,也是影响最广泛的,但在具体理解和具体问题面前,还是引起了很多争论。例如,常常会争论一个数据集是不是大数据,即够不够大,是否达到了PB级别。显然,这只是问题的表面。问题的核心是:一个数据集是否有价值、是否值得去开发、能否挖掘出价值;能否在希望的时间内挖掘出价值。因此,价值和时效是大数据的核心内涵,是必须的。(1)关于价值:如果一个数据集没有价值,就不需要关注;如果一个数据集的价值密度高,即大部分数据都是有价值的,直接读取数据集就能获得价值,可以成功应用,没有技术难度。然而,通常情况是价值巨大但价值密度低,像大海捞针,因此大数据是一个很难的技术挑战。(2)关于时效:所有的大数据处理和分析都应该在希望的时间内做完,如果过了希望的时间就没有意义了,这也是一个技术挑战。从上述定义中可以看出:首先,所有的定义都谈到了数据,一个庞大的数据集;其次,技术方面强调了大数据是当前技术所不能的,这里的“不能”是指“不能在希望的时间内”做到,是技术问题;第三,大数据是用来解决决策应用问题的,是一个基于数据集和数据技术的决策应用,改变着生产和生活中的决策方式。因此,数据、技术和应用是大数据的3个要素,数据隐含价值、技术发现价值、应用实现价值。2.3定义大数据应该如何定义大数据呢?首先,不能把一个技术挑战定义为大数据,否则,一旦技术挑战解决了,就不是大数据了,而且挑战本身不是一个事物,不能命名;其次,也不能把一个数据集定义为大数据,数据集本身只是隐含价值,不能直接发挥作用;最后,更不能将一个数据应用定义为大数据,那样会导致所有基于数据的系统都是大数据。可以采用如下描述定义大数据。大数据是指为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题所用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指用大数据集和大数据技术来支持决策活动,是新的决策方法。大数据能否为一个决策问题提供服务的关键是:是否能在决策希望的时间内有效完成所有的任务。由于数据增长的速度远快于技术进步的速度,因此就出现大数据问题。大数据问题是指不能用当前技术在决策希望的时间内处理分析的数据资源开发利用问题。大数据问题的关键技术挑战在于:找到隐含在低价值密度数据资源中的价值;在希望的时间内完成所有的任务。根据这个定义,大数据谬误和大数据之争就可以避免。首先,给定一个大数据集,当没有大数据技术能够在希望的时间内开发其价值,那么该大数据是一个技术挑战,否则就是一个大数据应用。需要注意的是,一个大数据应用可能会转化成大数据的技术挑战。例如,无人驾驶汽车在道路