1浅谈大数据的概念、技术与挑战王涛(信管110502220)摘要:计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来.数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大数据就云计算技术对于大数据时代数据管理所产生的作用进行分析.最后归纳总结大数据时代所面临的新挑战.关键词:大数据;技术;挑战;数据分析;云计算Abstract:Datatypeandamountinhumansocietyisgrowinginamazingspeedwhichiscausedbyemergingnewservicessuchascloudcomputing,internetofthingsandsocialnetwork,theeraofbigdatahascome.Datahasbeenfundamentalresourcefromsimpledealingobject,andhowtomanageandutilizebigdatabetterhasattractedmuchattention.keywords:bigdata;technology;Challenge;dataanalysis;cloudcomputing引言近年来,伴随着物联网、云计算、移动互联网等新技术的迅猛发展,数据正以前所未有的速度不断增长和积累,大数据时代已经成为普遍关注的话题.大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生.对大数据的基本概念进行剖析,并对大数据的主要应用作简单对比.在此基础上,阐述大数据处理的基本框架。这引起了产业界、学术界、科技界和政府机构的广泛关注。大数据的火热并不意味着对于大数据的了解深入,反而表明大数据存在过度炒作的危险.大数据的基本概念、关键技术以及对其利用上均存在很多的疑问和争议【1】。一、大数据的基本概念及大数据时代产生的必然早在1980年,美国著名未来学家阿尔温托夫勒(AlvinToffler)在第三次浪潮一书中就提出了大数据(BigData)的概念,并将其赞颂为第三次浪潮的华彩乐章[2]著名的数据库专家图灵奖获得者吉姆格雷(JimGray)认为传统的实验理论和计算机3大范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,于是,其在2007年提出当前科学研究已发展到了第4种范式(The2FourthParadigm)[3],即以大数据为代表的数据密集型科学近几年,一些国际顶级学术刊物也相继出版专刊对大数据进行探讨研究2008年9月,Nature推出了BigData专刊[4],从互联网技术环境科学生物医药等多个方面介绍了海量数据带来的挑战2011年2月,Science出版关于数据处理的专刊Dealingwithdata[5],讨论了数据洪流(DataDeluge)所带来的挑战,并阐明了大数据对于科学研究的重要性2012年4月,欧洲信息学与数学研究协会会刊ERCIMNews出版专刊BigData[6],讨论了有关大数据时代的数据管理数据密集型研究的创新技术等问题,并介绍了欧洲科研机构开展的研究活动和进展情况最早提出大数据时代已经到来的是全球知名咨询公司麦肯锡,其下属机构全球研究所(MckinseyGlobalInstitute)于2011年6月份发布的一份专门的研究报告,将大数据视为全世界下一个创新竞争和生产力提高的前沿领域[7],并指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来著名的市场调研机构IDC(InternationalDataCorporation,国际数据公司)在同年的报告中指出,全球数据总量在2011年已达到1.8ZB(1ZB=240GB),而这个数据大约以每两年翻一番的速度增长,预计至2020年全球拥有的数据量将达35ZB[8]。《华尔街日报》更是将大数据时代智能化生产和无线网络革命称为引领未来繁荣的三大技术变革此外,Gartner、埃森哲、普华永道等咨询公司,以及财富周刊福布斯纽约时报等商业管理刊物也对大数据进行了大量的介绍与研究纵观国际形势,对大数据的研究与应用已引起各国政府部门的高度重视,成为重要的战略布局方向.各国陆续出台有关大数据的国家政策和战略2012年3月,美国奥巴马政府宣布将投资2亿美元用于启动大数据研发倡议(BigDataResearchandDevelopmentInitiative)[9],旨在提高从海量和复杂的数据中分析萃取信息的能力,这是继1993年美国宣布信息高速公路计划后的又一次重大科技发展部署继美国率先开启大数据国家战略先河之后,其他各国也随后跟进,已经或者即将出台相应的战略举措日本政府重新启动2011年日本大地震后一度搁置的政府ICT战略研究,于2012年7月推出新的综合战略活力ICT日本,重点关注大数据应用所需的云计算传感器社会化媒体等智能技术开发2013年1月,英国政府宣布将注资6亿英镑,发展大数据合成生物等8类高新技术,其中信息行业新兴的大数据技术将获得1.89亿英镑,占据总投资的近三分之一澳大利亚政府在同年3月表示,澳联邦政府大数据战略草案有望在5月份出台,预计会在67月间正式颁布一些区域性或全球性组织也对大数据予以高度关注在过去几年,欧盟已对科学数据信息化基础设施投资1亿多欧元,并将数据信息化基础设施作为Horizon2020计划的优先领域之一[6]2012年初,世界经济论坛一份题为大数据,大影响(BigData,BigImpact)的报告宣称,数据已经成为一种新的经济资产类别,3就像货币或黄金一样联合国也推出了全球脉动(GlobalPulse)[10]倡议项目,希望利用大数据来促进全球经济发展。尽管各界各地区各机构对大数据广泛关注,进行了大量研究,但目前对于大数据尚未形成公认的定义信息管理专家涂子沛在大数据:正在到来的数据革命中这样定义大数据:指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉存储管理和分析的数据,[11]一般以太字节(TB)为单位这一定义基本上简单明了地阐述了大数据的内涵。数据是云计算技术的延伸,更是社会进步和发展的必然结果,大数据时代的到来引领了未来IT技术发展的战略走向。在信息和网络技术飞速发展的今天,越来越多的企业业务及社会活动实现了数字化,特别是随着数据生成的自动化及数据生成速度的加快,数据量也随之快速增长【12】。同时,随着存储设备、内存、处理器等电脑元件成本的稳定下降,使得之前较昂贵的大规模数据存储和处理变得十分经济【13】,也使得大数据的存在成为可能。传感器数据也是大数据的主要来源之一。在物联网时代,成万上亿计的网络传感器嵌入在数量不断增长的智能电表、移动电话、汽车等物理设备中,不断感知、生成并传输超大规模的有关地理位置、振动、温度、湿度等新型数据。此外,移动互联网、三网融合、Web2.0技术和电子商务技术的飞速发展,也促进了大数据时代的产生和发展。可以发现,数字化已经成为社会发展的必然趋势。与生产过程必须依赖硬件设备和人力资本一样,企业的业务活动、创新、成长也越来越离不开大量数据的支持【14】。也就是说,企业的任何一项业务活动都与大量的数据紧密相联,而我们每一个人都是数据的产生者,数据量与日俱增,数据结构繁杂多变,数据产生速度非常之快,我们已经进入了大数据的时代【15】。二、大数据的特点及关键技术分析1.大数据的特点大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点大数据具有以下4个特点,即4个V[16]:(1)数据体量(Volumes)巨大大型数据集,从TB级别,跃升到PB级别;(2)数据类别(Variety)繁多数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;(3)价值(Value)密度低以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟;(4)处理速度(Velocity)快包含大量在线或实时数据分析处理的需求,1秒定律。随着互联网技术的不断发展,数据本身就是资产云计算为数据资产提供了保管访问的场所和渠道,但如何盘活数据资产,使其为国家治理企业决策乃至个人4生活服务,是大数据的核心议题,也是云计算的灵魂和必然的升级方向。大数据已经出现IDC多年的研究结果告诉我们:全球数据量大约每两年翻一番,每年产生的数据量按指数增长,数据增速基本符合摩尔定律全球有46亿移动电话用户,有20亿人访问互联网,人们以比以往任何时候都高得多的热情在与数据或信息交互思科公司预计,到2013年,在互联网上流动的数据量将达到每年667艾字节[17]。关键技术2.1云计算;大数据的基础平台与支撑技术如果将各种大数据的应用比作一辆辆“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算.正是云计算技术在数据存储、管理与分析等方面的支撑,才使得大数据有用武之地.文件系统是支撑上层应用的基础。原始的数据存储在文件系统之中,但是用户习惯通过数据库系统来存取文件.因为这样会屏蔽掉底层的细节,且方便数据管理.直接采用关系模型的分布式数据库并不能适应大数据时代的数据存储。据查询是数据库最重要的应用之一,而索引则是解决数据查询问题的有效方案。而数据分析技术是最核心的业务【18】。2.2大数据处理工具关系数据库在很长的时间里成为数据管理的最佳选择,但是在大数据时代,数据管理、分析等的需求多样化使得关系数据库在很多场景不再适用.而HadOop是目前最为流行的大数据处理平台.而Hadoop【19】最先是DougCutting模仿GFS,MapReduce实现的一个云计算开源平台,后贡献给Apache.Hadoop已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)、数据处理(MapReduce)等功能模块在内的完整生态系统(Ecosystem)【20】.某种程度上可以说Hadoop已经成为大数据处理工具事实上的标准【21】.三、大数据时代面临的机遇与挑战综上所述,大数据时代的数据存在着如下几个特点:多源异构;分布广泛;动态增长;先有数据后有模式.正是这些与传统数据管理迥然不同的特点,使得大数据时代的数据管理面临着新的机遇与挑战。大数据带来的机遇【22】1.大数据的挖掘和应用成为核心,将从多个方面创造价值。大数据的重心将从存储和传输,过渡到数据的挖掘和应用,这将深刻影响企业的商业模式据麦肯锡测算,大数据的应用每年潜在可为美国医疗健康业和欧洲政府分别节省3000亿美元和1000亿欧元,利用个人位置信息潜在可创造出6000亿美元价值,因此大数据应用具有远超万亿美元的大市场。【23】2.大数据利用中安全更加重要,为信息安全带来发展契机。随着移动互联网物联网等新兴IT技术逐渐步入主流,大数据使得数据价值5极大提高,无处不在的数据,对信息安全提出了更高要求同时,大数据领域出现的许多新兴技术与产品将为安全分析提供新的可能性;信息安全和云计算贯穿于大数据产业链的各个环节,云安全等关键技术将更安全地保护数据大数据对信息安全的要求和促进将推动信息安全产业的大发展。3.大数据时代来临,使商业智能信息安全和云计算具有更大潜力。大数据产业链按产品形态分为硬件基础软件和应用软件三大领域,商业智能信息安全和云计算主题横跨三大领域,将构成产业链中快速发展的三驾马车就国内而言,商业智能市场已步入成长期,预计未来3年复合年均增长率(CAGR)为35%,十二五期间潜在产值将超300亿元;信息安全预计未来3年CAGR有望保持35%~40%的快速增长,十二五期间潜在产值将超4000亿元;云计算刚进入成长期,预计未来5年CAGR将超50%,2015年产业规模预计将达1万亿元。(一)面临的挑战1.大数据集成数据的广泛存在性使得数据越来越多地散布于不同的数据管理系统中,为了便于进行数据分析需要进行数据的集成.数据集成看起来并不是一个新的问题,但是大数据时代的数据集成却有了