大数据技术综述Abstract:Weareenteringintoa“bigdata”era.Duetothebottlenecks,suchaspoorscalability,installationandmaintenancedifficulties,faulttoleranceandlowperformance,intraditionalinformationtechniqueframework,weneedtoleveragethecloudcomputingtechniquesandsolutionstodealwithbigdataproblems.Cloudcomputingandbigdataarecomplementarytoeachotherandhaveinherentconnectionofdialecticalunity.Thebreakthroughofbigdatatechniqueswillnotonlyresolvethecurrentsituation,butalsopromotethewideapplicationofcloudcomputingandtheinternetofthingstechniques.Wefocusondiscussingthedevelopmentandthepivotaltechniquesofbigdata.Andprovideacomprehensivedescriptionofbigdatafromseveralperspectives,includingthedevelopmentofbigdata,thecurrentdata-burstsituation,therelationshipbetweenbigdataandcloudcomputingandthebigdatatechniques.Finally,weintroducetherelatedtechniqueresearchesandourcurrentwork.Keywords:bigdatatechnique;cloudcomputing;dataacquisition;datastorage;datacomputation;presentationandinteraction摘要:我们正在进入一个“大数据”时代,传统的信息技术架构,存在着扩展性差、容错性差、性能低、安装部署及维护困难等诸多瓶颈,需要以现代云计算手段和技术来解决大数据问题.云计算与大数据是相辅相成、辨证统一的关系,大数据技术的突破不仅能解决现实困难,同时也会促使云计算、物联网技术真正落地并深入推广和应用.针对大数据的发展历程以及关键性的大数据技术进行探讨,从大数据的发展历程、当前面临的大数据问题、大数据与云计算的关系以及大数据技术等方面进行综合描述.归纳总结相关的技术研究和我们的研究成果.关键词:大数据技术;云计算;数据采集;数据存储;数据计算;展现与交互中图法分类号:TP301文献标识码:A1大数据的发展背景及定义当今,信息技术为人类步入智能社会开启了大门,带动了互联网、物联网、电子商务、现代物流、网络金融等现代服务业发展,催生了车联网、智能电网、新能源、智能交通、智能城市、高端装备制造等新兴产业发展.现代信息技术正成为各行各业运营和发展的引擎.但这个引擎正面临着大数据这个巨大的考验[57].各种业务数据正以几何级数的形式爆发[1],其格式、收集、储存、检索、分析、应用等诸多问题,不再能以传统的信息处理技术加以解决,对人类实现数字社会、网络社会和智能社会带来了极大的障碍.纽约证券交易所每天产生1TB的交易数据;Twitter每天就会生成超过7TB的数据;Facebook每天会产生超过10TB的数据;位于欧洲粒子物理实验室的大型强子对撞机每年产生约15PB的数据.根据著名咨询公司IDC的调查与统计,07年全球信息量约为165EB,即使在全球遭遇金融危机的2009年,全球信息量仍达到800EB,比上一年度增长62%;未来每隔18个月,整个世界的数据总量就会翻倍;预计2020年这一数字将达到35ZB,约为2007年的230倍,而人类历史5000年的文字记载只有5EB数据.上述统计与调查预示着TB、PB、EB的时代已经成为过去,全球将正式进入数据存储的“泽它(Zetta)时代”.从2009年开始,“大数据”成为互联网信息技术行业的流行词汇,大数据起初成熟应用多在互联网行业,互联2网上的数据每年增长50%,每两年翻一番,全球互联网企业都意识到“大数据”时代的来临,数据对于企业有着重要意义.2011年5月,麦肯锡全球研究院发布题为《大数据:创新、竞争和生产力的下一个新领域》[2]的报告.报告发布后,“大数据”迅速成为计算机行业的热门概念.2012年4月美国奥巴马政府推出”大数据研究和发展倡议”[3],并划拨2亿美元的专项资金之后,在全球掀起了一股大数据的热潮.根据Wikibon2011年发布的大数据报告[4],大数据市场正处在井喷式增长的前夕,未来五年全球大数据市场价值将高达500亿美元.2012年初,大数据相关软件、硬件和服务的收入总和只有约50亿美元.但随着企业逐渐认识到大数据和相关分析将形成新的差异化竞争优势,提升运营效率,大数据相关技术和服务将获得长足发展,大数据将逐渐落地,并在未来五年保持58%的惊人复合增长速度.投资银行JMPSecurities分析师GregMcDowell则表示大数据工具市场预计将在10年内由去年的90亿美元增长至860亿美元.到2020年,企业在大数据工具方面的投资将占整体企业IT开支的11%.目前,业界对大数据还没有一个统一的定义,常见的大数据定义如下:“大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合.”——麦肯锡.“大数据是指无法在一定时间内用常规软件工具对其内容迚行抓取、管理和处理的数据集.”——维基百科“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产.”----Gartner大数据具备Volume、Velocity、Variety和Value四个特征[47](简称为“4V”,即数据体量巨大、处理速度快、数据类型繁多和价值密度低),下面对每个特征分别作简要描述.Volume:表示大数据的数据量巨大.数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数.比如一个中型城市的视频监控头每天就能产生几十TB的数据.Variety:表示大数据的类型复杂.以往我们产生或者处理的数据类型较为单一,大部分是结构化数据.而如今,社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生大量半结构化或者非结构化数据,如XML、邮件、博客、即时消息等,导致了新数据类型的剧增.企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据.随着传感器、智能设备和社会协同技术的爆炸性增长,数据的类型无以计数,包括:文本、微博、传感器数据、音频、视频、点击流、日志文件等.Velocity:数据产生、处理和分析的速度持续在加快,数据流量大.加速的原因是数据创建的实时性天性,以及需要将流数据结合到业务流程和决策过程中的要求.数据处理速度快,处理能力从批处理转向流处理.业界对大数据的处理能力有一个称谓——“1秒定律”,也就充分说明了大数据的处理能力,体现出它与传统的数据挖掘技术有着本质的区别;Value:大数据由于体量不断加大,单位数据的价值密度在不断降低,然而数据的整体价值在提高.有人甚至将大数据等同于黄金和石油,表示大数据当中蕴含了无限的商业价值.根据IDC调研报告中预测,大数据技术与服务市场将从2010年的32亿美元攀升至2015年的169亿美元,实现年增长率达40%,并且将会是整个IT与通信产业增长率的7倍.通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润.大数据处理技术在具体的应用方面,可以为国家支柱企业的数据分析和处理提供技术和平台支持,为企业进行数据分析、处理、挖掘,提取出重要的信息和知识,再转化为有用的模型,应用到研究、生产、运营和销售过程中.同时,国家大力倡导“智慧城市”建设,在城市化与信息化融合等背景下,围绕改善民生、增强企业竞争力、促进城市可持续发展等关注点,综合利用物联网、云计算等信息技术手段,结合城市现有信息化基础,融合先进的城市运营服务理念,建立广泛覆盖和深度互联的城市信息网络,对城市的资源、环境、基础设施、产业等多方面要素进行全面感知,并整合构建协同共享的城市信息平台,对信息进行智能处理利用,从而为城市运行和资源配置提供智能响应控制,为政府社会管理和公共服务提供智能决策依据及手段,为企业和个人提供智能信息资源及开放式信息应用平台的综合性区域信息化发展过程.数据无疑是新型信息技术服务和科学研究的基石,而大数据处理技术理所当然地成为当今信息技术发展的核心热点,大数据处理技术的蓬勃发展也预示着又一次信息技术革命的到来.另一方面,随着国家经济结构调赵勇等:大数据技术综述3整、产业升级的不断深化,信息处理技术的作用将日益凸显,而大数据处理技术无疑将成为在国民经济支柱产业信息化建设中实现核心技术的弯道追赶、跟随发展、应用突破、减少绑架的最佳突破点[16].2大数据问题大数据因为它所蕴含的潜在价值,正在成为企业的隐形“金矿”.随着生产、运营、管理、监控、销售、客服等各个环节的数据不断累积和增长,以及用户数的不断上升,通过从庞大的数据中分析出相关模式以及趋势,可以实现高效管理、精准营销,成为企业打开这一“金矿”的钥匙.然而传统的IT基础架构和数据管理分析方法已经不能适应大数据的快速增长.大数据的爆发是我们在信息化和社会发展中遇到的棘手问题,需要我们采用新的数据管理模式,研究和发展新一代的信息技术才能解决.我们把大数据问题归纳为表1中所列7类:Table1Problemsofbigdata表1大数据问题大数据问题分类大数据问题描述速度方面的问题导入导出问题统计分析问题检索查询问题实时响应问题种类及架构问题多源问题异构问题原系统的底层架构问题体量及灵活性问题线性扩展问题动态调度问题成本问题大机与小型服务器的成本对比原有系统改造的成本把控价值挖掘问题数据分析与挖掘问题数据挖掘后的实际增效问题存储及安全问题结构与非结构数据安全隐私安全互联互通与数据共享问题数据标准与接口共享协议访问权限2.1速度方面的问题传统的关系型数据库管理系统(RDBMS)一般都是集中式的存储和处理,没有采用分布式架构,在很多大型企业中的配置往往都是基于IOE(IBM服务器,Oracle数据库,EMC存储).在这种典型配置中单台服务器的配置通常都很高,可以多达几十个CPU核,内存也能达到上百GB;数据库的存储放在高速大容量的磁阵上,存储空间可达TB级.这种配置对于传统的信息管理系统(MIS)需求来说是可以满足需求的,然而面对不断增长的数据量和动态数据使用场景,这种集中式的处理方式就日益成为瓶颈,尤其是在速度响应方面捉襟见肘.在面对大数据量的导入导出、统计分析、检索查询方面,由于依赖于集中式的数据存储和索引,性能随着数据量的增长而急速下降,对于需要实时响应的统计及查询场景更是无能为力.比如在物联网中,传感器的数据可以多达几十亿条,对这些数据需要进行实时入库、查询及分析,传统的RDBMS就不再适合应用需求.2.2种类及架构问题RDMBS对于结构化的、固定模式的数据,已经形成了相当成熟的存储、查询、统计处理方式.随着物联网、互联网以及移动通信网络的飞速发展,数据的格式及种类在不断变化和发展.在智能交通领域,所涉及的数据可能包含文本、日志、图片、视频、矢量地图等来自不同数据采集监控源的,不同种类的数据.这些数据的格式4通常都不是固定的,如果采用结构化的存储模式将很难应对不断变化的需求.因此对于这些种类各异的多源异构数据,需要采用不同的数据和存储处理模式,结合结构化和非结构化数