DaaS数据即服务及大数据技术发展态势跟踪

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据技术发展态势跟踪——关于大数据的几个重要观点和产业技术路线发展大数据(BigData),普遍认为是指在特定行业中,超出常规处理能力、实时生成、类型多样化的数据集合体,具有海量(Volume)、快速(Velocity)、多样(Variety)和价值(Value)的4V特征。最早提出大数据特征的是2001年麦塔集团(后被Gartner公司收购)分析师道格•莱尼(DouglasLaney)发布的《3D数据管理:控制数据容量、处理速度及数据种类》(3DDataManagement:ControllingDataVolume,VelocityandVariety),提出了4V特征中的3V。最早提出词汇“BigData”的是2011年麦肯锡全球研究院发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告。之后,经Gartner技术炒作曲线和2012年维克托•舍恩伯格《大数据时代:生活、工作与思维的大变革》的宣传推广,大数据概念开始风靡全球。一、关于大数据的几个重要观点大数据发展至今,伴随着很多争议。有人称之为“新瓶装旧酒”,也有人认为大数据的机遇被过于夸大,企业就是在这种怀疑和忐忑中抓紧推进大数据应用。客观上看,大数据在研究范式、企业战略层面具有变革的潜力,但不宜过于强调其新颖性,不应同过去的数据学科领域割裂开来;21世纪以来,大数据技术发生了革命性突破,主要体现在对3V特性的“适应”和“运用”上,目前受益最大的是云计算产业,对其他产业和社会发展的变革作用尚未落地。有如下几个重要判断和观点:1、大数据的核心思想本质是数据挖掘。数据挖掘(DataMining)借助计算机从海量数据中发现隐含的知识和规律,是一门融合了计算机、统计等领域知识的交叉学科,其核心的人工智能、机器学习、模式识别等理论在上世纪90时代推行知识管理时已有显著进展。从本质上看,大数据带来的“思维大变革”以及一些数据驱动类的商业智能(BusinessIntelligence)模式创新,都是数据挖掘理论的延伸,表达为“数据挖掘相对于数理统计带来的思维变革”或许更加准确。比如,因果关系是数理统计中的重要内容,基于完善的数学理论,代表是回归模型;而相关关系是数据挖掘中的重要内容,基于强大的机器运算能力,代表是神经网络、决策树算法,这使得人们不需要了解背后复杂的因果逻辑也可以获得良好的分析和预测结果。从某种程度上说,必须感谢大数据的宣传者,正是这样的热炒才让数据挖掘这样一门小众却极具价值的科学展现在大众眼前,起到了很好的科普作用。2、突破主要来自技术上的“能力拓展”。表现在对多样(Variety)、海量(Volume)、快速(Velocity)特征的“适应”和“运用”上:一是存储数据从结构化向半结构化、非结构化拓展,如基于Web异构环境下的网页、文档、报表、多媒体等,导致了一批基于非结构化数据的专有挖掘算法的产生和发展。二是数据库从关系型向非关系型、分布式拓展,关系型数据库是以行和列的形式组织起来的结构化数据表,如Excel表格,缺点在于存储容量小、数据扩展性和多样性差,而新的非关系型、分布式数据库可以弥补上述不足。三是数据处理从静态向实时交互拓展,新的大规模分布式并行数据处理技术能够实时处理社交媒体和物联网应用产生的大量交互数据,有效应对多样(Variety)和海量(Volume)带来的复杂度和时效性要求。3、能力拓展直接促成了价值(Value)的实现。得益于上述技术,数据挖掘理论获得了呈几何倍数增长的数据量和处理能力,原本很多无法验证的设想和方法得以实现。比如,传统BI分析有一个“集中”步骤,即在分析前需要对大量数据抽取和集中化,形成一个完整的数据仓库,这个步骤往往成为BI分析全过程的能力瓶颈;而基于大数据分布式技术的BI分析无需“集中”,大大提升了敏捷度和智能水平,从而推动机器学习、语义处理等领域发生重大突破,直接促成了Mahout机器学习算法集、Siri语音助手等一批商用化产品的问世。4、变革的潜力主要体现在数据开放战略和数据驱动范式上。在战略层面,数据处理从封闭、断点、静态向开放、海量、实时的转变,引发了社区、众包、网格等新业态、新模式蓬勃发展,在此基础上将推动机构数据开放和公众共享运动的兴起。在研究范式层面,科学研究出现从推理演绎驱动向数据驱动拓展的苗头,如生物基因与健康等研发密集型产业开始向数据研究科学拓展;许多传统的科学研究如历史、文学等也开始尝试运用数据分析技术。但上述重大变革目前尚未真正实现。大数据现有技术水平的主要受益产业仍然是云计算和各类基于云计算的商业模式,在信息基础设施普及率、社会开放性以及与网络智能交互技术的结合度没有达到一定能级时,大数据的应用是有限的,达不到面向社会的“无所不能”。5、大数据技术的主要推动者是互联网企业。由于更多地围绕云计算,所以大数据的底层架构和核心技术主要由谷歌、亚马逊、脸谱以及美国Apache基金会等互联网企业机构掌握。谷歌公司研发了大数据“三核心”——文件系统(GoogleFileSystem)、处理算法(MapReduce)和分布式数据库(BigTable),打造了全球大数据开发的主流框架和范式。雅虎和Apache基金会基于谷歌的算法思想,开发了Hadoop开源框架,向广大企业和创业者开放,推动产业生态系统的不断壮大;亚马逊、脸谱、推特等企业在此框架基础上开发各类功能性工具;而微软、IBM等传统IT企业在产业链上更多关注下游应用,开发产品和系统解决方案。6、大数据的提出有助于进一步明晰云计算的概念。从专有领域的角度看,原来的云计算包括两层概念:一类是海量数据的高效处理,主要是大规模分布式并行运算技术,代表是谷歌公司;另一类是硬件资源的虚拟化分配,更多聚焦虚拟机技术和对象存储出租商业模式,代表是亚马逊公司。这两层概念相互交织,往往让外界分不清楚。大数据概念的提出,可以将前者完全涵盖,侧重微观、技术和前端;云计算这个概念今后可更多地在商业模式层面进行定义,侧重宏观、服务和后端。任何IT企业的云战略都可以分成两条线:一个是大数据,一个是云计算,分别对应不同的产品。比如微软公司,如果说的是其并行数据仓库与Hadoop集成的解决方案,那么谈论的是大数据;如果提到的是其Azure数据库服务租用平台和IaaS、PaaS、SaaS三类服务模式,那么谈论的是云计算。7、数据并非越大越有价值。大数据支持者的一个重要论断是:基于全量,大数据分析的准确性将超越传统数理统计,因果关系将为相关关系所取代,而事实并非如此乐观。一方面,传统的数理统计没有过时。其经历四百年的发展,仍然在经济社会各方面发挥着重要作用。比如,抽样是一门古老且成熟的统计方法,如果目标明确、方法科学,其在绝大多数情况下得出结论的正确性,并不逊于全量数据。客观上看,全量的价值更多体现在一些传统数理统计基本假设可能失效之处,如互联网“长尾”现象的出现,导致正态分布、帕累托法则在个别领域不再适用,此时需要依靠全量数据寻求规律。另一方面,全量伴生的“噪音”有时会影响精准度。例如,被誉为大数据杰出案例的“谷歌流感趋势”近期陷入低谷,错误率高达90%以上(108周中错了100周),不能预测甲型H1N1等重大疫情。它的核心逻辑是:搜索“流感”的人数与实际患症的人数之间存在相关性,而事实上,即便去医院看流感的人都有80%~90%实际没有得流感,表面的网络搜索行为与可靠的信息来源还存在较大差距以及“去噪”过程。很多专家认为,就目前而言,相关关系还不足以替代因果关系,而只是作为其补充。二、大数据技术发展经历了从萌芽到成熟的过程基于WebofScience数据库1中1994年后涉及大数据概念的4495篇文献,采用Citespace知识图谱工具,通过热点关键词和高被引文献分析,勾勒出了大数据技术从萌芽到成熟的发展历程(如图1、2)。1、萌芽期:数据挖掘技术(上世纪90年代-本世纪初)随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。此时,对于大数据的研究主要集中于“Algorithms”(算法)、“Model”(模型)、“Patterns”(模式)、“Identification”(识别)等热点关键词,高被引文献侧重于数据挖掘和机器学习的基础技术,如1993年QuinlanJR发明的C4.5数据挖掘算法,1995年VladimirN.Vapnik撰写的机器学习教材,以及1998年EisenMB等关于聚类分析和全基因组表达模式的研究等。2、突破期:围绕非结构化数据自由探索(2003-2006年)非结构化数据的爆发带动大数据技术的快速突破。以2004年Facebook创立为标志,社交网络的流行直接导致大量非结构化数据的涌现,而传统处理方法难以应对。此时的热点关键词较为分散,包括了“Systems”(系统)、“Networks”(网络)、“Evolution”(演化)等,高被引文献也很少,说明学术界、企业界正从多角度对数据处理系统、数据库架构进行重新思考,且尚未形成共识。期间,谷歌公司JeffDean和SanjayGhemawat发表了三篇论文,分别提出GoogleFileSystem(2003)、MapReduce算法(2004)和BigTable数据库(2006),奠定了大数据技术的核心基础。3、成熟期:形成并行运算与分布式系统(2006-2009年)JeffDean在BigTable基础上开发了Spanner数据库(2009)。此阶段,大数据研究的热点关键词再次趋于集中,聚焦“Performance”(性能)、“CloudComputing”(云计算)、“MapReduce”(大规模数据集并行运算算法)、“Hadoop”(开源分布式系统基础架构)等。在高被引文献方面,有两篇引人注目,分别是2008年谷歌公司正式发表的MapReduce论文和2009年TomWhite发表的Hadoop论文。4、未来:大数据技术仍在快速发展(2010年至今)随着智能手机的应用日益广泛,数据的碎片化、分布式、流媒体特征更加明显,移动数据急剧增长。老“三核心”面临能力瓶颈,而2010年谷歌为应对这种趋势而开发的Percolator、Dremel和Pregel日趋成为新“三核心”。与此同时,非关系型数据库(NoSQL)再次自我革新,开始转向兼具关系型易查询和非关系型高扩展性的新型云数据库(NewSQL),代表如谷歌的Spanner、亚马逊的RDS、微软的SQLAzure等,大数据的核心技术仍在快速发展。——全球大数据研究的进展、分布和前沿二十年来,全球大数据研究经历了一个从起步到活跃的过程。基于大数据相关的4573篇文献和8571项专利,对其研究进展、分布和前沿进行分析,可以得出如下结论:1、美国是大数据研究的中心地带,技术创新活跃,国际间合作频繁。2、我国对大数据研究的资助力度较大,学术论文较多,但与国外创新合作较少。3、系统、性能和算法是大数据研究的重点方向和核心基础。4、大数据产业创新不仅聚焦软件技术研发,还在硬件技术上重点布局。一、大数据研究文献的国别和机构分布1、美国是大数据研究的中心地带,我国紧随其后。美国是研究者最多的国家,约占总数的34%,中国紧随其后,占23%,美中两国合计占到总数的一半以上。其余的前10位国家包括:德国、英国、日本、印度、加拿大、法国、澳大利亚和韩国。2、大数据研究文献发展的“三阶段”特征显著。第一阶段是1994-2001年,年均文献不超过50篇,研究文献主要为“美国籍”。第二阶段为2002-2010年,年均文献超过100篇,且以年均20%的幅度稳步增长,突出特点是我国文献开始出现,并在2008-2009年超过了美国。第三阶段为2011-2013年,研究文献出现爆发式增长,3年文献共达到2053篇,占20年累计总数的44.9%;主要原因是美国文献的再次崛起,3年内贡献了735篇,而我国为489篇。3、我国政府对大数据研究的资助力度较大。文献数前25位的研究机构中,美国16所大学上榜,共发表论文559篇

1 / 15
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功