第1页大数据、云计算与云GIS研究发展现状1大数据(1)定义迄今为止,对于“大数据”(Bigdata)无论从学术界、产业界都尚未形成统一成熟的定义。简单来讲,可以看作是人们为了面对“信息爆炸”的现实挑战与机遇所需的一项数据分析前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。从产业界看,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据需要特殊的数据分析计算技术,以快速有效地处理大量数据并分析得出有价值的信息或知识,包括大规模并行处理(MPP)数据库、机器学习、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。(2)特点大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。第2页《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。(3)发展现状继“物联网”、“云计算”之后,2012年始,“大数据”一词被越来越多地提及。2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”(BigDataResearchandDevelopmentInitiative),这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。谷歌公司通过大规模集群和MapReduce软件,每个月处理的数据量超过400PB;百度每天大约要处理几十PB数据;Facebook注册用户超过10亿,每月上传的照片超过10亿张,每天生成300TB以上的日志数据;淘宝网会员超过3.7亿,在线商品超过8.8亿,每天交易数千万笔,产生约20TB数据;雅虎的总存储容量超过100PB。近年来大数据的飙升主要还是来自人们的日常生活,特别是互联网公司的服务。据IDC(InternetDataCenter)统计,2011年全球被创建和复制的数据总量为1.8ZB,其中75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB)。第3页基因组学、蛋白组学、天体物理学和脑科学等都是以数据为中心的学科,这些领域的基础研究产生的数据越来越多。例如,用电子显微镜重建大脑中的突触网络,1mm3大脑的图像数据就超过1PB。传感网和物联网的蓬勃发展是大数据的又一推动力,各个城市的视频监控每时每刻都在采集巨量的流媒体数据。工业设备的监控也是大数据的重要来源,例如,劳斯莱斯公司对全世界数以万计的飞机引擎进行实时监控,每年传送PB量级的数据。由于大数据技术巨大的产业价值和应用潜力,并且信息爆炸已经成为一种不可逆转的时代潮流,大数据技术引起了政府、产业界和学术界的高度重视甚至到了火热的程度。图错误!文档中没有指定样式的文字。-1当前国际上大数据领域的研究范畴是南京大学信息管理学院2014年9月全面采集国际核心期刊数据库中“大数据”相关文献分析给出的最新统计分析结果。研究发现,当前国际大数据研究可分为算法设计与开发、平台与框架实践、数据统计分析方法及实践、语义与本体研究和大数据的应用五个方面,且具有范围不断扩大、内容持续纵深、继承性逐渐体现等特点。图错误!文档中没有指定样式的文字。-1当前国际上大数据领域的研究范畴1)算法设计与开发。对应类团A,大数据的“4V”特征使得以往数据处理算法变得不再适合,因而需要基于不同的平台对原有算法进行改进,或开发新的算法以处理海量的多源异构数据。当前针对大数据处理的算法开发多是基于云平台的并行第4页计算模式,算法的种类及旨在解决的问题涉及数据搜集、存储、检索、利用等各个方面。2)平台与框架实践。对应类团F,Map/Reduce是由Google提出的一种用于大规模数据集的并行计算处理模型。其中,Map(映射)将处理任务分拆成若干份,交给不同的处理器进行运算;Reduce(规约)则是将不同处理器中的处理结果进行归并汇总,在这个过程中存在专门的控制节点对处理的过程进行监督和控制。由于这种积沙成塔的计算模式,Map/Reduce架构使得处理大规模的海量数据成为可能。Hadoop则是一个能够用于大规模数据的分布式处理软件框架,是由Apache软件基金会开发的开源项目,主要包括HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)和HadoopMap/Reduce(GoogleMap/Reduce思想的开源实现),以及NoSQL类型的分布式数据库Hbase、大数据分析平台Pig等一系列的子项目。由于Hadoop是一个开源的免费项目,被大多数的研究者作为大数据平台和架构研究及实践的工具。3)数据统计分析方法及实践。正如以往的算法对大数据的处理不再适用,曾经的数据统计分析方法在大数据的环境中也需在原有基础上进化与创新,以适应海量的非结构化信息处理。在这一方面,国外的学者已经进行了一些卓有成效的尝试。在统计分析方法方面,通过聚类分析、机器学习与并行计算的结合,在大数据集合上进行数据挖掘,从而获得有价值的信息以支持决策,是目前相关研究的热点。而将数据密集型计算的结果进行可视化的展示,则是该领域研究的一个扩展与延伸。与该领域研究结合最为紧密的应用则是物联网(internetofthings,IoT),物联网中海量的传感器数据构成了巨大的数据集合,对这个数据集合的管理、分析和使用就需要借助大数据相关的信息处理技术。4)语义与本体研究。对应类团G,语义信息是信息的第二个层次,在语法信息和语用信息之间。语义分析的基础是使机器可以理解数据与信息,因此知识的概念化和形式化以及相应的推理机制就成为了语义分析的前提。为了使语义分析可以在互联网中实现,Berners-Lee等提出了语义网(semanticweb)的七层架构以实现互第5页联网语义层面的知识表示并确保其通用性。在这七个层次中,本体(ontology)位于第四个层次,是一种明确的共享概念化的形式说明。简单地说,本体作为一种语义工具,在知识的表示、处理及管理上具有非常大的优势。因此,针对大数据的海量异构数据,本体在知识管理和信息挖掘方面的优势得以充分发挥。那么,如何对海量的数据构建本体?如何进行知识的概念化表示?如何制定相应的推理机制以实现机器的语义理解?这都是大数据环境下需要讨论的问题。5)大数据的应用。这一部分包括B、C、D、E和I五个类团。“大数据时代”的来临,对许多行业和研究领域产生了深刻的影响。经济学研究、社会网络研究、生物信息学、化学信息学,以及医疗保健行业和移动互联网,成为与大数据研究结合最为紧密的几个领域。在经济及商业领域,大数据技术的发展使企业得以升级营销策略和顾客关系管理模式,追求更加精准的定位和更加个性化的服务以提高客户的忠诚度,从而获得经济效益。在供应链管理方面,通过对从物联网传感器等渠道收集的大规模数据进行分析,可更加准确地预测库存、订货量等信息,进而控制成本,提高收益。而在社会网络研究领域,Twitter则成为相关领域大数据研究的重要数据来源,如探究网络化组织中海量的社交关系、分析大语料库中的用户行为信息等;同时,如何在数据处理的过程中最大限度地保护公民的隐私权也是此领域关注的主要内容之一。生物信息学、化学信息学的研究则主要是利用大数据技术对基因组信息、蛋白质组信息等进行处理。欧美国家的医疗档案数据化程度非常高,因而大数据量的医疗档案的管理及分析也需要利用大数据技术实现。但是整体而言大数据技术研究仍处于起步阶段,各领域研究尚不成体系。1)“大数据”研究兴起不过几年时间,现时的研究多处于探索和拓展研究领域、发掘研究主题的阶段,因而其中心度及成熟度不会太高。2)目前为止,大数据技术研发的最大推动力并非来自于科研机构,而是来自于Google、IBM、IDC等世界领先的IT企业。科学研究需要通过论文发表来进行学术交流、实现迭代创新,而企业却需要对其研发成果进行保护,甚至将之作为商业秘密以获得竞争优势,不可能将其核心的研究成果以论文的形式发表出来,其成果第6页也就无从在相关期刊数据库中得到体现。3)就科研机构而言,大数据主题的研究不同于以往科学研究的地方在于,它既需要海量的多源异构数据作为实验样本,又需要成规模的硬件支持以实现其处理架构,这两个方面的条件的满足不仅需要科研机构的努力,更需要政府给予资金、政策等方面的支持。值得欣慰的是,截至当前,美国、英国、日本、韩国和欧盟等都相继出台了大数据的战略计划,拟投入大量的资金支持大数据的科学研究及基础设施建设。可以预见的是,未来各国的科研机构将会以此为风帆,为大数据领域的研究做出更多的贡献。具体到地理信息领域,地理大数据已然成为业内探讨的热点问题。2007年,美国科学院地理信息科学院士GoodChild首次提出了志愿者地理信息(VGI)的概念,这反映了互联网时代地理信息新的获取与应用方式,即来自公众、服务公众的新形式。在地理信息产业内,可将传统模式采集的地理信息数据与VGI数据的融合,创造出具有活力的满足移动互联网时代用户需求的大数据成果,即地理信息大数据来自公众。对于传统的大数据处理,基于涉密广域网,构建大数据分析环境;对于VGI数据处理,由于存在数据分布不均匀和连续性不一致甚至错误等问题,需基于Hadoop等云计算架构,利用MapReduce技术开发分布式并行算法,面向涉密广域网调用计算资源,进行地理信息大数据分析,将VGI数据应用到地理信息数据库动态更新中,快速将大数据及其分析成果和相关应用发布到广大的用户群之中,即地理信息大数据服务公众。(4)影响、机遇与挑战无论是制造业、金融业还是互联网行业,“数据”都是永远绕不开的话题。随着全球化进程不断加快,企业面临的竞争愈加激烈。如何从企业内部和外部相关的海量数据中提取出有利于企业正确决策的信息,成为当前获得竞争优势的重要途径之一。而在巨大利益驱动下,大数据在商业领域中的应用研究无疑会成为未来大数据研究的热点。第7页中国官方对发展大数据也日益重视。国务院总理李克强日前在给贵阳国际大数据产业博览会的贺信中提出,中国发展大数据产业“空间无限”,现在正研究制定“互联网+”行动计划,推动各行各业依托大数据创新商业模式,实现融合发展。中国工业和信息化部部长苗圩2015