大数据及其相关新兴技术BigDataandIt’sRelatedEmergingTechnologies2014年8月陈国良深圳大学计算机与软件学院Version1:07/2013...Version8:08/20142摘要:大数据、物联网和云计算是新一代信息技术发展中的华彩乐章。物联网使成千上万的网络传感器嵌入到现实世界中,云计算为物联网产生的海量数据提供了存储空间和在线处理,而大数据则让海量数据产生了价值。本报告,首先介绍大数据世界和大数据潮流;其次讲解什么是大数据和大数据的一般处理流程;接着介绍产生大数据来源之一的物联网的产生、发展及其系统架构;然后讲述大数据与云计算的关系和两者的异同点;最后在简介高性能计算与高性能计算机的基础上,阐述了在大数据面前高性能计算本身所面临的技术挑战等。目录31.大数据浪潮汹涌澎湃1.1大数据世界1.2大数据潮流1.3什么是大数据1.4变革思维研究大数据1.5大数据的价值1.6大数据的管理1.7大数据时代的产业界情况2.大数据引领社会、经济和科技发展2.1大数据对国家社会的作用2.2大数据推动国民经济发展2.3大数据促进科技发展2.4大数据应用及实例3.大数据的处理流程3.1大数据的采集与预处理3.2大数据的传输3.3大数据的存储3.4大数据的处理3.5大数据的展现4.大数据与物联网4.1物联网4.2物联网的发展历程4.3大数据与物联网5.大数据与云计算5.1什么是云计算5.2大数据与云计算的关系5.3大数据与云计算的不同点6.高性能计算与高性能计算机6.1什么是高性能计算6.2高性能计算机系统举例6.3高性能计算应用7.高性能计算面临大数据的挑战7.1计算模型的转变7.2系统结构的转变7.3编程模型的转变7.4应用方式的转变7.5其他方面的转变8.结论8.1从量变到质变8.2各领风骚十数年1、大数据浪潮汹涌澎湃1.1大数据世界(1)网络连接的世界涌现出大数据•互联网和社交网产生的数据:现代网络社会中,人们在通过电子邮件、维基、微博、博客、娱乐节目、网上购物、银行交易、股票数据等进行互动和交易,每个人在分享网上数据的同时,又在不断制造数据。•无线移动互联网络产生的数据:移动智能终端接入互联网就形成了移动互联网,它虽兼具了通信网之“随时、随地、随身”和互联网之“共享、开放、交互”的优势,但仍面临着海量数据通信对网络带宽带来的巨大负担;而移动互联网的无线接入网络使得数据流量剧增,迫使网络运营商不断增加基站数和进一步挖掘频谱利用率;网络应用和服务的多元化使得传统的微观小尺度(分组级和数据帧级)的业务规律分析无法从宏观上描述业务特征规律。•物联网上采集和观测数据:在遍布全球各地的移动传感器、无线传感器、空间遥感器、射频识读器和摄像、照相机等各种采集和观测数据设备,都在时时、处处捕获大量诸如位置数据、传感数据、卫星图像数据、气象数据等。•社会发布的信息数据:现代社会中,政府、企事业、行业等机关部门都不断地向社会发布政务信息、公共服务信息、卫生保健信息、社会保险信息、科技教育信息、安全预警信息、金融服务信息、证据投资信息等数据。41、大数据浪潮汹涌澎湃(2)大科学工程产生了大数据•*大型强子碰撞(LHC:LargeHadronCollider)试验:美国大数据研究计划中专门列出寻找希格斯粒子(被称为“上帝粒子”)的LHC实验。据说至少要1万亿个事例中才可能找出一个希格斯粒子。在发生碰撞时,LHC检测器(Detector)在一秒钟内能捕获到其临近0.4亿(40million)个快照。当LHC试验时,约有1.5亿个传感器(Sensor)每秒传递数据0.4亿次,大约每秒近6.0亿碰撞。如果所有的传感器数据均记录在LHC中,则在重复之前每天将近有500EB(E=1018)数据流量,几乎是世界上所有其他资源的200倍。*希格斯粒子以2013年诺贝尔奖获主之一现年84岁的英国科学家彼得·希格斯命名。他在1964年曾预言玻色子粒子的存在。时隔50年之后,被总部设在瑞士日内瓦的欧洲核子研究中心LHC实验项目所证实。因为诺贝尔奖至多3人分享,所以欧洲核子研究中心参与发现这种粒子的数以千计的研究人员就成了无名英雄了。*参与“上帝粒子”项目的28岁小伙子,计昊爽,合肥庐江人,毕业于中国科学技术大学,后去美国威斯康辛大学读博士。他是欧洲核子研究组织(CERN)团队成员,他在计算和实验证明出“上帝粒子”存在功不可没。他首次计算得到了5倍西格玛(Sigma)的显著度,有99.9999%的可信度表明了该粒子的存在。这在科学界被认为已经证明了上帝粒子的存在。•斯隆数字天空勘探(SDSS:SloanDigitalSkySurvey)计划:从2008年开始收集天文数据,并且每晚以200GB的速率继续收集,到2012年,SDSS已积累了超过140TB的信息。•基因测序:2013年全球至少有30万个人类个体基因组被全部或部分测序,这就意味着将会产生30Pb的序列数据,至少需要相当150PB的存储和分析计算能力。51、大数据浪潮汹涌澎湃(3)新技术新应用催生的大数据•新技术:传感技术、新型通信技术、物联网技术等高速发展,让人们感知的东西很多;人与人、人与机器、机器与机器时刻都在互联互动;新的获取、搜索、发现和分析工具更使人们获得更丰富的数据。•新应用:物联网(使成千上万的网络传感器嵌入到现实世界中)和云计算(为海量数据提供了存储空间和在线处理)等新型应用更使得数据激增。(4)大数据发展的主要推动力•大数据推动者是企业界:企业界的经济效益推动了大数据的发展。IBM、Oracle、微软、谷歌、亚马逊、Facebook等跨国巨头是大数据处理技术的主要推动者。O’Reilly公司断言:数据是下一个“IntelInside”,未来属于将数据转换成产品的公司和人们。•大数据主要消费者是网民:近年来大数据骤增主要还是来自人们的日常生活(图片、视频、音乐等),特别是互联网公司的服务。•传感网和物联网等相关技术催生了大数据的蓬勃发展。61、大数据浪潮汹涌澎湃1.2大数据潮流(1)大数据时代•大数据的价值①21世纪数据的价值有可能等同于20世纪的石油,但石油资源会不断耗尽,而数据会随应用不断增长,呈“无限增长”的趋势。②信息经济早期,数据只作为一种“资源”;后来人们逐渐把它视为一种“资产”;而现今数据却成了一种“能力”,是企业的核心竞争力。•大数据成了国际业界热门话题①21世纪是个数据为王的时代,每个人都必须“用数据说话”,谁拥有了数据,谁就有了话语权。②大数据是继云计算、物联网之后的IT界又一次颠覆性技术变革。2012年世界经济论坛发布了“BigData,BigImpact”的报告,阐述了大数据对农业、金融、医疗、健康、教育等发展带来了新机遇。71、大数据浪潮汹涌澎湃(2)大数据研究计划•美国“大数据研发创新”计划①计划概况:2012年3月,美国Obama政府宣布了“BigDataResearchandDevelopmentInitiative”计划,探讨如何利用大数据分析来应对政府所面临的一些重大问题。该计划由跨6个部门的84个大数据项目组成,总投资共$200million(2亿美元)。②计划目的:通过抽取知识和洞察大而复杂的数据,改进工作能力;通过创新,加速科学和工程发现的步伐;增强国家安全和改观国民教育现状与面貌等。③计划落实实施:除了投放2亿美元资金外,政府希望工业界、大学、非盈利企事业单位加入联邦政府,利用大数据所提供的机遇。总统号召:“allhandsondeck”(各就各位,全体出场),共同努力。在此形势下,美国有些公司已为大学提供大数据方面的研究项目与资金;大学已开设大数据的课程,为培养下一代“数据科学家”做准备等。•日本“新ICT战略研究”计划①计划发起:2012年7月日本推出“新ICT战略研究计划”,在新一轮IT振兴计划中日本政府把大数据发展作为国家层面战略提出。这是日本新启动的2011年大地震一度搁置的政府ICT战略研究。②计划关注点:所推出的新的综合战略“活力ICT日本”,“提升日本竞争力,大数据应用不可缺少”,重点在大数据的应用所需的云计算、传感器、社会化媒体等智能技术开发,大数据将为新医疗技术开发、交通拥堵的缓解等带来方便和贡献。81、大数据浪潮汹涌澎湃•英国“聚焦大数据和节能计算”计划①做好准备:英国认为自己为大数据革命做好了准备,英国把大数据看作是自己的优势,政府加大对大数据等IT技术的投入,并带动企业对该领域的投资。②资金投入:英国政府宣称投资6亿英镑科学资金,并计划在未来两年内在大数据和节能计算研究投资1.89亿英镑。政府把大量的资金投入到计算基础设施,用以捕捉并分析通过开放式数据革命获得的数据流,带动企业投入更多的资金。•我国大数据论坛及研究计划①在2013年:中国计算机学会率先于2013年成立“大数据专业委员会”,李国杰院士任主任。②在2011~2014年:2013年3月国家自然基金委在上海举行规模浩大的“大数据双清论坛”。中国分别举办了第一届(2011年)和第二届(2012年)“大数据世界论坛”。IT时代周刊等举办了“大数据2012论坛”,中国计算机学会举办了“CNCC2012大数据论坛”。国家自然科学基金委,2014年立项重点和重大项目“大数据技术和应用中的挑战性科学问题”研究,拟从10个方向中选择资助8个重点项目。国家科技部,863计划信息技术领域2015年备选项目包括超级计算机、大数据、云计算、信息安全、第五代移动通信系统(5G)等。91、大数据浪潮汹涌澎湃(3)Gartner预测大数据的发展周期•2011年:大数据进入技术导入期(Trigger),呈上升发展趋势;同时大数据预测分析等相关技术已较为成熟,而云计算、内存数据库管理和社会分析等也处于期望膨胀期(InflatedExpectation)。•2012年:大数据已进入井喷期(Inflated),处于接近高峰期,同时大数据相关预测分析、云计算、内存数据库管理、社会分析等技术已逐步发展且趋于成熟。10导入上胀低落回升稳定1、大数据浪潮汹涌澎湃•2013年:大数据带动了数据科学的研究热潮和相关使能技术的兴起。111、大数据浪潮汹涌澎湃1.3什么是大数据(1)认识大数据•大数据一般来源于网络用户、网络应用、智能终端、政府、企业和个人,所以大数据包含了互动数据、交易数据和观测数据等。•所谓大数据(BigData)就是指用目前常用的软件工具无法在容许的时间(可接受的时间)内进行获取、存储、管理和分析等的数据集(Datasets)。•数据之所以称为大数据,首先是因为其量大(LargeQuantity),而量大对不同的领域的界定也不同;目前,大数据一般典型范围为几十TB(T=1012)到PB(PB=1015),将来会更大。(2)大数据的4V定义大数据可按其大容量、快速率、多样性和高价值等4个“V”进行定义如下:•Volume(AmountofData):大容量(主要体现数据存储量大和计算量大)•Velocity(SpeedofDatain&out):快速率(主要指数据更新、增长速度快,数据存储、传输、处理速度快)•Variety(RangeofDataTypes&Sources):多样性(包括结构化的原数据库表格数据和半结构化、非结构化的文本、视频、图像等信息)•Value(UsefulnessofData):高价值(大海捞针,“在大数据困难面前,不被利用就是成本”)121、大数据浪潮汹涌澎湃(3)处理大数据的基本原理•数据量的巨大(本身也包含着数据大小变化范围大)使得数据无法集中存储和必须使用并行与分布计算技术。•数据的快速,使得数据到达速率快和输出结果快,这就需要实时处理和快速决策。•数据的多样性,数据结构化、非结构化、半结构化甚至不可预知的结构使得数据难以统一表达、处理系统极其复杂。•大数据的价值弥足珍贵,但大数据的价值密度低,在浩瀚的大数据海洋中,如何挖掘有用的东西,似如“大海捞针”!利用好大数据的价值并非易事!•大数据的研究大体上包含