1大数据的产业价值及发展趋势一、重新理解大数据(一)大数据概念及其特点数据知识决策关联模式趋势相关分类市场定位资金分配产品选择广告营销时机选择位置选择行业细化数字化多媒体多维度大规模细粒度1、大数据概念的发展脉络200820102011《Nature》推出了BigData专刊;2008首次列入“维基百科”条目;2010.4Science推出专刊,说明大数据对于科学研究的重要性;2011.2“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”20112012麦肯锡全球研究院发布一份报告——《大数据:创新、竞争和生产力的下一个新领域》;2011.5IBM在产品发布会上主推大数据概念;2011.11美国国家科学基金发布大数据指南,指出大数据是海量、多样、分布的、异构的数据。2012“大数据是指具有以下三个特征的数据:大数据量、快速增长及多数据来源及类型的数据。4V特性:大规模、多样化、快速增长、潜藏价值。2、大数据的构成大数据包括交易数据和交互数据集在内的所有数据集。大数据=海量数据+复杂类型的数据海量交易数据海量交互数据海量数据处理企业内部的经营交易信息,主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。源于Facebook、Twitter及其他来源的社交媒体数据构成。包括呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等,可以预测未来。大数据的涌现已经催生出了设计用于数据密集型处理的架构,例如具有开放源码、在商品硬件群中运行的ApacheHadoop。3、大数据的基本概念大数据是一种数据,具有可扩展性、多样性、复杂性的特点,需要一种新的架构、新的技术、新的算法以及新的分析工具去管理这些数据,同时从中抽取隐含在内的重要信息。(“BigData”isdatawhosescale,diversity,andcomplexityrequirenewarchitecture,techniques,algorithms,andanalyticstomanageitandextractvalueandhiddenknowledgefromit.)“大数据”是指数据海量、计算复杂的数据集合,其在一定时间内难以依靠已有数据处理技术来进行有效的采集、管理和分析。大数据通常满足以下“4V”特点:规模巨大产生高速形式多样信息价值大数据最核心的价值是:社交网络,让我们越来越多地从数据中观察到人类社会的复杂行为模式。社交网络,为大数据提供了信息汇集、分析的第一手资料。从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户“口味”的产品和服务,并结合用户需求有针对性地调整和优化自身,就是大数据的价值。4、大数据的特点形式多样(Variety)信息价值(Value)产生高速(Velocity)规模巨大(Volume)非结构化数据的超大规模,比结构化数据增长快10倍到50倍。实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效。异构性(文本、图像、视频、机器数据),模式不明显,语法语义不连贯。大量的不相关信息,对未来趋势与模式的深度复杂分析。非结构化数据:非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)结构化数据:结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。大数据中90%的数据属于机器数据。除了来自于服务器、存储、网络中的传统IT数据以外,来自移动互联网、物联网中的大量非结构化数据也都属于机器数据。相比数据库数据,机器大数据具有数量大、增长速度快、复杂性高、多样化等特点,但是价值密度略低。互联网数据2011年全球数据产生量达到1.8ZB,以每本书10MB计算,相当于七百万个中国国家图书馆的容量。预计到2020年将达到35ZB,“大数据”来敲门.医疗保健数据海洋气象数据基因工程美国国立基因组研究所宣布,“千人基因计划”所产生的数据总量已达到200TB,成为世界上最大的人类基因变异数据集。数据的度量尺度:1KB=103B1MB=106B1GB=109B1TB=1012B1PB=1015B1EB=1018B1ZB=1021B1YB=1024B电信运营数据中国联通上网记录每秒83万条,每月1万亿条(300TB)。天文数据美国大口径望远镜每两周对太空观测一遍,每天产生16TB数据,5年总数据量将达到15PB。企业运行数据2000年全球新产生的数据量为1000PB到2000PB,到2010年仅仅全球企业一年新存储的数据量就超过了7000PB。各种数据类型现在的数据类型不仅是文本形式,90%是文字、图片、音频、视频、地理位置信息等非结构化数据,个性化数据占绝对多数。文字音频视频地理信息图片Internet上1分钟内发生了:•639TBIP流量;•2亿封邮件;•70万Facebook更新;•30小时YouTube新增视频;•70万Google搜索。信息价值以视频为例,7X24小时的全城监控视频中,可能有用的数据仅仅只有一两秒。可用信息在数据总量中的比例低,但其潜在价值巨大。从视频中发现犯罪嫌疑人周克华2011年-2016年中国大数据市场规模2011年是中国大数据市场元年2012年-2016年迎来大数据市场的飞速发展。2012年中国大数据市场规模将达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。2011年-2016年中国大数据市场规模2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。全球未来5年58%的增速,2017年达到500亿美元。中国2013年增速为138%,2017年市场达到100亿。(二)相关概念与关系分析维基百科定义:云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。我们认为:云计算是指服务的交付和使用模式,用户通过网络以按需、易扩展的方式获得所需的服务。云计算海计算框计算风计算。。。神计算?不是概念不是操作不是口号不是超级计算不是网格计算是新的创新模式是新的商业模式是新的运营模式是成本、效用、应用至上是大众参与的舞台是不是云计算特点如下:(1)超大规模“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。(2)虚拟化云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。(3)高可靠性“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。(4)通用性云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。通俗的来讲,云计算就是让计算变成像水、电、煤气一样的基础设施,人们可以像购买水、电、煤气一样购买计算服务,因此可以说云计算重新定义了IT软硬件资源的设计和购买的方式,从而可能引发IT产业的大规模变革。云计算主要分为四类:公共云、私有云、社区云及混合云。公共云是利用互联网,面向公众提供云计算服务;私有云是利用企业内网和专网,面向单一企业或组织提供云计算服务,这些服务是不提供于公众使用的;社区云是利用内网、专网及VPN,为多家关联部门提供云计算服务;混合云是上述两种或三种云的组合网络虚拟化32数据中心虚拟化(vDC)云计算虚拟化资源数据中心物理资源存储虚拟化计算虚拟化云计算是以公开的标准和服务为基础,以互联网为中心,提供安全、快速、便捷的数据存储和网络计算服务,让互联网这片云成为每一个网民的数据中心和计算中心。IDC(国际数据资讯公司)预计2010年将是云端运算服务元年,认为云计算的增长速度将是传统IT行业增长率的6倍,未来5年云端服务的平均年增长率可望达到26%。在国内,云计算与物联网一道被列为将会给人们的生活带来变革,甚至会改变生活、生产方式的新技术。《中国家庭金融调查报告》中国的住房自有率是89.68%;世界平均住房自有率是60%;瑞士是31%,紧随其后的是瑞典和德国;住房自有率最高是亚美尼亚,在1998年时高达96.3%。住房自有率水平高的国家,几乎都是经济水平发展比较低的转轨国家,而住房自有率低的国家则大多为经济发达的国家。发达国家人口流动性强,为了减少住房买卖的麻烦,很多人宁愿租房住而不是买房。相反,落后国家人口流动性较差,拥有自有住房的家庭,反而更可能居住在自己拥有的住房中。北京北五环买房:120平方米——600万投资理财:5%-10%利率(30-60万)租房:租金1万/月房子质量好无须物业费、维修维护、折旧、可能的房产税…住宾馆(30-60万):未必每天都住;弹性,按需;客房服务、卫生、餐饮;拎包入住。云计算之PaaS、SaaS。云计算的基础设施、安全设施非常完备。安全是把双刃剑放在云里面的数据,对云的管理而言又是不安全的。虚拟化安全去重-压缩可靠保密绿色节能数据保护云计算面临的安全问题关键技术视角使用者视角虚拟化技术带来全新安全威胁数据集中存储引发的安全问题云服务的管理和调度产生的安全问题传统安全威胁的新特点隐私保护和数据安全运行环境的安全内容安全云计算关键技术:云计算是分布式处理、并行计算和网格计算等概念的发展和商业实现,其技术实质是计算、存储、服务器、应用软件等IT软硬件资源的虚拟化,云计算在虚拟化、数据存储、数据管理、编程模式等方面具有自身独特的技术。云计算的关键技术包括以下几个方向:虚拟机技术虚拟机,即服务器虚拟化是云计算底层架构的重要基石。在服务器虚拟化中,虚拟化软件需要实现对硬件的抽象,资源的分配、调度和管理,虚拟机与宿主操作系统及多个虚拟机间的隔离等功能,目前典型的实现(基本成为事实标准)有CitrixXen、VMwareESXServer和MicrosoftHype-V等。数据存储技术:云计算系统需要同时满足大量用户的需求,并行地为大量用户提供服务。因此,云计算的数据存储技术必须具有分布式、高吞吐率和高传输率的特点。目前数据存储技术主要有Google的GFS(GoogleFileSystem,非开源)以及HDFS(HadoopDistributedFileSystem,开源),目前这两种技术已经成为事实标准。数据管理技术:云计算的特点是对海量的数据存储、读取后进行大量的分析,如何提高数据的更新速率以及进一步提高随机读速率是未来的数据管理技术必须解决的问题。云计算的数据管理技术最著名的是谷歌的BigTable数据管理技术,同时Hadoop开发团队正在开发类似BigTable的开源数据管理模块。云计算的资源管理需要负责资源管理、任务管理、用户管理和安全管理等工作,实现节点故障的屏蔽,资源状况监视,用户任务调度,用户身份管理等多重功能。在云计算时代,SOA架构和以WebService为特征的业务模式仍是业务发展的主要路线。云计算相关的安全技术:云计算模式带来一系列的安全问题,包括用户隐私的保护、用户数据的备份、云计算基础设施的防护