大数据的产业价值(上)汪东升清华大学教授目录123大数据及其相关概念理解大数据的产业价值技术发展趋势、问题与建议•大数据概念及其特点•相关概念与关系分析一、大数据及其相关概念理解(一)大数据概念及其特点数据知识决策关联模式趋势相关分类市场定位资金分配产品选择广告营销时机选择位置选择行业细化数字化多媒体多维度大规模细粒度1、大数据概念的发展脉络200820102011《Nature》推出了BigData专刊;2008首次列入“维基百科”条目;2010.4Science推出专刊,说明大数据对于科学研究的重要性;2011.2“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”20112012麦肯锡全球研究院发布一份报告——《大数据:创新、竞争和生产力的下一个新领域》;2011.5IBM在产品发布会上主推大数据概念;2011.11美国国家科学基金发布大数据指南,指出大数据是海量、多样、分布的、异构的数据。2012“大数据是指具有以下三个特征的数据:大数据量、快速增长及多数据来源及类型的数据。4V特性:大规模、多样化、快速增长、潜藏价值。2、大数据的构成大数据包括交易数据和交互数据集在内的所有数据集。大数据=海量数据+复杂类型的数据海量交易数据海量交互数据海量数据处理企业内部的经营交易信息,主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。源于Facebook、Twitter及其他来源的社交媒体数据构成。包括呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等,可以预测未来。大数据的涌现已经催生出了设计用于数据密集型处理的架构,例如具有开放源码、在商品硬件群中运行的ApacheHadoop。3、大数据的基本概念大数据是一种数据,具有可扩展性、多样性、复杂性的特点,需要一种新的架构、新的技术、新的算法以及新的分析工具去管理这些数据,同时从中抽取隐含在内的重要信息。(“BigData”isdatawhosescale,diversity,andcomplexityrequirenewarchitecture,techniques,algorithms,andanalyticstomanageitandextractvalueandhiddenknowledgefromit.)“大数据”是指数据海量、计算复杂的数据集合,其在一定时间内难以依靠已有数据处理技术来进行有效的采集、管理和分析。大数据通常满足以下“4V”特点:规模巨大产生高速形式多样信息价值4、大数据的特点形式多样(Variety)信息价值(Value)产生高速(Velocity)规模巨大(Volume)非结构化数据的超大规模,比结构化数据增长快10倍到50倍。实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效。异构性(文本、图像、视频、机器数据),模式不明显,语法语义不连贯。大量的不相关信息,对未来趋势与模式的深度复杂分析。互联网数据2011年全球数据产生量达到1.8ZB,以每本书10MB计算,相当于七百万个中国国家图书馆的容量。医疗保健数据海洋气象数据基因工程美国国立基因组研究所宣布,“千人基因计划”所产生的数据总量已达到200TB,成为世界上最大的人类基因变异数据集。数据的度量尺度:1KB=103B1MB=106B1GB=109B1TB=1012B1PB=1015B1EB=1018B1ZB=1021B1YB=1024B电信运营数据中国联通上网记录每秒83万条,每月1万亿条(300TB)。天文数据美国大口径望远镜每两周对太空观测一遍,每天产生16TB数据,5年总数据量将达到15PB。企业运行数据2000年全球新产生的数据量为1000PB到2000PB,到2010年仅仅全球企业一年新存储的数据量就超过了7000PB。各种数据类型现在的数据类型不仅是文本形式,90%是文字、图片、音频、视频、地理位置信息等非结构化数据,个性化数据占绝对多数。文字音频视频地理信息图片Internet上1分钟内发生了:•639TBIP流量;•2亿封邮件;•70万Facebook更新;•30小时YouTube新增视频;•70万Google搜索。信息价值以视频为例,7X24小时的全城监控视频中,可能有用的数据仅仅只有一两秒。可用信息在数据总量中的比例低,但其潜在价值巨大。从视频中发现犯罪嫌疑人周克华2011年-2016年中国大数据市场规模2011年是中国大数据市场元年2012年-2016年迎来大数据市场的飞速发展。2012年中国大数据市场规模将达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。2011年-2016年中国大数据市场规模2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。全球未来5年58%的增速,2017年达到500亿美元。中国2013年增速为138%,2016年市场将达到100亿。(二)相关概念与关系分析维基百科定义:云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。我们认为:云计算是指服务的交付和使用模式,用户通过网络以按需、易扩展的方式获得所需的服务。云计算海计算框计算风计算。。。神计算?不是概念不是操作不是口号不是超级计算不是网格计算是新的创新模式是新的商业模式是新的运营模式是成本、效用、应用至上是大众参与的舞台是不是网络虚拟化27数据中心虚拟化(vDC)云计算虚拟化资源数据中心物理资源存储虚拟化计算虚拟化《中国家庭金融调查报告》中国的住房自有率是89.68%;世界平均住房自有率是60%;瑞士是31%,紧随其后的是瑞典和德国;住房自有率最高是亚美尼亚,在1998年时高达96.3%。住房自有率水平高的国家,几乎都是经济水平发展比较低的转轨国家,而住房自有率低的国家则大多为经济发达的国家。发达国家人口流动性强,为了减少住房买卖的麻烦,很多人宁愿租房住而不是买房。相反,落后国家人口流动性较差,拥有自有住房的家庭,反而更可能居住在自己拥有的住房中。北京北五环买房:120平方米——600万投资理财:5%-10%利率(30-60万)租房:租金1万/月房子质量好无须物业费、维修维护、折旧、可能的房产税…住宾馆(30-60万):未必每天都住;弹性,按需;客房服务、卫生、餐饮;拎包入住。云计算之PaaS、SaaS。云计算的基础设施、安全设施非常完备。安全是把双刃剑放在云里面的数据,对云的管理而言又是不安全的。虚拟化安全去重-压缩可靠保密绿色节能数据保护云计算面临的安全问题关键技术视角使用者视角虚拟化技术带来全新安全威胁数据集中存储引发的安全问题云服务的管理和调度产生的安全问题传统安全威胁的新特点隐私保护和数据安全运行环境的安全内容安全重设施,轻应用;行业、地域特色要求云计算发展模式的差异化;花钱买服务和服务意识有待加强;安全隐私是大问题,安全意识、技术和立法方面有所欠缺;云计算个性化和标准化矛盾。智慧城市带动行业云发展智慧城市需要数据融合智慧城市要求物联网和云计算的结合:云计算是物联网的基础,物联网是一种应用;云手机、云电视是终端多样化的体现;云服务器、虚拟化是一种成本结构;大数据的收集、存储、管理、分析离不开云计算。商业模式驱动应用需求驱动“云”、“物”的核心是“数据”:云计算—计算/业务模式物联网—应用模式大数据—财富、资产和隐性货币