云计算和大数据概览2017年11月14日大数据智能时代已经到来我们来到大数据时代数据极简主义大数据:一切数据皆有用数据观、技术、成本的变化(硬件、软件和除理技术、来源)全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…人们从信息的被动接受者变成了主动创造者我们来到大数据时代GBTBPBEBZB大数据时代的爆炸增长想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1PB(拍字节)=2^50字节1EB(艾字节)=2^60字节1ZB(泽字节)=2^70字节20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念什么是大数据:BigData名词由来什么是大数据(NO-SQL,NotOnlySQL)不同“看”数据的方式7可视:结构化资料15%未视:半/非结构化数据85%DB/DW主管们看的战情数位仪表板,其实是残缺的…85%半/非结构化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile什么是大数据:不同的数据管理对象当我们想要扩充时,才发觉:•架构只能scale-up,scale-out不易•处理时间过长,time-to-value受限•成本过高,cost-efficiency受限15%结构化的DB/DW遗憾残缺大数据=海量数据+复杂类型数据增长如此之块,以至于难以使用现有的数据库管理工具来驾驭,困难在于数据的获取、存贮、搜索、共享、分析和可视化等方面大数据的定义数据量复杂性:种类和速度销量库存薪酬表客户信息合约ERP/CRMWEB2.0广告博客搜索营销文本/图像网络日志大数据社会情绪音频/视频传感器RFID维基/博客微博金融信息个人数据位置信息政府信息气象数据保险信息EBPBTBGB维基的大数据定义任何超过一台计算机处理能力的庞大数据量亚马逊的大数据定义大数据是由局部数据汇聚而成能反映出整体的数据,整体的数据又随时空在不断膨胀。Informatica的大数据定义大数据=交易数据+互动数据+观测数据中国电信的大数据定义中心的大数据定义如果自然界中的事件完全不可预测地随机发生,人们的生活将无法忍受;与此相反,如果每一件事情都是确定的、完全可以预测的,则生活将是无趣的。利用因果关系解释观测的现象或预测未来存在逻辑和实际上的困难。大数据的理性认知[美]C.R劳与传统比较,大数据的分析处理的核心是预测和推断,根本的变革在于不刻意追求因果关系,而更多关注相关关系。也就是说,只要知道和什么有关,而不必强求为什么有关。[英]舍恩伯格大数据时代来临,使人类第一次有机会和条件在非常多和非常深入的层次获得和使用全面数据、完整数据和系统数据,简而言之就是样本=总体。[英]舍恩伯格大数据为政府统计提供了总体性、非结构化、丰富真实的原始资料,可以极大地缩短数据采集时间,减少报表填报任务,减轻调查对象负担,提高统计数据质量。国家统计局马建堂大数据,也叫全局数据、总体数据,数据量越大其预测和推断的准确性越高1.Volume2.Variety3.value4.Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合大数据:4V特性数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量大数据要上升为国家战略国家时间政策备注美国2012-3-29《大数据研究与发展计划》推动政府开放、提升政策预见性(粮食、天气、流感等)、提高政府服务水平、降底运营开支英国2010-5数据权、我的数据日本2012-5ICT战略中国2012-5互联网大数据技术创新研究大数据不仅仅是数据“大”多大?PB级比大更重要的是数据的复杂性、全面性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值软件是大数据的引擎大数据与传统数据库的区别大数据是在传统数据库学科的分支——数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同:•结构化程度:传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。•噪声(异常)数据的处理:传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理;大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。云计算与大数据大数据应用运行在云平台之上如果数据是财富,那么大数据就是宝藏;云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的存储和积淀,云计算也只能是杀鸡用的宰牛刀!大数据市场分析12011年-2016年中国大数据市场规模2各行业大数据市场规模政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。2012年中国大数据市场规模达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。国际企业角力大数据www.gjzq.com.cnwww.gjzq.com.cnEMCEMC的大数据解决方案专注于使组织更有效地使用他们从不同来源产生的数据,包括网络上,网页上,消费者,监控系统和传感器。EMC的数据计算产品事业部正在开发分析工具以解决大数据现象。EMC的大数据解决方案包括40多个产品。•2010年7月收购数据库软件供应商Greenplum,花费3亿美元•2009年七月收购数据复制解决方案提供商DataDomain,花费24亿美元•不一定和大数据完全相关,EMC从2009年起收购了ArcherTechnologies,SourceLabs,FastScaleTechnology,Configuresoft,andVaronisSystems。IBMIBM的策略是提供一个全面的方法来解决前所未有的信息爆炸提出的挑战,因为信息量无论在流量、种类、速度还是活力上都是爆炸式增长IBM一直致力于扩大对包括数据仓库中的大数据、信息流和结构化数据的分析在过去四年中,IBM已经投入超过120亿美元进行了23项相关并购,其中包括:•2010年9月收购数据库分析供应商Netezza公司,花费17亿美元•2010年10月收购网络分析软件供应商Coremetrics•2009年10月收购数据分析和统计软件提供商SPSS,花费12亿美元•2009年1月收购业务规则管理软件供应商ILOG,花费3亿4千万美元•2007年花费20亿美元收购商务智能软件供应商Cognos微软微软提供了高性能计算能力,并在2005年靠WindowsComputeCluster服务器进入相关市场最近,微软的HPC部门开发了该公司的Dryad并行处理技术社区技术预览(CTP),第一步是向WindowsHPCServer的用户提供处理大数据工具甲骨文甲骨文大数据提供的数据库和数据库软件主要用于配合Sun的硬件,特别是它的最高端服务•2009年7月收购专注于数据复制和实时数据集成解决方案的私人企业GoldenGateSoftware大数据的产业价值链数据数据的掌控者,拥有或者可以收集大量数据的公司。海量的数据就是财富,可以考虑自己分析或者卖数据给其他公司。技术技术供应商或者分析公司。掌握了从海量数据中分析出有用信息的技能或者工具,但本身不一定拥有数据。思维有创新思维的人或者公司。他们对大数据敏感,有怎样挖掘数据的新价值的独特想法。分析技术:•数据处理:自然语言处理技术•统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析•数据挖掘:关联规则分析;分类;聚类•模型预测:预测模型;机器学习;建模仿真大数据技术:•数据采集:ETL工具•数据存取:关系数据库;NoSQL;SQL等•基础架构支持:云存储;分布式文件系统等•计算结果展现:云计算;标签云;关系图等大数据技术体系:取、存、管、用存储•结构化数据:海量数据的查询、统计、更新等操作效率低•非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储•半结构化数据转换为结构化存储按照非结构化存储解决方案:•Hadoop(MapReduce技术)•流计算(twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘大数据核心技术需求高并发读写大数据核心技术需求高效率存储和访问高可扩展性和高可用性低成本建设运维保证一致性的开销过大,难以实现高并发存储性能受限于控制器,性能难以保证关系型表单存储难以适应不同数据类型上亿行数据的超级达标效率极低传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高许可和维护花费高昂无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展数据库升级需要停机维护和数据迁移,导致服务中断不保证遵循ACID原则,提高并发读写性能Schema-Free存储适应不同数据类型舍弃SQL标准功能,尽量简化数据操作,提升效率MapReduce实现高效访问基于X86设备,价格低廉开源系统,节省许可费用支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力数据库升级不影响服务持续大数据的分析模型•研究对象•由组织、用户、大数据和工具构成的运行系统•研究内容•大数据的构成•大数据的行为•大数据的行为和数据的组织•研究方法•知识工程解构大数据系统•研发工程支撑大数据系统•价值工程牵引大数据系统•研究目标•大数据生产平台•大数据开发平台•大数据采集平台•大数据应用平台•研究重点•数据分而治之•资源组织调度•逻辑复制迁移组织大数据用户工具知识工程研发工程价值工程社会价值结构功能信源信宿信道控制状态协同生产采集存储应用传递展现概念定议划分经济价值科技价值商业价值为什么是什么怎么做大数据变革既有数据观:以变革始大数据将变革人们认世界的模式,最重要的是建模分析的方式;由选择抽样到全样本(all-sample),“样本=总体”;大数据更重视相关关系,而不去过于追求因果关系;即使从前的建模也一样是模拟,无法解决因果;大数据将彻底改变IT公司的构成