大数据时代----生活、工作与思维的大变革•一、认识大数据•二、大数据时代的变革•三、大数据时代的挑战•四、大数据的应用+何为大?—数据度量+1Byte=8Bit+1KB=1,024Bytes+1MB=1,024KB=1,048,576Bytes+1GB=1,024MB=1,048,576KB=1,073,741,824Bytes+1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes+1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes+1EB=1,024PB=1,152,921,504,606,846,976Bytes+1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes+1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes+《红楼梦》含标点87万字(不含标点853509字)+每个汉字占两个字节:1汉字=16bit=2*8位=2bytes+1GB约等于671部红楼梦+1TB约等于631,903部+1PB约等于647,068,911部+美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)+1EB=4000倍美国国会图书馆存储的信息量+每天有2940亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年时间处理;+每天有200万篇博客在网上发布,这些文章相当于《时代》杂志刊发770年的总量;+每天有2.5亿张照片上传至社交网站Facebook,如果都打印出来,摞在一起能有80个埃菲尔铁塔那么高;+每天有86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98年;+每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电脑从公元元年就开始播放这些音乐会,到现在还没完没了地接着放;+谷歌翻译每天处理的文字数量,每天翻译次数达十亿次,相当于一百万册图书,超过了全世界的专业翻译人员一年能够翻译的文字规模;+百度每天的关键词搜索量50亿,谷歌33.3亿;+淘宝天猫双11那一天营业额达191亿人民币。中国小商品城全年成交额才580.03亿元人民币;+累积起来,互联网一天之内产生的信息总量,可以装满1.68亿张DVD光盘。+……未来:物联网每天产生的数据将会是海量的。一、认识大数据(续)什么是大数据?什么是大数据(big-data)?人们并未形成统一的认识,一般而言,它是指规模远远超过传统数据库软件处理能力的海量数据集合。这一概念首要是针对信息化社会数据“爆炸式”增长,体量巨大而提出的。对于数据多大能称之为“大数据”,业界并没有统一的认识,通常认为100TB(太字节)是大数据的门槛。简而言之,传统方法无法处理的数据即为大数据。据美国政府估计,全球每年由各类设备产生的数据达到约1.2ZB(1ZB=12亿TB)。若用1粒沙代表1B数据,1PB(相当于1000T)相当于1英里长、100码宽的沙滩,而1.2ZB的数据就如同一片浩瀚的沙漠。一、认识大数据(续)21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。“大数据”的诞生:半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。+2007年,图灵奖获得者JimGray,提出“数据密集型科学发现(Data-IntensiveScientificDiscovery)”将成为科学研究的第四范式,“数据科学”拉开了帷幕。+2008年,《Nature》杂志出版专刊,讨论大数据处理相关的一系列技术问题和挑战。+2012年3月底,美国政府发布了大数据研发专项研究计划(BigDataInitiative),拟投入2亿美元用于研究开发科学探索、环境和生物医学、教育和国家安全等重大领域和行业所急需的大数据处理技术和工具,把大数据研究上升到为国家战略。+2012年10月,中国计算机学会于成立大数据专家委员会,并在2012年12月发布调研报告,说明数据科学的热点问题和发展趋势。2012年3月29日,白宫发布美国政府的大数据计划。通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究。9/1/2019我国的应对最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。“麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。包括EMC、惠普(微博)、IBM、微软(微博)在内的全球IT巨头纷纷通过收购“大数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。“大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。1.Volume2.Variety3.value4.Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,对处理能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命+“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据的4V特征数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量大数据=海量数据+复杂类型的数据大数据包括:交易数据和交互数据集在内的所有数据集海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。第二层面是技术,技术是大数据价值体现的手段和前进的基石。第三层面是实践,实践是大数据的最终价值体现。大数据处理技术让大数据能够为我所用,大数据时代终于开启了。大数据与云计算大数据与云计算•云计算的模式是业务模式,本质是数据处理技术。(肉体+灵魂)•数据是资产,云为数据资产提供存储、访问和计算。•盘活资产,使其为国家治理、企业决策、个人生活服务,是大数据核心议题,也是云计算的最终方向。如果将云计算与大数据进行一些比较,最明显的区分在两个方面:第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。1.大数据比云计算更为落地2.大数据不仅仅是“大”3.软件是大数据的引擎4.大数据的应用不仅仅是商业化服务5.管理大数据“易”,理解大数据“难”和数据中心(DataCenter)一样,软件是大数据的驱动力,软件改变世界通过用户行为分析实现精准管理、科学决策和人性化服务是大数据的典型应用,大数据在各行各业特别是公共服务领域具有广阔的应用前景消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象虽然大数据是一个重大问题,真正的问题是让大数据更有意义目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等+大数据时代没有隐私爱德华·斯诺登+70万人,无人告知的在线实验,全球第一大社交网络脸书(Facebook)隐秘进行的情感测试近日曝光天下,业界一片哗然。+2012年,脸书(Facebook)的幕后试验旨在公测70万用户在面对相应的NewsFeed中的情感反应和行为引导。具体说来,脸书(Facebook)在页面上人为的设置一些正面或是负面的情感性关键词,同时控制用户在自己的NewsFeed中得阅读内容,从而观察用户在自身Post中得行为表达。经过大约一周的数据收集,脸书的数据分析员可以观察到用户对于社交网络上的情绪反应。对于70万用户情绪被消无声息的如此操控,脸书(Facebook)的行为无疑遭到了强烈的指控。+脸书此次幕后试验的曝光,是一个警醒的明示。用户、互联网企业以及政府之间的权衡,是一个当即也是长期去努力协作的过程。在个人隐私和道德制约的前提下,“大数据“时代,不是一个滥用数据的时代,而是一个需要善用数据的时代。+大数据属于谁?+数据独裁卓越的才华并不依赖大数据,大数据扼杀创新。如果对不可量化的事物进行量化,我们将失去全面了解该事物的机会。•中国工程院院士邬贺铨说道,“智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市的建设,社会将步入“大数据”时代。”•智慧政务•智慧交通•智慧电网•智慧教育•智慧医疗•……根据国家信息中心信息化研究部统计,目前我国提出智慧城市建设的城市总数已达到154个,预计投资规模超过1.5万亿元。智慧城市必将产生大数据,利用大数据的思维来改变公共管理部门的形象。医疗可利用多种大数据手段临床操作——1、疗效比较研究2、临床决策支持系统3、医疗数据透明度4、远程医疗监护5、针对患者情况的先进分析付款/定价——1、自动化系统2、医保系统研发——1、预测模型2、改进临床试验设计的统计工具和算法3、临床实验数据分析4、个体化医疗5、疾病模式分析新业务模型——1、患者临床记录和需求数据的聚合2、在线平台和社区公共卫生医疗行业受益于大数据电子病历医疗行业产生大数据(电子病历),利用大数据的思维将会给医疗行业带来变革。+旅游业发展趋势是:网络化、散客化、大众化。+在大数据时代,必须运用大数据思维,推行旅游的数字化