大数据应用BIGDATA---------一场改变我们的生活,工作与思维的大变革目录BDFACE大数据时代的到来智能经济大数据ing时代的弄潮儿对国家社会的影响将推动经济和科技的发展数据处理新革命关键技术云计算发展趋势大数据的前世今生什么是大数据商业智能的新阶段数据分析的发展更加智能的商业大数据的应用案例未来之路未来,挑战,发展RUREADY?01大数据的到来用数据打造冠军球队奥斯卡电影点球成金讲述啦一个美国职业联盟的真实故事。奥克兰勇士队刚有起色,球队主力纷纷被重金挖走,球队前途十分渺茫。机器识猫GoogleX部门通过1.6万片处理器构建了一个庞大的系统,用于模拟人类的大脑神经,可通过观看YouTube视频学习识别人脸、猫脸以及其他事物。人类经历五次信息技术革命,传播能力快速增长语言文字造纸印刷电信通讯计算机&网络约4w年前BC3000楔形文字11世纪楔形文字1833活字印刷1990因特网的发明仅供开采162年仅供开采40年仅供开采65年2010年全球数据量已达1.2ZB,年增长50%2013年,十分钟的信息总量达1.8ZB大数据的前世今生BIGDATAYESTERDAY&TOMORROW02什么是大数据大数据的三个典型特征大量速度多样Value(价值)每年照片的数量(单位B:Billion)1826年1930年1960年1970年1980年1990年2000年2011年0B1B3B10B25B57B86B360B量(Volume)度Velocity物联网数据半结构化数据为主互联网数据非结构化数据为主行业/企业内数据结构化数据为主交互交互交互大数据样Variety商业洞察力获得商业洞见B先进性分析传输和处理更快A全内容信息更全、不丢失C大数据优势之——ABC时代的弄潮儿SOCIETY&NATION03历史经验证明每一次重大信息技术的应用都会对整个社会带来深刻的变革01对国家社会的影响案例:猎杀本拉登I美国海报突击队在本拉登行动中的主要目标是抓获或者杀死这名策划“911”恐怖事件的头号分子,另外更重要的目标就是搜集其他袭击阴谋的资料和记录.事关国防安全情报资源对国防安全事关重要,尤其是随着信息技术的日益发达,军事活动也变得日渐透明。如美国情报局(CIA),通过利用大数据技术,将分析搜集的数据时间由63天缩短到27分钟。美国:Data.gov基于数据驱动决策方法,政府将跟加油效率、更加开放、更加负责,引导政府前进的将是“基于实证的事实”,而不是“意识形态”,也不是利益集团在政府决策过程中施加的影响。------丹尼尔埃斯蒂耶鲁大学法学教授推动政府开放数据应用程序社区开放政府教育、能源、医疗、制造提供政府平台以及政府公布的源代码提高政策预见性、响应性提升公共服务质量、降低运营开支近些年,德国联邦劳工通过使用大数据策略显著提高了100亿欧元的成本。德国联邦劳工局的主要职责是为是为失业人员提供一系列的咨询和支持服务,从而为他们寻找就业机会。使用大数据可以提升公共服务透明度,通过数据建模等形式辅助公共服务部门更好地发现需求、提升绩效,并能够降低运营称开支。0510152003200420052006图表标题人才市场数据未雇佣人数(百万)失业率4.44.44.94.5Clickheretoaddyourtitle02推动经济的发展新技术时间段(年)资本深化生产中的技术进步总计火车1839~18700.32电力1899~19191919~19291839~18701974~19901995~20001991~1995信息技术新技术0.340.230.521.360.550.120.070.050.170.240.500.240.090.560.210.4----0.690.971.860.21资本深化生产中的技术进步时间段(年)新技术对美国经济增长的贡献率(每天%)资本深化:(capitaldeepening):资本广化的对称,指在经济增长过程中,当人均储蓄超过资本广化,使得人均资本k上升,这被称为资本的深化。l大数据催生硬件、软件及服务类市场产生价值20122013201420152012201320142015单位:10亿美元单位:10亿美元软件增长率百分比(%)服务增长率百分比(%)1825144434%年复合增长率01039%年复合增长率2.73.95.16.5服务商收入至少1000亿美元最终用户价值高达7000亿美元全球个人位置定位每年创造价值3000亿美元大约0.7%的年增速美国医疗行业净增长可达60%以上,0.5%~1%的年增长率零售业产品开发、组装成本降低50%运营资本降低7%制造业每年创造价值2500亿欧元大约0.5%的年增速公共管理部门大数据推动相关行业产生大价值医疗行业临床诊断:在临床操作方面,医疗保障开支每年减少约1650亿美元。付价和定款:能够生产约500亿美元的价值,其中一半来自于国家医疗保健的开支节省。研发:能够提高研发的生产效率,总共创造1000亿美元的价值,约250亿美元来自医疗保健上的开支节省。新商业模式:能够从临床信息和扩散的医疗数据中构造新的商业模式,如为第三方企业提供数据以支持研发、使用能够获取有价值的在线平台和社区大数据给医疗企业带来创新应用创新应用基因组学语义搜索医生的BI基于位置的营销店内客户行为分析渠道整合交叉销售零售行业-大数据在市场的之多应用用户群划情绪分析研发和设计产品生产供应链制造业金融行业分析analysis21预测forecast能源行业大数据改变全球能源的生产和消费的主要方式010203040506070809气象数据通过行为分析控制能源消费动态定价电动汽车数据手机数据、建筑数据联网热传感数据Hadoop与能源数据库清洁能源数据输电线传感器01030405067080902Clickheretoaddyourtitle03推动科技的发展理论科学计算科学实验科学数据密集型科学几千年前过去几百年过去的几十年今天詹姆士·格雷图灵奖得主詹姆士·格雷和戴瑟在“科学的第四个范型”中,将人类科学研究的历史划分为四个阶段。数据探索2004年,谷歌白皮书为Hadoop的发展拉开帷幕,这份白皮书详细地阐述了谷歌将通过一个名为Bigtable的索引系统,创建能够在众多不同服务器中分析数据的基础设施。雅虎是目前最大的Hadoop用户之一,拥有大量以不同形式相互关联的重要数据,雅虎的Hadoop集群掌握了大量事件的日志文件和用户点击区域的日志文件、广告活动也被存储在Hadoop中。Facebook开发Cassandra数据库,Cassandra在单一行上能够存储200万个列,便于在现有用户账户商附加更多的数据,而无需提前获知数据被格式化的方式。并且能够在多个服务器中扩展,帮助企业更容易在单一服务器或小型服务器集群中扩展数据库。1生物科学数字化模拟生物细胞2海洋勘测数据捕捉海洋活动3运动科学奥运选手借助尖端设备提高成绩商业智能的新阶段BUSINESS04FromDatatoKnowledge01数据分析的发展431265从数据到知识数据挖掘联机分析存储管理数据仓库大数据分析商务智能二进制计算机的出现二进制的发明实现了数据在没有“情感和生命”的物理机器中的表达、计算和传输。二进制文件系统手工管理关系DB存储管路手工管理阶段五十年代中期以前,计算机上没有操作系统也没有管理数据的专门软件,这个时期数据和程序一一对应、程序眼要人为规定数据的逻辑结构及物理存储结构,数据对程序不具有独立性。手工管理文件系统关系DB二进制存储管路文件系统阶段五十年代后期,操作系统中有了专门的数据管理软件,成为文件系统,应用程序通过文件系统对文件中的数据进行存取加工。文件系统关系DB手工管理二进制存储管路关系型数据库解决了当数据在计算机内部积累的越来越多时,如何快速组织、存储和读取数据的难题。关系DB文件系统手工管理二进制存储管路案例:啤酒和尿布”“数据挖掘梅西百货的实时定价机制。ExpressScriptsHoldingCo.的产品制造。该公司发现那些需要服药的人常常也是最可能忘记服药的人。因此,他们开发了一个新产品:会响铃的药品盖和自动的电话呼叫,以此提醒患者按时服药。TescoPLC(特易购)和运营效率。这家超市连锁在其数据仓库中收集了700万部冰箱的数据。通过对这些数据的分析,进行更全面的监控并进行主动的维修以降低整体能耗。”“商业智能大数据分析大数据分析与商业智能时代数据分析的区别处理结构化数据处理单一数据集批处理分析集中式分析验证性分析为主处理更多非结构化数据处理迭代增长的数据集实时或流处理分布式分析探索性分析为主人工智能技术实时技术分析可视化分析技术商业智能时代数据分析大数据分析人工智能机器学习模式识别自然语言处理030201实时数据处理工具连续计算信息流处理内存计算库存分析04030201可视化020406080100120一月二月三月四月亚洲区欧洲区北美区探索型可视化Clickheretoaddyourtitle02更加智能的商业1234567客户洞察产品创新流程优化风险控制营销规划物流管理人力资源管理大数据对企业的影响主要表现在一下七个方面数据处理新革命TECHNOLOGY0501大数据应用中涉及的关键技术适用于各处理环节的MapReduce等大规模并行处理方式数据采集数据预处理数据存储数据分析/挖掘结果展现ChukwaSqoopHDFSHBaseHiveMahoutPowerViewKarmasphereLOREMIPSUMDOLORMapReduceMPI设计目的用于互联网服务使用大量廉价PC耦合度低节点失效率高有容错机制用于科学计算多使用专用并行机耦合度高节点失效率低无备份使用方式以架构形式提出系统自动选择计算节点,分布处理对用户透明提供节点间信息沟通的工具,架构不固定计算节点由开发者指定对文件系统的支持支持分布式文件系统通过Map/Reduce函数实现分布并行计算不支持分布式文件系统,数据集中存储由高级语言通过调用标准函数传递消息实现并行计算LOREMIPSUMDOLORLOREMIPSUMDOLORLOREMIPSUMDOLORHBase(非关系型数据库)RDBMS(关系型数据库)存储模式列存储行存储索引不支持,通过其他开源实现B+树、数列、位图扩展性高低擅长领域基于键值存取对应数据值以及一个连续范围内的数据,灵活设计数据库高一致性、实时、分析性地访问数据JAVA数据库连接(JDBC)HiveThrift服务器命令行驱动器(编译器、优化器、执行器)元存储MapReduceHDFSHBaseClickheretoaddyourtitle02云计算云计算技术描述虚拟化技术软硬件隔离,资料整合云计算平台管理技术大规模系统运营,快速故障检测与恢复MapReduce编程模型分布式编程模型,用于并行处理大规模数据集的软件框架海量数据存储技术分布式存储方式存储数据,冗余存储方式保证系统可靠海量数据管理技术NoSQL数据库,进行海量数据管理以便后续分析挖掘大数据云计算总体计算云计算为大数据提供了有利的工具和途径,大数据为云计算提供了很有价值的用武之地相同点1.都是为数据存储和处理服务2.都需要占用大量的存储和计算资源,因而都要用到海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术差异点背景现有的数据处理技术不能胜任社交网络和物联网产生的大量异构数据,但这些数据存在很大价值基于互联网的相关服务日益丰富和频繁目的充分挖掘海量数据中的信息通过互联网更好地调用、扩展和管理计算及存储方面的资源和能力对象数据IT资源、能力和应用推动力量从事数据存储与处理的软件厂商和拥有大量数据的企业生产计算及存储设备的厂商、拥有计算及存储资源的企业带来的价值发现数据中的价值节省IT部署成本海量数据存储SaaS软件及服务IaaS基础设施即服务PaaS平台即服务分布式并行计算海量数据管理大数据云计算利用云计算的强大计算能力可以更加迅速的处理大数据的丰富信息,并更方便地提供服务通过大数据的业务需求,为云计算的落地找到