策划部天津市西青经济开发总公司建设服务公司2016.5.25数博会大数据是继传统IT之后下一个提高生产率的技术前沿麦肯锡全球研究院(MGI)《大数据:下一个创新、竞争和生产力的前沿》麦肯锡公司是全球最著名的管理咨询公司,在全球44个国家和地区开设了84间分公司或办事处。麦肯锡目前拥有9000多名咨询人员,分别来自78个国家,均具有世界著名学府的高等学位。1.什么是数据数据(data资料)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。数据是信息的表现形式和载体,可以是:符号、文字、数字、语音、图像、视频等。条数据:例如一套房子定位数据:北纬26度,东经106度;用数字和字母书写是:26°N,106°′E.定性数据:XX市XX路X号X单元号(靠近省委、十八中学、甲秀小学)定量数据:建筑面积90,使用面积75定时数据:建于1987年,1998年购置信息数据:周矩,男,XX岁,电话13888888888结论:估价45万2.大数据概念(1980年,托夫勒在《第三次浪潮》首提大数据)2008年,部分计算机专家首次提出大数据概念。2011年,麦肯锡公司发布《大数据:创新、竞争和生产力的下一个新领域》报告,大数据开始备受关注。2012年,美国政府发布了《大数据研究和发展倡议》,标志着大数据已经成为重要的时代特征。2013年,大数据元年,数据成为资源,几乎所有世界级互联网企业,都将业务触角延伸至大数据产业。2014年3月1日,贵州·北京大数据产业发展推介会在北京隆重举行,贵州大数据正式启航。2015年9月5日,国务院印发《促进大数据发展行动纲要》,大数据上升为国家战略。2009年,美国政府通过Data.gov网站开放政府数据。大数据与传统数据传统数据:普查数据统计数据抽样数据测量数据例如:国民经济和社会发展统计公报大数据有两层含义:一是海量数据,指其量大,或者称为全数据;二是指分析方法,指的是对所有数据进行分析大数据到底有多大?•TB(1024GB=1TB)2的40次方•PB(1024TB=1PB)2的50次方100万G•EB(1024PB=1EB)2的60次方10亿G•ZB(1024EB=1ZB)2的70次方1万亿G•15寸500G电脑(22亿台)排成行可以往返一次月球。•YB(1024ZB=1YB)2的80次方1千万亿G从Byte、KB、MB、GB、TB到PB、EB、ZB、YB。Intel:人类文明开始到2003年,地球共产生5EB数据。2012年全年,全球产生数据2.7ZB是2003年以前的500倍。2015年,全球估计产生数据8ZB,等于1800万个美国国会图书馆。数据增长迅速大数据的定义•大数据或称巨量资料指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据分析相比与传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据时代的背景facebook社交网络…淘宝、ebuy电子商务…微博、Apps移动互联…21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。“大数据”的诞生:半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。大数据的5V特点(IBM提出):Volume大量(积累性)Velocity高速(即时性)Variety多样(多维度)Value价值(有用性)Veracity真实性(客观性)传统数据主观统计(抽样)大数据客观统计(全数据)基本定义:大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集合。“大数据”与“大规模数据”的最大区别,就在于“大数据”这一概念中包含着对数据对象的处理行为。如何界定大数据智能数字采集(数字化)实时同步上传(云聚集)智能即时分析(云计算)自动需求发布(云推送)各种数字化设备采集同步传输到数据云(云存储)智能软件分类、归纳、分析,生成结果自动按需求发布到特定用户什么是“数字化”二进制:0(关)1(开)二进制编码:阿拉伯数字690102819104对应各数字的二进制编码:这几位条形码的二进制编码是:0110100100000001000000101000000110010001000001000011。数字化不是“数字”,而是编码化的“数据”大数据关键技术大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用。大数据关键技术大数据采集技术获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。大数据存储及管理技术大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。大数据分析及挖掘技术从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。大数据展现与应用技术重点应用于以下三大领域:商业智能、政府决策、公共服务。•在过去的几十年里,“并行计算”、“分布式计算”、“网格计算”等与云计算类似的概念和理论以不同的方式进行着尝试与实践。•人们希望能够更好地整合互联网和不同设备上的信息和应用,把所有的计算、存储资料连接在一起,实现最大范围的协作与资源分享。•云计算式这些计算计算的融合和发展,强调基于网络化计算与存储资料,达到高效率、低成本计算的理念。“按需计算”、“软件即服务”、“平台即服务”等新理念和新模式,都是各企业对云计算的各自解读或云计算发展的不同阶段。云计算•在2006年8月召开的“搜索引擎战略大会”上由google公司首席执行官EricSchmidt再次提出云计算,后台被广泛接受的信息技术新名词。云计算云计算的定义云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。本质是将所有的计算(社会)资源集中起来,并有软件(平台)实现自动管理,使得各种服务提供商和应用者无需为细节而操心,能够更加专注于自己的业务,有利于创新和降低成本。云计算之我见•提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取。这种特性经常被比喻为像水电一样使用硬件资源,按需购买和使用。•把所有本地的事情,都可以放在云端上来完成就是云计算。云计算的工作原理与关键技术•云计算的工作原理在典型的云计算模式中,用户通过终端接入网络,向“云”提出需求;“云”接受请求后组织资源,通过网络为“端”提供服务。用户终端的功能可以大大简化,诸多复杂的计算与处理过程都将转移到终端背后的“云”上去完成。用户所需的应用程序并不需要运行在用户的个人电脑、手机等终端设备上,而是运行在互联网的大规模服务器集群中;用户所处理的数据也无需存储在本地,而是保存在互联网上的数据中心里。提供云计算服务的企业负责这些数据中心和服务器正常运转的管理和维护,并保证为用户提供足够强的计算能力和足够大的存储空间。在任何时间和任何地点,用户只要能够连接至互联网,就可以访问云,实现随需随用。•云计算的关键技术两个关键的因素:数据的存储能力、分布式的计算能力。云计算中的“云”可以再细分为“存储云”和“计算云”,也即“云计算=存储云+计算云”。存储云:大规模的分布式存储系统;计算云:资源虚拟化+并行计算。云计算的三种服务模式1软件即服务(SaaS)2平台即服务(PaaS)3基础设施即服务(IaaS)3.大数据与云计算•没有互联网就没有云计算,没有云计算模式就没有大数据处理技术。•将大数据的应用比作一辆辆“汽车”,支撑这些“汽车”运行“高速公路”的就是云计算。正是云计算技术在数据存储、管理和分析等方面的支撑,才使得大数据有了用武之地。•云计算时代会有更多的数据存储于“云端”。数据是资产,云是数据资产保管的场所和访问的渠道。3.大数据与云计算•云计算的模式是业务模式,本质是数据处理技术。•数据是资产,云为数据资产提供存储、访问、计算。•当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。数据从何而来:人人都是数据源●人在街上走,数据被采集●人在家中坐,数据被上传只要你是活人,有行为,就会产生数据。比如,你在街上走,你就会被摄像头拍到。据说你每次上街平均会被拍8次;只要你看电视、用电脑、玩手机、打电话,数据就会被上传谁拥有大数据A.政府:政府尝试数据开放(将条数据脱敏后向企业开放)交通、人口、医疗……B.电信:客户数据(实名制)通信数据C.银行:客户数据(实名制)金融数据(信用)如何制作炸弹D.网络平台搜索平台、电商平台、门户网站百度、阿里(淘宝)、腾讯(QQ、微信)、搜狐、新浪、你喜欢上网、喜欢百度搜索,告诉你,你的每一次点击都有记录。输入了什么“不雅”词汇,有什么特殊爱好。你会想,它不知道我是谁。但它知道你的使用电脑的IP地址……。很多程序要求你用手机号注册……所以很容易知道你是谁。智能手机GPS定位大数据的有用性在于:发现逻辑关联,得出科学结论。马云说:做淘宝不是卖货,而是为了获得大数据,获得零售和制造业数据。电脑会比你更了解你,大数据的核心不是对昨天的总结,而是对未来的预测和预判。4.大数据有什么用A商用大数据有效制造(预判消费,减少库存)精准广告(特定群体投放)信用兑现(方便信用调查)B公用大数据智能电网(有效调解发电量)智能交通(缓解拥堵)疾病预防(方便就诊)生态监控(空气、水质、土壤)商业应用案例——百度旅游景区预测大数据2014年国庆,九寨沟运用百度大数据预测,预测游客数为188898人次,实际数为177159人次,准确率为93.79%。2013年10月2日,九寨沟景区因游客太多,导致交通线路瘫痪,拥堵数公里长。其间,甚至出现游客“攻陷”售票处的传闻。根据预测数,九寨沟从“吃、住、行、游、购、娱”等方面着手,提前做好各项准备工作,并发广告,超过接待4.1万人就停售门票,成功应对了10月4日旅游高峰期。政府治理案例——贵阳利用大数据打“黑车”凡属于选择行车路线不经济的、经常到人员密集地段“趴活”的、频繁上下不同乘客的,即可判断为“黑车”统计学判定模型嫌疑职业黑车分类器行为持续出现天数阈值d人工确认黑车特征普通私家车特征机器学习判定模型每天过车记录数阈值m出租车特征每天经过卡口数n嫌疑黑车全集待分类样本经分类确认的黑车样本结果分析嫌疑黑车数量在上午7时后逐渐增多,在下午3-6时达到最大值;全部嫌疑黑车8408辆,嫌疑职业黑车4705辆,而中心城区出租车6922辆5.大数据企业产业链:上游资源+中游技术+下游应用•上游资源:任何企业都将可能成为数据公司资源型公司处在产业链中的核心地位。BAT之所以能够在大数据时代继续坐稳互联网企业龙头的位置,是因为它们几乎垄断了搜索、社交、电商等关键领域的数据,并借此聚拢技术型、创意型以及其他资源型公司,构建由自己主导的生态圈。•上游资源:任何企业都将可能成为数据公司5.大数据企业产业链:上游资源+中游技术+下游应用•中游技术:大数据产业链最直接受益群体(1)数据准备:在进行存储和处理之前,需要对数据进行清洗、整理,传统数据处理体系中称为ETL(