大数据:政府统计的新机遇国家统计局科研所丛雅静2020/2/8主要内容一、初识大数据四、大数据引发统计生产流程变革三、政府统计中可用的大数据探讨六、大数据背景下统计信息化展望五、大数据的专业统计应用二、大数据对政府统计的挑战2020/2/8七、小结一、初识大数据右图是自2011年以来“大数据”这一关键词在百度的搜索热度。可见,2012年以前关注的人很少,但是这一现象在2012年集中爆发了!一图双解:一是何为大数据?二是大数据如何应用?2020/2/812015年5月27日,贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会召开,百度搜索指数达到近几年的峰值12759,约是今年搜索平均值的4倍。全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…新的时代,人们从信息的被动接受者变成了主动创造者大数据时代到来21.大数据的内涵•IBM:3V,即大量化、多样化和快速化。•联合国统计司司长张保罗:具有多样性、多变性、高速性、大容量性4个特点的即为大数据。•涂子沛《大数据》:那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。进一步的,并没有普遍适用的定义来确定具体多大的数据才能称为大。一般认为,大数据的数量级应该是“太字节”。•维克托•迈尔-舍恩伯格《大数据时代》:大数据把数学算法运用到海量的数据上来,做出分析,并对事情发生的可能性做出洞见。与传统数据比较,大数据的数据量更多,有时甚至是纷繁混乱无序,将注意力更多地放在相关关系的发现和使用上。一、初识大数据(一)大数据的内涵、特征与分类2020/2/83•维基百科(Wikipedia):大数据是难以用现有的数据库管理工具处理的兼具海量特征和复杂性特征的数据集成。大数据带来的挑战包括获取、存储、搜索、共享、分析和可视化。•麦肯锡(McKinsey):大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。该定义有两方面内涵:一是符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;二是不同部门符合大数据标准的数据集大小会存在差别。•统计研究所:大数据将产生一种新的工作方式和思维,即采用多种数据收集方式,整合多种数据来源的数据,并采用现代信息技术和架构高速处理和挖掘、具有高度应用价值和决策支持功能的数据、方法及其技术集成。一、初识大数据(一)大数据的内涵、特征与分类2020/2/842.大数据的特征6个V:•Volume:数据量大非结构化数据的快速增长,比结构化数据增长快10倍到50倍•Variety:数据类型多很多不同形式(文本、图像、视频、机器数据)•Velocity:处理速度快实时分析,立竿见影VS事后凑效•Value:应用价值大or小?大量不相关信息•Vender:数据获取与发送方式自由灵活•Veracity:真实准确性主观意愿的真实表达一、初识大数据(一)大数据的内涵、特征与分类2020/2/853.大数据的分类传统数据主要来自于企业经营管理、居民日常活动、政府行政工作等,比如财务收入、居民支出等结构化数据;从技术角度来说,结构化数据是可以用二维表结构来逻辑表达实现的数据。当前呈现几何级数增长的新数据主要来源于互联网、移动互联网等,比如图片、文本、音频、视频等非结构化数据。非结构化数据是不方便用数据库二维逻辑表来表现的数据。一、初识大数据(一)大数据的内涵、特征与分类客户资料订单数据产品数据物资数据财务数据实时监控视频视频文件客户账单……价值密度由高到低上网行为数据大数据传统数据2020/2/86•在数据产生方式上,大数据通常是由机器自动化或者半自动化生成的。一部分大数据的生成需要人工因素参与,如零售业和银行交易、电话呼叫的详细记录等;而大多数大数据的生成不涉及与人的互动。如引擎中内置的传感器。•在数据标准上,大数据杂乱无章,缺乏统一标准。如社交网站上的文本流,无法要求使用统一标准的语法、语序或是词汇表。•在数据类型上,非结构化数据比重较大。非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新渠道和新技术的不断涌现和逐步应用。一、初识大数据大数据与传统数据的区别2020/2/87时时有数据,事事有数据一、初识大数据2020/2/8(一)大数据的内涵、特征与分类8感受大数据迎面冲击…9IBM日本的新系统首先从互联网上的新闻中搜索与“新订单”等与经济指标有关的单词,然后结合其它相关经济数据的历史数据分析与股价的关系,从而得出预测结果。马云预测2008年“金融危机”经济预测10金融行业Equifax是美国三大征信所之一,其存储的财务数据覆盖了所有美国成年人以及另外16个国家的公民,其中包括全球5亿个消费者和8100万家企业。Equifax数据挖掘产品:•帮助企业避免不良客户•实时监测信用报告查询的系统11制造行业日本小松公司的挖掘机安装了GPS定位系统,在实时监控车辆运行情况的同时,还统计挖掘机每月每年的工作情况,挖掘机开工越饱满,说明市场需求越旺盛,如果客户购买挖掘机后每个月的工作量很少,说明市场有可能面临过剩的风险。12流感预测谷歌设计人员认为,人们输入的搜索关键词代表了他们的即时需要,反映出用户情况。为便于建立关联,设计人员编入“一揽子”流感关键词,包括温度计、流感症状、肌肉疼痛、胸闷等。只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。为验证“谷歌流感趋势”预警系统的正确性,谷歌多次把测试结果与美国疾病控制和预防中心的报告做比对,证实两者结论存在很大相关性。卫生医疗行业13商业智能日本先进工业技术研究所的教授越水重臣和他的工程师团队通过在汽车座椅下部安装总共360个压力传感器以测量人对椅子施加压力的方式。把人体坐姿特征转化成了数据,并且用从0~256这个数值范围对其进行量化,这样就会产生独属于每个乘坐者的精确数据资料。14(二)大数据现象的源起与发展15•20世纪80年代至90年代中期——认知大数据的萌芽阶段1980年,阿尔文·托夫勒《第三次浪潮》1989年,Eric在华盛顿邮报中撰文批评把客户信息贩卖给垃圾邮件寄发者的行为时,提到了大数据;1996年,美通社(PRNewswireInc.)在介绍高性能平行节点技术时提到了中央处理器集群以及大数据应用。在萌芽阶段,大数据只反映出字面意义,指数据量大,并不涉及数据的类型、存储能力以及分析处理技术等,与后来汹涌爆发的大数据现象,无论是从数据量的级别上还是从数据处理技术上都不能相提并论。一、初识大数据2020/2/8(二)大数据现象的源起与发展16•20世纪90年代中期到21世纪前十年——大数据受到理论界广泛关注1998年,Mashey《大数据和下一轮基础架构压力》中指出了快速增长的数据容量,以及互联网等相对较新的数据源。1998年,Weiss和Indurkhya在其计算机科学研究中论述道:“大数据通过数据挖掘技术可以得到更有力的结论。2000年,Diebold《大数据,宏观经济度量与预测动态因素模型》一文中讨论了如何使用大数据进行经济度量和预测。2001年,DouglasLaney首次提出3V,即容量大、多样化、速度快。一、初识大数据2020/2/8(二)大数据现象的源起与发展17•2010至今——大数据战略应用被提上日程并迅速发展一、初识大数据麦肯锡2011年5月,麦肯锡的报告《大数据:下一个创新、竞争和生产力的前沿》中指出,数据已经成为可以与物质资产和人力资本相提并论的重要生产要素。这是第一份从经济和商业维度诠释大数据发展潜力的研究报告。麦肯锡对大数据的判断:数据量将呈现指数级增长;不同行业的大数据强度和内容各有不同现有的趋势将更有力推动数据增长大数据是继传统IT之后的下一个提高生产率的前沿大数据热度因何而来?2020/2/8182012年5月,OECD统计委员会第9届会议发布题为《使用大数据作决策》的研究报告,阐述了大数据现象对决策的潜在重要性和支撑作用,并特别分析了大数据给官方统计带来的各种挑战。经合组织一、初识大数据联合国2012年5月,联合国“全球脉动计划”发布了题为《大数据促发展:挑战与机遇》的报告,指出大数据像纳米技术和量子计算一样带来了根本性的变革,将会塑造一个全新的21世纪。2013年,联合国统计委员会召开了主题为“政策、发展和官方统计领域的大数据”的全球会议。世界经济论坛2012年1月,世界经济论坛发布报告认为,大数据已经成为一种类似货币或黄金的资产,并将大数据处理技术誉为“改变世界的第一位科学技术”,必将推动世界经济的发展。2014年世界经济论坛的全球信息技术报告中提出,“数据”已经成为一个新的意识形态。将成为国家和企业竞争中的优势来源。2020/2/8美国:2010年,美国总统科学技术顾问委员会在呈给奥巴马总统和国会的报告——《规划数字化的未来》中建议,“联邦政府的每一个机构和部门,都需要制定一个应对‘大数据’的战略”。2012年3月,奥巴马政府颁布了《大数据研究和发展计划》。2014年5月发布《大数据:抓住机遇、保存价值》白皮书,细化在数据开放、私人数据管理、教育、医疗保健等领域的战略。其他国家:2010年1月,英国政府正式出台数据开放网站Data.gov.cn。2013年初,英国宣布,将在大数据领域投资约1.89亿英镑;加强数据采集和分析,从而在数据革命中占得先机。2011年5月,澳大利亚政府公布《国家数字经济战略》报告。2013年2月,法国政府发布《数字化路线图》,提出将大数据作为一项战略性高新技术要大力支持。一、初识大数据大数据热度因何而来?——国家发展战略2020/2/81920•中国相关行业应对大数据的重要事件2012年,中国计算机学会决定成立“中国计算机学会大数据专家委员会”2012年,工信部赛迪研究院也成立专门课题组研究大数据2012年6月,阿里巴巴集团在集团层面设立“首席数据官”2012年7月,首届中国大数据应用论坛在北京大学召开2013年11月,国家统计局与阿里巴巴、百度等11家企业签署大数据战略合作协议2014年9月,国家统计局与浪潮、腾讯等6家大数据企业签署战略合作协议,合作向纵深方向发展2014年秋季,北大、人大等五校联合政府部门和产业界,共同招收大数据分析硕士,开始出现大数据专业人才的培养2014年10月,国家统计局和联合国统计司共同召开“大数据与政府统计”为主题的全球研讨会。一、初识大数据21问题:谁是推动大数据发展的主体?回顾大数据的历程,推动大数据发展的主体经历了从微观到宏观的转变,即由产业、商业领域的实践者转变为政府和公众机构。当前,各国政府、国际组织机构已成为助推大数据浪潮的重要力量。一、初识大数据22问题:大数据现象形成的客观条件有哪些?技术!技术!还是技术!数据以指数级别的速度激增:2天一个2000年,2年一个新世界全球每秒钟发送2.9百万封电子邮件,推特上每天发布5千万条消息,足够一个人昼夜不息的浏览至少16年…每天亚马逊上产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…数据存储能力不断提高,而存储成本却不断下降数据处理技术开发与创新:著名的摩尔定律(同一面积集成电路上的晶体管数目每1-2年增加一倍)、吉尔德定律(主干网的宽带6个月翻一番)、麦特卡尔夫定律(N个节点能创造出N平方的效益)数据来源不断增多,技术使得一切皆可量化一、初识大数据新的时代,如何应对?现代历史上每一次技术革命,我国都是学习者、跟随者,这一次我们能真正站在同一起跑线上?一、初识大数据2020/2/823数据是人为的现象。数据是我们迈向智能社会新的土壤——涂子沛《数据之巅》24(一)大数据对传统统计学的挑战挑战1:“样本=