工业和信息化部电信研究院大数据与应用二Ο一三年七月二十四日何宝宏工业和信息化部电信研究院什么是大数据2无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的大量而复杂的数据集合——维基百科数量大、获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能高效处理——美国NIST体量大、快速和多样化的信息资产,需用高效率和创新型的信息技术加以处理,以提高发现洞察、做出决策和优化流程的能力——Gartner公司主要内容•大数据的“热”•大数据的“大”•大数据的“数”•大数据的颠覆性•大数据的隐私保护•大数据的实践3大数据引发全球高度重视2019/8/22000年以来,搜索、广告和电商利用大数据获得丰厚回报2011年麦肯锡总结大数据现象并发布报告,点燃大数据热潮2012年初世界经济论坛讨论大数据一题引起政商界高度关注2012年,美国、英国、日本等政府积极开放数据,并资助大数据研发IBM、沃尔玛等传统企业大规模并购大数据公司,进军大数据领域大数据=战略资源•共识互联网咨询公司IT和其他行业经济界政府大数据的产业热•据Wikibon公司测算,2011年全球大数据产值已经达到51亿美元。预计到2017年将达到534亿美元,年均增速达到58%,是同期IT产业增速的7倍•来源:Wikibon公司,2012年大数据的投融资热6以数据为中心的时代•ICT产业发展周期主要内容•大数据的“热”•大数据的“大”•大数据的“数”•大数据的颠覆性•大数据的隐私保护•大数据的实践8“信息化”浪潮13•语言•印刷术•互联网•文字•保存与传承•口耳相传•大范围传播与持久保存•距今5000年前•距今10万年前•公元1000年•公元2000年硅介质数字化网络化古登堡印刷术发明后,50年书籍增加了800万册,增长1倍,是之前西方数据量的总和史上的大数据:政府最先遇到10税收!•约前2200年大禹“平水土分九州数万民”•公元2年,汉书.地理志:全国103个郡国,人口是59,594,978人•1909年,秦政府颁布调查户口章程1086年,英国《末日审判书》人口、土地、财产登记古罗马,每5年一次•美国宪法规定10年一次人口普查•1880年统计用了8年,预计1890年要13年•穿孔卡片制表机的发明,要1年史上的大数据:天文学制造了数据大爆炸11第谷人肉的“大数据”资源开普勒突破性的“处理”算法伽利略工具的“大数据”资源牛顿划时代先进的理论数据量的增速12全球数据量预测(单位ZB)1980以来,每40个月翻一番数据量增速,是GDP增速的4倍数据处理能力,是GDP增速的9倍2000年人类信息75%是模拟数据,2007年是6%,现在1%?计算能力的加速134V/3V:只是在说“大”!14“大”是相对的–2012年的“大”•从几个TB(1TB=1,024GB)到多个PB•Google,1000PB–2013年的“大”•数PB(1PB=1,024TB)•百度1000PB–Hadoop•开源模仿GoogleMapReduce,2003年的技术–GoogleDremel•2012年,新的编程框架15不同企业,大的概念不同引爆此轮大数据的原因2019/8/2•1946•1961•1970•1990•2000•2003•2008•20131960年代,数据与应用分离,数据库技术蓬勃发展,但重视事务处理2000年后,互联网公司开启数据分析挖掘新时代1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分1990年代,提出数据分析挖掘数据耦合时代数据分析时代数据库时代大数据时代•从流程电子化到数据资产化•1)数据更加丰富,有分析价值,从TB到PB•2)分析工具更加强大,成本够低,MapReduce•3)互联网商业上的成功,引起重视,麦肯锡报告主要内容•大数据的“热”•大数据的“大”•大数据的“数”•大数据的颠覆性•大数据的隐私保护•大数据的实践17数据的内涵•可被量化、分析和再使用的信息•通常是测量获得的•可用图形图像可视化•模拟数据和数字数据•是最底层的抽象?18知识信息数据史上数据理论的重大突破19复式记账法:商业、贸易、金融等的基础市场经济•复式记账法•伽利略:实验科学•牛顿:物理世界数学化•量子力学:从宏观到微观物理学图灵:让通用自动计算成为可能计算机香农:信息论通信不断量化的宇宙Web1.0被动Web2.0主动碎片移动互联网随时随地云计算全部20人口天体长度重量面积体积时间空间颜色电流电压声音图像社会关系辐射能量信息上帝是数学家吗?21大数据物理世界精神世界量化量化哲学宗教主要内容•大数据的“热”•大数据的“大”•大数据的“数”•大数据的颠覆性•大数据与隐私保护•大数据的实践22思维的三大转变23相关关系纷繁复杂全体数据从样本到总体•统计学的理论基础–用尽可能少的数据,证实尽可能大的事实•样本分析–精确性随着随机性的增加而大幅提高–精确性不样本空间数量的增加关系不大•样本分析的缺陷–绝对的随机性–不适合考察子类别–事先设计好的问题24从样本到总体:信不信由你•“样本”的统计,2003-2012年–房价:全国143%,北京256%–收入:上涨180%–CPI:中国涨幅34%,美国36%•“总体”的大数据–货币发行量:+500%,超过美国,占全球50%–GDP增长4倍,CPI应是100%涨幅!–股市:“上浮零”–淘宝TCPI指数:6.9%–全国工业用电量指数:4.7%25从精确到效率:用概率说话•大量信息和精确性,存在矛盾–错误数据的混入,不准确性•关系数据库是数据稀缺时代设计的–“电信化”是短缺经济的产物•算法的进步快于芯片,大数据优于算法–用简单算法替代小数据的精确算法–简单算法+海量数据?26从精确到效率:自然语言处理的发展史27飞鸟派新派要让机器翻译或语音识别,就需要先让机器理解自然语言•从基于规则到对大数据的统计•数据比算法更重要反例:中国的英语教学正例:TCPI,大众点评,Google翻译从因果到相关:Why—Related•哲学争论:因果关系存在吗?–如果是,人的自由意志存在吗?•机器会告诉是什么,而不是为什么–语义网络–人工智能–人类认知水平相关•“丁蟹效应”–凡是播出由郑少秋主演的电视剧,恒生指数或A股已有32个明显下跌–巧合?自我实现?大数据分析?28手机会致癌,相关吗?•对比丹麦1990-2007年所有手机数据库(358403人)•10729个中枢神经系统肿瘤患者数据库•研究目的–是否手机使用者更容易致癌?–是否通话时间长更容易会致癌?•结论:没有关系29大数据让社会学成为科学?30•人类的行为是随机的,不可预测的•人的行为是小概率事件,•人类需要的是随机的智慧•人类工作娱乐等活动具有间歇性,总是在长时间休息后突然爆发,然后沉寂•人类93%的行为是可预测的•自然界人类世界,符合幂律假如人类的行为可以预测…31大数据,经过1000年的发展后…32•乌龟壳•前14-11世纪•普通CD•20-50年•磁盘•3-4年•磁带•30年•《妙法莲花经》•南北朝•羊皮圣经•4世纪•壁画•1.1万年前•U盘•8-10年•如何保存•如何打开•如何检索•如何甄别永恒的忘记…33•将隐私的讨论,扩展到时间维度•对于人类而言,遗忘一直是常态,记忆才是例外,而现在记忆却成了常态•大数据将所有人置于数字圆形监狱的中央主要内容•大数据的“热”•大数据的“大”•大数据的“数”•大数据的颠覆性•大数据的隐私保护•大数据的实践34大数据是一种新资源•你不可能再造Google,Facebook,腾讯百度阿里•你在读书,书在读你35•土地•人口农业社会•资本•技术,机器,能源工业时代•用户•数据信息时代可被消费,但没法被耗尽可被创造,而不会被销毁,除非丢失或遗忘大数据消耗的是注意力每“滴”数据的价值不同叠加效应不是加法的,而是指数的多国政府的战略36国家/地区时间内容美国2012年3月启动由联邦政府六个部门组织的大数据研究计划,投资两亿美元,力图巩固领先地位欧盟2012年9月联合欧洲整体力量,制定大数据战略,作为欧盟Horizon2020战略一部分,加速追赶英国2013年1月英国把大数据作为八大关键技术领域之一,计划两年内向大数据关键技术投入1.89亿英镑,抢占先机日本2012年7月《面向2020年的ICT综合战略》将“通过大数据应用促进社会发展经济增长”作为五大重点之一,并提出活力数据战略,提升日本竞争力澳大利亚2013年3月发布大数据战略报告,宣布将于2013年7月前完成政府大数据制定,促进大数据在政府中的应用美国政府大数据计划2012年3月29日,奥巴马政府宣布“大数据的研究和发展计划(BigDataResearchandDevelopmentInitiative)”。首批共有包括美国科学基金会、卫生福利部/国家卫生研究所、能源部、国防部、国防部高级研究计划局、地质调查局等六个联邦政府的部门和机构宣布新的2亿美元的投资。共同提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平;扩大大数据技术开发和应用所需人才的供给;了解更多正在进行的联邦政府的计划,解决由大数据带来的机遇和挑战;计划与工业界、大学研究界、非营利性机构与管理者一起利用大数据所创造的机会。国防部XDATA计划:旨在开发用于分析大量的半结构化和非结构化数据的计算技术和软件工具。能源部HPSS:是对磁盘和磁带系统上PB级数据进行管理的数据管理软件。卫生福利部生物传感2.0:是第一个考虑到区域和国家协调的情况下,通过互操作的网络系统对公众健康意识的可行性分析的系统。开放政府数据联盟•截止2012年12月,美国的“开放政府计划”共有54个国家加入了由美国发起的“开放政府计划”。•网站Data.gov公开的数据类别(不涉及隐私和国家安全)超过400项,且数量仍在增加。智利、爱沙尼亚、以色列、意大利、约旦、秘鲁、罗马尼亚、西班牙等国家建立了网站,向公民公布各类公共数据,包括犯罪统计数字以及政党资金、地方财政预算和政府采购数据。加入“开放政府联盟”的门槛39财政透明信息自由财产公开公民参与•能及时公开政府财政预算和支出的信息和文件•有专门的法律保证公民获取政府信息和数据的权力•有专门的制度规定如何公开高级政府官员的收入和财产•允许公民参与公共政策的制定、保护民权大数据对技术的颠覆与组合40大数据与传统数据库41采集环节存储环节分析环节应用环节传统数据分析大数据分析扩展到传感、互联网、交易等多来源多类型数据来源单一,以内部结构化数据为主主要是面向结构化数据和事务处理的关系型数据库扩展到面向非结构化数据和分析处理的非关系型数据库依赖高性能计算机,主要利用统计和机器学习算法需用分布式并行计算,Scaleout能力,以机器学习算法为主局限在金融、保险、零售、电信等少数领域,以决策支撑为主有望渗透到政府、医疗、交通等各个领域,嵌入到业务流程中来源广,3V非结构化和面向分析为主分布式并行架构结合机器学习算法更广的领域,更深入的嵌入业务流大数据系统的特点大数据资源大数据工具大数据理念大数据&云计算42“嵌入式”的大数据61•目前大数据的应用的主要形态是“嵌入式”的,即内嵌在信息化平台中,高度差异化。相应的技术、解决方案和服务是IT和云计算的一部分,还未形成独立产业。主要内容•大数据的“热”•大数据的“大”•大数据的“数”•大数据的颠覆性•大数据的隐私保护•大数据的实践44隐私保护的历史变迁4519世纪,住宅为重心20世纪,人为重心21世纪,数据为重心个人控制、编辑、管理和删除关于他们自己的信息,并决定何时何地、一何种方式公开这种信息的权利。传统隐私保护的“三板斧”就像印刷业的发展促成了保护言论自由的立法,大数据也需要新的法律46告知与许可匿名模糊法棱镜门与大数据47是运营商在云计算与大数据方面一个战略性机遇忘记的权力:数字遗忘48大数据使得网络匿名变成数学上不可能的事你没有隐私,忘了这事吧解除个人信息的价值:从收集到使用世界经济论坛–没有坏数据,只有对数据的不合理使用49大型机,《公平信用