1大数据及信息安全最新技术中国科学技术大学熊焰2汇报内容一、大数据概念与典型应用现状二、大数据发展趋势与关键技术三、芯片安全技术四、可信计算技术3汇报内容一、大数据概念与典型应用现状二、大数据发展趋势与关键技术三、芯片安全技术四、可信计算技术4大数据“浪潮汹涌”“人人都知道,都说好,但究竟是什么,怎么做?”——有关大数据浪潮的贴切描述真有很“大”的数据么?5反映到数据量上是什么情况?“网上一分钟,人间一万年!”大数据的背景意义——信息爆炸增长6*GBTBPBEBZB地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!如此庞大数据的源头是什么?1PB=250字节1EB=260字节1ZB=270字节大数据的背景意义——信息爆炸增长7把计算机嵌入到环境或日常工具中去计算机本身从人们的视线中消失让人们注意的中心回归到要完成的任务本身普适计算不必显式地使用计算机等设备进行计算,就能获取需要的信息必要条件功能简单、价格低廉的设备必须广泛存在必须有一个允许这些设备无缝通信的架构InvisibleComputingAnytimeAnywhereAnyoneAnything4A多个人共享少量的设备一个人拥有多个设备大数据的背景意义——感知设备的普及8大数据的背景意义——物联网体系架构9大数据背景意义——社交网络的承载大数据的背景意义——社交网络承载10商业模式驱动(新壶装旧酒)内在需求驱动(新酒装新壶)“蓝蓝的天上白云飘,白云下面数据跑”——云计算技术是大数据发展的基础和支撑云计算大数据大数据的背景:网络互联技术发展、感知设备普及以及物联网架构成熟,并由社交网络承载所引起的信息爆炸。云计算为其提供强大的支撑动力!大数据的背景意义——云计算为支撑11大数据的概念和内涵“大数据:或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”——维基百科12大数据的概念和内涵“大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。尺寸并无主观度量。”——麦肯锡13大数据的概念和内涵仅仅是“大”?比“大”更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值14海量异构劣质高维大数据的背景意义——大数据的特性15体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大杂低快大数据的背景意义——大数据的4V特性16海量沙漠充满杂质只为粒金争分夺秒大杂低快大数据的背景意义——大数据的4V特性17大数据科研属于“数据密集型”的科学发现第四范式2007年,已故的图灵奖得主吉姆·格雷(JimGray)大数据研究的科学价值18李国杰(中国工程院院士,大数据专委会主任)“现代生命科学信息已具备大数据公认的4V特征,同时,大数据彻底颠覆了传统生命科学以假说指导实验和以模式生物为研究主体的科学发现模式,使生命科学研究开始进入“数据密集型”的科学发现第四范式时代。”赵国屏(中科院院士,国家人类基因组南方中心执行主任,分子微生物学专家)大数据研究的科学价值19Gartner2013年技术成熟度曲线20萌芽期(TechnologyTrigger):人们对新技术产品和概念开始感知,并且表现出兴趣;过热期(PeakofInflatedExpectations):人们一拥而上,纷纷采用这种新技术,讨论这种新技术。典型成功的案例往往会把人们的这种热情加上把催化剂;低谷期(TroughofDisillusionment):过度的预期,严峻的现实,往往会把人们心理的一把火浇灭;复苏期(SlopeofEnlightenment):人们开始反思问题,并从实际出发考虑技术的价值。相比之前冷静不少;成熟期(PlateauofProductivity):真正成熟,该技术已经成为一种平常大数据正处于高速发展的巅峰期(热度巅峰),但在研究中仍然面临严峻挑战,亟需研究突破。待热潮之后,虽可能转向低谷期,但未来将走向成熟!Gartner2013年技术成熟度曲线21大数据的数据够“大”,数据不再是稀缺资源,不能像小数据时代那样,用最小的数据获得最多的信息;而应该要拿到与领域相关的全数据大数据的数据够“杂”,来源广泛,格式五花八门,用户需从海量数据中提炼有价值信息,个体数据(或严格因果模型)的精确性不再重要,重要的是大多数数据群共同指出的结论(相关性关系);大数据的数据够“快”,数据产生得快,数据增加得快,数据随时间的折旧也快,数据的时效性成为关键。大数据新思维大数据新思维22对比传统方法大数据方法数据采集手段采样数据全局数据数据源单数据源多数据源整合判断方法基于主观因果假设机械穷举相关关系演绎方法孤立的推算方法大数据+小算法+上下文+知识积累分析方法描述性分析预测性和处方性分析对产出的预期绝对的精确性更重要更注重实时性大数据思维研究方法23各国大数据发展战略2012年3月,美国奥巴马政府正式启动“大数据研究和发展计划”涉及美国国防部、美国国防部高级研究计划局、美国能源部、美国国家科学基金等6个联邦政府部门投资2亿多美元,联合产业界、学术界以及非营利组织,以大力推进大数据相关技术的发展是继1993年9月美国政府启动“信息高速公路”计划后,国家层面发力在信息领域的又一次“狂飙猛进”242012年7月联合国发布《大数据促发展:挑战与机遇》白皮书•建议各成员国建设“脉搏实验室”(PulseLabs),挖掘大数据的潜在价值建设欧盟开放数据平台(OpenDataPortal)•欧盟委员会全新的开放数据平台Beta版已经向公众开放,已经开放5815个数据集,其中5638个数据集来自欧盟统计局Eurostat,包括地理、大气、国际贸易、农业等各类信息2012年,日本重启ICT战略计划•重启曾在震后一度搁置的ICT战略研究,重点关注大数据应用•重点推进大数据收集、存储、分析、可视化、建模、信息综合的各阶段研究,构建大数据利用的模型各国大数据发展战略25我国大数据发展战略召开第1个以大数据为主题的香山科学会议成立大数据专委会编写大数据白皮书中关村启动3只大数据产业投资基金国家基础研究计划重要支持26大数据在公共领域的应用电力行业:智能电网优化电的生产、分配以及电网安全检测与控制智能交通:为公共交通信息化应用系统、相关支撑系统、数据资源与交换系统建设提供支持电子政务:提高政府决策的科学性和精准性,提高预测预警能力及应急响应能力,节约决策成本司法系统:公安市场大规模的信息化和装备投资产生了海量的非结构化数据,公安的实战应用是大数据的重要应用领域27互联网与大数据电子商务•融合时间、地理位置、社交网络多因素,进行精准推荐•有效地为商家推荐优质上下游业务网络广告•深入分析网络广告的效果及其对商品销售等的影响、广告“读者”对之的反应等即时通信、社交网络•发现民众新的交往习惯与方式•发现民众关注社会问题与社会热点旅行预订•为游客提供旅游产品和旅游服务•更好布局和推动旅游假日经济28互联网与大数据——企业家的声音“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。——马云“5年前我们就建立了大数据分析平台。在这个平台上,可以将结构化数据和非结构化数据结合在一起,通过分析促进eBay的业务创新和利润增长。现在,eBay的分析平台每天处理的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量。”——eBay分析平台高级总监OliverRatzesberger“在此过程中,你会发现数据越大,结果越好。为什么有的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持。一旦进入大数据的世界,企业的手中将握有无限可能。”——亚马逊CTOWernerVogels29基本框架:城市感知及数据捕获数据管理城市数据分析服务提供改进城市规划缓解交通堵塞保护自然环境节约能耗城镇化、智慧城市与大数据——城市计算(MSRA)301、区分识别城市的功能区域(如文教、商业和住宅区——轨迹数据包含乘客上车和下车地点的信息。人的移动性数据可以很好地区分相同类别的兴趣点的热度,也可以揭示一个区域的功能2、搜寻城市道路网中不合理的规划(拥堵)——利用高速和环路等主干道将城市分割成区域,然后分析大规模车流轨迹数据在不同区域之间行驶的一些特征,便可找到连通性较差的区域对,从而发掘现有城市道路网的不足之处北京市3万多辆出租车3个月轨迹城镇化、智慧城市与大数据——城市计算(MSRA)313、细粒度空气质量预测——利用地面监测站有限的空气质量数据结合交通流道路结构、兴趣点分布、气象条件和人流规律等大数据,基于机器学习算法建立数据和空气质量的映射关系,从而推断空气质量4、加油站排队时间及实时油耗估计——利用装有GPS的出租车在加油站的等待时间来估计加油站的排队长度,估算出此时加油站内的车辆数目及加油量。通过将全城的加油站数据汇总计算任意时刻消耗的燃油数城镇化、智慧城市与大数据——城市计算(MSRA)32金融与大数据从数据角度看,金融无非是各种数据的排列组合,大数据时代,凡是拥有独特数据资产的公司,都可以涉及金融。阿里一是金融交易形式的电子化和数字化,具体表现为支付电子化、渠道网络化、信用数字化,是运营效率的提升二是金融交易结构的变化,其中一个重要表现便是交易中介脱媒化,服务中介功能弱化,是结构效率的提升腾讯百度互联网金融:利用互联网技术、大数据思维进行的金融业务再造。利用新兴的大数据技术,金融业的两大根基——征信与风控,将可能发生革命性的变化。(受限于政策因素)33金融与大数据目前,中国的大型商业银行和保险公司的数据量已经达到100TB以上级别,并且非结构化数据量在迅速增长。中国金融行业已步入大数据时代的初级阶段,并且呈现快速发展势头。优秀的大数据分析能力是当今金融市场创新的关键。34大数据挑战发卡量增长迅速:2008年发卡约500万张,2010年增加了一倍。业务数据增长迅速:随着业务的迅猛增长,业务数据规模也线性膨胀。数据存储、系统维护、数据有效利用都面临巨大压力。需求可扩展、高性能的数据仓库解决方案能够实现业务数据的集中和整合;可以支持多样化和复杂化数据分析提升信用卡中心的业务效率;通过从数据仓库提取数据,改进和推动有针对性的营销活动。采用大数据方案后价值体现实时的商业智能可以结合实时、历史数据进行全局分析,风险管理部门现在可以每天评估客户的行为,并决定对客户的信用额度在同一天进行调整;原有内部系统、模型整体性能显著提高秒级营销Greenplum数据仓库解决方案提供了统一的客户视图,更有针对的进行营销。2011年,中信银行信用卡中心通过其数据库营销平台进行了1286个宣传活动,每个营销活动配置平均时间从2周缩短到2-3天。金融与大数据国有金融机构依靠大数据技术和思维进行自我变革——案例(中信银行信用卡中心)35医疗与大数据目前全球共拍摄了超过3.5万亿张照片每2分钟拍摄的照片数比19世纪拍摄的照片总数还多Facebook上累计有超过1400亿张照片发布医疗图像的存储量占全球全部照片30%!大数据36卫生经济学与药品定价疫情监测公共健康监控医疗统筹分析系统医疗“大数据”(BigD