2013中国国际云计算技术和应用论坛(CloudChina2013)迎接大数据时代的来临——大数据发生、特征、科研范式、处理与应用 倪光南编写2013年4月7-8日1从商业智能(BI)到大数据n 大数据从数据挖掘、商业智能(BI)发展而来,经典实例如下:n “啤酒与尿布”:20世纪90年代沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中。这样,他们在尿布货柜附近放置了啤酒,结果销量大幅上升。n 美国第二大超市Target为了抓住含金量很高的一个顾客群体——孕妇,通过数据挖掘建立了一个模型,选出了25种典型商品的消费数据构建了“怀孕预测指数”,由此,它能在很小的误差范围内预测到顾客的怀孕情况,从而能早早地把孕妇优惠广告夹杂在其他一大堆与怀孕不相关的商品广告中发出去,有效地招揽了孕妇顾客群。这种优惠广告间接地令一个蒙在鼓里的父亲意外发现他高中生的女儿怀孕了,一时轰动全美。2怎样发展到大数据?n 随着互联网、移动互联网的发展,1.数据产生和发送的速度和频率急剧增长;2.数据源的数目和种类上升。全球范围内可用的数字数据从2005年的150EB增长到2010年的1200EB。预计在以后一些年里将年增长40%,即相当于人口增长速度的40倍。这意味着数字数据从2007到2020将增长44倍,或每20个月翻一番。n 这些新的数字数据源包括搜索、新闻、博客、微博等社交网、移动电话和短信、热线电话、监控数据、遥测数据……,产生的新数据的特点是:一般以数字方式产生;往往是我们日常生活或与数字服务交互的副产品;一般是自动收集、有在数据产生时同时提取和存储它的系统;在地理上或短时期里可以跟踪,如手机位置数据或通话持续时间;可连续地进行实时或近乎实时的分析。n 这些新的情况再加上云计算的发展,为大数据提供了合适的环境和处理能力,推动数据挖掘、商业智能发展到大数据。3商业智能和大数据的比较名称商业智能大数据数据量不太大,常为TB量级(1012Byte)大,常为PB量级(1015Byte)数据特性结构化信息,非实时信息主要为非结构化信息,如文本、图形、音频、视频、遥感遥测信息……,大多是实时信息数据来源主要为企业交易数据主要是社会日常运作和各种服务中实时产生的数字数据,如在线搜索、新闻、博客、微博等社交媒体、移动电话和短信、热线、电子商务交易、遥感遥测数据……应用领域主要是自然科学范畴主要是社会科学范畴,如经济学和社会学应用、政治政策应用等4大数据的一些特性n 大数据的“实时”性并不意味着真正的实时,而往往是近似的“实时”:n 在一个相对短、相对新的时间里产生并可资利用;n 在一个与场景有关的短时期里,即能容许作出响应,并判定效果的一个时间段里(即容许产生一个反馈过程)产生并可资利用。n 新的数字数据源的特点:n 从人们使用数字服务被动收集到的交易数据n 联机数据,网页搜索、新闻媒体和社会媒体的交互数据n 物理传感器数据n 居民报告或群体源的主动数据5科学研究的第四范式n 图灵奖获得者吉姆•格雷(JimGray)基于e-Science的思路提出:大数据是科学研究的第四范式(thefourthparadigm)。n e-Science是英国科学技术局研究理事会前任会长约翰•泰勒(JohnTaylor)提出的,它实际上是一种基础设施,它提供了一种信息化的科学研究的环境和平台,使得不同学科领域的研究和科研活动能够有针对地开发特定的科学研究与应用。实际上,像现在的核反应模拟、航空航天设计、生命科学研究……无一不依赖于高性能计算机及相应的数值计算方法,属于计算密集型科研。n 第四范式的思想是和e-Science一脉相承的,第四范式是从计算密集型科研发展到以大数据为基础的数据密集型科研方法,从目前看来它将在越来越多领域的研究中发挥重大的甚至是决定性的作用。6科学研究方法(范式)的发展7资料来源:潘柱廷,《攻击大数据》 科学研究范式(paradigm)的发展过程,昀早是实验型科研(Experimental Science),这已有几千年的历史了,后来发展到理论型科研(Theore;cal Science),这也有数百年的历史了,近几十年发展到计算型科研(Computa;onal Science),现在则推进到第四范式——以大数据为基础的数据密集型科研(Data-‐intensive Science)。各种科学研究范式的关系n 这几种范式在实际科研中往往同时使用,相辅相成。n 第一种范式即实验型科研是昀基本的方法,因为任何科学都需要用实验来检验;理论在未经实验证实前,只能作为假设,所以第二种范式即理论型科研是以实验为基础并依赖于实验验证的;第三种范式即计算型科研往往需要利用第二种范式取得的成果,即需要在理论的指导下,利用计算能力发挥理论的作用;同样,第四种范式可以认为是第三种范式的延伸,它们都依赖于计算能力,只是第三种范式是在已知规律的情况下,运用计算能力发挥规律的作用,而第四种范式则是在未知规律的情况下,运用计算能力从大数据中发现规律并发挥规律的作用。n 第四种范式是否将成为基本的科研方法还有待于实践的进一步检验,但其重要性已毋庸置疑。8hCp://www3.weforum.org/docs/WEF_TC_MFS_BigDataBigImpact_Briefing_2012.pdf 大数据生态系统个人:数据形式:群体源信息、被吸取数据 动力:价格/优惠、改进服务 要求:隐私权标准、选择权私人部门:数据形式:交易数据、消费和用户信息 动力:改进客户知识和预测趋势能力 要求:商业模式、保敏感信息公共部门:数据形式:统计、保健、税收、经费信息、设施数据 动力:改进服务保障、提升经费效率 要求:隐私权标准、选择权数据挖掘 和分析l 对突发事件更快的跟踪和响应 l 对危机性质和变化的更好了解 l 对需要服务地区的准确定位 l 对供求关系的预测能力共享 数据9大数据的一个典型处理流程10资料来源:《Challenges and Opportuni;es with Big Data》 典型的大数据处理流程包括:数据的获取和记录、数据的清洁/抽取/标注、数据的整合/聚类/表达、数据的分析/建模和数据解释等5个阶段。在处理的过程中,异构性、规模、即时性、复杂性和隐私权等问题是大数据想要创造价值所需解决的困难。大数据和云计算§ 如果说大数据是一座蕴含巨大价值的矿藏,云计算则可以被看作是采矿作业的得力工具;而且,云计算也是为了解决大数据等“大”问题而发展而来的技术趋势,没有大数据的需求,云计算的功用也将得不到完全发挥。因此,大数据与云计算是相辅相成的。§ 对于大数据而言,云计算的意义不仅在于通过相关技术解决各种具体问题,还在于通过云计算构建一种通用、高效和可靠的大数据支撑平台,掌握以数据流为中心的系统集成思想,在大数据应用层面探索更广阔的内容。§ 为了更好地利用大数据的价值,我们需要用一种新的思路来考虑支撑整个数据处理过程的体系架构,即把分层的思路从单一系统的架构中延展到整个平台范围,将整个数据处理平台按照分层的思路统一规划设计,依据系统不同组件的物理和逻辑特性在系统范围内分层。1112大数据支撑平台的分层思路来源:姚宏宇,《大数据与云计算》数据可视化13 数据可视化是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息,并且早在大数据出现之前就已经被广泛地应用了;但在大数据领域,可视化技术具有了更大的作用。美国全国枪击死亡情况来源:《可视化数据告诉你美国枪击案到底多严重》h$p://internet-‐map.net俄国意大利德国荷兰法国巴西印度日本西班牙伊朗美国中国可视化技术应用实例14关联性分析、发现异常n 很多时候,从新的数字数据源提供的数据中发现的关联性会正确地反映传统的官方统计,从而能提供更便宜、更快的、近似的预测。n 发现相关性只是手段,重要目的是利用相关性以及其他手段来发现人类社会活动的异常,帮助制订正确的反应策略。n 许多新数据源的价值不仅在于它的规模和速度,还在于它所包含信息的丰富性。在许多情况下,大数据不仅是官方统计数据的代替或作为它的近似,而且能对它进行补充,增加深度和细节。n 定性的社会媒体信息越多,越有助于描绘出一个关于事件的全貌,便于做出快速响应。这里,大数据的规模、速度和数据本性的组合具有很大的价值。15“Google登革热趋势”利用搜索数据近乎实时地估计登革热在全球的传播情况(蓝色——该系统估计数据,橙色——巴西官方数据)Source: hCp://www.google.org/denguetrends/about/how.html16美国流感传染率的官方数据与基于推特的数据比较Source: « You Are What You Tweet: Analyzing TwiCer for Public Health. M. J. Paul and M. Dredze, 2011. hCp://www.cs.jhu.edu/%7Empaul/files/2011.icwsm.twiCer_health.pdf17在印尼的推特上,讨论米价的信息和实际米价的关系推特上关于米价的贴子 (每月)实际米价18观察社会媒体揭示了领先或滞后于失业高峰的某些标志失业高峰滞后标志增加典押和出租减少保健开支取消度假领先标志降低汽车档次减少杂品开销多乘公共交通19大数据时代的美国总统选举n 奥巴马竞选活动经理JimMessina:“我们要用数据去衡量这场竞选活动中的每一件事情。”n 芝加哥竞选总部还任命RayidGhani为“首席科学家”,此人是埃森哲技术实验室的分析性研究带头人,新的大数据库能让竞选团队筹集到比他们曾预料到的更多的资金。n 华盛顿那些基于直觉与经验决策的竞选人士的优势在急剧下降,取而代之的是数量分析专家与电脑程序员的工作,一位官员说:“在政治领域,大数据的时代已经到来。”2021国家信息中心:《中国政府网站发展数据报告2012》用大数据指导政府网站建设国家信息中心:《中国政府网站发展数据报告2012》用大数据指导政府网站建设(续)大数据对决策者的意义n 早期预警:早期检测居民使用数字设备和服务中的异常可以在时间上快速响应危机;n 实时感知:大数据可以描绘一幅关于现实情况的很细粒度的且当前的表述,它有助于制定行动计划和政策;n 实时反馈:大数据具有实时监测居民的能力,使其可用来了解哪里政策和行动计划失效并作出必要的调整。n 应当指出:实时的大数据信息不能代替政府决策时传统应用的定量的统计证据,但如正确理解的话,它可以表明哪里需要做进一步的调查(在时间不太紧要的情况下),或者哪里需要作出立即的响应(在发生自然灾难情况下),而这是其他手段无法做到的。24对大数据的挑战n 应用大数据面临若干挑战;一方面关系到数据本身,包括它的获取、共享和消除对隐私的顾虑。另一方面是它的分析。n 隐私是昀敏感的问题,涉及观念上、法律上以及技术上的问题。按照ITU的定义:隐私权是个人控制或影响关于他们自身的信息是否披露的权利。我们必须警惕新技术的兴起可能会对它造成损害并应设置必要的防护。n 对新的数据源进行分析方面的挑战:如何得到合适的描述即对数据进行摘要;如何通过演绎,解释数据或使数据有意义;如何定义和检测异常……。n 数据分析不当可能造成误导,表面的相关不一定表明真正的因果关系。25学术信誉数据复制跨领域互操作法律支持隐私权!来源:hCp://gking.harvard