大数据技术领域若干关键问题西北大学信息科学与技术学院陈莉教授/博导chenli@nwu.edu.cn2014.4.242019/8/1NWU智能信息处理研究所2风云变幻中……题序何为大数据(BIGDATA)?Verylargedata?Massivedata?Bigdata?2019/8/1NWU智能信息处理研究所4大数据(BigData)超大规模数据?海量数据?“verylarge”大?还是“big”大?——相对于当时的CPU和存储技术水平,均指数据规模很大“超大规模数据库”(VLDB)这个词是20世纪70年代中期出现的。VLDB会议1975年发起。数百万条记录即超大规模“海量数据”则是21世纪初出现的词,越来越多的应用建立在多源数据集成基础之上时,数据规模急剧扩大,数据类型由关系数据,到非结构化的、半结构化数据。非结构化数据是指在获得数据之前无法预知其结构的数据,如文本、图像、视频等。包含数千万个文档、数百万张照片或者工程设计图的数据集很平常,关系数据库无法有效管理这些数据,如何快速访问数据成为核心挑战。以Hadoop为代表的分布式文件系统和MapReduce计算框架应运而生2008年9月《科学》(Science)杂志发表了一篇文章“BigData:ScienceinthePetabyteEra”,“大数据”这个词开始传播所谓大数据,泛指规模达到几百TB,甚至PB级的数据,广泛出现在科学研究,Web集成、多媒体等诸多领域中大数据是伴随数据获取技术的发展,Web2.0、WSN(传感网)和CPS(物联网)等应用的快速普及而提出的概念2019/8/1NWU智能信息处理研究所5从历史的视角——“超大规模数据”指表示和处理的是GB级别的数据,主要研究关系数据模型的高效实现技术、事务管理与故障恢复技术、索引与查询优化技术等,创建了一套关系数据库的理论与技术体系,已在商业上取得了成功。“海量数据”指表示和处理的数据是TB级的数据,主要研究各种非结构化数据的有效管理、多数据源的集成问题。涉及如何统一表达非结构化数据,如何实现基于语义的非结构化数据的集成和检索,如何解决与应用紧密相关的功能与数据管理系统融合等问题。我国“核心电子器件、高端通用芯片及基础软件产品”(“核高基”)科技重大专项也将非结构化数据管理作为需要重点突破的关键技术加以重点支持。“大数据”指表示和处理的数据是PB级别及其以上的数据。大数据并非单指数据量之大。如果说海量数据主要从存储角度考虑问题,则大数据除了数据存储,还包括数据处理、感知等。2019/8/1NWU智能信息处理研究所6大数据形成于……用电子显微镜重建大脑中的突触网络,1立方毫米大脑的图像数据就超过1PB据IDC统计,2011年全球被创建和被复制的数据总量为1.8ZB(1021),其中75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB)谷歌公司通过大规模集群和MapReduce软件,每个月处理的数据量超过400PB百度每天大约要处理几十PB数据Facebook注册用户超过10亿,每月上传的照片超过10亿张,每天生成300TB以上的日志数据淘宝网会员超过3.7亿,在线商品超过8.8亿,每天交易数千万笔,产生约20TB数据;雅虎的总存储容量超过100PB每个人类基因数据:300GB~700GB;基因定位和分析所需时间:1000+机时:1000个基因分析需要114年各类移动设备产生了大量的大数据;传感网和物联网的蓬勃发展形成大数据集合各城市的视频监控每时每刻都在采集巨量的流媒体数据劳斯莱斯公司对全世界数以万计的飞机引擎进行实时监控,每年传送PB量级的数据……数据形成的过程:被动产生——主动产生——自动产生2019/8/1NWU智能信息处理研究所7移动互联网:即时通迅微信是腾讯公司推出免费即时通讯服务的聊天软件。可以通过手机、平板、网页快速发送语音、视频、图片和文字。微信提供公众平台、朋友圈、消息推送等功能,用户可以通过摇一摇、搜索号码、附近的人、扫二维码方式添加好友和关注公众平台,同时微信帮将内容分享给好友以及将用户看到的精彩内容分享到微信朋友圈。2019/8/1NWU智能信息处理研究所8表1存储容量单位单位定义字节数字节数(制)Kilobyte(千)1024B210103Megabyte(兆)1024KB220106Gigabyte(吉)1024MB230109Terabyte(太)1024GB2401012Petabyte(拍)1024TB2501015Exabyte(艾)1024PB2601018Zettabyte(泽)1024EB2701021Yottabyte(尧)1024ZB28010242019/8/1NWU智能信息处理研究所9表29GBDVD光盘/1TB2.5寸硬盘保存1.8ZB数据比较单个容量(GB)所需数量单个厚度(MM)堆叠厚度(KM))DVD92199023255551.2263882.792.5寸硬盘10241932735283917394.621.8ZB数据如果用9GB的DVD盘来保存,叠加起来的高度超过26万公里,大约是地球到月球距离的2/3;如果用1TB的2.5寸磁盘保存,叠加起来的高度超过1.7万公里,接近地球周长的一半;每位美国人每分钟写3条Twitter微博,不停地写2.6976万年;事实上,多数磁盘的容量可能还不到1TB,存储这些数据的磁盘是十分惊人的数字。2019/8/1NWU智能信息处理研究所10大数据的概念定义1大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。——维基百科Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.——Wiki2019/8/1NWU智能信息处理研究所11大数据定义2——“3V”BigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization.——Gartner大数据指:Volume(规模大,数据已从TB级别跃升至PB级别)+Variety(类型多,从普通的文字、视频、图片到逐渐增多的地理位置信息等,类型纷繁,已无规律可循)+Velocity(变化快,即时处理成为趋势)——IBM2019/8/1NWU智能信息处理研究所12大数据定义3当数据的规模和性能要求成为数据管理分析系统的重要设计和决定因素时,这样的数据就被称为大数据。不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度以目前计算机硬件的发展水平看针对简单查询(如关键字搜索),数据量为TB至PB级时可称为大数据针对复杂查询(如数据挖掘),数据量为GB至TB级时即可称为大数据2019/8/1NWU智能信息处理研究所13大数据定义4大数据有两个不同于传统数据集的基本特征:1.大数据不一定存储于固定的数据库,而是分布在不同的网络空间;2.大数据以半结构化或非结构化数据为主,具有较高的复杂性。2019/8/1NWU智能信息处理研究所14大数据定义5-7为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。——IDC大数据——“4V”观点一Volume+Variety+Velocity+Value(创造价值)大数据——“4V”观点二Volume+Variety+Velocity+Value(价值密度低,以视频为例,在连续不间断监控过程中,有用的数据也许只有一两秒)2019/8/1NWU智能信息处理研究所15主要内容数据科学与大数据大数据的主要研究领域大数据技术主要研究内容大数据技术的若干关键问题2014年大数据十大发展趋势预测一、数据科学与大数据数据科学是关于数据的科学——旨在研究数据的各种类型、状态、属性及变化形式和变化规律,揭示自然界和人类行为现象和规律,亦称数据学。2019/8/1NWU智能信息处理研究所17数据科学与第四范式2007年美国总统科学技术顾问委员会(President’sCouncilofAdvisorsonScienceandTechnology,PCAST)的报告以及英国e-Science计划前首席科学家托尼·海(TonyHey)的著作《第四范式:数据密集型科学发现》(TheFourthParadigm:DataintensiveScientificDiscovery)都揭示出数据分析已经成为继实验、理论和计算之后的第四种科学发现基础,成为产生经济价值的新源泉。2019/8/1NWU智能信息处理研究所18数据科学(DataScience)图灵奖获得者JimGray:2007年在演讲中提出“数据密集型科学发现(Data-IntensiveScientificDiscovery)”将成为科学研究的第四范式实验科学理论科学计算科学数据科学卡耐基·梅隆大学等相继提出了“数据密集型超级计算(dataintensivesupercomputing)”和“数据密集型可扩展计算(dataintensivescalablecomputing)”的概念世界著名存储技术公司EMC:提出了“DataScience”的概念,“DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics”李国杰院士:“数据科学”研究的对象是什么?计算机科学是关于算法的科学,而数据科学是关于数据的科学——数据学“数据科学”成为一个新兴的研究领域——2012年大数据成为热点2019/8/1NWU智能信息处理研究所19数据科学研究的基本框架“大数据”大数据(Bigdata)是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。——维基百科大数据4V特征VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天202019/8/1NWU智能信息处理研究所20212019/8/1NWU智能信息处理研究所21大数据与常规数据常规数据范围广模态多增长快关联繁数据规模较小模态属性受限增长速度较慢关联相对简单稠密与稀疏共存冗余与缺失并在动态与静态互现显式与隐藏均有特性问题描述与存储的挑战分析与理解的挑战挖掘与预测的挑战挑战大数据应用目标相对比较明确数据结构相对比较简单时序长持续时间较短处理方法通常为模型化、参数化2019/8/1NWU智能信息处理研究所22美国的大数据规划—大数据上升为国家意志2012年3月29日,美国联邦政府整合6个部门宣布2亿美元的“BigDataResearchandDevelopmentInitiative”促进采集、存储、维护、管理、分析和共享海量数据的核心技术;利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;培养开发和使用大数据技术的人力资源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedCompu