Email:yhuang@nju.edu.cn第一部分:大数据处理的基本特点主要介绍大数据处理的主要特点和技术挑战、研究原则和研究目标第二部分:大数据研究技术层面和主要研究内容主要介绍大数据研究所涉及的各个技术层面以及各层面下主要的研究内容和热点问题第三部分:大数据并行处理技术研究简要介绍本课题组在大数据方面所开展的一些工作多核、并行计算与大数据并行计算多核/众核单核处理器设计达到极限,2005年Intel多核处理器战略转移行业大数据应用需求2009-2010年开始,行业应用规模和数据量急剧增长影响现有计算技术各个层面:体系结构分布并行计算算法设计数据库操作系统程序设计语言应用技术……MapReduce2004年Google发明MapReduce海量数据并行处理技术,07年Hadoop推广并行处理技术方法大数据大数据是云计算的两大核心内容之一云计算资源与平台基于资源共享的小粒度应用基于大规模计算资源的大粒度应用基于资源共享的小粒度应用基于资源共享的小粒度应用基于资源共享的小粒度应用基于资源共享的小粒度应用云计算的主要目标是:用集中管理的巨大计算资源和计算能力1)为小粒度应用提供资源共享;2)为大粒度应用(主要是大数据应用)提供大规模计算能力基于云计算的共享应用与服务大数据是云计算的两大核心内容之一云计算资源与平台虚拟化弹性资源调度管理虚拟资源池小粒度应用与服务分布式存储并行计算框架查询分析挖掘并行算法云安全管理云计算管理大数据应用与服务云计算应用与服务•Wiki百科:bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtools大数据意指一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集•IDC报告:Bigdatatechnologiesdescribeanewgenerationoftechnologiesandarchitectures,designedtoeconomicallyextractvaluefromverylargevolumesofawidevarietyofdata,byenablinghigh-velocitycapture,discovery,and/oranalysis.大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值什么是大数据?大数据处理技术的重要性大数据(BigData)应用需求出现越来越多的大数据应用和行业需求。2008年,在Google成立10周年之际,《Nature》杂志出版一期专刊专门讨论未来的大数据(BigData)处理相关的一系列技术问题和挑战。未来10多年数据将急剧增长IDC研究报告《DataUniverseStudy》提出“数据宇宙”的说法描述海量数据2007年2008年2009年2010年2011年大数据处理技术的重要性大数据处理技术的重要性未来急剧增长的数据迫切需要寻求新的处理技术手段IDC报告《DataUniverseStudy》全世界权威IT咨询公司研究报告预测:全世界数据量未来10年将从2009年的0.8ZB增长到2020年的35ZB,增长44倍!年均增长率40%!.16.28.48/通用格式1.0/通用格式8.0/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式/通用格式ZB(1000EB)Year0.8ZB:一堆DVD堆起来够地球到月亮一个来回35ZB:一堆DVD堆起来是地球到火星距离的一半美国联邦政府下属的国防部、能源部、卫生总署等7部委联合推动,于2012年3月底发布了大数据研发专项研究计划(BigDataInitiative),拟投入2亿美元用于研究开发科学探索、环境和生物医学、教育和国家安全等重大领域和行业所急需的大数据处理技术和工具,把大数据研究上升到为国家发展战略。10“大数据研究的科学价值”李国杰,《中国计算机学会通讯》,vol.8,no.9,2012.92012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。11数据科学(DataScience)国内外出现了“数据科学”的概念图灵奖获得者JimGray:2007年最后一次演讲中提出“数据密集型科学发现(Data-IntensiveScientificDiscovery)”将成为科学研究的第四范式实验科学理论科学计算科学数据科学世界著名存储技术公司EMC:提出了“DataScience”的概念,“DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics”李国杰院士:“数据科学”研究的对象是什么?计算机科学是关于算法的科学,数据科学是关于数据的科学。12大数据将带来巨大的技术和商业机遇•大数据分析挖掘和利用将为企业带来巨大的商业价值原始信息行业数据知识报表制图电子文档信息检索数据仓库海量分析知识挖掘大数据处理技术的重要性应用数据规模急剧增加,传统计算面临严重挑战中国移动一个省电话通联记录(CDR)数据每月可达0.5-1PB,而整个中国移动每月则高达7-15PB数据;如此巨大的数据量使得Oracle等数据库系统已经难以支撑和应对南京市公安局320道路监控云计算系统,数据量为三年200亿条、总量120TB的车辆监控数据百度存储数百PB数据,每天处理数据10PB淘宝存储14PB交易数据,每天新增数据40-50TB14大数据处理技术发展的驱动力大规模数据处理和行业应用需求日益增加和迫切出现越来越多的大规模数据处理应用需求,传统系统难以提供足够的存储和计算资源进行处理,云计算技术是最理想的解决方案。调查显示:目前,IT专业人员对云计算中诸多关键技术最为关心的是大规模数据并行处理技术大数据并行处理没有通用和现成的解决方案对于应用行业来说,云计算平台软件、虚拟化软件都不需要自己开发,但行业的大规模数据处理应用没有现成和通用的软件,需要针对特定的应用需求专门开发,涉及到诸多并行化算法、索引查询优化技术研究、以及系统的设计实现大数据处理技术发展的驱动力海量数据隐含着更准确的事实研究发现:大数据量可显著提高机器学习算法的准确性;训练数据集越大,数据分类精度越高;大数据集上的简单算法能比小数据集上的复杂算法产生更好的结果,因此数据量足够大时有可能使用代价很小的简单算法来达到很好的学习精度。例如,2001年,一个基于事实的简短问答研究,如提问:WhoshotAbrahamLincoln?在很大的数据集时,只要使用简单的模式匹配方法,找到在“shotAbrahamLincoln”前面的部分即可快速得到准确答案:JohnWilkesBooth大数据特点:4V+CVolume:大容量Variety:多样性Velocity:时效性Veracity:准确性Complexity:复杂性VeracityVarietyVelocityVolumeComplexity•结构特征–结构化数据–非结构化/半结构化数据•获取和处理方式–动态(流式/增量式/线上)/实时数据–静态(线下数据)/非实时数据•关联特征–无关联/简单关联数据(键值记录型数据)–复杂关联数据(图数据)DataconnectednessDatasizeTypicalRDBMSSQLComfortZoneDisk-basedKey-valueStoreColumnStoreDocumentStoreGraphDB引自微软亚洲研究院,王海勋•大数据问题的基本特点–大数据来自应用行业,具有极强的行业应用需求特性–数据规模极大,达到PB甚至EB量级,超过任何传统数据库系统的处理能力–大数据处理给传统计算技术带来极大挑战,大多数传统算法在面向大数据处理时都面临问题,需要重写•大数据研究的基本原则–应用需求为导向:以行业应用问题和需求为出发点–领域交叉为桥梁:行业、IT产业、学术界协同–计算技术为支撑:研究解决涉及的计算技术问题以有效的信息技术手段和计算方法,获取、处理和分析各种应用行业的大数据,发现和提取数据的内在价值,为行业提供高附加值的应用和服务•技术手段:信息技术和计算方法•核心目标:价值发现•效益目标:形成高附加值行业应用•大数据研究的挑战–数据规模导致难以应对的存储量–数据规模导致传统算法失效–大数据复杂的数据关联性导致高复杂度的计算•大数据研究的基本途径三个基本途径:–寻找新算法降低计算复杂度–降低大数据尺度,寻找数据尺度无关算法–大数据并行化处理•大数据研究的基本途径新算法寻找新算法降低计算复杂度降低尺度寻找数据尺度无关近似算法并行化分而治之并行化处理大数据第二部分大数据研究层面与主要研究内容不同的视角有不同的研究层面划分方法•从信息处理过程•从计算机技术研究与学科视角基础理论算法系统应用获取存储处理利用学术角度业界角度•从信息处理系统视角以下以信息系统视角来划分大数据研究层面体现大数据系统研发所涉及的各个层面和问题同时兼顾产业、学术和应用行业共同关注的问题基础设施系统平台算法应用集群,多核,GPU,混合式构架(如集群+多核,集群+GPU)云计算资源与支撑平台大数据查询(SQL,NoSQL,实时查询,线下分析)大数据存储(DFS,HBase,MemDB,RDB)大数据预处理MapReduce,BSP,MPI,CUDA,OpenMP,定制式,混合式(如MapReduce+CUDA,MapReduce+MPI)并行化机器学习与数据挖掘算法社会网络,排名与推荐,商业智能,自然语言处理,生物信息媒体分析检索,Web挖掘与检索,3维建模与可视化计算…电信/公安/商业/金融/遥感遥测/勘探/生物医药……领域应用/服务需求和计算模型分析工具/开发环境和工具/行业应用系统开发角色行业用户领域专家应用开发者计算技术研究和开发者研究层面大数据行业应用/服务层应用开发层应用算法层基础算法层并行编程模型与计算框架层大数据存储管理层并行构架和资源平台层应用层算法层系统层构架层•行业应用系统和服务–行业应用系统电信、公安、商业、金融、遥感遥测、地质勘探、生物医药……–行业应用公共服务中间件•领域应用/服务需求和计算模型–领域应用问题和需求–领域应用问题计算模型•行业应用系统和服务–大数据分析挖掘工具–大数据开发环境和工具–大数据应用和服务集成框架和接口–大数据应用测试环境和工具–大数据应用发布和运行环境•社会网络•排名与推荐系统•商业智能•媒体分析检索•Web挖掘与搜索•3维建模与科学计算可视化•生物信息•自然语言处理•……•搜索引擎综合应用案例未来的搜索引擎,将不再是基于简单关键词检索的网页聚合,而是基于精准化和智能化搜索的信息和知识的聚合,能够分析用户的意图,信息将以更精准、更智能化方式提供给用户GoogleKnowledgeGraph基于搜索关键词语义理解和信息关联性的智能化搜索功能,可提供搜索对象相关的综合性和多样化信息(文字和媒体信息)。涉及到前述大多数应用技术的综合性应用:一种深度搜索技术基于语义分析理解基于信息关联网络分析多样化排名与推荐基于图片内容的搜索目前GoogleKnowledgeGraph已经有五亿个信息“对象”包括35亿个属性和相互关系;但目前只支持英文,不支持中文GoogleKnowledgeG