多核、并行计算与大数据并行计算多核/众核单核处理器设计达到极限,2005年Intel多核处理器战略转移行业大数据应用需求2009-2010年开始,行业应用规模和数据量急剧增长影响现有计算技术各个层面:体系结构分布并行计算算法设计数据库操作系统程序设计语言应用技术……MapReduce2004年Google发明MapReduce海量数据并行处理技术,07年Hadoop推广并行处理技术方法大数据•Wiki百科:bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtools大数据意指一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集•IDC报告:Bigdatatechnologiesdescribeanewgenerationoftechnologiesandarchitectures,designedtoeconomicallyextractvaluefromverylargevolumesofawidevarietyofdata,byenablinghigh-velocitycapture,discovery,and/oranalysis.大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值什么是大数据?大数据处理技术的重要性大数据(BigData)应用需求出现越来越多的大数据应用和行业需求。2008年,在Google成立10周年之际,《Nature》杂志出版一期专刊专门讨论未来的大数据(BigData)处理相关的一系列技术问题和挑战。未来10多年数据将急剧增长IDC研究报告《DataUniverseStudy》提出“数据宇宙”的说法描述海量数据2007年2008年2009年2010年2011年大数据处理技术的重要性大数据处理技术的重要性未来急剧增长的数据迫切需要寻求新的处理技术手段IDC报告《DataUniverseStudy》全世界权威IT咨询公司研究报告预测:全世界数据量未来10年将从2009年的0.8ZB增长到2020年的35ZB,增长44倍!年均增长率40%!美国联邦政府下属的国防部、能源部、卫生总署等7部委联合推动,于2012年3月底发布了大数据研发专项研究计划(BigDataInitiative),拟投入2亿美元用于研究开发科学探索、环境和生物医学、教育和国家安全等重大领域和行业所急需的大数据处理技术和工具,把大数据研究上升到为国家发展战略。7“大数据研究的科学价值”李国杰,《中国计算机学会通讯》,vol.8,no.9,2012.92012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。8数据科学(DataScience)国内外出现了“数据科学”的概念图灵奖获得者JimGray:2007年最后一次演讲中提出“数据密集型科学发现(Data-IntensiveScientificDiscovery)”将成为科学研究的第四范式实验科学理论科学计算科学数据科学世界著名存储技术公司EMC:提出了“DataScience”的概念,“DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics”李国杰院士:“数据科学”研究的对象是什么?计算机科学是关于算法的科学,数据科学是关于数据的科学。9大数据将带来巨大的技术和商业机遇•大数据分析挖掘和利用将为企业带来巨大的商业价值原始信息行业数据知识报表制图电子文档信息检索数据仓库海量分析知识挖掘大数据处理技术的重要性应用数据规模急剧增加,传统计算面临严重挑战中国移动一个省电话通联记录(CDR)数据每月可达0.5-1PB,而整个中国移动每月则高达7-15PB数据;如此巨大的数据量使得Oracle等数据库系统已经难以支撑和应对南京市公安局320道路监控云计算系统,数据量为三年200亿条、总量120TB的车辆监控数据百度存储数百PB数据,每天处理数据10PB淘宝存储14PB交易数据,每天新增数据40-50TB11大数据处理技术发展的驱动力大规模数据处理和行业应用需求日益增加和迫切出现越来越多的大规模数据处理应用需求,传统系统难以提供足够的存储和计算资源进行处理,云计算技术是最理想的解决方案。调查显示:目前,IT专业人员对云计算中诸多关键技术最为关心的是大规模数据并行处理技术大数据并行处理没有通用和现成的解决方案对于应用行业来说,云计算平台软件、虚拟化软件都不需要自己开发,但行业的大规模数据处理应用没有现成和通用的软件,需要针对特定的应用需求专门开发,涉及到诸多并行化算法、索引查询优化技术研究、以及系统的设计实现大数据处理技术发展的驱动力海量数据隐含着更准确的事实研究发现:大数据量可显著提高机器学习算法的准确性;训练数据集越大,数据分类精度越高;大数据集上的简单算法能比小数据集上的复杂算法产生更好的结果,因此数据量足够大时有可能使用代价很小的简单算法来达到很好的学习精度。例如,2001年,一个基于事实的简短问答研究,如提问:WhoshotAbrahamLincoln?在很大的数据集时,只要使用简单的模式匹配方法,找到在“shotAbrahamLincoln”前面的部分即可快速得到准确答案:JohnWilkesBooth大数据特点:5VVolume:大容量Variety:多样性Velocity:时效性Veracity:准确性Value:大价值VeracityVarietyVelocityVolumeValue•结构特征–结构化数据–非结构化/半结构化数据•获取和处理方式–静态(线下数据)/非实时数据–动态(流式/增量式/线上)/实时数据•关联特征–无关联/简单关联数据(键值记录型数据)–复杂关联数据(图数据)DataconnectednessDatasizeTypicalRDBMSSQLComfortZoneDisk-basedKey-valueStoreColumnStoreDocumentStoreGraphDB引自微软亚洲研究院,王海勋•大数据问题的基本特点–极强的行业应用需求特性–规模极大,超过任何传统数据库系统的处理能力–技术综合性、交叉性很强–大多数传统算法面临失效,需要重写•大数据研究的基本原则–应用需求为导向:以行业应用问题和需求为导向–领域交叉为桥梁:行业、IT产业、学术界协同–计算技术为支撑:研究解决涉及的计算技术问题以有效的信息技术手段和计算方法,获取、处理和分析各种应用行业的大数据,发现和提取数据的内在价值,为行业提供高附加值的应用和服务•技术手段:信息技术和计算方法•核心目标:价值发现•效益目标:形成高附加值智能化行业应用•大数据研究的挑战–数据规模导致难以应对的存储量–数据规模导致传统算法失效–大数据复杂的数据关联性导致高复杂度的计算•大数据研究的基本途径三个基本途径:–寻找新算法降低计算复杂度–降低大数据尺度,寻找数据尺度无关算法–大数据并行化处理•大数据研究的基本途径新算法寻找新算法降低计算复杂度降低尺度寻找数据尺度无关近似算法并行化分而治之并行化处理大数据•从信息处理系统视角以信息系统视角来划分大数据研究层面体现大数据系统研发所涉及的各个层面和问题同时兼顾产业、学术和应用行业共同关注的问题基础设施系统平台算法应用集群,众核,GPU,混合式构架(如集群+众核,集群+GPU)云计算资源与支撑平台大数据查询(SQL,NoSQL,实时查询,线下分析)大数据存储(DFS,HBase,RDFDB,MemDB,RDB)大数据预处理MapReduce,BSP,MPI,CUDA,OpenMP,定制式,混合式(如MapReduce+CUDA,MapReduce+MPI)并行化机器学习与数据挖掘算法社会网络,排名与推荐,商业智能,自然语言处理,生物信息媒体分析检索,Web挖掘与检索,3维建模与可视化计算…电信/公安/商业/金融/遥感遥测/勘探/生物医药……领域应用/服务需求和计算模型分析工具/开发环境和工具/行业应用系统开发角色行业用户领域专家应用开发者计算技术研究和开发者研究层面大数据行业应用/服务层应用开发层应用算法层基础算法层并行编程模型与计算框架层大数据存储管理层并行构架和资源平台层应用层算法层系统层构架层集群,多核,GPU,混合式构架(如集群+多核,集群+GPU)云计算资源和服务支撑平台大数据查询(SQL,NoSQL,实时查询,线下分析)大数据存储(DFS,HBase,MemDB,RDB)大数据预处理MapReduce,BSP,MPI,CUDA,OpenMP,定制式,混合式(如MapReduce+CUDA,MapReduce+MPI)并行化机器学习和数据挖掘算法社会网络,排名与推荐,商业智能,自然语言处理,生物信息媒体分析检索,Web挖掘与搜索,3维建模与可视化…电信/公安/商业/金融/遥感遥测/勘探/生物医药……领域应用/服务需求和计算模型行业应用系统开发纵向方式:上下层交叉组合单一层面的研究往往难以获得理想的综合解决方案,上下层交叉组合可以获得理想的综合解决方案,能发现很多新的研究点一、大数据存储管理和索引查询二、Hadoop性能优化和功能增强三、并行计算模型和框架四、并行化机器学习和数据挖掘算法五、社会网络分析六、Web信息搜索和排名推荐七、媒体分析检索八、基于本体的语义分析与挖掘九、大数据自然语言处理智能化应用十、大数据可视化计算与分析系统层基础算法典型/共性应用算法与技术•大数据预处理技术–大数据的采集和传输–大数据的清洗过滤和质量管理技术–大数据的压缩技术•记录型大数据索引和查询技术–静态记录型大数据索引技术–流式/增量式记录型大数据索引技术–大数据表的高效关系型操作(如查询连接)–大数据并行化查询技术•SQL/NoSQL查询语言接口与技术–SQL/NoSQL查询语言接口–并行化查询执行机制•图数据表示和查询技术–静态图数据的表示和存储–静态图数据的查询–流式/增量式图数据的表示和存储–流式/增量式图数据的查询–图数据并行化查询技术•混合式数据表示和存储管理模型–NoSQL数据库技术–结构化/半结构/非结构化数据混合存储管理模型–混合式数据下的数据关系和查询操作技术•分布式数据库–HBase性能优化–基于HBase的大数据索引和查询技术–分布式内存数据库存储技术(Google的Dremel,MemSQL,HanaIMDB,Redis…)•大规模RDF语义数据库–基于Hbase的大规模RDF数据存储管理–SPARQL大规模语义数据查询及并行化算法–基于RDFS/OWL的大规模语义推理并行化算法•分布式文件系统–HDFS的优化1.基于HBase的大数据索引与查询技术问题:HBase缺少类似于RDB中的索引创建能力,通过Hive转换为MapReduce程序处理Hbase中的数据性能很慢本课题组正在研究基于HBase和混合树模型的大数据索引和并行化查询技术和算法,并利用HBase和CoProcessor、以及分布式内存数据库完成查询加速。2.基于HBase的大规模RDF语义数据库问题:大数据文本和媒体数据语义的分析和挖掘需要提供大规模RDF语义数据存储管理和查询系统本课题组正在研究基于HBase和分布式内容数据库的大规模RDF语义数据库系统•MapReduce–Hadoop性能优化•针对作业、任务和Slot资源的调度优化(Intel-Hadoop,IBM的AMapReduce,Facebook的