大数据技术如何应用亍传统信息系统查礼(char@ict.ac.cn)大数据管理系统部网络数据科学与工程重点实验室中科院计算所2013.12.06提纲大数据技术研究背景和问题开源软件ApacheHadoop大数据处理系统关键技术大数据技术从互联网走向传统应用背景:大规模数据计算通信、网络、存储、传感器等电子信息技术飞速发展导致数据规模极大增加–BigData传统的存储并处理这些数据的技术手段遇到瓶颈OnenodeScanning@50MB/s=35,000min1000nodeScanning@50MB/s=35minSearchEngineDataWarehousingLogProcessing/UserBehaviorAnalyzingProcessing100TBdatasetsOnline/Realtime/StreamingDataAnalysis数据为王背景–大数据的大问题来源:IDCDigitalUniverseStudy,May20102020年:60%以上的创造数据将因无法存储而丢失。2020年:数据量将达到35ZB,较2009年增大44倍•Facebook用户每天上传3亿张照片,超过500TB的数据增长量,100PB单集群存储容量•Google索引的在线数据2002年是5EB,到2009年增长到280EB•淘宝网注册用户达到3.7亿,在线商品数达到9亿,14PB海量数据存储数据爆炸对数据存储不处理效能提出了挑战!背景–大数据的大问题来源:IDCDigitalUniverseStudy,May20102020年:60%以上的创造数据将因无法存储而丢失。2020年:数据量将达到35ZB,较2009年增大44倍•Facebook用户每天上传3亿张照片,超过500TB的数据增长量,100PB单集群存储容量•Google索引的在线数据2002年是5EB,到2009年增长到280EB•淘宝网注册用户达到3.7亿,在线商品数达到9亿,14PB海量数据存储数据爆炸对数据存储不处理效能提出了挑战!•高速发展的数据型互联网企业需要连续的系统扩展能力数据快速增长不数据中心扩容周期缓慢的矛盾•如何维持低成本曲线和高性能曲线是现实问题数据业务深度的丌断加强和数据处理性能现状的矛盾背景:解决大数据问题的思路背景:解决大数据问题的思路海量数据存储海量数据计算提纲大数据研究背景和问题开源软件ApacheHadoop大数据处理系统关键技术大数据技术从互联网走向传统应用HadoopApacheNutch,2002NDFS+MapReduce,2004Hadoop,2006ApacheHadoop,2008Book:CloneofGoogle’sGFSandMapReduce•CanprocesslargescaleWebpagesDougCutting,Apache软件基金会主席WritteninJava•DoesworkwithotherlanguagesRunson•Linux,Windowsandmore•CommodityhardwarewithhighfailurerateHadoopisthemostsuccessfulopensourcesoftwareafterLinux.Hadoop组成部分HDFSMapReduceHBaseHiveHadoopisthemostsuccessfulopensourcesoftwareafterLinux.Hadoop组成部分HDFSMapReduceHBaseHiveHadoopisthemostsuccessfulopensourcesoftwareafterLinux.Hadoop组成部分HadoopHDFS体系结构规模:10Knodes,100millionfiles,10PB特性:适合数据批处理;最大化吞吐率;允许计算向数据迁移优化:数据块副本、数据块放置策略、缓存策略等SanjayGhemawat,et.al.,TheGoogleFileSystem,SOSP’03HadoopMapReduce处理流程Dean&Ghemawat:“MapReduce:SimplifiedDataProcessingonLargeClusters”,OSDI2004提纲大数据研究背景和问题开源软件ApacheHadoop大数据处理系统关键技术大数据技术从互联网走向传统应用1616原始关系表行式存储结构(ApacheHive,SequenceFile)列式存储结构(ApachePig,Zebra)行列混合式存储结构(RCFile)关系数据按行序运行时重建JobScheduleTaskLaunchTaskLaunchTaskLaunchRowConstructionRowConstructionRowConstructionReadDatafromDistributedFileSystemSubsequentProcessingSubsequentProcessingSubsequentProcessingJoblaunchRowReconstructionParallelTasks…………行列混合式数据存储技术RCFileRCFile将关系数据水平分块,块内按列序存储,实现文件级逻辑结构优化18互补式聚簇索引技术CCIndexCCIndex利用冗余的副本数据块为多数据列构建聚簇索引,不增加额外存储空间,实现数据块级布局结构优化以及分布式实时查询统计能力CCIndex保持了BigTable数据模型高可扩展和高吞吐率特性,同时具有关系数据模型的查询统计能力CCIndex将二级索引变为一级索引,丌访问原表直接进行区间查询和统计以CCIndex为核心的系统支持多维区间实时查询统计示例:selectcount(cl1)fromTABwherecl1Aandcl2BRCFile技术性能优势和应用情况•ComparedwithSequenceFile,whichwasthedefaultrowstoretechnologyinApacheHive,RCFilecanachieveupto20%spacesavingswithoutaffectingqueryperformance.•ComparedwithcolumngrouptechnologyusedinApachePig,whichisanotherbigdataanalysissystem,RCFile’sdataloadingis23%fasterasfarasthediskspaceutilizationratioisalmostequal.•Obviously,RCFilehasbecomethedefactostandardofdatastoragestructureinsidedistributedofflinedataanalysissystemssuchasApacheHive.CCIndex技术性能优势和应用情况采用CCIndex后,在硬件规模保持丌变的前提下,系统处理的数据时效范围从原来的7天增大到3个月,处理的数据规模增大了一个数量级,系统吞吐率增大了7倍,对原来延迟大于1s的查询请求响应时间平均降低了57.4%。CCIndex技术可以解决诸如HBase等当前主流的列簇式NoSQL数据库在多列查询上的功能缺失和性能低下的问题。技术指标本项目国际领先系统数据存储空间占用RCFile比行存储节省约20%空间ApacheHive(SequenceFile)数据加载性能RCFile比列存储加载快23%以上ApachePig(Zebra)在线查询分析性能CCIndex是二级索引技术的11.4倍ApacheHBase(IndexTable)不国外同类技术比较技术指标本项目国际领先系统数据存储空间占用RCFile比行存储节省约20%空间ApacheHive(SequenceFile)数据加载性能RCFile比列存储加载快23%以上ApachePig(Zebra)在线查询分析性能CCIndex是二级索引技术的11.4倍ApacheHBase(IndexTable)实现PB级数据离线分析处理和百亿记录级数据实时查询分析,成为国际事实标准不国外同类技术比较24自劢将文件分割成多个固定大小的数据块,每个数据块单独压缩每一个文件由一个压缩文件和索引文件构成可应用于Hadoop平台上的文件系统在不影响其它文件系统的情况下,以动态、透明的方式给文件系统添加压缩功能用户透明的HDFS数据压缩解压缩-SwiftFS丌同压缩解压缩算法的性能对比客户端数写吞吐率(MB/s)Vs.最高Vs.最低nonehdwacsnappyquicklzzlibSwiftFS19813714475461610%250%297267227144872477%184%4983133222631583260%106%8973263354022994510%51%16973123304014454750%52%32953123174045115620%80%64953063143755185830%91%128902592963325475890%127%256942232523025005830%161%提纲大数据研究背景和问题开源软件ApacheHadoop大数据管理系统关键技术大数据技术从互联网走向传统应用淘宝数据魔方应用淘宝数据魔方–全属性实时计算数据装载云梯HBaseHBaseHBase……全网交易数据张轩丞(朋春),淘宝海量数据产品的技术架构,iDataForum2011淘宝数据魔方–全属性实时计算数据装载云梯HBaseHBaseHBase……索引:交易id列表属性对交易1(二进制,定长)交易2全网交易数据数据查询张轩丞(朋春),淘宝海量数据产品的技术架构,iDataForum2011节点11,2,3,4,5,6,7,8,9节点21,2,3,4,5,6,7查索引求交集节点21,2,4,6,7本地SUM运算(HBase扩展)汇总计算写入缓存求SUM(alipay)属性属性值笔记本尺寸13寸笔记本定位商务定位取原系统查询日志(10天),所有查询按原系统的响应时间分为三类统计平均响应时间;测试前清空cache;测试时新库中有25天数据,200G左右;可查询时间从7天拓展到至少30天。采用CCIndex后新旧系统性能对比分析系统后台支持全表统计服务端统计速度15~50WR/S/Serveror400WR/S/Server。支持sum、avg、count、groupby、sortselect算子(F:C)where条件groupby(F:C),sortby(F:C)查询。条件[F:C|(rang)]and|or[F:C|(rang)]银行:冠字号查询IP配置172.16.5.502*IntelXeonE5-26508核/2.00GHZ64GB内存52TB172.16.5.512*IntelXeonE5-26508核/2.00GHZ64GB内存52TB172.16.5.522*IntelXeonE5-26508核/2.00GHZ64GB内存52TB172.16.5.532*IntelXeonE5-26508核/2.00GHZ64GB内存52TB网络6G网络数据规则按照冠字信息数据模拟测试记录数81亿测试文件大小610G导入后大小2.4T索引后大小4.7T测试并发数200查询模式单项查询、组合查询数据量查询并发(查询内容)平均完成耗时(ms)最快完成耗时(ms)最慢完成耗时(ms)81亿200(地区号单项)83411166581亿200(网点号单项)81617160981亿200(错误码单项)6042139081亿200(冠字号码单项)11493206981亿200(等于某个地