大数据技术如何应用亍传统信息系统提纲大数据技术研究背景和问题开源软件ApacheHadoop大数据处理系统关键技术大数据技术从互联网走向传统应用背景:大规模数据计算通信、网络、存储、传感器等电子信息技术飞速发展导致数据规模极大增加–BigData传统的存储并处理这些数据的技术手段遇到瓶颈SearchEngineDataWarehousingLogProcessing/UserBehaviorAnalyzingProcessing100TBdatasetsOnline/Realtime/StreamingDataAnalysis数据为王OnenodeScanning@50MB/s=35,000min1000nodeScanning@50MB/s=35min背景–大数据的大问题2020年:数据量将达到35ZB,较2009年增大44倍来源:IDCDigitalUniverseStudy,May20102020年:60%以上的创造数据将因无法存储而丢失。•Facebook用户每天上传3亿张照片,超过500TB的数据增长量,100PB单集群存储容量•Google索引的在线数据2002年是5EB,到2009年增长到280EB•淘宝网注册用户达到3.7亿,在线商品数达到9亿,14PB海量数据存储数据爆炸对数据存储不处理效能提出了挑战!背景–大数据的大问题2020年:数据量将达到35ZB,较2009年增大44倍来源:IDCDigitalUniverseStudy,May20102020年:60%以上的创造数据将因无法存储而丢失。•Facebook用户每天上传3亿张照片,超过500TB的数据增长量,100PB单集群存储容量•Google索引的在线数据2002年是5EB,到2009年增长到280EB•淘宝网注册用户达到3.7亿,在线商品数达到9亿,14PB海量数据存储数据爆炸对数据存储不处理效能提出了挑战!•高速发展的数据型互联网企业需要连续的系统扩展能力数据快速增长不数据中心扩容周期缓慢的矛盾•如何维持低成本曲线和高性能曲线是现实问题数据业务深度的丌断加强和数据处理性能现状的矛盾背景:解决大数据问题的思路背景:解决大数据问题的思路海量数据存储海量数据计算提纲大数据研究背景和问题开源软件ApacheHadoop大数据处理系统关键技术大数据技术从互联网走向传统应用HadoopApacheNutch,2002NDFS+MapReduce,2004Hadoop,2006ApacheHadoop,2008Book:CloneofGoogle’sGFSandWritteninJavaMapReduce•Doesworkwithotherlanguages•CanprocesslargescaleWebpagesRunson•Linux,Windowsandmore•CommodityhardwarewithhighfailurerateDougCutting,Apache软件基金会主席HadoopisthemostsuccessfulopensourcesoftwareafterLinux.Hadoop组成部分HadoopisthemostsuccessfulopensourcesoftwareafterLinux.MapReduceHDFSHBaseHiveHadoop组成部分HDFSftwareafterLinux.apReducemostsuccessfulopensourcesoMHBaseHiveHadoopistheHadoop组成部分HadoopHDFS体系结构规模:10Knodes,100millionfiles,10PB特性:适合数据批处理;最大化吞吐率;允许计算向数据迁移优化:数据块副本、数据块放置策略、缓存策略等SanjayGhemawat,et.al.,TheGoogleFileSystem,SOSP’03HadoopMapReduce处理流程Dean&Ghemawat:“MapReduce:SimplifiedDataProcessingonLargeClusters”,OSDI2004提纲大数据研究背景和问题开源软件ApacheHadoop大数据处理系统关键技术大数据技术从互联网走向传统应用Joblaun1ch6关系数据按行序运行时重建16原始关系表列式存储结构(ApachePig,Zebra)行列混合式存储结构(RCFile)JobScheduleTaskLaunch……TaskLaunchTaskLaunchRowConstructionRowConstructionRowConstructionReadDatafromDistributedFileSystemSubsequentProcessingSubsequentProcessingSubsequentProcessingRowReconstructionParallelTasks……RCFile将关系数据水平分块,块内按列序存储,实现文件级逻辑结构优化行式存储结构(ApacheHive,SequenceFile)行列混合式数据存储技术RCFile18互补式聚簇索引技术CCIndexCCIndex利用冗余的副本数据块为多数据列构建聚簇索引,不增加额外存储空间,实现数据块级布局结构优化以及分布式实时查询统计能力CCIndex保持了BigTable数据模型高可扩展和高吞吐率特性,同时具有关系数据模型的查询统计能力CCIndex将二级索引变为一级索引,丌访问原表直接进行区间查询和统计以CCIndex为核心的系统支持多维区间实时查询统计示例:selectcount(cl1)fromTABwherecl1Aandcl2BIr亘补式m古古古工?•CClndex利用冗余的副本数据块为多数据列构建聚簇索引,不增加额外存储空间,实现数据块级布局结构优化以及分布式实时查询统计能力’UWM砾gaa-元噎领性”2··.'a畸帆,t吃草’酌』"?暴阻。.,邸,1111民Id·I飞Io,〔Cnd创盼到gTible措1前扩前四二辛苦主,同ti\主关系据胆frj鼓II自动押回翩然回f:::i圆圆I/:,iJ二;:IAt创口u:I.!解决7海量数据实时分析计期快性问题1/W电d(.制:,:1..T!'咛"..;刷)-•'h'If.I伊·丽E嚼讪=t豆豆:归路以(创喇圳j支持施i司主l\fi袋lt一一一一一’Cl!nde精卫生51*袁世,+E胁撞击吕能|司脑lt词。由i〔ornt(cll)fromTMwheecllAandd;B缸嚣阳回国、问阳,,,.,回.、白啊..U国:立|白宫J嚣瞿...曲阴阳mmm刷刷。拟出那就您叫阳刚刚放9陆“禽""'"'缸捐MdS..阳晒Scan...胁Scan陆Ml-dim刷sior四阳叫l'臼捕鱼••ThfOUJh胆"My舍ιC阳....(301A)=崎s。CluI(四叫=MyS。也Cluser(7”A)…C旬以...(00叫c=:i优lndex(70峭=cc河内de阳拢’>=街dO旧γ阳臼""'19查询性能是常用二圾索引技术的10倍以上tMySQLCluster内存数据库的多维区间查询性能快1倍RCFile技术性能优势和应用情况•ComparedwithSequenceFile,whichwasthedefaultrowstoretechnologyinApacheHive,RCFilecanachieveupto20%spacesavingswithoutaffectingqueryperformance.•ComparedwithcolumngrouptechnologyusedinApachePig,whichisanotherbigdataanalysissystem,RCFile’sdataloadingis23%fasterasfarasthediskspaceutilizationratioisalmostequal.•Obviously,RCFilehasbecomethedefactostandardofdatastoragestructureinsidedistributedofflinedataanalysissystemssuchasApacheHive.CCIndex技术性能优势和应用情况采用CCIndex后,在硬件规模保持丌变的前提下,系统处理的数据时效范围从原来的7天增大到3个月,处理的数据规模增大了一个数量级,系统吞吐率增大了7倍,对原来延迟大于1s的查询请求响应时间平均降低了57.4%。CCIndex技术可以解决诸如HBase等当前主流的列簇式NoSQL数据库在多列查询上的功能缺失和性能低下的问题。技术指标本项目国际领先系统数据存储空间占用RCFile比行存储节省约20%空间ApacheHive(SequenceFile)数据加载性能RCFile比列存储加载快23%以上ApachePig(Zebra)在线查询分析性能CCIndex是二级索引技术的11.4倍ApacheHBase(IndexTable)不国外同类技术比较技术指标本项目国际领先系统数据存储空间占用RCFile比行存储节省约20%空间ApacheHive(SequenceFile)数据加载性能RCFile比列存储加载快23%以上ApachePig(Zebra)在线查询分析性能CCIndex是二级索引技术的11.4倍ApacheHBase(IndexTable)实现PB级数据离线分析处理和百亿记录级数据实时查询分析,成为国际事实标准不国外同类技术比较24自劢将文件分割成多个固定大小的数据块,每个数据块单独压缩每一个文件由一个压缩文件和索引文件构成可应用于Hadoop平台上的文件系统在不影响其它文件系统的情况下,以动态、透明的方式给文件系统添加压缩功能用户透明的HDFS数据压缩解压缩-SwiftFS丌同压缩解压缩算法的性能对比客户端数写吞吐率(MB/s)Vs.最高Vs.最低nonehdwacsnappyquicklzzlibSwiftFS19813714475461610%250%297267227144872477%184%4983133222631583260%106%8973263354022994510%51%16973123304014454750%52%32953123174045115620%80%64953063143755185830%91%128902592963325475890%127%256942232523025005830%161%提纲大数据研究背景和问题开源软件ApacheHadoop大数据管理系统关键技术大数据技术从互联网走向传统应用淘宝数据魔方应用回国阳西叫川HBase:DataStorage,DataAggregationRegionSe「ver,DataStoragelndex+CataDataAggregationRegionSe『ver,DataStcraceIndex+DataDataAggregationR?gionServer,D丑taStoragelndex+CataD:ttaAgg「egation噩噩AggregationResultQuery吐酬,袖人左”仿制幢你衍’常嗖键矗.ll;.J’”π”扣”•1'.U价.而.(11'1•6司”‘,,吃.’.吃’V.1.e.11哺盹刷刷棍’且,酬,··鸣””·”号JBossServer:DataAggregationRedis:ResultCachet单牟血lil..,,’‘0'岭"先Z@’”警衍3.a而‘主」〉‘’··5024"",1'甜地喝!2调υ,••.u、开缸,E电‘·,、衍’S阳'-O'l、部比揭飞ain、t\1'(+汇”F幡函,织割眩’tJ:'lf-:J:ll