1列式数据库+CEP=完美分析系统卢东明技术总监,SybaseChina2议题▌Sybase列式数据库及其新发展▌新解决方案SybaseCEP和RAP3Sybase的过去10年股票表现4数据库市场的细分格局OLTP交易业务OLAP分析系统传统行式数据库内存数据库更多事务处理列式数据库更大量数据的分析5IDCFindsThataThirdGenerationofDatabaseTechnologyAlongwithVendorsAreShakingUptheMarket12Feb2010FRAMINGHAM,Mass.,February12,2010–.Fordatabaseadministrators(DBAs)andthosewhoselectandmanagedatabasemanagementsystem(DBMS)technologythatisbasedonconventionalrow-oriented,disk-basedsystemsthatdrivequeriesinalinearfashion,anewgenerationofDBMStechnologyissendingasimple,clearmessage-'Everythingyouknowiswrong'.RecentIDCresearchshowsthatatthecurrentrateofdevelopmentandadoption,itislikelythatwithinfiveyears:•Mostdatawarehouseswillbestoredinacolumnarfashion•MostOLTPdatabaseswilleitherbeaugmentedbyanin-memorydatabase(IMDB)orresideentirelyinmemory•Mostlarge-scaledatabaseserverswillachievehorizontalscalabilitythroughclustering•Manydatacollectionandreportingproblemswillbesolvedwithdatabasesthathavenoformalschemaatall.IDC评论“第三代数据库技术”6主要数据库对比OLTP应用OLAP应用O7行式数据库市场8列式数据库市场9Sybase's(Dublin,CA)IQAnalyticsServerwasthefirstofthecolumn-storeDBMSsystems.Itisavailableasastand-aloneDBMSandasadatawarehouseappliance.SybasealsocorrectlypositionsSybaseIQasaperformance-capabletoolfordatamartsaswellasdatawarehouses.StrengthsSybaseIQachievesdatacompressionrangingfromtwotofivetimescompression,dependingonthestructureofthedata.Becauseanalyticstypicallymakesuseoffewercolumnsbutlargernumbersofrows,SybaseIQperformsverywellforanalyticapplications.ThecompanyhasbeenconsistentlywinningPOCswithanalyticapplications,onoccasion,withaperformanceof100timesgreater.ThismakesSybaseIQanextremelydesirableDBMSplatformforananalyticdatamarttooptimizeandenhanceanorganization'soveralldatawarehousearchitecture.Overthepasttwoyears,SybasehasincreaseditsSybaseIQengineeringFTEsbymorethan70%,aswellasitsmarketing/salesstaffing—demonstratingsignificantcommitment.SybaseIQ:数据仓库技术的领导者10列式数据库是革命性的传统行式数据库c5c4c3c2c1…c9c8c7c6r1r2r3r4r5列式数据库c5c4c3c2c1…c9c8c7c6r1r2r3r4r5数据按列存储–每一列单独存放数据即是索引只访问查询涉及的列–大量降低系统IO每一列由一个线索来处理–查询的并发处理数据类型一致,数据特征相似–方便压缩数据是按行存储的没有索引的查询使用大量I/O建立索引和物化视图需要花费大量时间和资源面对查询的需求,数据库必须被大量膨胀才能满足性能要求11使用列式数据库▌多:1PB股票交易数据(6万亿条股票报价)▌快:2850亿行/天(300万行/秒)▌杂:非结构化数据:26TB/天▌小:在IQ里压缩成159TB▌便宜:低端存储,价格成倍下降▌压缩比:6.3倍▌相比行式数据库可能是六分之一的空间几十分之一的代价12列式数据库vs.行式数据库行式数据库列式数据库比率(倍)5000万条纪录带索引加载7111.33”265”26.81亿条纪录带索引加载14463.8”1161.44”12.5数据存储总占用空间183.51(G)27.5(G)6.7测试大表count、sum聚合操作,排序30’57.24”7’34”4.1测试利用索引过滤纪录后对大基数字段groupby,sum操作3’32.54”1’33.3”2.3测试大表count、sum聚合操作10’50.37”4’23.87”2.5测试利用索引过滤纪录后对小基数字段groupby,sum操作13.65”1.27”13.8子表操作30’57.24”7’34”4.113列式数据库(ColumnarDatabase)潮流1.Google的Bigtable,Yahoo的解决方案基于PostgreSQL2.SybaseIQ:第一个也是最成熟的列式数据库1994/10,Sybase收购了ExpresswayTechnologies最初的名字是“IQAccelerator”2009年推出的SybaseIQ15版有多项创新科技3.其他新兴创业公司:Vertica(创始人MichaelStonebreaker是Ingres和PostgreSQL的创始人),SAND,Clearpace14尼尔森媒体研究:5020亿条数据(2005年全球第一名)--15年的收视数据美国税务局(IRS):全美国所有报税人7年报税记录(及原始文档)(15亿条记录)花旗银行:SybaseIQ保存6年所有交易记录,HR数据及文档联邦快递(FedEx):全球所有送递品的海关报关单国外列式数据库的用户15国内列式数据库用户电信业:中国移动,中国电信,中国联通,中兴通讯中国移动:短信/彩信统计分析,报表系统金融业:交行,浦发,HSBC,商业银行,天平保险,平安保险,中国农业银行:“银行卡统计分析系统”获得世界IT精英组织(COMPUTERWORLDHONORSPROGRAM——计算机世界荣誉奖励计划,简称CHP)授予“2008年Computerworld荣誉桂冠”政府:公安部门,海关,东莞市数字城市能源交通:铁道部,国家电网,中石化加油卡,南方航空,广州地铁铁道部:客票系统分析零售物流:丹尼斯百货,百丽16SalesCaseStudies某电信设备商--日志报表系统成功案例分享17原系统与基于IQ的系统结构对比原系统为红叉前,基于IQ的系统为去掉红叉的部分,及蓝线的过程18SybaseIQvs原有系统--性能比较项目老系统基于IQ的新系统数据入库性能多机并行处理的情况下,只能达到5千TPS左右单机最大加载速度9.5万TPS查询、统计报表生成性能增量3000多万记录、由3台机器统计,统计时间为15分钟--30分钟不等;五分钟报表的生成,已经逼近五分钟的极限时间窗口增量3000多万记录、1台更低配置机器统计,小时报表生成时间为10分钟;复杂查询速度会提高数十倍19SybaseIQvs原有系统--硬件成本比较项目老系统基于IQ的新系统主机型号4台Dell6850机型32bit(1台做详单查询用,另外3台生成报表及报表查询)4台Dell2950机型32bit(详单入库)2台ZTEATCAblade32bit(1台入库及报表生成,1台查询)CPU数(core)Dell6850机型:4台×4U×2CDell2950机型:4台×2U×2C共48核2台×2U×2C共8核内存(G)Dell6850机型:4台×4GDell2950机型:4台×4G共32G2台×4G共8G磁阵型号EMCCX300ZTE自产磁阵所需磁阵空间约10TB约5TB以下(此处配置留有较大余量,实测IQ可以节省2/3以上的存储空间)光纤卡个数Dell6850机型:4台×2个Dell2950机型:4台×2个2台×2个20SybaseIQvs原有系统--软件成本比较项目老系统基于IQ的新系统RDBMS套数MS-SQLserver2005×8套SybaseIQ×2套展现工具MS-SQLserver自带目前为润乾报表工具OS类型Windows2003×8套SUSE9SP3×2套22IQ15.0新功能Load性能提升3位FP索引新的并行架构更好的查询性能表空间和分区SybaseCentral改进Multiplex架构安全性提高SybaseIQ23更强的压缩能力IQFP索引:FP(1),FP(2),FP(3)唯一值数量-FP(1):256-FP(2):256-65536-FP(3):65537-16777216-FlatFP:167772163-byteFP索引巩固了SybaseIQ数据压缩的领先优势。243FP索引更高的磁盘压缩字段基数类型CUST_CODE150000varchar(20)product_code550000varchar(20)20,000,000条记录的压缩比较数据文件,245.2数据文件,315.9IQ12.7,152.6IQ12.7,102.8IQ15,58.8IQ15,60.9050100150200250300350CUST_CODEPRODUCT_CODE数据文件IQ12.7IQ15•优点–优化Cache分配–占用更少的磁盘空间–查询处理更快–查询使用的资源更少•特点–一种新的索引带来更好的数据压缩能力。–In-memory压缩提高查询执行效率、降低查询执行代价。–Hash对象处理更高效。25查询性能提升▌在IQ15.0中:更多的并发处理In-memory压缩更大的磁盘压缩更灵活的查询处理子查询优化并发查询•优势–查询速度更快–单个查询更充分的利用可用的CPU资源–增加CPU资源扩充系统处理能力。•特点–大部分查询并行度更高,特别是joins,GroupBys,andsorts–查询计划能够清晰的反映出并行处理查询的细节•并发HashJoin•并发MergeJoin•并发Group-By•并发ComplexPredicates26IQ15.x:信息生命周期管理:分级存储FibreChannelorSolidStateSASoreSATAPlace“Hottest”PartitionsinFastStorageMovePartitionstoLower-CostStorageOverTimeJanFebMarAprMayJunSepAugJulJunMovePartitiontoLower-CostStorageDecDropOldestPartitionLoad“H