GBase8a大数据数据库平台介绍45

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

InsertPictureHereGBase8a大数据数据库平台南大通用数据技术有限公司李兴欣1860102046832目录GBase8a集群核心技术1GBase8a核心技术GBase8a集群案例4大数据挑战与GBase优势总结近10年新兴技术和产品的涌现从一种架构支持所有应用(OneSizeFitsAll)到多种架构支持多类应用从垄断走向竞争分析OLAP互联网NoSQL事务OLTP列存数据库•GBase8a•Vertica•SybaseIQ内存数据库•Altibase•TimesTen•SolidDBNoSQL数据系统•Hadoop/HBase•Cassandra•MongoDB新型技术和产品图GBase8a功能结构与I/O有关的2个定义I/O速度与效率没有相关性通过硬件扩容只能提升I/O速度,并不能提升I/O效率I/O效率是衡量不同数据库面对海量数据统计、分析性能差异最关键的指标、也是现代数据库研发最核心的问题之一。I/O速度=I/O数据量/时间(MB/s)1I/O效率=有效数据/实际I/O数据量(%)2I/O效率问题分析案例6…一张具有30列的普通二维表,查询只涉及表中的3列列存储简介逻辑模型物理模型映射规则GBase列存储I/O特征8按列存储技术:•表的每一列物理上分开存储•每一列是以数据包(DC)为单位组织的•只有访问查询所涉及的列产生IO•查询没有涉及的列不需要访问,不产生IO•表列数越多,GBase列存I/O效率越高,越有性能优势C1C2C3C1C2C6C7C8C30C29..ColmunfilesDataCells(DC)I/O列存储架构=提升I/O效率•假设每个字段长度平均为10bytes•10万行数据IO读取•行存数据库需要读取的IO:100000*30*10bytes=28.6MB•GBase8a需要读取的IO:100000*3*10bytes=2.86MB在这个案例中,GBase8a需要的IO只是行存数据库的1/10。高效自适应压缩-提升I/O性能GBase压缩特征•压缩比可达到1:20,远远高于行存储•压缩算法按数据类型和数据分布不同而优化,自动选择最优压缩算法或用hint指定•实现库级,表级,列级压缩选项,灵活平衡性能与压缩比的关系createtablelineorder(lo_orderkeybigint,lo_linenumberintcompress(2),lo_custkeyint,lo_partkeyint,lo_suppkeyint,lo_orderdateint,lo_orderpriorityvarchar(15)compress(0),lo_shippriorityvarchar(1),lo_quantityint,lo_extendedpriceint,lo_ordtotalpriceint,lo_discountint,lo_revenueint,lo_supplycostint,lo_taxint,lo_commitdateint,lo_shipmodevarchar(10))compress(1,3);不同压缩算法选项列存储+高效压缩=降低I/O1-列存储优点:大大减少I/O•按需要的列,只读取相关的有效数据•仅通过列存技术,即可将I/O降低9/102-高效压缩优点:进一步大大降低I/O•可节省90%的存储空间,大大降低TB数据处理能耗•压缩态下对I/O要求大大降低,数据加载和查询性能可以进一步提升1TB100GB100GB10GB磁盘读取量只需要原来的1%!1TB10GB数据包+智能索引=进一步降低I/Oa(date)b(int)cde10010110,10………100101,1001025,25………10010230,50………1001031,5………智能索引技术:索引的粒度是数据包索引本身包含过滤信息和统计信息索引是由多维信息组成的,提高过滤效率优点:进一步高效降低I/O突破传统基于行存储的索引技术的局限性全部字段都自动建索引,自动优化提供统计信息,直接在索引上进行聚合运算GBase8a使用智能索引原理智能索引信息和结构a(date)b(int)cde10010110,10………100101,1001025,25………10010230,50………1001031,5………Selecta,sum(b)asbfrommytabWherea=‘100101’GroupbyaOrderbybdesc结果集过滤条件基本算子False=完全排除-100%不满足过滤条件True=完全确定-100%满足过滤条件Possible=有可能-部分满足过滤条件A=‘100101’?100101,10010110,10,655360100101,1001025,25,1155261Sum(b)=?556710126…b列一个需要读取的数据包655360sum+24351预计算数据{Min,max,sum,..}GBase8a智能索引技术特征GBase8a智能多维索引传统B-tree索引传统Bitmap索引索引粒度每个数据包每行数据每行数据索引的可扩展性非常高一般一般索引的适用范围所有字段数据重复率低的字段数据重复率高的字段索引占有的空间数据的百分之一=数据数据的几十分之一使用的透明性完全透明复合索引受SQL限制透明需要解压缩到内存中索引的建立、维护完全自动手工手工并行技术并行查询并行加载单表500GB/小时半结构化非结构化支持-全文检索•统一的外部接口•执行计划完全融合•SQL执行器统一调度•支持分区表(Partition)•统一的表空间管理•工具集通用HadoopComputeStorageMapReduceEngineparalleldataexchangeparalleldataexchangeNetwork云存储支持-内置Hadoop并行交互GBase8a32目录GBase8a集群核心技术1GBase8a数据库核心技术GBase8a集群案例4大数据挑战与GBase优势总结数据分析领域新技术发展趋势去小型机化•“传统数据库+小型机+高端阵列“的模式在性价比上很难再延续。SMP的扩展能力接近上限。1x-86平台的崛起•x86服务器+Linux+千兆、万兆网络+SATA、SAS存储•MPP集群技术的快速发展23新的列存储架构优势•OracleExadata:hybridcolumnarcompression•SQLServer2008R2:columnindex•Vertica:columnstore+projection•Greenplum:row+columnstore•SybaseIQ:columnstore•GBase8a:columnstore•Hbase:columnKVstore•TeradataV14:columnstorememoryCPUCPUdisksmemoryCPUCPUmemoryCPUCPU…InterconnectionNetworkSharedstorage:SAN,NAS数据典型的SharedDisk架构disksdisksmemoryCPUCPUdisksmemoryCPUCPUdisksmemoryCPUCPUInterconnectionNetwork…数据数据分布策略Hash,Range,Random…典型的SharedNothing架构GBaseMPP集群:列存储DBMS+MPP1.主要目标•SharedNothingMPP架构•海量数据的分布冗余存储及一致性保障,保证数据的高可用性•支持数据的快速,分布式,远程加载•关系模型,支持ROLAP的星型模型,支持复杂SQL,包括跨节点join,子查询,OLAP函数等•支持集群的动态扩展•支持自动故障监测和failover•支持高压缩比GBaseMPP集群:列存储DBMS+MPP•列存储数据库+MPP•扁平,节点对等的整体架构•基于普通硬件和Linux操作系统•每个节点既提供计算能力,也提供存储能力•高性能,高密度节点•高可用:通过SafeGroup管理多个副本•高扩展能力:扁平架构易于扩展•单个数据库可支撑PB级有效结构化数据2.主要特征架构特征SQL应用程序..Interconnect数据库节点数据分发节点无Master,节点对等的扁平架构。高性能,高密度节点。完全并行的MPP架构,在线节点动态伸缩。2副本数据,透明高可用。ftp,nfsetc外部数据来源高可用性保证机制:safegroupGBaseClusterdatabaseT1p2T1p1T1p3node1T1p2T1p1T1p3node3T1p2T1p1T1p3node2数据3个副本Replicator/复制引擎一个safegroup•Safegroup内数据副本自动同步•可提供2个或3个副本数据冗余•复制引擎自动管理数据同步高效数据加载机制:基于可自定义策略的数据分布ftp,nfsetc数据片数据加载服务器ftp,nfsetc3-Pulldata2–slicingdata1–datasources4–databulkloading(remotegbloader)•coarsegraindataslicingpolicies•round-robin,hash、single-node•centralizederrorshandling32目录GBase8a集群核心技术1GBase8a数据库核心技术GBase8a集群案例4大数据平台挑战与GBase优势总结GBase8a集群案例查询统计类:四川电信客户账单查询系统查询统计类:上海移动云详单查询查询统计类:广东联通OCS云详单查询日志管理类:辽宁联通日志管理系统数据热备份类:云南联通历史数据压缩存储复杂分析类:上海移动特征库系统上海移动云详单查询帐前库(Oracle)上海移动原详单查询统计系统每个月产生话单量约为30TB,其中:•GGPRS约61亿条•GSM约27亿条•SMS约31亿条现系统暴露问题如下:•查询速度慢•统计慢•扩展能力差•存储数据量有限Ondemand计费详单库(Oracle)保存2个月话单保存6个月话单历史话单归档(磁带库)上海移动云详单查询亚联NCnosql•统计速度快:最大的sql语句运行约54分钟(速度提高10倍以上)•查询速度快:查询号码秒级响应•高压缩率:压缩率1:18~1:20(30TB/月1.5TB/月)•高可靠性:每个SG有3份数据•易扩展性:现结构有24节点,8个SG•性价比高:全部采用PCServer(SAS盘)•实时性高:10分钟加载一次,峰值数据量40GB•实现集团云化目标:积极探索支撑云的建设提供对外业务(网营、客服)上海移动云详单查询统计系统保存12+1月话单提供对内业务(日统计、月统计,即席查询等)2013年6月正式替换计费详表库2013年12月承担经分系统计费业务帐前库(Oracle)Ondemand计费详单库(Oracle)GBase8aMPPClusterGBase实用效果上海移动特征库系统•多种数据来源支持:CRM、BASS、BOSS•统计速度快:基于SharedNothingMPP架构•复杂统计分析能力强:关系模型,支持ROLAP的星型模型,支持复杂SQL•高压缩率:压缩率1:20•高可靠性:每个SG有3份数据•易扩展性:现结构有18节点,6个SGGBase实用效果•极大节省存储空间,10~20倍压缩存储•实现多主机、多CPU、多核、多I/O通道的高性能并行计算能力•数据最多可保存两个副本,充分保证数据安全性和高可用性•采用ShareNothing架构,弹性扩展能力,完全扁平的架构•硬件投资少,采用X86PC-Server+Linux+SASDisk廉价硬件,构建大规模高性能高可用的数据分析处理平台;•管理维护简单,透明的智能索引,无需人工创建和维护GBase特点•现网使用传统数据库+小型机+阵列•只能支持200个并发3秒!•只能提供营业厅查询四川电信客户账单查询系统•集团规定的SLA需求•100%响

1 / 45
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功