南大通用大数据新型列存储数据库GBase8a技术白皮书20

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

GBase8a技术白皮书目录1.分析型数据库.........................................................................................11.1.分析应用的产生背景.....................................................................11.2.海量数据分析对传统数据库的挑战..............................................12.GBase8a设计指导思想.......................................................................33.GBase8a产品介绍................................................................................44.GBase8a核心功能................................................................................54.1.列存储............................................................................................54.2.高效的透明压缩.............................................................................64.3.智能索引.........................................................................................64.4.并行技术.........................................................................................94.5.高性能数据加载...........................................................................104.6.内存管理.......................................................................................104.7.语义优化器...................................................................................105.GBase8a管理工具...............................................................................115.1.企业管理器....................................................................................115.2.命令行管理工具............................................................................115.3.迁移工具.......................................................................................125.4.状态监控工具...............................................................................136.GBase8a应用开发接口......................................................................146.1.GBaseODBC................................................................................146.2.GBaseJDBC.................................................................................146.3.GBaseADO.NET.........................................................................146.4.GBaseCAPI.................................................................................147.GBase8a的运行环境..........................................................................158.GBase8a核心功能和技术总结...........................................................168.1.GBase8a技术上的“三高”优势....................................................168.2.GBase8a功能与技术简表...........................................................17分析型应用的产生背景在过去的十年里,数据的有效利用已经成为各单位议事日程上最优先的项目之一。近几年来,企业和政府机构已经完成了信息化建设的初步阶段,即数据的采集和事务应用。但随之而来产生了新的问题:如何对已有海量数据进行有效利用;如何对数据进行挖掘、分析;如何从历史数据中获取规律,以指导企业的规划和决策;怎样支持海量数据的即席查询、数据比对;如何有效解决这些问题是信息化建设新的阶段和发展方向。有这样一个案例:某电信运营商发现用户在已经拥有一个移动号码的情况下,再次购买归属的同一运营商的新号码入网,新号码全部或者部分替代原有旧号码,这种现象称为“重入网现象”。重入网泛滥使得该运营商营销渠道成本剧增,导致卡资源号码资源的紧缺,严重影响正常运营。运营商非常希望找到一种方法,识别出重入网用户。但面对每月新增70万用户和已有的40TB历史数据,如何及时准确的甄别出重入用户,使用传统事务型数据库管理系统几乎是不可能完成的。这一应用场景需要专为海量数据分析处理使用的新型列存数据库管理系统的支持。面对这类日益增加的海量数据分析需求,现有的传统数据库有明显的缺陷。这些弊端包括:低下的数据查询性能(传统数据库对上述案例的响应时间为几个小时);对异构数据库访问困难;惊人的存储成本;沉重的维护成本。1.2.海量数据分析对传统数据库的挑战传统数据库技术的产生不是为了分析海量数据,而是为了数据记录、事务处理(OLTP)。当数据量不断膨胀之后,用户就会产生越来越多的分析需求,而传统数据库在分析处理时,整体性能会大大降低。造成此问题的原因如下:产品简介传统行存储导致大量无效I/O行存储方式设计思想是以事务处理为主,存储结构异常复杂。由于数据页结构和MVCC(多版本并发控制)的原因,每个数据页必须读到内存中,导致每次查询必须读取大量无用数据。这种数据存储方式造成磁盘I/O成为了限制性能的主要因素。虽然磁盘成本在不断下降,但数据传输效率并没有根本的改变。因此,在处理的数据量不大时往往影响不大,但在处理海量数据时,性能下降问题就会突现出来;传统索引不适于海量数据传统行存数据库索引需要手工设定,对应用不完全透明,随场景和需求的变化需要不断调整,人工维护成本很高。并且传统索引占用存储空间很大,甚至高于数据本身,造成查询效率的下降;数据装载速度慢因为索引需要重新创建,加载性能会变的很糟糕。分析型架构系统要解决这些个问题,必须最大限度地减少磁盘I/O,提升查询效率,减小人工维护成本。南大通用分析型数据库GBase8a(以下简称GBase8a)通过列存储模式、数据压缩、智能化的索引、并行处理、并发控制、高效的查询优化器等技术,使得上述问题得到有效解决。以下各节将描述GBase8a的创新架构如何实现这些目标。设计指导思想三个“1/10”把执行同样一条查询语句所需要磁盘的I/O降低到传统行存储数据库的1/10以下;在启动压缩的情况下,同样的裸数据加载到数据库后占有的磁盘空间是传统行存储数据库的1/10以下;人工管理费用(安装、调试、优化、维护、扩展等)是传统行存储数据库的1/10以下。两个“10倍以上”在海量数据分析型应用中,平均综合查询性能(复杂查询、即席查询、模糊查询、分页查询、TOP-N查询等)是传统行存储数据库的10倍以上;压缩比10倍以上。简单易用,降低使用成本的架构设计充分满足了海量数据分析需求,是具有高效复杂统计和分析能力的列存储关系型数据库管理系统。GBase8a面向分析型应用领域,以列为基本存储结构和数据运算对象,结合列数据压缩处理、并行处理、智能索引等新型数据处理技术。下图展现了GBase8a的体系结构。GBase8a分析型数据库图形化管理工具数据加载工具连接池授权—线程重用—连接限制—内存较检—CacheSQL接口SQL分析优化器/执行器粗粒度多维智能索引缓存管理高速并行加载器/卸载器备份恢复工具性能监控工具配置管理工具作业管理工具ETL工具企业管理器接口CAPI,JDBC,ODBC,ADO.NET操作系统Windows系列、Linux系列、Unix系列存储管理列数据包数据包数据包列数据包数据包数据包列数据包数据包数据包列数据包数据包数据包列数据包数据包数据包列数据包数据包数据包列数据包数据包数据包压缩/解压缩逻辑层:主要处理查询逻辑,包括SQL接口、内存管理引擎、压缩引擎、索引引擎、语义优化器与执行器等核心部件。存储层:存储引擎将数据按列压缩存储到不同的数据包中,并自动生成智能索引。工具层:工具层提供用户与数据库系统的交互接口应用开发接口:支持CAPI、JDBC、ODBC、ADO.NET;数据加载工具:提供高效数据加载工具,支持并行加载;图形化的管理:简单、易用,提供友好的用户界面。瓶颈,GBase8a把表数据按列的方式存储,其优势体现在以下几个方面。不读取无效数据:降低I/O开销,同时提高每次I/O的效率,从而大大提高查询性能。查询语句只从磁盘上读取所需要的列,其他列的数据是不需要读取的。例如,有两张表,每张表100GB且有100列,大多数查询只关注几个列,采用列存储,不需要像行存数据库一样,将整行数据取出,只取出需要的列。磁盘I/0是行存储的1/10或更少,查询响应时间提高10倍以上。高压缩比:压缩比可以达到5~20倍以上,数据占有空间降低到传统数据库的1/10,节省了存储设备的开销。当数据库的大小与数据库服务器内存大小之比达到或超过2:1(典型的大型系统配置值)时,列存的I

1 / 20
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功