数据仓库解决方案概述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SybaseDW/BusinessIntelligenceSybase中国有限公司议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具“数据仓库是在企业管理和决策中面向主题的,集成的,与时间相关的和不可修改的数据集合”BillInmon数据仓库定义OLTP系统财务系统业务系统计费系统5-10年过去详细数据当前详细数据轻度汇总数据高度汇总数据数据集市用户分析网络资源分析数据仓库数据仓库/决策分析系统网管系统数据仓库是完全不同的数据库系统操作(业务)系统特性事务处理性能是第一位的支持日常的业务事务驱动数据是当前的并在不断变化存储详细数据(每一个事件或事务)面向应用针对快速预定义的事务优化设计可预见的使用模式支持办事人员或行政人员信息(分析)系统特性支持长远的业务战略决策分析驱动数据是历史的数据是静态的,除数据刷新外数据反映某个时间点或一段时间数据是汇总的面向主题优化是针对查询而不是更新支持管理人员和执行主管人员DW/BI在电信行业的应用-How?立足于现有的OLTP系统当前数据和历史数据集中整合之后,构建一个庞大的数据仓库面向业务分析和决策层运用多维分析方法,充分挖掘数据中的信息应用DW/BI的三步曲数据抽取数据管理数据分析DATADATADATADATADATADATADATADATADATADATADATADATADATADATAINFORMATION信息数据仓库(DataWarehouse)是一种专为联机分析应用和决策支持系统提供数据源的结构化的数据环境数据仓库要解决的问题是从数据库中获取信息的问题。信息INFORMATIONDW/BI在电信行业的应用-小结什么是数据仓库(DataWarehouse)?业务系统外部数据财务计费网管InformationAccessInfrastructure通用信息访问、处理层(基础数据库)企业级数据仓库GlobalCatalog设计和元数据维护决策支持应用DataMartsDataMartsDataMartsDataMartsDataMartsDataMarts数据仓库的实际构造示意图议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具Sybase数据仓库相关产品的技术构成RelationalPackageLegacyExternalsourceDataCleanToolSourceDataDataStagingWareHouseAdmin.ToolsEnterpriseDataWarehouseDataExtraction,TransformationandloadDatamartDatamartEnterprise/CentralDataWarehouseRDBMSROLAPRDBMSRDBMS,StarSchemaArchitectedDatamartsCentralMetadataDataModelingToolEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserToolLocalMetadataLocalMetadataSybase数据仓库相关产品介绍一个集成化的产品集集成的主要产品IntegrateEnterpriseConnectReplicationServerPowerMartDesignWarehouseArchitectManageSybaseASIQVisualizeBrioCognosAdministerWarehouseControlCenterWarehouseControlCentre议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具设计:成功的关键数据库的设计对数据仓库系统的整体性能、装载和建立索引的时间以及数据量的增长等的影响超过任何其它方面。数据仓库设计工具WarehouseArchitect为数据仓库的设计提供三大功能:多维建模度量、维、属性事实表,维表维层次表,事实层次表设计向导聚合(AggregationWizard)分区(PartitioningWizard)逆向工程数据源优化代码生成目标数据仓库引擎(IQ,RDBMS)OLAP分析环境Timeidentifier=TimeidentifierProductidentifier=ProductidentifierCustomeridentifier=CustomeridentifierStoreidentifier=StoreidentifierCustomerCustomeridentifierpkdoubleCustomernamechar(30)SalesFactProductidentifierpk,fkdoubleTimeidentifierpk,fkdoubleCustomeridentifierpk,fkdoubleStoreidentifierpk,fkdoubleSalestotalrealProfitsrealStoreStoreidentifierpkdoubleStorenamechar(50)TimeTimeidentifierpkdoubleDatetimestampMonthchar(50)QuarterdoubleYeardoubleProductProductidentifierpkdoubleProductdescriptionchar(80)设计:WarehouseArchitect议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具数据抽取、转换、清洗、集成挑战多个、多种异构数据源硬件,OS,RDBMS,文件数据不规范,需要做大量的清洗和整合转换规则复杂,繁多繁琐的日常性工作,占80%工作量数据质量保证数据增量抽取抽取工作过程化,自动化数据抽取、转换、清洗、集成成功的关键支持多个、多种异构数据源轻松方便地设计数据的清洗,转换和整合规则日常事务性工作自动化完成有完善的数据质量保证体系有完备的数据增量抽取直观,面向过程化设计;自动化的执行开放性,可扩展性,易于实施和维护数据抽取、转换、清洗、集成解决的方案手工编程实现使用工具设计和实施PowerMart/PowerCenter开发环境,一系列工具用于设计、执行和维护数据的抽取、转换和装载流程抽取转换引擎(服务器),自动执行集成:PowerMartSourceDatabasesTargetDatabaseDesignerServerManagerRepositoryManagerWarehouseDesignerMappingDesignerTransformationDeveloperSourceAnalyzerRepositoryServerEngineSybaseInformixOracleMicrosoftIBM/UDBODBCDB2SAPPeopleSoftVSAMFlatFilesWebLogsXMLIBMMQGatewaysSybaseInformixOracleMicrosoftODBCIBM/UDBSAPBWPeopleSoftEPMFlatFilesGateways议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具数据存储、管理挑战数据规模查询性能装载速度易于管理存取访问成功的关键快速,高效数据存储技术出色的查询性能-特殊的索引技术,并行查询可伸缩性-GB到TB级易于管理-方便,灵活,GUI存取访问-数据随时可用数据管理解决的方案通用的关系数据库系统专门的数据仓库服务器SybaseIQ专门为数据仓库/数据集市设计的关系型数据库专门针对OLAP/DSS而优化的索引和查询处理技术AdaptiveServerIQ数据存储:AdaptiveServerIQ无处不索引(IndexEVERYWHERE)数据压缩(通常达到原始数据的70-75%)垂直存储技术(VerticalPartitioning)专利的BitWise索引技术跨越Bitmap的限制多种索引类型:FP,LF,HNG,HG低级数的限制从100扩充到1000预连接的索引提供额外的显著提高性能手段(JoinIndex)支持任意设计模式星型、雪花、雪暴、星座模式普通关系模式支持任意加载方式文件、内部数据、外部数据库直接加载开放的接口DateStoreStateClassSales3/1/9632NYA63/1/9636MAA93/1/9638NYB53/1/9641CTA113/1/9643NYA93/1/9646RIB33/1/9647CTB73/1/9649NYA12计算“NY”州A类商店的平均销售额当表的记录数从几万条变为千万和上亿条时,传统RDBMS技术面对的问题:表扫描的性能极端低下冗余设计代价高昂、查询读取的无效字段过多低级数类型数据上索引的失效普通索引加载和空间代价,造成不能任意建造即席查询的SQL顺序对性能有显著影响数值型比较和运算,无恰当手段加速处理传统RDBMS不适合数据仓库IQ的特殊存储方式-垂直存储(按列存储)SybaseIQ:数据是按列存储的,而不是按行存储DateStoreStateClassSales3/1/9632NYA63/1/9636MAA93/1/9638NYB53/1/9641CTA113/1/9643NYA93/1/9646RIB33/1/9647CTB73/1/9649NYA12RDBMSdatastoredbyROWSDateStoreStateClassSales3/1/9632NYA63/1/9636MAA93/1/9638NYB53/1/9641CTA113/1/9643NYA93/1/9646RIB33/1/9647CTB73/1/9649NYA12好处:只存取查询所需的数据数据类型是一致的,因而可以很容易被压缩数据库易于修改和管理SybaseIQ:只读完成查询所涉及到的列DateStoreStateClassSales3/1/9632NYA63/1/9636MAA93/1/9638NYB53/1/9641CTA113/1/9643NYA93/1/9646RIB33/1/9647CTB73/1/9649NYA12计算在纽约的“A”类商店的平均销售额好处:无须使用其他的技术,SybaseIQ就可以减少I/O超过90%IQ的特殊存储方式-垂直存储(按列存储)“HowmanyMALESareNOTINSUREDinCALIFORNIA?GenderMMFMM-800Bytes/Row10MROWSStateNYCACTMACA-RDBMSInsuredYYNYNMYCAMNCAFYNYMNCA1243GenderInsuredState++11011101010110MBits10MBitsx3col/816KPage=235I/Os800Bytesx10M16KPage=500,000I/Os基本上只能使用表扫描查询过程读取了太多的无效数据IQExample:I/O的明显减少IQ的索引特点索引即是数据没有索引和数据的分别任何一列可以建立多个索引系统保证至少会存在一个索引(FP)索引的选择和设计主要基于:数据的级数(离散值的个数)在查询中的使用方式和SQL语句的顺序无关索引的种类FastProjection(FP)数据压缩存储根据数据的特点会自动使用三

1 / 51
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功