数据仓库概述和设计.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

12/25/2019大数据培训-数据仓库概述讲师:杨勇2015年7月电话:1338204472812/25/2019数据仓库提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)12/25/2019基本概念—数据仓库产生背景数据仓库技术是随着人们对大型数据库系统研究的不断深入,在传统数据库技术基础之上发展而来的,其主要目的就是为决策提供支持,为OLAP、数据挖掘深层次的分析提供平台。数据仓库是一个和实际应用密不可分的研究领域,与传统数据库相比,数据仓库不仅引入了许多新的概念,而且在体系结构、数据组织等方面,均有其自身的特点。12/25/2019基本概念—数据仓库定义–数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,主要用于支持管理决策和信息的全局共享。–-----------数据仓库之父BillInmon在1991年出版的“BuildingtheDataWarehouse”(《建立数据仓库》)12/25/2019基本概念—数据仓库特征[Inmon,1996]面向主题一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;…)典型的主题领域:客户;产品;交易;帐目主题领域以一组相关的表来具体实现相关的表通过公共的键码联系起来(如:顾客标识号CustomerID)每个键码都有时间元素(从日期到日期;每月累积;单独日期…)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)集成数据提取、净化、转换、装载稳定性批处理增加,仓库已经存在的数据不会改变随时间而变化(时间维)管理决策支持12/25/2019基本概念—DataMart,ODSDataMart数据集市--小型的,面向部门或工作组级数据仓库。OperationDataStore操作数据存储—ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。12/25/2019基本概念—ETL,元数据,粒度,分割ETL(也有ELT)ETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。MicrosoftDTS;IBMVisualWarehouseetc.元数据关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。分割数据分散到各自的物理单元中去,它们能独立地处理。12/25/2019数据数据仓库是一个建设过程,而不是一个产品。数据仓库是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现方法来帮助决策支持。数据仓库最新理解数据信息知识决策管理12/25/2019数据仓库提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)12/25/2019数据仓库体系结构及组件体系结构ETL工具元数据库(Repository)及元数据管理数据访问和分析工具12/25/2019体系结构源数据库系统数据抽取、转换加载WarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadata数据集市数据访问与分析中央数据仓库CentralDataWarehouseMid-TierMid-TierDataMartDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS12/25/2019带ODS的体系结构源数据库系统数据抽取、转换、加载WarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadata数据集市数据访问与分析中央数据仓库和ODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDWTools12/25/2019一个实际的数据仓库的完整架构数据转换中央数据仓库信息展现业务用户源数据数据获取数据管理数据使用项目管理数据仓库实施指导方法论业务规划信息评估逻辑数据模型设计物理数据模型设计数据库管理元数据管理应用开发顾问咨询知识转移营销系统财务系统物资系统PMS系统抽取转化过滤加载随即查询报表多维分析数据挖掘Portal集成RelationalTransformationOLAPDataMining数据集市企业级EDW直接用户(客户端)Olap用户Web用户应用服务器决策者分析员研究员查询人员12/25/2019数据仓库的焦点问题-数据的获得、存储和使用数据仓库和集市的加载能力至关重要数据仓库和集市的查询输出能力至关重要RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterpriseDataWarehouseDatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool12/25/2019ETL工具去掉操作型数据库中的不需要的数据统一转换数据的名称和定义计算汇总数据和派生数据估计遗失数据的缺省值调节源数据的定义变化12/25/2019ETL工具体系结构12/25/2019元数据库及元数据管理元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-[AlexBersonetc,1999]技术元数据包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括:数据源信息转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)目标数据的仓库对象和数据结构定义数据清洗和数据增加的规则数据映射操作访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等12/25/2019元数据库及元数据管理商业元数据给用户易于理解的信息,包括:主题区和信息对象类型,包括查询、报表、图像、音频、视频等Internet主页支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等数据仓库操作型信息例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法12/25/2019数据访问和分析工具报表OLAP数据挖掘12/25/2019数据仓库设计自上而下(Top-Down)自底而上(BottomUp)混合的方法数据仓库建模12/25/2019自上而下设计方法建立企业数据仓库通用数据模型数据重新执行减少冗余和不一致详细和历史数据;全局数据知识发现根据企业数据仓库(EDW)建立数据集市部门级数据仓库主要为汇总数据直接依赖有效的数据仓库本地数据集市外部数据本地数据集市操作数据企业数据仓库12/25/2019自底而上设计方法创建部门的数据集市范围局限于一个主题区域快速的ROI--局部的商业需求得到满足本部门自治--设计上具有灵活性对其他部门数据集市是一个好的指导容易复制到其他部门需要为每个部门做数据重建有一定级别的冗余和不一致性一个切实可行的方法扩大到企业数据仓库创建EDB作为一个长期的目标局部数据集市外部数据操作型数据(全部)操作型数据(局部)操作型数据(局部)局部数据集市企业数据仓库EDB12/25/2019数据仓库建模—星型模式DateMonthYearDateCustIdCustNameCustCityCustCountryCust销售事实表DateProductStoreCustomerunit_salesdollar_salesYen_sales度量ProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore12/25/2019数据仓库建模—雪花模式DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTableDateProductStoreCustomerunit_salesdollar_salesYen_sales度量ProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStore12/25/2019提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)12/25/2019数据仓库技术1.管理大量数据能够管理大量数据的能力能够管理好的能力2.管理多介质(层次)主存、扩展内存、高速缓存、DASD、光盘、缩微胶片3.监视数据决定是否应数据重组决定索引是否建立得不恰当决定是否有太多数据溢出决定剩余的可用空间4.利用多种技术获得和传送数据批模式,联机模式并不非常有用5.程序员/设计者对数据存放位置的控制(块/页)6.数据的并行存储/管理7.元数据管理12/25/2019数据仓库技术8.数据仓库语言接口能够一次访问一组数据能够一次访问一条记录支持一个或多个索引有SQL接口9.数据的高效装入10.高效索引的利用用位映像的方法、多级索引等11.数据压缩I/O资源比CPU资源少得多,因此数据解压缩不是主要问题12.复合键码(因为数据随时间变化)13.变长数据14.加锁管理(程序员能显式控制锁管理程序)15.单独索引处理(查看索引就能提供某些服务)16.快速恢复12/25/2019数据仓库技术17.其他技术特征,传统技术起很小作用事务集成性、高速缓存、行/页级锁定、参照完整性、数据视图18.传统DBMS与数据仓库DBMS区别为数据仓库和决策支持优化设计管理更多数据:10GB/100GB/TB传统DBMS适合记录级更新,提供:锁定Lock、提交Commit、检测点CheckPoint、日志处理Log、死锁处理DeadLock、回退Roolback.基本数据管理,如:块管理,传统DBMS需要预留空间索引区别:传统DBMS限制索引数量,数据仓库DBMS没有限制通用DBMS物理上优化便于事务访问处理,而数据仓库便于DSS访问分析19.改变DBMS技术20.多维DBMS和数据仓库多维DBMS作为数据仓库的数据库技术,这种想法是不正确的多维DBMS(OLAP)是一种技术,数据仓库是一种体系结构的基础21.双重粒度级别(DASD/磁带)12/25/2019数据仓库技术17.其他技术特征,传统技术起很小作用事务集成性、高速缓存、行/页级锁定、参照完整性、数据视图18.传统DBMS与数据仓库DBMS区别为数据仓库和决策支持优化设计管理更多数据:10GB/100GB/TB传统DBMS适合记录级更新,提供:锁定Lock、提交C

1 / 30
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功