数据仓库培训

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据仓库与数据中心内部知识培训数据仓库与数据中心概述OLTP与OLAP多维数据分析模型数据整合应用介绍数据仓库与数据中心概述•数据仓库的起因数据库方式数据仓库方式数据与应用分离,以实现数据高度共享、支持日常业务处理过程为目的(OLTP)以支持经营管理过程中的决策制定为目的(DSS,OLAP,DM)20世纪90年代之前20世纪90年代之后•什么是数据仓库数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用于支持经营管理过程中的决策制定。——W.H.Inmon数据仓库与数据中心概述数据仓库与数据中心概述•数据仓库的四个特征数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用于支持经营管理过程中的决策制定。——W.H.Inmon数据仓库与数据中心概述•特征一面向主题主题是用户使用数据仓库进行决策时所关心的重点方面,每一个主题基本对应一个宏观的分析领域。如:CRM优质客户的挖掘潜在大客户的发现……ERP合同管理物资库存的管理……面向主题是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息。传统数据库中的数据是原始、基础数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成数据仓库中的主题有时会因用户主观要求的变化而变化数据仓库与数据中心概述•特征二集成数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。统一消除不同数据源之间的数据不一致的现象综合对原有数据进行综合和计算数据仓库与数据中心概述•特征三不可更新数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是‘查询’操作,一般情况下不执行‘更新’操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。需要更新的情况进行新的决策时需要抽取和更新新的数据通过删除丢弃一些过时的数据数据仓库与数据中心概述•特征四随时间不断变化数据仓库中的信息并不只是关于企业当时或某一时点的信息,而是系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息可以对企业的发展历程和未来趋势作出定量分析和预测。时间属性数据仓库中的数据通常都带有时间属性数据统一更新以时间段为单位•什么是数据中心数据中心是公司一体化信息平台的重要组成部分。数据仓库与数据中心概述广义企业业务应用与数据资源进行集中、集成、共享、分析的场所、工具、流程等的有机组合狭义应用层面的数据中心,具体包括数据仓库和建立在数据仓库之上的决策分析应用、数据ETL、ODS数据库、数据仓库、商务智能应用和元数据管理等数据仓库与数据中心概述•数据中心的定位数据中心是企业一体化信息平台的基础,它可以为应用系统的整合与数据共享提供有效的解决方案,保障企业数据的一致性、及时性、完整性、安全性、有效性和准确性,提高企业信息系统的统一性,消除企业普遍存在的信息孤岛,解决信息系统沟通不畅的问题。应用层运维支持层服务管理基础架构层系统管理系统监控用户和桌面管理主机存贮数据层业务系统财务(资金)管理营销管理安全生产管理协同办公人力资源管理物资管理机房网络机房管理项目管理综合管理各类业务数据财务(资金)安全生产管理营销人力资源协同办公物资项目管理综合管理ODS元数据数据仓库数据分析及商业智能应用报表统计联机分析数据挖掘平衡计分卡资源数据.........企业内容管理.........安全架构数据集市数据集市数据集市基础架构数据架构应用架构运维架构数据仓库执行架构数据仓库与数据中心概述•数据中心的逻辑架构(广义)数据仓库与数据中心概述•数据中心的功能单元营销系统生产系统财务系统数据抽取规则操作数据区(ODS)企业数据仓库业务系统ETL抽取数据集市元数据资源库前端应用展现报表查询分析统计存放明细业务数据项只做适度的编码转换业务特性决定更新频率业务特性决定数据归档根据数据加工规则产生的基础的事实表、维度表,数据的粒度由维度的层次决定对数据仓库中的数据进行深度加工,形成报表、指标、主题等所涉及的事实表、维度表,以更贴近特定的应用需求(口径),并获得更高的效率基础数据项如:计量点计量数据属性:计量点名称计量点位置正向有功反向有功周期(月)规则如:县上网电量=∑110KV及以下电厂上网电量市上网电量=∑110KV及以下电厂上网电量省上网电量(不含500KV网损)=∑220KV及以下电厂上网电量基础指标如:上网电量属性:地区时间资产属性规则如:供电量(统计口径)=上网电量+输入电量-输出电量指标如:供电量属性:地区时间资产属性提取数据访问地址、数据字典等元数据信息获取相关报表、指标等元数据信息提取基础数据项的元数据信息获取更新频度等元数据信息获得基础指标等元数据信息获得基础指标、指标、报表等元数据信息报表如:供电量明细表供售损综合情况表获得展现形式定义等元数据信息临时数据区数据仓库与数据中心概述OLTP与OLAP多维数据分析模型数据整合应用介绍也叫事务处理,是指对数据库的日常联机访问操作,通常是对一个或一组记录的查询和修改,主要是为企业特定的应用服务的。也叫联机事务处理(OLTP)。•操作型处理OLTP:On-LineTransactionProcessing特点1、通常仅仅是对一个或一组记录的查询或修改2、执行频率高3、关心处理的响应时间、数据安全性和完整性等指标OLTP与OLAP也叫做信息型处理,主要用于企业管理人员的决策分析,为制订企业的未来经营管理计划提供辅助决策信息。也叫做联机分析处理(OLAP)。•分析型处理OLAP:On-LineAnalyticalProcessing特点1、需要对大量的事务型数据进行统计、归纳和分析2、需要访问大量的历史数据3、执行频率和对响应时间的要求都不高典型的OLAP决策支持系统(DSS--DecisionSupportSystem)OLTP与OLAP•OLTP与OLAP在应用上的差异OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如电费交易OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果OLTP与OLAP•OLTP环境不适宜OLAP应用的原因在OLTP中直接构建OLAP应用是不合适的,要提高分析处理和决策支持的效率和有效性,必须将OLAP及其所需的综合性数据从传统的OLTP和细节性数据中分离出来,按照DSS的需要重新进行组织,建立单独的分析处理环境。原因有六条:1、事务处理和分析处理的性能特性不同2、数据集成问题3、数据的动态集成问题4、历史数据问题5、数据的综合问题6、数据的访问问题OLTP与OLAP•原因一、事务处理和分析处理的性能特性不同OLTP每次操作处理的时间短,存取数据量小,但操作频率高,并发程度大。OLAP每次分析可能需要连续运行很长的时间,存取数据量大,但很少做这样的分析处理,也没有并发执行的要求。OLTP与OLAP•原因二、数据集成问题OLTP一般只需要与本部门业务有关的当前细节数据,而对整个企业范围内的集成应用考虑很少,这就造成大部分企业内部的数据是分散而非集成的。造成上述状况的原因1、事务处理应用的分散性2、数据不一致问题3、缺少分析所需的外部及非结构化数据OLAP需要集成的数据,包括整个企业内部各部门的相关数据,以及企业外部、竞争对手等处的相关数据。因此用于分析处理的数据可能来自多种不同的数据源OLTP与OLAP•原因三、数据动态集成问题对所需数据进行一次集成,以后就不再发生变化,称为静态集成对集成后的数据进行周期性刷新,称为动态集成在采用静态集成策略时,如果数据源中的数据发生了变化,那么这些变化就不能反映给决策者,导致决策使用的是过时的数据。因此集成数据必须以一定的周期进行刷新(即采用动态集成策略),但传统的OLTP环境并不具备动态集成的能力。OLTP与OLAP•原因四、历史数据问题OLTP一般只需要当前数据,在数据库中一般也只存储短期数据(3-6个月),且不同数据的保存期限也不一样OLAP更看重历史数据(5-10年),可以通过对大量历史数据的详细分析来把握企业的发展趋势历史数据对于事务处理作用不大,但对于决策分析而言,如果没有历史数据的支撑,就变成了“无源之水”、“无本之木”。OLTP与OLAP•原因五、数据的综合问题OLTP需要的是当前的细节性操作数据,OLAP需要的往往是大量的总结性分析型数据,而非数据库中的细节性操作型数据OLTP系统中积累的是大量的细节数据,而OLAP并不对这些细节数据进行分析,其原因是1、细节数据量太大,影响处理效率2、不利于分析人员将注意力集中于有用的信息上这就是常说的数据库中“数据丰富、信息贫困”现象。因此,在分析前往往需要对细节数据进行不同程度的综合,传统的事务处理系统不具备这种综合能力,而且在数据库系统中,这种综合还往往因为是一种数据冗余而被限制。OLTP与OLAP•原因六、数据的访问问题OLTP需要提供多种不同类型的数据访问操作,且对于需要修改的数据必须实时‘更新’数据库OLAP数据的访问操作以‘读’操作为主,且不需要实时的‘更新’操作,只需要定时‘刷新’OLTP与OLAP•OLAP与OLTP分离的好处1、提高两个系统的性能2、提高操作型数据库的事务吞吐量3、避免两个系统中数据的结构、内容和用法的不同带来的困扰建立数据仓库的目的并不是要代替传统的事务处理系统(数据库),而是为了适应因市场商业经营行为的改变和精细化管理而进行的DSS的需要。数据仓库技术正成为企业信息集成和辅助决策应用的关键技术之一OLTP与OLAP数据仓库与数据中心概述OLTP与OLAP多维数据分析模型数据整合应用介绍•基本概念对象(Object)和度量值(Measure)对象是我们所关心和分析的内容观察对象又称为度量值度量值是一组值,而且通常为数字值度量值的选择取决于最终用户所请求的信息类型。一些常见的度量值有销售电量库存量发生金额职工人数线损率发现缺陷数量多维数据分析模型•基本概念维度(Dimension)维度是我们观察分析对象的角度例如:我们可以从三个“维度”来观察“发现缺陷”这个对象时间维度缺陷类型缺陷等级多维数据分析模型•基本概念层(Layer)对分析对象可以在不同的深度层面上进行分析与观察,并可能得到不同的分析结果。因此,‘层’反映了对分析对象的观察深度一般而言,‘层’是与‘维’相关联的。在一个‘维’中可允许存在若干个‘层’,并且可以采用多种不同的‘层’次划分方法年份季度月份日期周日期维1、日期——月份——季度——年2、日期——周——年多维数据分析模型•基本概念维度成员(DimensionMember)维度的一个取值称为该维度的一个“维度成员”如果一个维度是多层次的,则该维度的“维度成员”可以是1、在不同维度层次上的取值的组合2、在某个维度层次上的取值对一个数据项来说,维度成员是该数据项在某维度中位置的描述。多维数据分析模型•基本概念多维数据集(Multi-DimensionalDataset)一个多维数据集可以表示为(维1,维2,……,维n,变量)变量表示我们观察的数据对象维1,维2,……,维n分别表示我们观察的各个角度如(时间,单位,缺陷类别,缺陷等级,发现缺陷数量)是一个有关“发现缺陷”的四维数据集,其数据成员可表示为:(2008年,江苏,线路缺陷,Ⅰ类缺陷,300)(2008年1月,南京,设备缺陷,Ⅱ类缺陷,35)多维数据分析模型•多维数据分析模型事实表:销售表(产品标识符,商店标识符,日期标识符,销售额)维表1:产品表(产品标识符,类别,大类别)维表2:商店表(商店标识符,市名,省名,国名,洲名)维表3:时间表(时间标识符,日期,月份,季度,年份)多维数据分析模型•数据立方体(DataCube)存放数据视图的多维数据模型称为数据立方体数

1 / 76
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功