数据仓库基础培训

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据仓库概述数据仓库的历史数据仓库的基本概念数据仓库的技术要求数据仓库体系结构与设计数据仓库的相关概念数据仓库的项目过程数据仓库的历史-联机事务处理系统•联机事务处理系统(On-lineTransactionProcessing)OLTP系统:也称为生产系统,它是事件驱动、面向需求的,比如银行的储蓄系统就是一个典型的OLTP系统。•OLTP在使用过程中积累了大量的数据。•关系数据库概念提出之后,联机事务处理一直是数据库应用的主流。DBOLTP系统OLTP的特点:·对响应时间要求非常高;·用户数量非常庞大,主要是操作人员;·数据库的各种操作基于索引进行。数据仓库的历史-联机分析处理系统•联机分析处理系统(On-lineAnalyticalProcessing)OLAP系统:是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分,它是数据驱动、面向分析的。OLAP系统是跨部门、面向主题的。DBDWOLAP系统OLAP的特点:·基础数据来源于生产系统的操作数据;·对系统的相应时间合理;·用户数量相对较小,其用户主要是业务决策人员与管理人员。数据仓库的历史-建立数据仓库的基本条件•建立数据仓库的基本条件:•第一:该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件;•第二:该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力;•第三:该行业为数据密集型行业;DBDBDBDW数据仓库概述数据仓库的历史数据仓库的基本概念数据仓库的技术要求数据仓库体系结构与设计数据仓库的相关概念数据仓库的项目过程数据仓库的基本概念•数据仓库的概念由被誉为“数据仓库之父”的WilliamH.Inmon博士提出的:数据仓库是一个面向主题的、集成的、随时间变化的、信息相对稳定的数据集合,它用于对企业管理和决策提供支持。•所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:客户、产品、账务、事件、服务使用、资源、客户服务、地域等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的;•分析和明确企业所涵盖的业务范围,并且对企业业务进行高度概括性的描述,把密切相关业务对象进行归类,它没有统一的标准,主要根据设计者的经验。不同的行业会有不同的主题域划分方式。数据仓库的基本概念-面向主题提供服务所消耗的资源结算参与人资源帐务服务使用市场营销产品客户服务参与人使用服务提供商提供的服务提供产品所需要的资源发生帐务清算不同地域提供特定的产品参与人订购相应的产品市场营销针对参与人发起的客户服务是一个客户接触事件参与人因为使用产品和服务支付相应的费用因为服务使用而进行的费用结算地域事件参与人是客户服务的对象对于不同地域采用不同的营销策略参与人参与事件参与人关联地域市场营销推广产品市场营销指导客户服务数据仓库的基本概念-数据集成•所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,必须消除源数据中的不一致性,因此数据仓库中的信息是关于整个企业的一致的全局信息;•各个业务系统可能由不同的厂家独立承建,它们的数据模型设计、编码规则等都是不同的,这些数据加载到数据仓库之后,需要进行一个加工转换的过程。BOSS系统中,那地市的编码来说,CRM系统是的编码为1、2等,而BILLING系统可能根据长途区号来编码:451、452等,那么在数据仓库中,需要将各个业务系统中相同含义的数据通过规则映射为同一个编码。数据仓库的基本概念-数据集成CRM系统大兴安岭5黑河4大庆3齐齐哈尔2哈尔滨1地市名称地市代码CRM系统大兴安岭5黑河4大庆3齐齐哈尔2哈尔滨1地市名称地市代码数据仓库大兴安岭05黑河04大庆03齐齐哈尔02哈尔滨01地市名称地市代码数据仓库大兴安岭05黑河04大庆03齐齐哈尔02哈尔滨01地市名称地市代码映射规则1映射规则2Billing系统大兴安岭455黑河459大庆455齐齐哈尔452哈尔滨451地市名称地市代码Billing系统大兴安岭455黑河459大庆455齐齐哈尔452哈尔滨451地市名称地市代码数据仓库的基本概念-随时间变化•所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的信息,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测;业务系统只记录当前的最新状态,数据仓库中可以反映一个用户的状态变化过程以及分析变化的原因。某个用户的用户状态变化过程2008-04-03代码:A描述:正常2008-06-02代码:B描述:欠费单停2008-06-03代码:C描述:欠费双停2008-06-10代码:A描述:正常2008-07-15代码:a描述:销号数据仓库的基本概念-信息相对稳定•所谓信息相对稳定:是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作,通常只需要进行定期的加载和刷新。•数据仓库中几乎很少对历史数据进行修改,6月2日用户单停,那么这天的数据就是这个状态;而对于业务系统中,它总是最新的状态,所以数据库的中的数据总是不断变化的。某个用户的用户状态变化过程2008-04-03代码:A描述:正常2008-06-02代码:B描述:欠费单停2008-06-03代码:C描述:欠费双停2008-06-10代码:A描述:正常2008-07-15代码:a描述:销号数据仓库的基本概念-操作型系统与数据仓库的差异操作型系统数据仓库系统面向应用面向主题详细的数据综合的或汇总的为日常工作服务为管理决策服务可更新不更新事务处理驱动分析驱动非冗余数据经常有冗余一次处理很小的数据一次处理大量的数据高访问性适量的访问度当前数据历史数据数据仓库概述数据仓库的历史数据仓库的基本概念数据仓库的技术要求数据仓库体系结构与设计数据仓库的相关概念数据仓库的项目过程数据仓库的技术要求-ETL•数据仓库的技术要求包含如下几个方面:•ETL(Extract/Transformation/Load):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去;ETL是数据仓库系统中最重要的概念之一,ETL在一个数据仓库系统项目中要花一半以上的时间。ORACLEDB2SQLSERVERMYSQLDATAWAREHOUSEDataFilesLoading数据仓库的技术要求-ETL•ETL在技术上涉及到:增量、全量、定时、调度、监控等方面技术。•增量数据:流水类数据、话单类数据的抽取方式;•全量数据:用户信息类数据,状态会更新发生变化的数据;•定时抽取:数据抽取一般在生产系统比较闲暇的时候进行,凌晨时候比较多,而且按照要分析数据的周期,还分为按日、按月数据;•作业调度:由于涉及到的业务系统的数据量庞大,需要分批进行抽取,以及抽取数据后面的一系列处理过程;•作业监控:对所有作业执行的监控;数据仓库的技术要求-ETL权限管理模块监控展示模块参数修改模块作业管理模块界面部分操作日志模块运行分析模块数据加载模块数据清洗模块数据转换模块外部调用模块运行调度模块数据触发时间触发作业触发依赖关系数据抽取模块作业组织部分数据共享模块数据备份模块数据传输模块数据管理部分服务监控模块作业监控模块监控部分系统监控模块数据集成平台组件模块图数据仓库的技术要求-存储和管理•数据仓库的真正关键是数据的存储和管理。数据仓库一般遇到的几个问题:•大数据量的存储和管理;•并行处理;•针对决策支持查询的优化;•支持多维分析的查询方式;1000万20s100万2s100万2s100万2s…100万2s数据仓库概述数据仓库的历史数据仓库的基本概念数据仓库的技术要求数据仓库体系结构与设计数据仓库的相关概念数据仓库的项目过程构造数据仓库的方法•构造数据仓库有两种方式:一是自上而下,一是自下而上。•BillInmon先生推崇“自上而下”的方式,即一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据是经过整合、经过清洗、去掉脏数据的、标准的,能够提供统一的视图。要建立这样的数据仓库,并不从它需要支持那些应用入手,而是要从整个企业的环境入手,分析其中的概念,应该有什么样的数据,达成概念完整性;•RalphKimbal先生推崇“自下而上”的方式,他认为建设数据仓库应该按照实际的应用需求,加载需要的数据,不需要的数据不必要加载到数据仓库当中。这种方式建设周期较短,客户能够很快看到结果。•二者都要达到同一个目标:企业级数据仓库•实际上在建设数据仓库的时候,一般都参照这两种方式结合使用,没有硬性规定。数据仓库的结构原始细节数据当前细节数据轻度汇总数据高度汇总数据数据仓库体系结构ODS层MID层参与人主题数据抽取、转换、加载CRMBILLING网管客服...ETL服务器,统一调度管理客户主题域产品主题域市场营销主题服务主题域资源主题域服务使用主题ODS层MID层参与人主题服务使用主题帐单类主题集团类主题市场营销主题服务主题域业务发展主题域营业收入主题域业务使用主题域市场竞争主题域服务水平主题域资源主题域计划建设主题域宏观经济主题域MRT层APP层KPI指标OLAP分析报表专题分析即席查询管理门户ETL工具元数据管理数据仓库层次描述STAGE层ODS层MID层MRT层作用提供业务系统数据文件的临时存储。提供业务系统细节数据的长期沉淀;为未来分析类需求的扩展提供历史数据支撑;支撑中间汇总层数据生成支撑DM层数据生成;方便应用需求处理,提高性能;支撑专题分析和数据挖掘面向分析类应用所构建的数据存储;为报表、KPI、OLAP和指标体系等应用提供数据支撑数据模型与业务系统一致3NF,与企业级数据模型一致介于DM与DW之间,反范式设计,增加数据冗余多维模型数据存储粒度存储业务系统数据的原始粒度存储详单、客户资料等细节数据的原始粒度;经过转换处理后的数据对用户等数据的轻度加工中度、高度汇总数据数据周期临时性长期保留,详单类可考虑6个月左右长期保留原则上保留所有数据数据仓库概述数据仓库的历史数据仓库的基本概念数据仓库的技术要求数据仓库体系结构与设计数据仓库的相关概念数据仓库的项目过程数据仓库的相关概念•ETL(Extract/Transformation/Load):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去;ETL是数据仓库系统中最重要的概念之一,ETL在一个数据仓库系统项目中要花一半以上的时间。•数据挖掘(DataMining):是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。数据仓库的相关概念•联机分析处理(OLAP,OnlineAnalyticalProcessing):是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业给特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。•元数据:关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。•商业智能(BusinessIntelligence,简称BI):商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策

1 / 65
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功