数据仓库建模方法论数据仓库概念数据仓库数据架构逻辑数据模型数据模型标准化工艺流程主题数据仓库领域的两位大师BillInmon数据仓库之父,数据仓库概念的创始人理论:CorporateInformationFactory(CIF)主要著作:《数据仓库》、《企业信息工厂》:《数据仓库工具箱-维度建模的完全指南》、《数据仓库生命周期工具箱-设计、开发和部署数据仓库的专家方法》:MutildimensionalArchitecture(MD)企业数据仓库EDW企业数据仓库定义:详细交易及相关业务数据的集合包含必要的内部与外部信息来自于多个数据源/业务操作系统保存一定的时间周期按照企业内业务规则所决定的模型来存储企业数据仓库作用:基于数据/信息来回答相关的业务问题和提供决策支持,并确保:一致、集成的数据存储任意的数据粒度在整个企业的业务范围保持企业内一致的信息视图企业内一致的信息视图(SingleVersionoftheTruth)集成的企业信息(Integratedcorporateinformation)不针对特定应用(Applicationneutral)无冗余(Nonredundant)用于报表和决策支持(Reportinganddecisionmaking)最详细的数据和信息(DetailedData)任何时候,针对任意数据,提出任意业务问题(Askanyquestion,anydata,anytime)数据仓库的特点面向主题:操作型数据库的数据组织面向事物处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。例如:当事人、协议、机构、财务、事件、产品等主题。集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。企业信息工厂数据仓库总线企业总线总线架构矩阵多维体系结构与企业信息工厂体系结构比较方面多维体系结构企业信息工厂体系结构范围优先考虑业务单位范围优先考虑企业总体范围角度关心业务部门的需求多维建模师以企业视角,建立一致性维度。从企业角度解决供应源数据的问题,但并不是整个企业的数据必须在项目第一个阶段都处理。相反而是选择企业所有数据的一个子集。数据流实施方法采用自底向上的:如何快速的获取由用户控制的业务部门专有的数据,并最小限度的考虑整个企业的使用快速需求收集和实现过程使得为整个环境提供一致而可靠数据的任务变得复杂。实施方法是自顶向下的:企业数据利用业务需求将数据从数据源推至需要这些数据的地方,其核心问题是从最初的项目开始为任何数据集市的使用而集成企业数据。为了制定尽可能在整个企业范围内一致的主题域和业务数据需要增加模型开销,需要更多的时间和代价。但后续项目则需要较少时间和代价,尤其对于使用现有的、健全的主题域的业务单位更是如此。实现对存储空间最小需求,非冗余方式防止了在多个位置存储数据。这种特性使更新或删除异常最小化或者消除。易失性聚集数据集市:当业务过程发生变化,为了消除或减少对事实表重建,需要增加新的维或改变维。原子数据集市:由于事实表可能包含几亿甚至更多的数据,重建将会带来严重后果数据仓库模型是与过程无关的,它摒弃了由于处理过程影响而带来的变化数据仓库模型的设计依赖于企业的业务规则,而不依赖与在其上将运行什么查询。如果一个已经建好的数据集市需要改变或加强,可以根据存储在数据仓库中的细节数据合理且快速地进行重建灵活性多维设计是很多业务过程聚集在一起的结果。当处理请求发生变化时,多维数据库的设计未必能够适度地变化。数据仓库模型存放数据粒度级别为原子级别,原子级别可以任意组合。故可以支持将来未知需求。复杂性数据集市模型易于业务人员理解。可以很容易构建数据集市,然而,当一个一个地建立数据集市时,由于数据的企业视图的复杂性,对于这种结构,完成更新时相当复杂的。数据仓库中的细节数据是与处理过程无关的,因此数据仓库的数据模型使得数据不一致的风险最小。功能性为多维处理提供了理想环境,切片和切块、上钻和下钻等查询提供良好的性能支持数据挖掘、统计分析和即席查询持续维护总体目标是防止由于环境的后续构建、调整和优化而产生的高昂的代价。一个良好的数据仓库模型将为企业提供长久的服务,将提供如下回报:整个环境端到端一致性和集成性易于建立新的数据集市加强现有数据集市数据仓库和有关数据集市的维护和可持续发展OLTP与OLAP针对特定问题的联机数据访问和数据分析技术满足对数据进行多角度、快速、一致、交互、深入观察使用预定义的多维数据视图对数据进行分析处理,支持对数据的切片、切块、钻取。多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(RealtimeSystem)。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(ResponseTime),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。OLTP数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。On-LineAnalyticalProcessingOn-LineTransactionProcessingOLTP与OLAPOLTPOLAP用户操作人员,低层管理人员决策人员,高级管理人员功能日常操作处理分析决策DB设计面向应用面向主题数据当前的,最新的细节的,二维的历史的,聚集的,多维的集成的,统一的存取读/写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百个DB大小100MB-GB100GB-TBROLAP表示基于关系数据库的OLAP实现(RelationalOLAP)MOLAP表示基于多维数据组织的OLAP实现(MultidimensionalOLAP)ROLAPMOLAP沿用现有关系数据库技术专用技术响应速度相对molap要慢性能好,响应速度快数据转载计算速度快数据转载速度慢存储空间耗费小,维数没有限制需要进行预计算,可能导致数据爆炸,维数有限,无法支持维的动态变化借助rdbms对数据存储,无文件大小限制受操作系统平台文件大小限制,难以达到tb级可以通过sql语句实现详细数据和概要数据的存储缺乏数据模型和数据访问的标准不支持预计算的读写操作无法完成维之间的运算无法完成多行计算支持高性能的决策支持计算复杂的跨维计算多用户读写操作行级计算ROLAPvsMOLAP数据仓库概念数据仓库数据架构逻辑数据模型数据模型标准化工艺流程主题数据架构形态各数据架构比较源系统ODSEDW独立数据集市DataMart#1DataMart#2Non-conformedDimensionsandFacts从属数据集市DataMart#1DataMart#2ConformedDimensionsandConformedFactsDataMart数据集市类型活期存款定期存款零售信贷公司信贷债券投资票据信息同业拆借储蓄国债衍生品储蓄国债参与者交易流水会计单元理财产品风险缓释市场数据计量结果公共信息数据挖掘模型风险引擎数据接口星型模型报表模型多维分析模型风险计算引擎信用风险绩效衡量和资本分配合规性与披露市场风险操作风险流动性风险防欺诈和反洗钱EnterpriseDateWarehouseODS风险计量结果返回ODS多维分析汇总层应用层监管报表风险数据集市数据架构数据整合,数据标准•整合全面风险相关业务系统数据,实现全面风险的完整视图,为未来业务拓展提供可扩展的架构。•通过集市数据模型处理,面向业务主题的模型设计,灵活易扩展。同时按照业务应用需求驱动,进行多维度、多粒度的加工汇总。支撑银行全面风险管理•实现全面风险数据的统一管理和全景视图,为实现全面、高效、及时的风险计量、识别、报告提供数据基础,提升风险管理水平。•全局考虑,提炼需求,侧重业务规则理解数据服务•存储细节的、整合的所有数据,为全面风险管理应用需求提供数据支撑,为实现高效、及时的风险管理报表自动化提供数据基础•为风险计量提供数据准备服务,并对风险计量结果进行整理和存储•外系统供数服务,实现统一的风险数据来源。风险数据集市建设目标数据仓库概念数据仓库模型逻辑数据模型数据模型标准化工艺流程主题为什么需要逻辑数据模型为复杂的数据仓库系统实施提供了规范和基础结构-蓝图促进业务部门用户和IT分析人员之间的有效沟通明确业务需求解决业务问题形成对重要业务定义和术语的统一认识具备跨部门,能够表达所有的业务技术缓冲层ETL专用的纯技术层完全与源系统结构一致近源模型层基本依照源系统建模尽量保持业务系统原貌整合模型层面向整合主题设计提供规范和共享应用集市层面向应用按需定制多维建模汇总数据核心系统对公信贷票据系统储蓄国债市场数据核心系统对公信贷票据系统储蓄国债市场数据…..…..复杂交易复杂交易数据挖掘模型风险引擎数据接口星型模型报表模型多维分析模型汇总层当事人财务产品资产事件内部机构协议计量结果市场数据LDM在数据仓库系统中的地位ODSEDWDataMartDataMining目标•短期的,细节的,同源的数据存储;•直接提供基于源系统结构的简单原貌访问;•为BI环境中适合的业务需求提供支持•长期的,细节的,整合的数据存储;•为BI环境中适合的业务需求提供支持•服务特定应用•长期历史分析性指标汇总•为企业提供预测性、趋势分析性需求提供支持原则•简单处理,不考虑整合;•关注保留策略;•面向全局,数据整合•中性设计,灵活扩展•提供规范和共享•面向具体应用•按需设计•针对业务目标、挖掘算法设计数据模型形式•偏源系统模型;•根据支持应用情况可以保留短期历史•面向主题设计;•偏范式化;•长期保留历史•形式各异,依具体应用不同;•一条记录表示一个观测•多条记录表示一个观测重点•理解源结构•主题定义•框架设计•整合策略•实施方法•整体性•一致性•业务理解•数据理解•数据准备用途•业务原貌查询•即时报表•数据质量检查•灵活查询•整合规则检查•特定应用•特定业务专题设计思路比较EDW逻辑数据模型设计目标中性的,共享的:不针对某个特别的应用而设计;灵活的,可扩展的:存放最详尽的历史数据,业务发生变化时易于扩展,适应复杂的实际业务情况;稳定的,经得起考验的:能够在很长时间内保持稳定性,回答不断产生、不断变化且无法预先定义的业务问题;规范的,易懂的:使用业务语言进行模型设计,易于让业务人员理解和使用,有助于IT和业务部门人员的沟通25逻辑视图(第三级)细节(第三级)主题区域(第一级)概念(第二级)逻辑数据模型的不同级别逻辑数据模型的主题域主题域模型案例-市场风险数据集市主题域模型案例-信用卡数据集市主题域模型优点指导业务数据模型开发有助于数据一致性,避免冗余。当确定一个新的实体时,基于定义可以确定实体的恰当地主题域。根据主题域划分工作量,可使重复工作量最小化,并有利于相互协调指导数据仓库项目选择为基于数据的项目分组提供了一种高层次划分方法。在确定