2019/8/1数据仓库与数据挖掘1第1章数据仓库的概念与体系结构主讲:张莉Email:zhangliml@suda.edu.cn历史数据的处理方法删除已经失效的历史数据介质备份后删除建立数据仓库系统2019/8/1数据仓库与数据挖掘22019/8/1数据仓库与数据挖掘31.1数据仓库的概念、特点与组成数据仓库的概念数据仓库就是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,通常用于辅助决策支持(DDS)2019/8/1数据仓库与数据挖掘41.1数据仓库的概念、特点与组成数据仓库的特点:面向主题数据仓库中的数据是按照一定的主题域进行组织的集成数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的2019/8/1数据仓库与数据挖掘51.1数据仓库的概念、特点与组成数据仓库的特点:相对稳定数据操作主要是数据查询和定期更新数据加载后,将作为数据档案长期保存反映历史变化数据仓库中的数据通常包含较久远的历史数据2019/8/1数据仓库与数据挖掘61.1数据仓库的概念、特点与组成数据仓库的组成:数据仓库数据库;数据抽取工具;元数据:技术元数据与业务元数据;访问工具;数据集市(DataMarts);数据仓库管理;信息发布系统。2019/8/1数据仓库与数据挖掘7数据仓库的组成数据仓库数据库核心是数据信息存放的地方对数据提供存取和检索支持数据抽取工具提取数据,进行转换、整理,再存放转换的内容:删除对决策分析没有意义的数据转换到统一的数据名称和定义计算统计和衍生数据填补缺失数据统计不同的数据定义方式2019/8/1数据仓库与数据挖掘8数据仓库的组成元数据描述数据仓库数据的结构和建立方法的数据技术元数据设计和管理人员用于开发和管理数据仓库时使用的元数据业务元数据从单位业务的角度描述数据仓库的元数据2019/8/1数据仓库与数据挖掘9数据仓库的组成访问工具为用户访问数据仓库提供的手段数据集市(DataMarts)为特定的应用目的,从数据仓库中独立出来的一部分数据,也称为部门数据或者主题数据2019/8/1数据仓库与数据挖掘10数据仓库的组成数据仓库管理安全与权限的管理数据更新的跟踪数据质量的检查元数据的管理与更新信息发布系统把数据仓库中的数据或其他相关数据发给不同的地点或用户2019/8/1数据仓库与数据挖掘111.2数据挖掘的概念与方法数据挖掘的概念数据挖掘(DataMining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)2019/8/1数据仓库与数据挖掘121.2数据挖掘的概念与方法数据挖掘的方法:直接数据挖掘对某个变量建立一个模型包括分类、估值和预测间接数据挖掘在所有的变量中建立起某种关系如相关性分组或关联规则,聚集聚类,描述和可视化,及复杂数据挖掘2019/8/1数据仓库与数据挖掘131.2数据挖掘的概念与方法数据仓库与数据挖掘的关系若将数据仓库(DataWarehouse)比作矿井,那么数据挖掘(DataMining)就是深入矿井采矿的工作数据挖掘是从数据仓库中找出有用信息的一种过程与技术2019/8/1数据仓库与数据挖掘141.3数据仓库的技术、方法与产品联机事务处理(OLTP)与联机分析处理(OLAP)的比较2019/8/1数据仓库与数据挖掘151.3数据仓库的技术、方法与产品OLAP技术的有关概念多维数据集:一个数据集合维度:一个实体的一些重要属性定义为维dimension度量值:度量指标,是多维数据集中的一组数值多维分析:对以“维”形式组织起来的数据采取切片,切块,钻取和旋转等各种分析动作,以求分析数据2019/8/1数据仓库与数据挖掘161.3数据仓库的技术、方法与产品OLAP根据其存储数据的方式可分为三类:ROLAP,relationalOLAP事实表、维表MOLAP,multidimensionalOLAPHOLAP,hybridOLAPOLAP工具针对特定问题的联机数据访问与分析,通过多维的方式对数据进行分析、查询和报表2019/8/1数据仓库与数据挖掘171.3数据仓库的技术、方法与产品数据仓库实施中的三个关键环节数据抽取;数据存储与管理数据表现2019/8/1数据仓库与数据挖掘18数据仓库实施中的三个关键环节数据抽取数据进入数据仓库的入口抽取技术包括:互连、复制、增量、转换、调度和监控实现抽取专业的数据抽取工具直接开发抽取接口程序2019/8/1数据仓库与数据挖掘19数据仓库实施中的三个关键环节数据存储与管理数据仓库面对的是大量数据的存储和管理并行处理针对决策支持查询的优化支持多维分析的查询模式2019/8/1数据仓库与数据挖掘20数据仓库实施中的三个关键环节数据表现数据仓库的展示界面数据表现的工具多维分析统计分析数据挖掘2019/8/1数据仓库与数据挖掘211.3数据仓库的技术、方法与产品数据仓库实施方法论数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导致项目实施失败2019/8/1数据仓库与数据挖掘221.3数据仓库的技术、方法与产品常用数据仓库产品比较常用OLAP工具介绍;各数据仓库厂商提供的解决方案IBM、Oracle、NCR、Microsoft、SAS等2019/8/1数据仓库与数据挖掘232019/8/1数据仓库与数据挖掘241.4数据仓库系统的体系结构典型的数据仓库系统数据源数据存储和管理OLAP服务器前端工具和应用2019/8/1数据仓库与数据挖掘251.4数据仓库系统的体系结构数据仓库系统的体系结构的分类两层架构(GenericTwo-LevelArchitecture)独立型数据集市(IndependentDataMart)依赖型数据集市和操作型数据存储(DependentDataMartandOperationalDataStore)逻辑型数据集市和实时数据仓库(LogicalDataMartandReal-TimeDataWarehouse)2019/8/1数据仓库与数据挖掘261.4数据仓库系统的体系结构唯一的、企业级的数据仓库数据仓库DataWarehouse外部的内部的源数据系统(SourceDataSystems)数据集结区(DataStagingArea)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)转换(transform)输出到仓库(exporttoDW)抽取Extract抽取Extract抽取Extract抽取Extract清洗的维数据加载Load数据及元数据存储区(Data&MetadataStorageArea)数据展示:查询工具报表生成器终端用户应用建模与挖掘工具可视化工具填充Feed查询结果与挖掘结果终端用户表示工具(End-UserPresentationTools)ELT两层数据仓库体系结构两层数据仓库体系结构构造步骤数据是从各种内外部的源系统文件或数据库中抽取得到的不同源系统中的数据在加载到数据仓库之前需要被转换和集成建立为决策支持服务的数据库用户通过SQL查询语言或分析工具访问数据仓库,结果又会反馈到数据仓库和操作型数据库中2019/8/1数据仓库与数据挖掘272019/8/1数据仓库与数据挖掘281.4数据仓库系统的体系结构多个数据集市导致数据访问复杂性数据集市Datamart外部的内部的源数据系统(SourceDataSystems)数据集结区(DataStagingArea)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)一致维(conformdimensions)转换(Transform)输出到数据集市(exporttoDM)抽取Extract抽取Extract抽取Extract抽取Extract清洗的维数据加载Load数据及元数据存储区(Data&MetadataStorageArea)数据展示:查询工具报表生成器终端用户应用建模与挖掘工具可视化工具填充Feed查询结果与挖掘结果终端用户表示工具(End-UserPresentationTools)ELT数据集市Datamart数据集市Datamart数据集市Datamart加载Load加载Load加载Load基于独立数据集市的数据仓库体系结构基于独立数据集市的数据仓库体系结构独立型数据集市架构的局限性包括:高代价的冗余数据和重复处理工作数据集市可能是不一致的没有能力下钻到更小的细节或其他数据集市有关的事实或者共享的数据信息库规模扩大的成本高2019/8/1数据仓库与数据挖掘292019/8/1数据仓库与数据挖掘301.4数据仓库系统的体系结构企业级数据仓库外部的内部的源数据系统(SourceDataSystems)数据集结区(ODS:OperationalDataStore)数据存储:关系型的(relational)快速的(fast)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)一致维(conformdimensions)转换(Transform)输出到仓库与集市exporttoDW&DMs抽取Extract抽取Extract抽取Extract抽取Extract清洗的维数据加载Load数据及元数据存储区(Data&MetadataStorageArea)数据展示:查询工具报表生成器终端用户应用建模与挖掘工具可视化工具填充Feed(ODS提供获得当前数据的选项)查询结果与挖掘结果终端用户表示工具(End-UserPresentationTools)ELT数据集市数据集市数据集市数据集市加载填充Feed填充Feed单一的ETL过程对整个企业数据仓库(EDW),依赖型数据集市从EDW加载数据基于依赖型数据集市和操作型数据存储(ODS)的数据仓库体系结构2019/8/1数据仓库与数据挖掘311.4数据仓库系统的体系结构外部的内部的源数据系统(SourceDataSystems)数据存储:关系型的(relational)快速的(fast)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)一致维(conformdimensions)转换(Transform)装载到仓库LoadintoDW抽取Extract抽取Extract抽取Extract抽取Extract清洗的维数据数据集结区(ODS)与数据及元数据存储区注:ODS与数据仓库是一个进而是相同的数据展示:查询工具报表生成器终端用户应用(如CRM、SRM等)建模与挖掘工具可视化工具面向运营决策的新业务规则终端用户表示工具(End-UserPresentationTools)ELT加载填充Feed接近实时的ETL过程是面向数据仓库的,数据集市不是分离的数据库,仅是数据仓库的逻辑视图数据集市数据集市数据集市数据集市实时数据仓库转换层接近实时地回流逻辑型数据