1第2章数据仓库和数据挖掘的OLAP技术什么是数据仓库多维数据模型数据仓库的系统结构数据仓库的实现数据立方体技术的进一步发展从数据仓库到数据挖掘2什么是数据仓库1、需求产生DW使顾客满意,不断增加利润,提高市场份额,这些是目前商业竞争的基本目标。利用IT可以使我们获得成功。答案之一就是DW:公司的目标如何与信息系统结合;如何建立具有交叉功能的信息系统;数据的合理组织和利用。32、数据处理分为两大类事务处理:DB联机的日常操作,对一个或一组记录的查询和修改,为企业服务。分析型处理:用于管理人员的决策分析。例如DSS、EIS和多维分析,经常要访问大量的历史数据。43、事务处理环境不适宜DSS应用的原因事务处理和分析处理的性能特性不同数据集成问题(DSS需要集成的数据)a.事务处理应用的分散;b.蜘蛛网问题;c.数据不一致问题;d.外部数据和非结构化数据。数据动态集成问题:数据必须以一定的周期进行刷新。历史数据问题。在DB中存在大量的历史数据,没有充分利用。5DW的主要驱动力是市场竞争要求捕获和分析事务的业务数据,必须把分析型数据从事务处理环境中提取出来;DW是为了建立这种新的分析处理环境而出现的一种数据存储和组织技术。4、数据综合6“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”—W.H.Inmon什么是建立数据仓库我们把建立数据仓库看作是构造和使用数据仓库的过程7数据仓库的面向主题性数据仓库是面向在数据模型中已定义好的公司的主要主题领域的,典型的例子有顾客、产品、销售等数据仓库主要关注DSS分析员的数据建模与分析,而不是集中于组织机构的日常操作和事务处理数据仓库排除对于决策无用的数据,提供特定主题的简明的视图8数据仓库的集成性数据仓库是将多个异种数据源的数据集成在一起a.异种数据源包括有关系数据库、一般文件和联机事务处理记录等数据仓库使用数据清理和数据集成技术a.数据清理和数据集成技术确保多个异种数据源中命名约定、编码结构、属性度量等的一致性b.当数据从操作型环境进入到数据仓库,已经被进行过清理和转换9数据仓库的时变性数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限a.操作型系统含有“当前值”数据,时间期限一般是60-90天b.数据仓库从历史的角度提供信息,其中的数据仅仅是一系列某一时刻生成的复杂的快照,时间期限通常是5-10年数据仓库中的键码结构a.数据仓库中的关键结构,隐式或显式地包含时间元素b.操作型系统的键码结构可能不包括时间元素10数据仓库是非易失的数据仓库总是物理地、分离存放数据数据仓库中不进行操作型环境中的数据更新a.数据仓库不需要事务处理、恢复和并发控制机制b.数据仓库通常只需要两种数据访问:数据的初始化装入和数据访问11怎样建立数据仓库把建立数据仓库看作是构造和使用数据仓库的过程主题是对应某一分析领域的分析对象DW是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、非易失的数据集合12实现DW要做:从不同数据来源中如何集成数据数据质量:精确和简炼数据的概括和聚集每当数据源中创建了新数据时,如何保证DW和数据源的同步更新在同一台计算机和RDB的平台上,当DW的DB和工具共享时如何保证性能13DW中的数据组织在DW中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合从而进入轻度综合级及至高度综合级(以DW中数据的四个基本特征为基础)141516数据仓库主要用于集中存放用户需要分析的历史数据数据仓库的逻辑结构:a.近期基本数据层b.历史数据层c.综合数据层(为决策服务)数据仓库的物理结构:a.星型结构(一般使用)b.雪花结构17数据仓库的特征面向主题集成性时变的非易失的18数据仓库中的数据分类详细型数据过去详细数据当前详细数据汇总型数据轻度汇总数据高度汇总数据元数据19数据仓库的主要组成部分数据源数据抽取(Extraction)、转换(Transformation)和装载(Load)工具。数据建模工具核心仓储(CentralRepository)数据仓库的目标数据库前端数据访问和分析工具数据仓库管理工具20数据仓库的主要特点数据仓库容量可存放TB级别的数据;获得快速抽样算法生成功能强大、容易使用的、高质量的报表;实现海量数据的快速查询功能;可视化分析良好的、模块划的多维分析模型多维模型升级快21什么是OLAP基本概念a.变量b.维c.维的层次:d.维成员e.多维数组f.数据单元(单元格)多维分析的基本分析动作①切片(slice)②切块(Dice)③旋转:改变一个报告或页面显示的维方向通过OLAP服务器,将DB中的数据抽取和转换为多维数据结构,以反映用户所能理解的企业的真实的维。22OLTP与OLAP的关系级比较OLTP面对操作人员和低层管理人员,OLAP面对的决策人员和高层管理人员。数据的特点:23OLAP产品的十二条评价准则准则1OLAP模型必须提供多维概念视图准则2透明性准则准则3存取能力准则准则4稳定的报表性能准则5客户/服务器体系结构准则6维的等同性准则准则7动态的稀疏矩阵处理准则准则8多用户支持能力准则准则9非管理的跨维操作准则10直观的数据操纵准则11灵活的报表生成准则12不受限维与聚集层次24OLAP的三层客户/服务器25基于多维数据库的OLAP实现多维数据维的层次关系和类维类维的层次和类的区别:时间序列数据类型多维DB存储MDDB存取26基于RDB的OLAP实现OLAP数据处理的一般过程:即数据装入、汇总、建索引和提供使用。OLAP的特点OLAP最重要的特点是具有多维概念视图,这也常常被称作多维数据模型MDM,把业务过程转为一个多维模型的过程称为多维建模。OLAP技术主要使用的是事实表、分维表、层次、稀疏性等概念和方法。27数据仓库和异种DBMS数据集成的区别传统的异种数据库的数据集成:在多个异种数据库上建立一个包装程序和一个集成程序(或中介程序)查询驱动的方法数据仓库使用高效的更新驱动方法将来自多个异种数据源的信息预先集成,并储存在数据仓库中,供直接查询和分析28OLTP系统和OLAP系统的比较OLTPOLAP用户办事员、数据库专业人员知识工人(经理、主管等)功能日常操作长期信息需求,决策支持DB设计面向应用,基于ER模型面向主题,星型/雪花模型数据当前的最新详细数据历史的、综合的、多维的集成数据,跨时间维护视图详细的一般关系汇总的、多维的访问模式读/写操作主关键字上索引/散列大多为读操作大量扫描工作单位短的简单事务复杂查询访问记录数量数十个数百万用户数数千数百DB规模100MB到GB100GB到TB度量事务吞吐量查询吞吐量,响应时间29为什么需要一个分离的数据仓库?分离的主要原因是提高两个系统的性能DBMS—适用于OLTP处理:数据仓库—适用于OLAP处理:两种系统中数据的结构、内容和用法都不相同数据内容:决策支持系统需要历史数据,而操作数据库一般不维护历史数据数据的统一性:决策支持需要将来自异种数据源的数据统一(如聚集和汇总),产生高质量的集成数据数据质量:异种数据源中的数据通常具有不同的数据表示法,不同的编码机制和格式,数据仓库将其统一,能产生高质量的、纯净的集成数据30第2章数据仓库和数据挖掘的OLAP技术什么是数据仓库?多维数据模型数据仓库的系统结构数据仓库的实现数据立方体技术的进一步发展从数据仓库到数据挖掘31由表和电子数据表到数据立方体数据仓库和OLAP工具基于多维数据模型,该模型将数据看作数据立方体形式一个数据立方体,比如商店的销售,允许以多维对数据建模和观察例如item(item_name,brand,type),time(day,week,month,quarter,year)称为维表,关联维item和time事实表包括事实的名称或度量(比如dollars_sold),以及每个相关维表的关键字在数据仓库研究文献中,存放最低层汇总数据的方体称为基本方体。0-维方体存放最高层的汇总数据,称作顶点方体。方体的格称为数据立方体32数据立方体:方体的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(顶点)方体1-D方体2-D方体3-D方体4-D(基本)方体33数据仓库的概念建模数据仓库的建模:按维和度量星型模式:模式图很像星星爆发,维表围绕事实表显示在射线上雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,把数据进一步分解到附加的表中,形成类似于雪花的形状事实星座:多个事实表共享维表,这种模式可以看作星型模式集,因此也可以称为星系模式,或者事实星座34星型模式的例子time_keydayday_of_the_weekmonthquarteryeartime维表location_keystreetcityprovince_or_streetcountrylocation维表Sales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales各种度量item_keyitem_namebrandtypesupplier_typeitem维表branch_keybranch_namebranch_typebranch维表35雪花模式的例子time_keydayday_of_the_weekmonthquarteryeartime维表location_keystreetcity_keylocation维表Sales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales各种度量item_keyitem_namebrandtypesupplier_keyitem维表branch_keybranch_namebranch_typebranch维表supplier_keysupplier_typesupplier维表city_keycityprovince_or_streetcountrycity维表36事实星座的度量time_keydayday_of_the_weekmonthquarteryeartime维表location_keystreetcityprovince_or_streetcountrylocation维表Sales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales各种度量item_keyitem_namebrandtypesupplier_typeitem维表branch_keybranch_namebranch_typebranch维表Shipping事实表time_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper维表37数据挖掘查询语言DMQL立方体定义(对应事实表)definecubecube_name[dimension_l