1数据仓库与数据挖掘主讲人:龚卫华(博士)研究方向:网格计算,数据库系统联系:gongwhboy@tom.com2教材与参考书陈文伟,数据仓库与数据挖掘教程,清华大学出版社安淑芝等编著.数据仓库与数据挖掘.清华大学出版社.JiaweiHan,MichelineKamber.数据挖掘概念与技术.范明等译.机械工业出版社.张云涛,龚玲著.数据挖掘原理与技术.电子工业出版社.(IBM软件学院)3主要内容与考核方式内容提要:数据仓库-DW的设计和OLAP操作数据挖掘-关联规则、聚类和分类算法考核方式:实验:20%Sqlserver2000AnalysisService平时:10%开卷试题:70%4绪论数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据,但却缺乏有用的信息解决方法:数据仓库技术和数据挖掘技术数据仓库(DataWarehouse)和在线分析处理(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)51960s和以前:文件系统1970s:层次数据库和网状数据库1980s早期:关系数据模型,关系数据库管理系统(RDBMS)的实现数据库技术的演化(1)61980s晚期:各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.)面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等)1990s:数据挖掘,数据仓库(Inmon),多媒体数据库和网络数据库95年数据仓库流行:IBM的BI,微软的SQLServer绑定OLAP服务器2000s流数据管理和挖掘基于各种应用的数据挖掘XML数据库和整合的信息系统数据库技术的演化(2)7数据仓库的用途(三种)信息处理支持查询和基本的统计分析,并使用交叉表、表、图表和图进行报表处理分析处理对数据仓库中的数据进行多维数据分析支持基本的OLAP操作,切块、切片、上卷、下钻、转轴等数据挖掘从隐藏模式中发现知识支持关联分析,构建分析性模型,分类和预测,并用可视化工具呈现挖掘的结果8数据仓库的应用价值传统的数据库针对OLTP应用理想,但不适合决策分析。原因:1.决策处理的系统响应时间可能很长,遍历大部分数据2.决策数据需求的问题动态更新,数据需要正确的集成、汇总、概括。3.决策数据操作的问题日常事务不能满足决策需要,希望对数据进行多种形式的操作。传统DB的操作型数据与DW的分析型数据区别9操作型数据分析型数据细节的综合的或提炼的在存取瞬间是准确的代表过去的可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期对性能要求高对性能要求宽松一个时刻操作一个单元一个时刻操作一个集合事务驱动分析驱动面向应用(OLTP)面向分析(DSS)一次操作数据量小一次操作数据量大支持日常操作支持管理需求10操作型DBS与数据仓库操作型DBS的主要任务是联机事务处理OLTP(OnLineTransactionProcessing)日常操作:购买,库存,银行,制造,工资,注册,记帐等数据仓库的主要任务是联机分析处理OLAP(OnLineAnalyticalProcessing)数据分析和决策支持(DSS),支持以不同的形式显示数据以满足不同的用户需要11OLTPVS.OLAP(1)用户和系统的面向性面向顾客(事务)VS.面向市场(分析)数据内容当前的、详细的数据VS.历史的、汇总的数据数据库设计实体-联系模型(ER)和面向应用的数据库设计VS.星型/雪花模型和面向主题的数据库设计12OLTPVS.OLAP(2)数据视图当前的、企业内部的数据VS.经过演化的、集成的数据访问模式事务操作VS.只读查询(但很多是复杂的查询)任务单位简短的事务VS.复杂的查询访问数据量数十个VS.数百万个13OLTPVS.OLAP(3)用户数数千个VS.数百个数据库规模100M-几GBVS.100GB-数TB设计优先性高性能、高可用性VS.高灵活性、端点用户自治度量事务吞吐量VS.查询吞吐量、响应时间国际评测标准()TPC-CVS.TPC-H14为什么需要一个分离的数据仓库?提高两个系统的性能DBMS是为OLTP而设计的:存储方式,索引,并发控制,恢复数据仓库是为OLAP而设计:复杂的OLAP查询,多维视图,汇总不同的功能和不同的数据:历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)数据质量:不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成15数据仓库的定义数据仓库的定义很多,但却很难有一种严格的定义它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台,对信息处理提供支持数据仓库区别于其他数据存储系统“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W.H.Inmon(数据仓库之父)16数据仓库关键特征一——面向主题面向主题,是DW显著区别于面向应用的传统DB的一个特征概念:从数据组织的角度看,主题就是一些数据集合,它对分析对象进行了比较完整的、一致的数据描述,不仅包括数据自身还包括数据之间的关系。关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。主题划分的原则:保证每个主题的独立性。围绕一些主题,例如哪些顾客采购产品数量多?哪些产品销售量大?哪些供应商提供的产品具有竞争力?主题之间可能存在重叠关系,如顾客供应商商品17数据仓库关键特征二——数据集成一个数据仓库是通过集成多个异种数据源来构造的。关系数据库、一般文件、联机事务处理记录使用数据清理和数据集成技术。确保命名约定、编码结构、属性度量等的一致性,度量单位。当数据被移到数据仓库时,它们要经过转化。18数据仓库关键特征三——随时间而变化(1)数据仓库是从历史的角度提供信息数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统:主要保存当前数据。数据仓库:从历史的角度提供信息(比如过去5-10年)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。19数据仓库关键特征三——随时间而变化(2)数据仓库的数据追加定义:数据仓库的数据初装完成后,再向DW输入数据的过程。捕捉变化数据时标方法DELTA文件:由应用生成,记录了应用改变的所有内容。优点:效率高,避免扫描整个DB。前后映像文件的方法:比较抽取数据的DB的前后快照。缺点:需占用大量资源。*日志文件:DB的固有机制,不会额外增加工作量和占用系统资源。20数据仓库关键特征四——数据不易丢失尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。操作数据库的更新操作不会出现在数据仓库环境下。不需要事务处理,恢复,和并发控制等机制只需要两种数据访问:数据的初始转载和数据访问(读操作)21高度综合级轻度综合级当前细节级早期细节级(源数据)元数据数据仓库中的数据分级22元数据•概念:元数据是关于数据的数据,对DW中的各种数据进行详细的描述与说明,说明每个数据的上下文关系。(相当于传统数据库系统中的数据字典)•元数据在DW中的作用用作目录,帮助DSS分析者对数据仓库的内容定义作为数据仓库和操作性数据库之间进行数据转换时的映射标准用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。23元数据的形式有以下几种:数据仓库结构的描述仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容汇总用的算法由操作环境到数据仓库的映射关于系统性能的数据索引,profiles,数据刷新、更新或复制事件的调度和定时商务元数据商务术语和定义、数据拥有者信息、收费政策等24元数据的分类按类型分:基本数据(数据源、DW、应用程序管理)的元数据数据处理(数据装载、更新处理、分析处理、数据抽取、转换等)的元数据企业组织机构(用户、用户权限)的元数据按抽象级别分:概念级(业务的全部描述)逻辑级(DB的关系方案,逻辑多维模型等)物理级按承担的任务分:静态元数据(数据格式)和动态元数据(数据的状态与使用方法)从用户角度分:技术元数据(开发、维护和管理信息技术环境中产生的数据)和业务元数据(使企业环境的服务更易于为终端用户所理解)25元数据的内容数据源的元数据数据源的所有者描述信息、业务描述、存取方法、口令等。数据模型的元数据企业概念模型,DW数据模型数据准备区的元数据数据清洗规范、数据增强和映射转换、数据传输的安全性设置等DBMS元数据分区设置、索引、视图定义、数据备份等。前台元数据现有的查询和报告定义、网络安全用户特权概况、身份验证、打印工具规范、最终用户文档等。26粒度与分割(1)粒度:DW中的数据单位中保存数据的细化或综合程度的级别。粒度越大,细化越低,综合程度越高。¾分类:(1)按时间段综合数据的粒度:影响DW中的数据量的多少,也影响DW所能回答询问的种类(2)样本数据库:采样频率高低。分割:将数据分散到各自的物理单元中以便能分别独立处理,以提高数据处理效率。27粒度与分割(2)分割的优点容易重构,容易重组,自由索引,顺序扫描,易恢复,易监控分割的标准时间(必需)商业领域地理位置(区域)组织单位(机构)所有上述综合28数据仓库的数据组织及存储数据仓库的数据组织形式:(1)简单堆积文件:以天为单位堆积(2)轮转综合文件:日、周、月、年(3)简单直接文件:间隔一定的时间间隔(4)连续文件:直接前后连接数据仓库的存储方式:(1)虚拟存储:没有专门数据仓库数据存储(2)关系表存储:关系型数据库(3)多维数据库存储:多维数组结构文件进行数据存储29数据仓库的说明-标准手册与管理人员、开发人员、决策分析人员及计划人员等相关。基本内容(12项)描述什么是DW描述对DW输送数据的源系统如何使用DW如何获得帮助谁负责什么DW的迁入计划DW的数据如何面向应用的数据相关联如何为决策分析系统使用DW什么时候不向DW中加数据DW中没有什么类型的数据可利用的元数据的说明DW的记录系统是什么30数据仓库的构建与使用数据仓库的构建包括一系列的数据预处理过程数据清理:检测数据中的错误并作可能的订正数据集成:从多个外部的异构数据源收集数据数据变换:将数据由历史或主机的格式转化为数据仓库的格式数据仓库的使用热点是商业决策行为,例如:增加客户聚焦产品重定位寻找获利点客户关系管理31数据仓库与异种数据库集成异种数据库的集成方法传统的异种数据库集成:(查询驱动)在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器数据仓库:(更新驱动)将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析32查询驱动方法和更新驱动方法的比较查询驱动的方法需要负责信息的过滤和集成处理与局部数据源上的处理竞争资源对于频繁的查询,尤其是涉及聚集(汇总)操作的查询,开销很大(决策支持中常见的查询形式)更新驱动的方法(带来高性能)数据经预处理后单独存储,对聚集操作提供良好支持不影响局部数据源上的处理集成历史信息,支持多维查询33数据仓库设计的三级数据模型与操作型DB的不同之处:DW的数据模型中不包含纯操作型的数据DW中扩充了码结