3709数据仓库与数据挖掘chap1

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1数据仓库与数据挖掘主讲人:龚卫华(博士)研究方向:网格计算,数据库系统联系:gongwhboy@tom.com2教材与参考书„陈文伟,数据仓库与数据挖掘教程,清华大学出版社„安淑芝等编著.数据仓库与数据挖掘.清华大学出版社.„JiaweiHan,MichelineKamber.数据挖掘概念与技术.范明等译.机械工业出版社.„张云涛,龚玲著.数据挖掘原理与技术.电子工业出版社.(IBM软件学院)3主要内容与考核方式„内容提要:„数据仓库-DW的设计和OLAP操作„数据挖掘-关联规则、聚类和分类算法„考核方式:„实验:20%„Sqlserver2000AnalysisService„平时:10%„开卷试题:70%4绪论„数据爆炸问题„自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。„我们拥有丰富的数据,但却缺乏有用的信息„解决方法:数据仓库技术和数据挖掘技术„数据仓库(DataWarehouse)和在线分析处理(OLAP)„数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)5„1960s和以前:„文件系统„1970s:„层次数据库和网状数据库„1980s早期:„关系数据模型,关系数据库管理系统(RDBMS)的实现数据库技术的演化(1)6„1980s晚期:„各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.)„面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等)„1990s:„数据挖掘,数据仓库(Inmon),多媒体数据库和网络数据库„95年数据仓库流行:IBM的BI,微软的SQLServer绑定OLAP服务器„2000s„流数据管理和挖掘„基于各种应用的数据挖掘„XML数据库和整合的信息系统数据库技术的演化(2)7数据仓库的用途(三种)„信息处理„支持查询和基本的统计分析,并使用交叉表、表、图表和图进行报表处理„分析处理„对数据仓库中的数据进行多维数据分析„支持基本的OLAP操作,切块、切片、上卷、下钻、转轴等„数据挖掘„从隐藏模式中发现知识„支持关联分析,构建分析性模型,分类和预测,并用可视化工具呈现挖掘的结果8数据仓库的应用价值„传统的数据库针对OLTP应用理想,但不适合决策分析。原因:„1.决策处理的系统响应时间„可能很长,遍历大部分数据„2.决策数据需求的问题„动态更新,数据需要正确的集成、汇总、概括。„3.决策数据操作的问题„日常事务不能满足决策需要,希望对数据进行多种形式的操作。„传统DB的操作型数据与DW的分析型数据区别9操作型数据分析型数据细节的综合的或提炼的在存取瞬间是准确的代表过去的可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期对性能要求高对性能要求宽松一个时刻操作一个单元一个时刻操作一个集合事务驱动分析驱动面向应用(OLTP)面向分析(DSS)一次操作数据量小一次操作数据量大支持日常操作支持管理需求10操作型DBS与数据仓库„操作型DBS的主要任务是联机事务处理OLTP(OnLineTransactionProcessing)„日常操作:购买,库存,银行,制造,工资,注册,记帐等„数据仓库的主要任务是联机分析处理OLAP(OnLineAnalyticalProcessing)„数据分析和决策支持(DSS),支持以不同的形式显示数据以满足不同的用户需要11OLTPVS.OLAP(1)„用户和系统的面向性„面向顾客(事务)VS.面向市场(分析)„数据内容„当前的、详细的数据VS.历史的、汇总的数据„数据库设计„实体-联系模型(ER)和面向应用的数据库设计VS.星型/雪花模型和面向主题的数据库设计12OLTPVS.OLAP(2)„数据视图„当前的、企业内部的数据VS.经过演化的、集成的数据„访问模式„事务操作VS.只读查询(但很多是复杂的查询)„任务单位„简短的事务VS.复杂的查询„访问数据量„数十个VS.数百万个13OLTPVS.OLAP(3)„用户数„数千个VS.数百个„数据库规模„100M-几GBVS.100GB-数TB„设计优先性„高性能、高可用性VS.高灵活性、端点用户自治„度量„事务吞吐量VS.查询吞吐量、响应时间„国际评测标准()„TPC-CVS.TPC-H14为什么需要一个分离的数据仓库?„提高两个系统的性能„DBMS是为OLTP而设计的:存储方式,索引,并发控制,恢复„数据仓库是为OLAP而设计:复杂的OLAP查询,多维视图,汇总„不同的功能和不同的数据:„历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护„数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)„数据质量:不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成15数据仓库的定义„数据仓库的定义很多,但却很难有一种严格的定义„它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。„为统一的历史数据分析提供坚实的平台,对信息处理提供支持„数据仓库区别于其他数据存储系统„“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W.H.Inmon(数据仓库之父)16数据仓库关键特征一——面向主题„面向主题,是DW显著区别于面向应用的传统DB的一个特征„概念:从数据组织的角度看,主题就是一些数据集合,它对分析对象进行了比较完整的、一致的数据描述,不仅包括数据自身还包括数据之间的关系。„关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。„主题划分的原则:保证每个主题的独立性。„围绕一些主题,例如哪些顾客采购产品数量多?哪些产品销售量大?哪些供应商提供的产品具有竞争力?„主题之间可能存在重叠关系,如顾客供应商商品17数据仓库关键特征二——数据集成„一个数据仓库是通过集成多个异种数据源来构造的。„关系数据库、一般文件、联机事务处理记录„使用数据清理和数据集成技术。„确保命名约定、编码结构、属性度量等的一致性,度量单位。„当数据被移到数据仓库时,它们要经过转化。18数据仓库关键特征三——随时间而变化(1)„数据仓库是从历史的角度提供信息„数据仓库的时间范围比操作数据库系统要长的多。„操作数据库系统:主要保存当前数据。„数据仓库:从历史的角度提供信息(比如过去5-10年)„数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。19数据仓库关键特征三——随时间而变化(2)„数据仓库的数据追加„定义:数据仓库的数据初装完成后,再向DW输入数据的过程。„捕捉变化数据„时标方法„DELTA文件:由应用生成,记录了应用改变的所有内容。优点:效率高,避免扫描整个DB。„前后映像文件的方法:比较抽取数据的DB的前后快照。缺点:需占用大量资源。„*日志文件:DB的固有机制,不会额外增加工作量和占用系统资源。20数据仓库关键特征四——数据不易丢失„尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。„操作数据库的更新操作不会出现在数据仓库环境下。„不需要事务处理,恢复,和并发控制等机制„只需要两种数据访问:„数据的初始转载和数据访问(读操作)21高度综合级轻度综合级当前细节级早期细节级(源数据)元数据数据仓库中的数据分级22元数据•概念:元数据是关于数据的数据,对DW中的各种数据进行详细的描述与说明,说明每个数据的上下文关系。(相当于传统数据库系统中的数据字典)•元数据在DW中的作用„用作目录,帮助DSS分析者对数据仓库的内容定义„作为数据仓库和操作性数据库之间进行数据转换时的映射标准„用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。23元数据的形式有以下几种:„数据仓库结构的描述„仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容„汇总用的算法„由操作环境到数据仓库的映射„关于系统性能的数据„索引,profiles,数据刷新、更新或复制事件的调度和定时„商务元数据„商务术语和定义、数据拥有者信息、收费政策等24元数据的分类„按类型分:„基本数据(数据源、DW、应用程序管理)的元数据„数据处理(数据装载、更新处理、分析处理、数据抽取、转换等)的元数据„企业组织机构(用户、用户权限)的元数据„按抽象级别分:„概念级(业务的全部描述)„逻辑级(DB的关系方案,逻辑多维模型等)„物理级„按承担的任务分:静态元数据(数据格式)和动态元数据(数据的状态与使用方法)„从用户角度分:技术元数据(开发、维护和管理信息技术环境中产生的数据)和业务元数据(使企业环境的服务更易于为终端用户所理解)25元数据的内容„数据源的元数据„数据源的所有者描述信息、业务描述、存取方法、口令等。„数据模型的元数据„企业概念模型,DW数据模型„数据准备区的元数据„数据清洗规范、数据增强和映射转换、数据传输的安全性设置等„DBMS元数据„分区设置、索引、视图定义、数据备份等。„前台元数据„现有的查询和报告定义、网络安全用户特权概况、身份验证、打印工具规范、最终用户文档等。26粒度与分割(1)„粒度:DW中的数据单位中保存数据的细化或综合程度的级别。粒度越大,细化越低,综合程度越高。¾分类:(1)按时间段综合数据的粒度:影响DW中的数据量的多少,也影响DW所能回答询问的种类(2)样本数据库:采样频率高低。„分割:将数据分散到各自的物理单元中以便能分别独立处理,以提高数据处理效率。27粒度与分割(2)„分割的优点„容易重构,容易重组,自由索引,顺序扫描,易恢复,易监控„分割的标准„时间(必需)„商业领域„地理位置(区域)„组织单位(机构)„所有上述综合28数据仓库的数据组织及存储数据仓库的数据组织形式:(1)简单堆积文件:以天为单位堆积(2)轮转综合文件:日、周、月、年(3)简单直接文件:间隔一定的时间间隔(4)连续文件:直接前后连接数据仓库的存储方式:(1)虚拟存储:没有专门数据仓库数据存储(2)关系表存储:关系型数据库(3)多维数据库存储:多维数组结构文件进行数据存储29数据仓库的说明-标准手册„与管理人员、开发人员、决策分析人员及计划人员等相关。„基本内容(12项)„描述什么是DW„描述对DW输送数据的源系统„如何使用DW„如何获得帮助„谁负责什么„DW的迁入计划„DW的数据如何面向应用的数据相关联„如何为决策分析系统使用DW„什么时候不向DW中加数据„DW中没有什么类型的数据„可利用的元数据的说明„DW的记录系统是什么30数据仓库的构建与使用„数据仓库的构建包括一系列的数据预处理过程„数据清理:检测数据中的错误并作可能的订正„数据集成:从多个外部的异构数据源收集数据„数据变换:将数据由历史或主机的格式转化为数据仓库的格式„数据仓库的使用热点是商业决策行为,例如:„增加客户聚焦„产品重定位„寻找获利点„客户关系管理31数据仓库与异种数据库集成„异种数据库的集成方法„传统的异种数据库集成:(查询驱动)„在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)„查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器„数据仓库:(更新驱动)„将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析32查询驱动方法和更新驱动方法的比较„查询驱动的方法„需要负责信息的过滤和集成处理„与局部数据源上的处理竞争资源„对于频繁的查询,尤其是涉及聚集(汇总)操作的查询,开销很大(决策支持中常见的查询形式)„更新驱动的方法(带来高性能)„数据经预处理后单独存储,对聚集操作提供良好支持„不影响局部数据源上的处理„集成历史信息,支持多维查询33数据仓库设计的三级数据模型„与操作型DB的不同之处:„DW的数据模型中不包含纯操作型的数据„DW中扩充了码结

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功