数据仓库与数据挖掘李志刚教授第5章数据仓库的工具本章要点:1.如何选择数据仓库产品2.一般数据仓库产品的组成3.常见的数据仓库产品数据仓库与数据挖掘李志刚教授5.l数据仓库产品选择5.1.1数据仓库产品的组成5.1.2数据仓库产品应具备的关键技术5.1.3数据仓库的发展趋势5.1.4如何选取数据仓库工具数据仓库与数据挖掘李志刚教授5.l.l数据仓库产品组成数据集市关系数据库数据源数据准备区各种服务工具等等。数据仓库与数据挖掘李志刚教授1.数据集市数据集市是数据仓库的子集,是按主题从数据仓库中划分出来的数据集合。数据集市通常按职能部门为单位为其提供数据,例如,销售部门、财务部门、库存部门等的数据集市。由于数据集市中只包含面向某个主题的数据,因此数据量比较小,方便与各种分析工具建立连接,利于用户使用。数据仓库与数据挖掘李志刚教授2.关系数据库关系数据库是数据仓库中非常重要的组成部分,数据仓库要想发挥出真正的威力必须由关系数据库为其提供强大的基础引擎。在数据仓库的应用过程中关系数据库为其提供了许多必不可少的功能,如在数据准备数据库中临时储存、清理、转换传入的数据;为数据仓库提供存储引擎、快速传输和修改、以及灵活的索引机制,容纳和管理数据仓库中海量的数据并支持数据集市。数据仓库与数据挖掘李志刚教授3.数据源使用数据仓库的最根本目的是为了向企业决策者提供各种决策信息,因此数据仓库必须要将企业内部或外部的各种信息集中起来,合并为一致的数据集。这些数据的来源各不相同,可以来自关系型数据库中的数据,也可以来自各种电子表格,甚至是文本数据。在一个大型企业中通常会存在多个OLTP系统来捕获日常业务运作情况,这些OLTP系统由不同的部门设计并使用不同的数据结构和数据元素,虽然这些数据源的数据不能直接用于决策支持,但是也必须将它们捕获到数据仓库中,因为这些长期积累的数据是建立数据仓库的重要基础数据仓库与数据挖掘李志刚教授4.数据准备区数据仓库从不同的数据源抽取数据后,需要对这些数据进行清理和格式化以保证与其他保存在数据仓库中数据的一致性。数据准备区又被称为数据中间存储区,实际上数据准备区也是一个关系型数据库,数据仓库从其他数据源提出的数据首先要保存在这个关系型数据库中,在这里将数据转化为数据仓库要求的统一格式,并检查数据的一致性和引用完整性,并准备装载入数据仓库的数据库中。通常情况下,数据准备区和数据仓库是分开的,但是如果对数据的清洗和转换操作不影响到数据仓库为最终用户提供服务的性能,数据准备区和数据仓库也是可以合并在一起的。数据仓库与数据挖掘李志刚教授5.服务工具建设数据仓库的目的是为决策者提供必要的决策数据,因此根据决策者的要求为了提供决策者所需要的信息,数据仓库必须使用相关工具来帮助它分析和评估数据仓库中浩瀚的数据,例如在线分析处理(OLAP)、数据挖掘工具、预定义报表等等。另外,数据仓库也必须留有相关的应用程序接口(API)以支持用户开发自定义的数据仓库服务工具。数据仓库与数据挖掘李志刚教授5.1.2数据仓库产品应具备的关键技术1.海量数据的管理能力数据仓库为了支持决策分析存储了海量的数据以用来分析计算,因此数据仓库产品中最关键的技术就是如何来管理这些海量的数据,通过索管理、有效溢出管理等技术能够实现对数据仓库中大量数据的管理要求,通常用户在选购数据仓库产品时首先考虑的就是数据仓库产品对海量数据的管理能力能否满足自身的要求。2.强大的索引管理功能一个高质量的数据仓库产品必须能够对数据进行方便快捷高速高效的访问,这就要求数据仓库产品能够使用索引技术建立适当的关键数据索引,如二级索引、临时索引、稀疏索引等索引技术,同时还要能够保证建立、使用和管理这些索引所付出的代价不能太高。数据仓库与数据挖掘李志刚教授5.1.2数据仓库产品应具备的关键技术3.对数据的监控能力如果数据仓库产品希望在大型的应用环境中使用,那么它必须具备对数据的监控能力。在数据仓库运行的过程中,数据监控组件要一直对数据仓库中的数据进行实时的监视,通过收集数据访问信息区分出那些数据是经常被使用的,那些是很少被使用的、那些索引建立的不恰当、那些数据应该进行重新的分类组合等等。而且数据监控组件还要对硬件系统资源的使用情况进行跟踪监控,如内存和cpu的使用率、硬盘空间的剩余情况、并发用户的数据、并发线程的数量等。数据仓库与数据挖掘李志刚教授5.1.2数据仓库产品应具备的关键技术4.对多种存储介质的管理能力在数据仓库中有很多因素会影响到数据存储介质的选择问题,如数据的使用率、数据粒度的选择等等,对于那些经常使用的数据必须存放在存取数据很快的介质上以提高数据仓库系统的反映时间,但通常来说,存储介质速度的快慢要与其价格成正比,这样对于那些不会被经常使用到的数据就需要放在低速介质上来降低整体成本。因此数据仓库产品必须能够提供对多种不同存储介质的管理能力,这也是实现数据仓库存储多样性的必然要求。在目前常用的存储介质中价格昂贵但存取速度非常快的有系统内存、高速缓存;价格较贵存取速度较快的有各种硬盘设备;价格较低但存取速度也较慢的有光盘和磁带等。数据仓库与数据挖掘李志刚教授5.1.2数据仓库产品应具备的关键技术5.对元数据的管理元数据是“关于数据的数据”,它与数据仓库中数据的生命周期有关,因此在数据仓库中占有非常重要的地位。数据仓库的开发设计与实现并不是一劳永逸的,而是一个不断重复,逐渐完善的过程,因此管理好元数据为今后对数据仓库的修补、新功能的添加等提供了重要的保证。元数据的主要内容包括数据仓库中表的结构、属性、数据仓库的记录系统、从记录系统到数据仓库的映射关系、数据的抽取日志、访问数据的例行程序、数据模型的说明等。数据仓库与数据挖掘李志刚教授5.1.3数据仓库的发展趋势1、从数据仓库技术的发展角度分析数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,同时与Internet/Web技术紧密结合,推出适用于Intranet、终端免维护的数据仓库访问前端。在这个方面,按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备。数据仓库与数据挖掘李志刚教授5.1.3数据仓库的发展趋势2、从企业角度分析未来的发展将是不提供完整解决方案的厂商可能被其他公司收购,例如从事数据抽取、提供专用工具的软件公司很可能并入大型数据库厂商而去构建完整的解决方案。能够持续发展的厂商大致有两类:一是拥有强大的数据库、数据管理背景的公司;二是专门提供面向具体行业的、关于数据仓库实施的技术咨询的公司。3、从用户的角度分析数据管理的传统领域,如金融、保险、电信等行业中的特定应用,如信用分析、风险分析、欺诈检测等,是数据仓库的主要市场之外,数据仓库的应用随着现代社会商业模式的变革而进一步普及和深入。大规模的定制不仅是一种制造过程、后勤系统、或者推销策略,它很可能成为下一世纪企业生产的组织原则,就像成批生产是本世纪的组织原则一样。在未来大规模定制经济环境下,数据仓库将成为企业获得竞争优势的关键武器。数据仓库与数据挖掘李志刚教授5.1.4如何选取数据仓库工具1、了解企业的商业需求。第一步就是要了解企业对数据仓库产品的应用范围,是要建立企业级数据仓库、部门级数据仓库还是个人级数据仓库?接下来我们需要了解数据仓库产品的用户群体有哪些、预期的用户数量有多少、用户的地理分布是集中还是分散。然后我们要弄清楚企业建立数据仓库的用途和功能,充分了解用户需要利用数据仓库进行哪些领域的工作,需要哪些特殊功能,是只需要简单的数据查询,还是需要利用多维数据分析,甚至是复杂的数据挖掘。最后我们要了解目前企业进行数据分析的工作流程是怎样的,目前分析中有哪些困难和有哪些急需解决的问题等等。数据仓库与数据挖掘李志刚教授5.1.4如何选取数据仓库工具2、需要了解数据仓库系统的需求。在充分了解商业需求的基础上我们需要进一步了解数据仓库系统本身的需求信息。例如需要估算系统可容纳数据的数量,了解数据的稳定性以及刷新的速度等。特别需要强调的是,在数据仓库系统中元数据的维护是非常重要的,如果元数据是由非专业的用户来维护,那么系统需求就要强调维护工具表达的直观性;如元数据由专业的技术人员来维护则把需求重点放在维护工具的效率上面。3、对各种数据仓库产品做出功能评估数据仓库与数据挖掘李志刚教授5.1.4如何选取数据仓库工具功能评估应该包括以下几个方面:(1)系统结构:系统的跨平台型、系统的安全性、可靠性、系统的备份恢复能力等。(2)数据抽取能力:数据转化功能的强弱、定时调度能力、数据抽取的速率等。(3)数据存取呈现能力:支持多维查询能力、是否具有良好的用户端界面、是否支持OLAP分析能力等等。(4)应用支持:系统提供的可重用软件成分的多少、软件的跨平台性、是否有良好的应用程序开发语言、数据库对存储过程的支持情况等。(5)用户接口:用户界面的美观性、易用性、对WEB平台的支持程度等。(6)工具的互操作性:数据库、数据仓库、OLAP分析、数据挖掘以及前端展示工具间的互通情况。数据仓库与数据挖掘李志刚教授5.2常用数据仓库产品简介Oracle9iNCRTeraDataIBMDB2SASMicrosoftSQLServer2005的数据仓库工具数据仓库与数据挖掘李志刚教授5.2.1Oracle9i1、Oracle9i数据仓库的新特性Oracle数据仓库作为一种企业级关系型数据仓库管理系统在信息管理、企业数据处理、因特网及电子商务等领域被广泛的应用。随着2001年Oracle9i系列产品的推出,Oracle将产品的重心向电子商务环境转移并继续关注于Internet,为此Oracle9i提供了许多新功能新特性。(1)可管理性可管理性是Oracle9i数据仓库产品的关键改进方面之一,Oracle9i采取的管理方法有4个方面:改进和流线化的数据仓库操作管理端到端的系统管理解决方案简化任务和减少管理时间关键领域数据库的自我管理数据仓库与数据挖掘李志刚教授5.2.1Oracle9i(2)Internet内容管理Oracle9i大大增强了Oracle8i数据仓库的功能,以充当创建、管理和传递Internet内容的平台,允许客户将所有类型的多媒体内容存储、管理和聚集到单一数据库中,另外还包括:支持随时可移动的内容存储和管理所有类型的内容有效的搜索和索引所有类型的内容为协作项目组织内容数据仓库与数据挖掘李志刚教授5.2.1Oracle9i(3)提供端到端的安全体系结构Oracle9i为用户提供了目前为止业界最安全的应用程序开发和部署平台,其中包括以下几个部分:提供强壮的三层安全保证托管环境的安全深层数据库保护改进的企业用户安全(EnterpriseUserSecurity)数据加密和标签安全(OracleLabelSecurity)基于标准的公共密钥体系结构(PKI)数据仓库与数据挖掘李志刚教授5.2.1Oracle9i(4)点击智能服务点击智能服务依靠OracleClickstreamIntelligence组件来实现,作为Oracle9iApplicationServer的一个组件它能够分析网站数据和企业数据并用以来提高网站效率和企业用户忠诚度。它利用Oracle数据仓库开发工具的开放数据模型来提供一个预先建立的、公开的数据集,并使用Oracle的门户框架提供一套预先建立的报表。Oracle