第6章数据仓库技术6.1数据仓库概述6.2数据仓库的结构框架6.3数据仓库系统及开发过程6.4数据仓库管理系统中的关键技术6.5可视数据仓库6.6SAS数据仓库的结构与功能6.1数据仓库概述6.1.1数据仓库的定义•数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。•数据仓库是一种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,用户可以通过分析这些信息,从而作出策略性的决策。•也把数据仓库系统称为“决策支持系统”。6.1数据仓库概述6.1.2数据仓库查询系统的特点数据仓库系统的查询通常都非常复杂,主要有两种查询方式:1.一种以报表为主,从数据库中产生各种形式的业务报表,这种查询是预先规划好的(predefinedquery);2.另一种则是随机的、动态的查询(adhocquery),对查询的结果也是不能预料的。因此,系统的可扩展能力是必须考虑的重要因素之一6.1数据仓库概述6.1.3OLTP与OLAP的特点OLTP系统也称为生产系统,它是事件驱动、面向应用的。OLTP的基本特点如下:(1)对响应时间要求非常高;用户数量非常庞大,主要是操作人员;(2)数据库的各种操作基于索引进行。联机分析处理(onlineanalyticalprocessing,OLAP)是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。OLAP系统是跨部门、面向主题的。基本特点是:基础数据来源于生产系统中的操作数据(operationdata);响应时间合理;用户数量相对较少,其用户主要是业务决策与管理人员;数据库的各种操作不能完全基于索引进行。6.1数据仓库概述6.1.4详细数据与小结数据详细数据中包含了许多有价值的信息,经小结处理后,可能会丢失这些信息。处理原因:(1)数据仓库的引擎(数据库系统)不适合处理大量的数据;(2)降低存储系统投资。在以前,存储介质是非常昂贵的;(3)降低MIPS投资;6.1数据仓库概述•6.1.5数据仓库与数据集市数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;数据集市是部门级的,一般只能为某个局部范围内的管理人员服务。有些供应商也称为“部门级数据仓库”(departmentaldatawarehouse)。6.1数据仓库概述•6.1.5数据仓库与数据集市数据集市分类:两种;独立的数据集市(independentdatamart)从属的数据集市(dependentdatamart)。6.1数据仓库概述6.1.6数据仓库引擎的选择•所谓数据仓库引擎,就是数据库管理系统。从前面的分析可以看到,作为数据仓库引擎的数据库管理系统,其性能的优劣对整个数据仓库解决方案的成功实施起着举足轻重的作用。•衡量其数据库性能的主要指标是TPC-D;主要有3方面的数据需要考虑。(1)QppD。(2)QthD。(3)QppD。6.2数据仓库的结构框架6.2.1框架的概念和重要性1.所谓框架就是利用简化类比的集合,把复杂事物分为若干细小的易于理解的构件的方法。2.能够把数据仓库方案的各组成部分进行分离的框架称通用框架,有的也称参照结构,如图6.2数据仓库的结构框架6.2.1框架的重要性(1)提出一种通用的“蓝图”框架。(2)为实现企业的目标创建一个持久的基础,框架是实现一个目标的持久有效的方法。(3)实现可以提供可供选择的替换。(4)在参照结构框架内提供制售商的情况。(5)突出方案中有生产价值的解题成分。6.2数据仓库的结构框架6.2.2通用框架结构数据仓库参照结构把数据仓库的组成部分划分成许多块和层,块主要有数据源、数据站场、数据仓库、存取与使用;层主要有数据管理、元数据管理、传输和基础结构。块与特定的数据仓库相关,而层则表示用于实现块的环境。6.2数据仓库的结构框架6.2.3数据源块1.产品数据2.遗留数据3.内部办公系统4.外部系统5.数据源元数据6.2数据仓库的结构框架6.2.4数据仓库结构块(1)“求精”:元数据被映射为标准数据名称和定义,为被抽取数据的时间戳及其来源以及已增加的新域再创建和捕获一些元数据;(2)重构工程部分负责检验数据是否满足商业用户分析的需求;(3)数据仓库成分负责数据建模等;6.2数据仓库的结构框架6.2.5数据站场结构块数据站场中的求精与重构工程构件主要完成以下工作:(1)过滤与匹配从数据仓库中抽取的数据;将数据仓库集成到新的或重新定义的主题域;(2)创建新的概括或聚集;(3)将数据仓库中初步概括的数据求精为高度概括的数据;(4)对所有时间和来源戳的数据预测和导出新的数据。6.2数据仓库的结构框架6.2.6数据仓库的存取和使用模块由两部分组成:一是存取与检索;二是分析与报表。该块为整个数据仓库的实现提供决策性的和有价值的东西6.2数据仓库的结构框架6.2.7数据管理层模块(1)从所选的数据源中抽取并挑选数据,为进一步求精和重构工程以及存储到数据仓库中做准备。(2)从新的或当前的数据源中按需求追踪和充实新数据。(3)捕获运作数据源中数据的变化,然后刷新或更新数据仓库。从数据仓库的观点来看,主要完成的功能:6.2数据仓库的结构框架6.2.8运输层模块该模块使用了刷新与复制技术、数据传输、传送网络,以及中间件等构件,它也为传输请求提供了安全保障。运输层在硬件/软件平台之间建起了必要的信息通道,这些通道在参照结构中被不同的模块分割成一个个平台。6.2数据仓库的结构框架6.2.9基础结构层模块由系统管理,工作流程管理,存储系统和处理系统组成。提供诸如执行、管理、终止工具和应用程序等功能维护和系统管理任务多维存储系统和本地存储系统主要模块的基本操作环境6.3数据仓库系统及其开发过程6.3.1数据仓库系统(datawarehousesystem,DWS)由数据仓库、仓库管理和分析工具3部分组成6.3数据仓库系统及其开发过程6.3.2开发过程(1)启动工程。(2)建立技术环境。(3)设计主题进行数据建模。(4)设计数据仓库中的数据库。(5)数据转换程序。(6)管理元数据。(7)开发用户决策的数据分析工具。(8)管理数据仓库环境。6.4数据仓库管理系统中的关键技术6.4.1引言DSSOLAP数据开采多库系统数据仓库技术所谓数据仓库就是一个专门的数据仓储(repository),用来保存从多个数据库或其他信息源选取的已有数据,并为上层应用提供统一的用户接口,用以完成数据查询和分析。6.4数据仓库管理系统中的关键技术6.4.2系统结构数据仓库系统的基础仍是一个数据库管理系统,通过利用一个专门的数据库管理系统,对数据仓库中数据进行存储和维护。数据仓库可以是集中的,也可以是分布的,不同之处在于采用集中式DBMS还是分布式DBMS。6.4数据仓库管理系统中的关键技术6.4.2系统结构数据仓库系统多级视图机制。具体过程分为两级映射:第一级,数据将从局部数据库中,经过数据翻译、转换并具体化成符合公共模型格式的中间视图,这些具体化模型是临时性的,在生成上层模式后不必保留;第二级,经过消除语义冲突、数据集成和数据导出处理,将有关的实体化中间视图集成为满足专门应用的集成视图。6.4数据仓库管理系统中的关键技术6.4.3系统主要模块1.翻译器2.监控器3.集成器数据翻译工作包括数据结构的翻译和数据类型的翻译通过检测数据源发生的变化,监视数据仓库与数据源之间的数据误差,或者说数据增量,并报告给上层的集成器。(1)负责进行数据仓库初始化和目录管理(2)接收监控器的变化,并将数据源的新变化反映到数据仓库6.4数据仓库管理系统中的关键技术6.4.3关键技术优化处理:为了提高数据仓库的效率,需要采用一些专门的优化措施,以节省存储空间、加快响应速度、减少维护费用等。可采用的技术主要有以下3种:(1)过滤源场地上无关的修改操作。(2)可自维护性。(3)多视图的优化。其他问题(1)数据仓库的维护管理。(2)数据源的演变。(3)老化数据。6.5可视数据仓库6.5.1引言可视数据仓库是数据仓库解决方案的重要组成部分主要由以下几部分组成:数据访问数据转换数据分布数据存储靠描述性数据查找和理解数据显示分析和发掘数据数据转换过程的自动化及其管理6.5可视数据仓库6.5.2可视数据仓库的功能1.描述性数据的存储2.小型数据仓库的规模化扩展3.开发系统环境6.5.3数据仓库规模化的体系结构1.管理员2.控制数据库3.客户端管理员4.代理VisualWarehouse提供一个完整的分布式客户机/服务器系统环境,它使得用户可以充分享受到“网络计算”带来的便利,而且适用于多种平台。6.5可视数据仓库6.5.4可视数据仓库管理VisualWarehouse的管理是由其客户端管理员实现的,它使管理得以集中于一点。它包括以下6点:1.商业视图3.编辑版2.监控数据转换过程4.定期执行5.级联式商业视图(cascadedbusinessview)6.版本6.5可视数据仓库6.5.5IBM可视数据仓库解决方案IBM的VisualWarehouse提供了强有力的工具,以定义、建立、管理、监控和维护一个商用信息系统环境——数据仓库。但是,IBM并不满足于此,为了更好地满足用户的要求,IBM设计了一个完整的解决方案。1.信息分类表DataGuide将数据仓库中的所有信息分类展示给商业用户。2.查询和报表工具(1)分阶段机制。(2)容错机制。(3)异步机制。6.6SAS数据仓库的结构与功能6.6.1SAS数据仓库的体系结构数据仓库是一个适用于对企业级数据、信息的多维、快速查询、进行OLAP操作和决策支持的数据、信息的采集、管理、处理和展现的架构体系。环境(environment)是属于数据仓库的体系结构的一部分,它由两大部分组成:一部分是分别含有不同主题内容的若干个数据仓库;另一部分是对数据源的定义。这构成了从数据采集到直接应用的完整的支持体系。数据仓库(datawarehouse)可以由不同层次的多个数据仓库组成主题(detail)表系统放置的是从各个数据源取出、经过清理、整合的原始数据。6.6SAS数据仓库的结构与功能6.6.1SAS数据仓库的体系结构在汇总表组(summarygroup)中定义进行数据汇总处理时的层次维数和所分析的变量。信息市场(informationmarts)是信息市场的分组,在一项主题中可以有若干组信息市场。信息市场项目(informationmartitems)是信息市场中一项具体的信息,它是对数据仓库中的数据处理后产生的结果。数据市场组(datamartgroup)是对市场项目的分组,在一个数据库中可以有多组数据市场,这也是按内容不同进行数据分组的。运行数据定义组(operationaldatadefinitiongroup)是对要从数据源取出的数据进行定义的分组。6.6.1SAS数据仓库的体系结构SAS数据仓库有一个十分完善的体系结构,不仅为建立决策支持系统提供了完整的解决方案,而且为今后的发展留下了广阔的天地。6.6SAS数据仓库的结构与功能6.6.2SAS数据仓库的功能数据仓库是适应决策支持系统的需要而产生的,所以人们希望所采用的软件产品能支持决策过程的全部工作内容,SAS的数据仓库技术就可以支持决策全过程。(1)从任何业务处理系统或数据源中取出决策所需数据。(2)对源数据进行清理和整合。(3)按计划或规则进行数据仓库的装载和更新。(4)按决策的需要,以多种形式进行数据和信息的组织。(5)最丰富的决策数据处理能力。(6)灵活多样的数据展现方式。6.6SAS数据仓库的结构与功能SAS的功能1.SAS系统的数据存取能力2.数据的清理和整合3.数据仓库的加载和更新4.按决策需要重组数据和信息5.丰富的决策数据处理能力6.灵活多样的结果展现方式6.6SAS数据仓库的结构与功能6.6.3SAS数据仓库有助于数据开采早期:数据处理、数值计算大量繁杂事务的在线处理、生成设备的实时控制等数据处理、数据开采SAS的丰富数据采集、数据管理、数据分析和信息展现的能力,又使之成为决策支持的最好