数据仓库技术主要内容数据仓库的发展数据仓库与数据库的区别数据仓库的定义数据仓库系统的结构数据仓库建模OLAP数据仓库与数据挖掘的关系数据仓库技术的发展信息已成为人类社会中除了物质、能量之外的第三大资源。社会的信息化,使信息量急剧增长,大量的信息来不及组织和处理。奈斯比特在《大趋势》中说:“我们正在被信息所淹没,但我们却因为缺乏知识而感到饥饿。”从数据库到数据仓库由数据库(DB)发展到数据仓库(DW)主要有几点原因:数据太多,信息贫乏(datarich,informationpoor)随着数据库技术的发展,企事业单位建立了大量的数据库,数据越来越多,而辅助决策信息却很贫乏,如何将大量的数据转化为辅助决策信息成为了研究的热点。异构环境数据的转换与共享由于各类数据库产品的增加,异构环境的数据随之增加,如何实现这些异构环境数据的转换和共享也成了研究的热点。利用数据进行事务处理转变为利用数据支持决策数据库用于事务处理,若要达到辅助决策,则需要更多的数据,例如:如何利用历史数据的分析来进行预测。对大量数据的综合得到宏观信息等均需要大量的数据。数据仓库与数据库的区别1、数据库用于事务处理,而数据仓库则用于决策分析。2、数据库保持事务处理的当前状态,而数据仓库既保存过去的数据也保存当前的数据。3、数据仓库的数据是大量数据库的集成。4、对数据库的操作比较明确,操作数据量少;而对数据仓库的操作不明确,操作数据量大。数据库与数据仓库的详细对比数据库数据仓库数据库数据仓库面向应用面向主题一个操作存取一个记录一个操作存取一个集合数据是详细的数据是综合或提炼的数据非冗余数据时常冗余保存当前数据保存过去和现在的数据操作频繁相对不频繁数据可更新数据几乎不更新事务处理需要当前数据决策分析需要过去和现在的数据重复地操作数据启发式地操作数据很少有复杂计算很多复杂的计算操作需求事先可知操作需求临时决定支持事务处理支持决策分析什么是数据仓库?Adatawarehouseisasubject-oriented,integrated,nonvolatile,andtime-variantcollectionofdatainsupportofmanagement’sdecisions.数据仓库之父——BillInmon面向主题的集成的非易失的时变的支持管理决策面向主题汽车人寿健康意外顾客保险单保险费索赔操作性环境主题转化围绕应用针对具体业务固有的业务主题作为处理的主体主题:是指用户使用数据仓库进行决策时所关心的重点方面。集成的时长-秒应用D应用A应用B应用C男,女m,f1,0x,ym,f编码应用D应用A应用B应用C时长-6秒时长-秒时长-分时长-1/10分属性度量char(10)应用D应用A应用B应用Cstring(10)char(10)datevarchar(18)冲突的格式应用D应用A应用B应用C描述描述描述描述描述多重信息源操作型环境数据仓库集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总,因此数据仓库中的信息是关于整个企业的一致的全局信息。非易失的一旦数据载入数据仓库以后,一般很少进行修改,更多的是对信息进行访问查询操作。数据仓库载入访问操作型环境修改访问删除修改插入删除插入时变的是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时刻到当前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。195019511952……200020012002……2012时间轴数据仓库的特点数据仓库最根本的特点是物理地存放数据,这些数据不是最新的、专有的,而是来源于其他数据库。到目前为止,数据仓库主要用数据库管理系统来管理其中的数据。数据仓库不是一个可以直接买来使用的现成产品,它是一种解决方案。在很多场合,也把数据仓库系统称为“决策支持系统”。数据仓库的用户不是终端操作人员,而是业务部门的相关决策人员。数据集市数据仓库在全组织范围内为各个部门提供管理、决策支持,而数据集市通常在部门级,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。数据集市还具有以下特点:1.规模较小、灵活,可以按照多种方式来组织,如按特定的应用、部门、地域、主题等。2.开发工作一般由业务部门主持定义、设计、实施、管理和维护。3.能够快速实现,代价较低,投资回收期短,风险小。4.有利于进一步升级到完整的数据仓库或形成分布式数据仓库。数据集市的类型独立数据集市从属数据集市数据仓库数据仓库数据集市数据集市为了保持数据一致性,需要设计多个数据转换程序,把各种信息系统的数据转换到每个数据集市中。系统变得非常复杂难于维护投资方面得不偿失,软硬件投资成比例增加。硬件平台或数据库在扩展方面闲置太多,并行处理能力不够,无法处理海量数据。数据集市数据集市数据集市数据仓库系统的结构数据仓库系统(DWS)由数据仓库、仓库管理和分析工具三部分组成。关系数据库数据文件其他数据仓库管理工具抽取、转换、装载元数据库数据建模工具综合数据当前数据历史数据用户查询工具C/S工具OLAP工具DM工具源数据仓库管理数据仓库分析工具仓库管理:包括对数据的归档、备份、维护、恢复等工作,需要利用数据库管理系统的功能。在确定数据仓库信息需求后,首先进行数据建模,确定数据仓库的物理存储结构。将源数据集成,装载到数据仓库中的过程。用于存储数据模型、定义数据结构、转换规则、仓库结构、控制信息等。数据仓库的自顶向下结构数据仓库中包含全部的元数据、当前详细数据、详尽历史数据;采取实体关系(E-R,EntityRelationship)数据模型。数据集市包含轻度和高度综合的数据及元数据;采用星型数据模型。只要满足数据集市是数据仓库的子集,数据仓库和数据集市之间的集成就能自动完成,不会构成“蛛网”。数据数据数据数据ETL数据仓库元数据数据集市数据集市数据集市这种模式要求先建立数据仓库,但是由于数据仓库建设规模较大,实施周期长,费用高,初级效果并不明显,甚至最终失败。数据仓库的自底向上结构多级数据仓库的思想,即建立数据集市的思想。从小做起,从部分做起,走逐步集成、逐步完善的道路,最终建立全局数据仓库。数据数据数据数据ETL数据仓库元数据数据集市数据集市数据集市数据集市ETLETLETL从长远来看,这种结构不能提供通用的元数据部件,没有共享的元数据,很难基于数据集市建立数据仓库。企业级数据集市结构基于数据集市构建数据仓库的由小到大,由部分到整体的思想,提出了企业级数据集市结构。数据数据数据数据ETL数据仓库共享元数据中心库层数据集市数据集市数据集市应用服务器数据仓库的数据组织早期细节数据当前细节数据轻度综合数据高度综合数据元数据元数据元数据(metadata)定义为“关于数据的数据”;是处于操作数据后面的数据,用于描述其起源、意义和由来等。元数据实际上是一些这样的信息目录,包括黄页、导航数据仓库的路标和“兴趣点”。如果没有元数据,信息就会简化成一堆没有意义的数据。7575%的人买了面包之后,有可能买牛奶。实体元数据的一个范例实体名称:客户可选名称:顾客,账户定义:客户就是从公司中至少购买一次商品或服务的人或企业创建时间:1992年1月15日上次更新时间:1995年4月5日关键字:客户标识,客户定位更新周期:每月抽取归档周期:6个月后归档数据服务员:高建秋数据业主:张英雄访问模式:上次访问日期为1995年5月30日属性元数据的一个范例属性名称:客户名可选名称:账户名,顾客名定义:客户名是个人或企业所用的正式名称创建日期:1992年3月30日上次更新日期:1995年4月5日数据来源:汇票入口系统,客户文件属性石账户名转移/转换信息:从20字符至35字符概括/推导算法:无缺省值:无多个运作资源:无元数据在数据仓库中的用途起到辅助决策分析过程中定位数据仓库的目录作用。数据从业务环境向数据仓库环境传送时数据仓库的目录内容。指导从近期基本数据到轻度综合数据和到高度综合数据的综合算法选择。数据仓库建模数据仓库一般按照主题来建模,主要包括星型模型、雪花模型等。订货单销售员号客户号产品号日期标识地区名称数据量总价产品号产品名称产品目录单价日期标识日月年地区名称省别订单号订货日期销售员号销售员姓名城市客户号客户名称客户地址事实表订货单销售员客户表产品表日期表地区表星型模型星型模式DateMonthYearDateCustIdCustNameCustCityCustCountryCustSalesFactTableDateProductStoreCustomerunit_salesdollar_salesYen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore雪花模型是对星型模型的扩展,是对星型的维表进一步标准化。雪花模型要对星型模型的维表作进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。订货单销售员号客户号产品号日期标识地区名称数据量总价产品号产品名称产品目录单价日期标识日月年地区名称省别订单号订货日期销售员号销售员姓名城市客户号客户名称客户地址事实表订货单销售员客户表产品表日期表地区表产品目录目录描述省别省信息省表目录表雪花模型雪花模式DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTableDateProductStoreCustomerunit_salesdollar_salesYen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStore商品-城市-日期维多维数据模型1234567果汁矿泉水牛奶香烟啤酒白酒广州深圳北京联机分析处理-OLAP60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格而非文件存储)。1993年,E.F.Codd认为OLTP已不能满足终端用户对数据库查询分析的需要。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而SQL查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP是目前RDBMS不可缺少的功能,可以作为一个独立的OLAP服务器实现,也可以集成在RDBMS中。什么是OLAP?定义1:OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。定义2:OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP的数据源联机事务处理ERP档案文件数据仓库,数据集市,操作性数据库表格OLAP基本概念维:是人们观察数据的特定角度,是考虑问题时的一类属性(时间维、地理维等)。维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,…,维n,变量)。(时间