LOGO企业集团数据仓库系统关键技术宋旭东软件学院主要内容1.绪论2.数据仓库系统基本概念3.企业集团ETL技术4.企业集团数据仓库技术5.企业集团联机分析处理技术6.企业集团数据挖掘技术7.企业集团决策支持技术8.总结1绪论课题的研究背景和意义课题的国内外现状目前存在的问题本文研究的主要工作研究的背景及意义在知识经济时代,企业更多关注如何提高自身的竞争力?从现代管理技术的角度,集团化运营已成为企业提升自身竞争力的必然趋势,许多同行业企业进行了资产重组,组建了企业集团。从信息技术的角度,人们开始把企业信息化作为改善企业管理业务活动,建立现代企业制度的重要手段。研究的背景及意义随着企业集团信息化进程的不断深入,企业面临问题:数据的过度冗余而导致“数据过剩”现象.缺乏基于海量数据的知识发现,导致“信息贫乏”现象。研究的背景及意义解决问题的关键是:要建立一个全局化的、综合的信息集成平台,将这种行之有效的机制称为数据仓库(DataWarehouse,DW)。如何从浩瀚的数据海洋中迅速、准确无误地提取企业集团经营管理所需的有价值的信息,挖掘出隐含在内的大量规律,是决策者的当务之急!研究的背景及意义然而,一个独立的数据仓库是没有实际意义的,必须将联机分析处理(On-LineAnalysisProcessing,OLAP)、数据挖掘(DataMining,DM)、决策支持等技术结合起来,才具有强大的生命力,而数据仓库系统正好就是这些相关技术的组合。本课题针对企业集团研究数据仓库系统的若干关键技术,其意义在于:给出一个完整的企业集团数据仓库系统体系结构,并且针对每一组成部分提出高效、可用的实现技术和开发方法,从而使得数据仓库的理论得到发展,并且为企业集团在数据海洋中迅速发现、集成有用的信息(知识)提供支持。课题的国内外研究现状1993年Inmon首次提出了数据仓库概念:“是一个面向主题的、集成的、随时间变化的、非易失性的数据集合,用以支持管理层的决策过程”。目前,众多专家学者对数据仓库面临的主要问题做了广泛而又深入地讨论,主要包括:数据仓库体系结构数据仓库建模与设计数据仓库操作问题新应用与新环境下的数据仓库构建课题的国内外研究现状会议:“ACM数据仓库和联机分析国际会议”、“数据仓库与知识发现国际会议”、“ACM-SIGMOD数据管理国际会议”(SIGMOD),“超大型数据库国际会议”(VLDB),“ACMSIGACT-SIGMOD-SIGART数据库原理研讨会”(PODS),“数据工程国际会议”(ICDE),“扩展数据库技术国际会议”(EDBT),“数据库理论国际会议”(ICDT),“信息与知识管理国际会议”(CIKM),“数据库与专家系统应用国际会议”(DEXA),和“数据库系统高级应用国际研讨会”(DASFAA)。期刊:《IEEE知识与数据工程汇刊》(TKDE),《ACM数据库系统汇刊》(TODS),《ACM杂志》(JACM),《信息系统》,《VLDB杂志》,《数据与知识工程》,《智能信息系统国际杂志》(JIIIS),《知识与信息系统》(KAIS)和《决策支持系统》等。课题的国内外研究现状国内对数据仓库及其相关技术的研究稍晚,但进展较快。国内的中科院、清华大学、北京大学、中国人民大学、北方交通大学、国防科技大学、东南大学、浙江大学、复旦大学、吉林大学、东北大学、哈尔滨工业大学、四川大学、华中科技大学、上海交通大学、大连理工大学、南京航空航天大学、重庆大学、南京理工大学、山东大学。课题的国内外研究现状数据仓库界最知名的R.Kimbal博士提出了数据仓库业务维度生命周期开发方法和数据仓库的总线结构。加拿大SimonFraser大学智能数据库系统研究实验室开发的多任务知识发现系统-DBMiner。IBM公司Almaden研究中心开发的多任务KDD系统QUEST。SAS公司推出的EnterpriseMiner、微软公司推出的SQLSever、SPSS公司的Clementine、Sybase公司的WarehouseWorkbench、ORACLE公司的OracleWarehouseBuilder等。课题的国内外研究现状国内对数据仓库及其相关技术的研究稍晚,但进展较快。中国科学院史忠植教授等人提出MSMiner平台。复旦大学的朱扬勇教授建立了国内著名的“数据挖掘讨论组”网站()。四川大学的唐常杰教授,华中科技大学的冯玉才教授中国人民大学的王珊教授、孟小峰教授和杜小勇教授,复旦大学的施伯乐教授,国防科技大学的陈文伟教授,哈尔滨工业大学李建中教授和刘大昕教授,东北大学的于戈教授在数据挖掘和数据仓库方面都做了许多有益的尝试。目前存在问题迄今为止,人们对数据仓库系统做的更多的是某个具体技术论述,相对很少有对整个系统结构进行论述,对企业集团的数据仓库系统的论述更未见报道。针对企业集团数据仓库系统,我们认为目前存在下述问题急需解决:(1)如何设计面向企业集团的数据仓库系统体系结构?(2)如何实施企业集团ETL?(3)如何开发企业集团数据仓库?(4)如何设计并实现企业集团联机分析处理?(5)如何实施企业集团数据挖掘?(6)如何完成企业集团决策支持服务?2数据仓库系统基本概念数据仓库系统定义统一视图模型基本概念数据仓库系统体系结构数据仓库系统相关技术概述数据仓库系统定义数据仓库系统定义(用下面的一个组合公式表示):DWS=ETL+DW+OLAP+DM+DS其中:DWS-DataWarehouseSystem(数据仓库系统);ETL–Extraction/Tranformation/Loading(抽取/转换/加载);DW-DataWarehouse(数据仓库);OLAP–On-LineAnalyticalProcessing(联机分析处理);DM–DataMining(数据挖掘);DS-DisicionSupport(决策支持)数据仓库系统体系结构现美国伊利偌伊大学的JiaweiHan教授提出的三层数据仓库体系结构南京航空航天大学皮德常博士提出的面向仓库内数据组织的数据仓库体系结构上述一些数据仓库体系结构能够包含数据仓库、联机分析处理、数据挖掘等相关概念,但并不是真正意义上的数据仓库系统体系结构,更不是面向集团型的企业,它们对数据仓库中数据的一致性体现的不够充分,没有站在领域的角度设计面向整个集团的数据仓库事实表和维表。统一视图模型基本概念定义1.统一视图(UView)统一视图是在一个全局数据环境应用中,具有统一属性、统一度量、统一分类的查询模式,可用三元组描述,即UView::=DKS,MAS,VDS。DKS是构成该视图的所有统一维关键属性的集合,即DKS={DKA1,DKA2,......,DKAm},其中DKAi是抽取的的第i个统一维中的关键属性;MAS是构成该视图的所有统一度量属性的集合,即MAS={MA1,MA2,......,MAk},其中MAi是抽取的第i个统一度量属性;VDS是构成该视图的用来描述该视图的统一属性集合,即VDS={VDA1,VDA2,......,VDAn},其中VDAi是抽取的第i个描述统一属性,用来表示统一视图的相关信息,例如:统一视图的名称、在统一视图模型中的分类等等。统一视图模型基本概念定义2.统一视图模型(UnifiedViewsModel,UVM)统一视图模型可以定义为全体统一属性、全体统一维及全体统一视图的集合,即UVM::=UAttribute,Dime,UView,它是全局数据环境下,能够为所有主题数据仓库提供抽取来源的统一数据模式描述。数据仓库系统体系结构数据仓库系统体系结构面向领域工程的统一视图模型的确立领域工程是为一组相似或相近系统的应用工程建立基本能力和必备基础的过程,它覆盖了建立可复用的软件构件的所有活动。其中“领域”是指一组具有相似或相近软件需求的应用系统所覆盖的功能区域。我们按照领域工程的方法进行企业集团数据仓库领域统一视图模型的分析与设计,其模式具体内容要取决于企业用户实际的决策分析需求,其模型化过程如下:步骤1:依据企业集团用户决策分析的实际需求,通过调查、论证以及分析,获取企业集团数据仓库领域需求,形成“企业集团数据仓库领域需求分析说明书”。数据仓库系统体系结构面向领域工程的统一视图模型的确立步骤2对企业集团数据仓库领域所涉及的数据对象进行抽象,结合相关领域的信息、编码、术语的标准规范,参照统一属性库中关于统一属性的语义说明,及统一维库中的维度说明,定义基于统一属性的统一视图。统一视图中的属性需要从各个维表或标准属性库中选取。可以把一致性维度定义为统一视图模型中的“总线”,通过为特定数据环境定义的一种总线标准接口,就可以将新的统一视图加入统一视图模型中。生成的统一视图既有行业领域的通用信息又结合了本企业集团的具体特有信息。数据仓库系统体系结构面向领域工程的统一视图模型的确立步骤3用分类树的方法,按照数据对象所归属业务系统的实际情况进行分类,并通过适度的细化过程,形成一棵面向问题域的统一视图分类树,它构成了统一视图模型的主体结构。由于不存在绝对的统一视图抽象方法,因此对于统一视图分类树的生成,要求建模人员尽可能真实地反映企业用户决策分析问题域的情况。例如:针对某钢铁企业集团,建立统一视图分类树。对应业务系统,树中有销售、库存、生产、财务、设备、质量、采购、物资、人力资源等9个分支,每个分支下有若干统一视图。在销售分支下,可定义一个销售合同统一视图,视图包括若干统一属性,如:合同号、客户编码、生产号、产品类别、流向、材类别、钢类、销售公司、标准、加工用途、交货状态、冶炼方法、订货量、交货年月、合同说明。在生产分支下,可定义一个生产物料跟踪统一视图,视图包括:生产号、生产批次、炉号、工序号、分厂、班组、设备、生产量、完成时间、物料状态。数据仓库系统体系结构面向领域工程的统一视图模型的确立步骤4依据问题描述的实际需求,企业集团标准中心或信息中心,可及时向标准属性库中补充新的标准属性,或向统一维库中添加新的统一维。3企业集团ETL技术基于统一视图模型的ETL体系结构基于统一视图模型的ETL过程建模基于统一视图模型的ETL过程实现数据仓库系统ETL任务调度模型基于统一视图模型的ETL体系结构目前常见的数据仓库ETL体系结构如图3.1所示,数据从操作型数据源和外部数据源流出,经过ETL,即数据抽取-转换-装载到数据仓库中。数据源1数据仓库外部文件数据源nETLSMTMWM数据源数据仓库ETL过程基于统一视图模型的ETL体系结构复杂性、可用性和可维护性是这些ETL工具面临的主要问题,无法适应企业集团数据抽取、转换和加载需求,这主要体现在以下几个方面:①对源数据模式的理解②对企业集团多数据仓库ETL过程维护基于统一视图模型的ETL体系结构面向集团型企业,为降低ETL过程的复杂性,我们一方面将一个复杂的ETL过程分解为一系列的ETL操作;另一方面,我们提出了基于统一视图模型的ETL体系结构,将这些ETL操作按照不同的功能分解到基于统一视图模型的ETL体系结构中。面向企业集团的数据仓库ETL体系结构包括资源数据层、统一视图层、数据仓库层3个层次,通过引入统一视图中间层及两级抽取映射方法,实现了源数据的透明抽取及访问。这种体系结构不仅降低了数据仓库ETL过程的复杂性,还可以确保ETL过程的可用性和可维护性。基于统一视图模型的ETL体系结构我们为ETL过程定义了9个ETL基本操作,如表3.1所示:ETL操作描述Wrapper将数据变换为基于记录形式的数据Union基于相容属性合并多个数据源Join通过公共属性连接两个数据源Filter过滤并验证数据Clean清理无效或不正确数据Conversion改变数据类型或格式Calculate用存在数据产生新计算数据Aggregate基于某种条件汇总数据Load加载数据进入数据仓库基于统一视图模型的ETL体系结构基于统一视图模型的ETL体系结构我们提出的基于统一视图模型的数据