1北京大学学士学位论文多维数据模型在中科院资源规划系统的应用和分析姓名:张海燕`学号:00317226系别:软件与微电子学院年级:二零零三级专业:软件工程导师:陈钟教授二零零五年四月十五日2版权声明任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。3摘要随着市场竞争的加剧以及信息社会需求的发展,从大量数据中提取信息并用之于决策分析的要求显得越来越迫切。近年来,数据仓库、OLAP和数据挖掘等面向决策支持的技术飞速发展。本文主要针对多维数据模型在ARP项目信息资源中心数据中的应用进行研究和分析。中国科学院资源规划项目(AcademiaResourcePlanning,简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。ARP项目从中国科学院院所两级治理结构出发,以科技计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、资金、科研基础条件等资源配置及相关管理流程进行整合与优化,构建有效的管理服务信息技术平台。通过ARP项目的实施,进一步推进中国科学院管理创新,不断提升管理工作水平和效率,促进科技创新和人才培养效益的最大化。本论文针对中科院数据信息量大、稀疏度高、维度高、要求增量更新等特点,结合多维数据模型的应用,对目前的OLAP技术及多维数据模型进行比较分析关键字:多维数据模型联机分析处理ARP数据展示4目录摘要……………………………………………………………………………………………….2目录……………………………………………………………………………………………….4第一章引言…………………………………………………………………………………….51.1研究背景…………………………………………………………………………...51.2本论文工作……………………………………………………………………………...51.3本论文组织结构………………………………………………………………………...5第二章数据仓库及多维数据模型基本概念…………………………………………….62.1数据仓库技术…………………………………………………………………..62.1.1定义…………………………………………………..62.1.2体系结构………………………………………..62.2多维数据模型……………………………………………………..72.2.1维…………………………………………………………………..72.2.2维的概念分层……………………………………………………………………..72.2.3度量……………………………………………………………………..72.2.4数据立方体……………………………………………………………………..7第三章ARP中IRC需求分析………………………………………………………83.1IRC总体需求……………………………………………………………….83.2多维分析需求………………………………………………………………………….83.2.1用户需求………………………………………………………….93.2.2需求分析……………………………….103.2.2.1数据立方……………………………….103.2.2.2维度描述…………………………….113.2.2.3事实分析…………………………….14第四章基于多维数据模型的IRC设计………………………………………………174.1IRC总体设计………………………………………………………………….174.2多维数据模型存储……………………………………………………….174.3多维数据模型前台实现……………………………….18第五章多种多维数据模型的比较与分析………………………………………………205.1多种OLAP比较分析………………………………………………………………….205.2多种多维数据模型比较分析………………………………………………………….215.3IRC基于OLAP和多维数据模型满足需求所做的设计……………………………….225.4IRC应用发现目前多维数据模型仍然存在的问题………………………....22第六章本文工作总结………………………………………………………………………….246.1工作总结………………………………………………………………….246.1工作展望………………………………………………………………….24参考文献………………………………………………………………………………………….25致谢……………………………………………………………………………………………….265第一章引言1.1研究背景自从20世纪60年代以来,数据库和信息技术已经系统地从原始的文件处理演化到复杂的、功能强大的数据库系统。E.F.Codd于1970年提出了关系数据库理论。在此基础上发展的关系数据库技术逐渐成为市场主流,有力地推动了社会信息化进程。信息和知识是企业最宝贵的资产和资源。企业信息系统的长期运行为企业积累了大量的业务数据。但是,这些数据并没有得到充分的利用,人们迫切的需要将这些数据转化为有用的信息和知识。上个世纪九十年代以来,随着计算机硬件技术的飞速发展,在各类分析型应用的推动下,学术界和工业界对支持管理决策的相关技术进行了广泛和深入的研究和开发。数据仓库(DataWarehouse)概念的形成是以PrismSolutions公司副总裁W.H.Inmon在1992年出版的《建立数据仓库》(BuildingtheDataWarehouse)为标志的。数据仓库的提出是以关系数据库、并行处理技术和分布式技术的飞速发展为基础的,它是解决信息技术(IT)在发展过程中虽然拥有大量数据却缺乏有用信息(Datarich_Informationpoor)的综合方案。一年以后,关系数据库理论的创始人E.F.Codd在数据仓库概念的基础上又提出了与联机事务处理(OnlineTransactionProcessing,简称OLTP)相对应的联机分析处理概念。联机分析处理是针对特定问题的联机数据访问和分析。它侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策人员,以便他们能准确掌握企业的经营状况,了解市场需求,制定正确方案,增加效益。数据挖掘是上世纪90年代以来迅速发展的一项新技术。它指的是从大量的实际应用数据中,自动发现提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘作为数据分析和决策支持的强有力的手段,涉及的应用领域非常广泛。针对不同行业的不同问题,数据挖掘有不同的概念和方法,包括关联分析(Associationgs)、分裂分析(Classifiers)、聚类分析(Clustering)和序列模型分析(SequentialPatterns)等等。关联分析是一种非常重要的数据分析方法,其目的是为了挖掘在隐藏在大量数据间的有趣的相互联系,从而帮助制定商务决策。多维关联分析与传统关联分析的最大不同之处就是其多维多层的特性。用户可以发现不同角度、不同抽象层之间的相关关系。如何能够从海量数据中高效地挖掘出那些用户真正感兴趣的多维模式1.1本论文工作本文主要针对多维数据模型在ARP项目信息资源中心数据中的应用进行研究和分析。中国科学院资源规划项目(AcademiaResourcePlanning,简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。ARP项目从中国科学院院所两级治理结构出发,以科技计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、资金、科研基础条件等资源配置及相关管理流程进行整合与优化,构建有效的管理服务信息技术平台。通过ARP项目的实施,进一步推进中国科学院管理创新,不断提升管理工作水平和效率,促进科技创新和人才培养效益的最大化。本论文针对中科院数据信息量大、稀疏度高、维度高、要求增量更新等特点,结合多维数据模型的应用,对目前的OLAP技术及多维数据模型进行比较分析1.3本论文组织结构针对本文研究的主要内容,本论文的组织如下:第二章介绍了数据仓库技术及多维数据模个性相关概念。第三章需求分析。第四章基于多维数据模型阐述了IRC为了满足需求所做的设计。第五章在前几章的基础上对各种多维数据模型进行比较分析。第六章对本人的工作进行了总结,并对下一步工作进行展望。6第二章数据仓库及多维数据模型基本概念多维数据模型是本文工作基础,是数据仓库和OLAP的核心,本章首先介绍数据仓库技术和多维数据模型的基本概念2.1数据仓库技术2.1.1定义1992年W.H.Inmon博士在《BuildingtheDataWarehouse》一书中给出了一个描述性的定义:数据仓库(DataWarehouse)是一个面向主题的、集成的、相对稳定和反映历史变化的数据集合,用于支持管理决策。2.1.2体系结构一个典型的数据仓库系统通常包含数据源、数据仓储、OLAP服务器和前端工具和应用四个部分。数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息以及各类外部统计数据及各类文档等;数据的存储与管理:是整个数据仓库系统的核心。在现有各业务系统的数据的基础上,进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(集体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,DataMart).数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。OLAP服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP.ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工7具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要面向OLAP服务器,报表工具、数据挖掘工具既可以面向数据仓库或数据集市,同时也可以面向OLAP服务器。2.2多维数据模型多维数据模型是数据仓库和OLAP的核心。多维模型的核心概念是数据立方体,数据立方体是由大量事实和若干个维组成的。2.2.1维在多维数据模型中,数据按多个纬度进行组织。维是人们观察客观世界的特定角度。每个角度称之一个维。通常,一个分析模型中包含若干个维。例如,在ARP科研项目产出物中,涉及到机构维、时间维、产出物类别维、产出物应用维等等。这些维能够从不同角度记录产出物情况。每个维都与数据仓库中的一张表相关联。该表称为维表。它进一步描述该维的详细信息。2.2.2维的概念分层一个概念分层定义一个由低层概念集到高层概念集的映射序列,将低层概念映射到更一般的高层概念。它使得原始数据可以在较高的、一般化的抽象层上进行处理。通过上卷、下钻等操作,用户可以在不同的概念层之间切换,使用不同视图来观察数据,从而洞察隐藏的数据联系。概念分层是一种背景知识形式,可以由系统用户、领域专家或者系统工程师提供。一个概念分层指定了一个维的层次结构,可以用全序、偏序或树状结构来表示。以时间维为例,该维共分为三个层次:ALL、年、月。2.2.3度量度量是多维数据模型所围绕的主题,即具有实际意义的数据,度量是一个聚集