第四小组引言自从美国总统戈尔1998年1月31日提出“数字地球”的概念后,在信息产业、科技界、世界各国政府以及公众中引起了积极的反响。“数字地球”为新世纪空间科学、信息科学和地球科学的发展提供了崭新的的思路。时空集成化、网络化、虚拟现实是“数字地球”的三个突出特点。作为“数字地球”的重要组成部分的GIS,必须适应“数字地球”的需求,进一步完善与发展,才能有力地支持和保证“数字地球”的实施和运行。1.1为什么要有数据仓库•面对空间数据堆积越来越庞大的环境,各级管理者和指挥人员需要从大量复杂的空间数据中获取各自权限内的决策信息,从而作出正确有效的判断和决策。•从各级决策者的角度讲,空间数据处理的重点应该从传统的操作型扩展到空间数据的联机分析(OLAP)处理或分析型(信息型)。•无数分散的不同数据库存在着数据格式、数据语义、数据编码、空间参照系统、数据处理方式、数据质量等方面的异构性,面对如此复杂的海量空间数据的频繁交互过程,各级决策者从复杂的数据库中提取的数据必须具有集成和关联机制图形、图象信息→数字信息空间数据库创建(文件管理和处理)空间数据文件空间数据库系统(空间数据库管理系统)高级数据库系统基于WEB的空间数据库系统第一代综合信息系统空间数据分库和数据挖掘(空间属性一体化数据库系统)20世纪60年代20世纪70年代90年代到现在2000年之后90年代到现在之后20世纪70年代90年代到现在之后20世纪60年代20世纪70年代90年代到现在之后20世纪60年代20世纪70年代90年代到现在20世纪60年代20世纪70年代之后90年代到现在20世纪60年代20世纪70年代20世纪60年代20世纪70年代20世纪60年代90年代到现在20世纪70年代20世纪60年代之后90年代到现在20世纪70年代20世纪60年代20世纪70年代20世纪60年代90年代到现在20世纪70年代20世纪60年代之后90年代到现在20世纪70年代20世纪60年代图形、图象模式识别空间数据模型与数据结构关系数据库系统数据建模工具空间数据索引技术空间数据查询语言SQL事务管理—数据恢复与开发控制联机事务处理OLTP基于XML的数据系统空间数据库和联机处理OLAP空间数据挖掘SDM和知识发现KDD20世纪70年代20世纪60年代90年代到现在20世纪70年代20世纪60年代20世纪60年代20世纪70年代20世纪60年代90年代到现在20世纪70年代20世纪60年代20世纪60年代20世纪70年代20世纪60年代90年代到现在20世纪70年代20世纪60年代20世纪60年代20世纪70年代20世纪60年代90年代到现在20世纪70年代20世纪60年代20世纪70年代20世纪60年代90年代到现在20世纪70年代20世纪60年代20世纪70年代90年代到现在20世纪70年代20世纪70年代90年代到现在20世纪70年代1.2空间数据仓库的概念•数据仓库的创始人W·H·Inmon曾经给数据仓库(DW)下过一个定义:数据仓库是数据仓库向空间维的扩展,它是一个支持决策过程的、面向主题的、集成的、稳定的、不同时间的空间数据的集合。1.3空间数据仓库的特点•支持决策过程SDW的根本的是服务于决策支持的,是空间决策支持系统(SDSS)的核心。•面向主题的面向用户解决的问题,主题是数据归类的标准,每个主题对应一个客观分析的领域即用户。集成的具有关联机制,可为辅助决策集成多个不同部门不同系统的大量数据异构空间。稳定性进入空间数据仓库的数据是不能或极少更新的。不同时间的空间数据仓库内包含了大量历史数据,时限为5—10年,主要用于进行时间趋势分析。1.4数据仓库的体系结构•数据提取层把决策主题所需要的数据进行提取、清洗、整合、存储。•数据组织层以一定的组织结构存储各种主题数据•数据挖掘层集成各种数据挖掘的算法,提供任务模型、组织形式,以支持各项决策的数据挖掘任务结论:空间数据仓库是一个多种异构数据源在单个站点以统一的模式组织的存储,它的根本目的是服务于决策支持,是空间决策支持系统(SDSS)的核心。1.5数据仓库与数据库的比较数据仓库(DW)数据库(DB)分析型数据环境操作型数据环境面向空间分析(主题),支持SDSS面向业务,日常事务处理集成的综合数据非集成或者集成程度很低,主要是明细数据历史数据(5-10年)主要关心当前数据定期加载,加载后极少更新实时更新数据驱动的开发周期(CLDS)需求驱动的开发周期(SDLC)1.6空间数据仓库的关键技术和研究内容支持空间信息的空间数据仓库模型的研究空间数据仓库的数据模型是一般数据仓库的数据模型在空间域的有效扩充,要针对空间信息的特点,对星型模型和雪花模型进行扩展。与一般数据仓库模型相比,空间数据仓库要管理复杂的空间数据类型,其维和度量中不仅包括简单数据类型的数据,而且包含复杂的空间对象。由于空间对象占用的存储空间大,其操作也很复杂,因此需要扩充维和度量的定义,如研究空间数据的立方体模型,以便更有效地处理这样的维和度量。空间数据仓库包含海量的空间信息,支持海量空间信息的高效存储是空间数据仓库的需求,也是空间数据仓库的重要特征。空间信息的计算耗费的资源很多,研究空间信息的合理存储策略(如数据分片等),以便于计算和显示,是非常重要的。面向海量空间信息的数据存储策略空间数据仓库的元数据必须支持对空间数据分析的导航。主要内容包括:空间数据仓库的描述信息、信息源描述信息、数据转换方法的描述信息,数据加载方法的描述信息、业务术语的定义、业务处理规则的描述信息等。支持空间数据导航的元数据机制空间数据仓库中的数据,是根据决策者所要解决问题的主题或领域,从多源异构空间数据库中提取的,数据由操作型空间数据库环境导入空间数据仓库环境,而且空间数据仓库中的数据存在不同的细节级,因此如何有效地提取和集成这些数据就成了一个突出的问题。从深层次讲,这是空间数据仓库的数据结构问题。多源异构空间数据的有效提取和集成面向海量空间信息高效检索的空间索引机制合理的空间数据索引机制是提高数据检索效率的有效途径。空间数据库的索引方法很多,主要有:四叉树索引、R树索引、R+树索引等。由于空间数据仓库中的数据具有海量、极少更新、随时间变化等特点,其主要操作是数据的追加和检索,因此要针对空间数据仓库的特点设计更加合适的空间数据仓库索引机制,这是目前许多专家关注的问题。•有望解决OpenGIS在数据上不一致的问题,实现真正意义上的数据共享。•支持基于GIS的空间决策支持,成为空间决策支持系统SDSS的核心。GIS中使用空间数据仓库的优势1.7国内外研究现状•Stanford大学的数据仓库WHIPS(WareHouseInformationProjectatStanford);美国启动的空间信息处理项目EOS(EarthOverviewSystem),该项目的主要组成部分之一就是空间数据的联机分析与挖掘技术的研究;IBM的Almenden实验室、北美和德国的一些公司、和科研机构的实验室在这个领域的研究中处于领先位置。•目前的空间数据仓库原型系统主要有:AMicrosoftTerraServer(由JimGray主持),GeoMiner(由加拿大SimonFraser大学开发)等。•在国内,国家“九五”科技重点攻关项目“空间信息共享和处理技术研究”专题项目已取得阶段成果,提出了空间信息共享系统设计方案。视觉与听觉信息处理国家重点实验室开放课题基金项目“空间数据联机分析与空间数据挖掘研究”,该项目重点对空间数据联机分析与空间数据挖掘及底层的空间数据仓库技术作基础理论研究。谢谢观赏!!!