空间数据仓库与数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第十章空间数据仓库和数据挖掘数据仓库和空间数据仓库空间信息基础设施数据挖掘和空间数据挖掘主要内容:§10.1数据仓库与空间数据仓库数据仓库空间数据仓库§10.1数据仓库与空间数据仓库随着市场竞争的加剧和信息社会需求的发展,出现了数据集中化、业务综合化、决策科学化的趋势。伴随这种数据信息化的趋势,从大量数据中提取(检索、查询等)制定市场策略的信息就显得越来越重要了。这种需求既要求联机服务,又涉及大量用于决策的数据,而传统的数据库系统已无法满足这种需求。一、数据仓库历史数据量很大;辅助决策信息涉及许多部门的数据,而不同系统的数据难以集成;由于访问数据的能力不足,它对大量数据的访问性能明显下降。§10.1数据仓库与空间数据仓库一、数据仓库无法满足的需求具体体现在三个方面:随着C/S技术的成熟和并行数据库的发展,信息处理技术的发展趋势是从大量的事务数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种支持决策的、特殊的数据存储即被称为数据仓库(DataWarehouse,DW)。数据仓库产生趋势§10.1数据仓库与空间数据仓库数据仓库(DataWarehouse,简称DW)是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。主题是数据归类的标准,每个主题对应一个客观分析领域,如客户、商店等,它可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量历史数据,经集成后进入数据仓库的数据是极少更新的。数据仓库内的数据时限为5至10年,主要用于进行时间趋势分析。数据仓库定义§10.1数据仓库与空间数据仓库数据仓库的数据量很大,一般为10GB左右。它是一般数据库(100MB)数据量的100倍,大型数据仓库达到TB级。数据仓库定义§10.1数据仓库与空间数据仓库数据仓库是一种分析型环境,它与一般的DBMS的操作型环境是不同的,两者的比较有利于对数据仓库的理解。§10.1数据仓库与空间数据仓库数据仓库(DW)数据库(DB)分析型数据环境操作型数据环境面向分析(主题),支持DSS面向业务,日常事务处理集成的综合数据非集成或者集成程度很低,主要是明细数据历史数据(5-10年)主要关心当前数据(60-90天)定期加载,加载后极少更新实时更新数据驱动的开发周期(CLDS)需求驱动的开发周期(SDLC)数据仓库主要应用在两个方面:使用浏览分析工具在DW中寻找有用的信息。数据仓库系统支持在DW上的应用,形成决策支持系统(DSS)。数据仓库应用§10.1数据仓库与空间数据仓库地球是一个复杂多变的系统,传统地学的各个学科由于自身的局限,其研究范围已无法适应全球变化和区域可持续发展的要求。如在交通规划中,往往需要使用大量历史的、现实的空间数据以及各应用领域的复杂数据进行数据分析,涉及多维数据视图的概念,仅靠关系数据库就将难以解决。同时,传统的GIS应用系统是面向应用、事务驱动的,其中分析所需要的主题相当分散,不同的操作平台和数据标准使得决策支持系统几乎无法实现数据共享。为此,必须通过大型的、多维化的数据库系统进行统一的组织、管理。二、空间数据仓库§10.1数据仓库与空间数据仓库空间数据仓库的产生趋势数据仓库正是这样一种数据的存储系统,它提供了来自异地、异构、种类不同的应用系统的集成化和历史化的数据。对其加工后,在数据仓库中存储、提取和维护,灵活地重组数据,呈现出多维数据视图,并且面向复杂的数据分析及高层的决策支持,从而为有关部门或企业进行全局范围的多维分析、战略决策和长期趋势分析提供了有效的支持。由于空间数据的特殊性,空间数据仓库在数据仓库的基础上需引入空间维数据,根据主题从不同的GIS应用系统中截取从瞬态到区段直至全球系统上的信息,从而提供最好的信息服务。空间数据仓库的产生趋势§10.1数据仓库与空间数据仓库空间数据仓库(SpatialDataWarehouse,简称SDW)是集成的、面向主题的、相对稳定的、反映时间变化和地理空间变化的空间数据存储,以支持各级管理人员基于空间数据的分析和决策。空间数据仓库的概念和内涵§10.1数据仓库与空间数据仓库空间数据仓库是GIS、空间数据库与数据仓库技术相结合的产物,它在普通数据仓库基础上,引入空间数据,增加对空间数据的存贮、管理和分析能力,根据主题从不同的空间数据源中截取不同规模的时空尺度上的信息,从而为地学研究以及有关资源环境政策的制定等空间决策支持过程提供最好的信息服务。空间数据仓库是数据仓库与空间处理分析的综合,具有空间,时间和主题的高度集成。从信息科学的角度来说,它是对数据仓库加进了非结构化信息处理。空间数据仓库的概念和内涵§10.1数据仓库与空间数据仓库SDW支持多种数据源:数据库、数据文件、应用程序等;SDW中存放的不仅是供使用的数据,还有在一定激发条件下能主动其作用的处理规则、算法,甚至是过程等;SDW中数据并不完全是原始数据的简单归并和搬家,而是增值和统一,因此,“汇总并统一”是一种可取的描述;空间数据仓库的概念和内涵§10.1数据仓库与空间数据仓库数据的集成化表明数据在结构上具有综合性,并且在语言上是异构的,在进入SDW之前,必须经过加工和集成,这是SDW建设中最关键,最复杂的一步;历史化表明它可以截取不同时间尺度上的信息,从瞬态到区段直到全体。SDW以时间为基准管理(积累,使用并处理)数据,即使依赖与时间维的数据结构;SDW保存和管理的是“对象”—数据以及与之相关的处理规则,算法和过程等的统一体,它们在SDW中以打包及有序存放的形式被保存和维护,且需要即可使用。空间数据仓库的概念和内涵§10.1数据仓库与空间数据仓库空间数据仓库的体系结构§10.1数据仓库与空间数据仓库空间数据仓库应用(空间决策支持系统等)分析结果联机分析处理数据挖掘数据仓库中信息多级存储策略数据库空间数据库系统(数据管理部分)SDBSDBSDB数据采集与输入系统(数据源部分)核心GIS数据政府统计数据市场经济数据土地利用数据分析工具数据转换数据输入决策运算MBKB空间数据仓库空间数据仓库机制的研究围绕空间数据仓库的实际应用需求,探索空间数据仓库的关键技术。(1)支持空间信息的空间数据仓库模型:空间数据仓库的数据模型是普通数据仓库的数据模型的有效扩充,必须针对空间信息的特点,对星型模型和雪花模型进行扩展。(2)支持空间数据导航的元数据机制:空间数据仓库的元数据是人们定义空间数据仓库模型、理解空间数据意义的重要窗口,空间数据仓库的元数据必须支持对空间数据分析的导航。空间数据仓库的关键技术§10.1数据仓库与空间数据仓库(3)面向海量空间信息的数据存储策略:空间数据仓库包含海量的空间信息。支持对海量空间信息的高效的存储和检索是空间数据仓库的重要需求,也是空间数据仓库的重要特征。因此需要研究面向海量空间信息的数据存储策略。(4)面向海量空间信息高效检索的空间索引机制:数据索引是提高数据检索效率的有效途径。由于空间数据仓库中涉及海量的空间信息,因此需要研究面向空间数据仓库的索引机制。空间数据仓库的关键技术§10.1数据仓库与空间数据仓库(5)大规模空间数据处理:由于空间数据所包含的数据量比较大,当空间数据仓库中地理数据、元数据以及历史数据的数据量急速增长时数据的存储和管理机制的调整策略等问题需要更加深入的研究。(6)查询的建立和数据导航技术:空间数据的查询通常比较复杂,而目前的用户界面形式很难满足。必须为空间数据仓库数据查询的输入以及数据查询的建立提供一套合适的机制。(7)快速计算、高速网络、空间数据库的无缝连接、数据挖掘、空间数据联机分析和处理及服务的互操作等关键技术。空间数据仓库的关键技术§10.1数据仓库与空间数据仓库目前国外数据仓库以及空间数据仓库方面的主要工作基础有很多。Stanford大学的数据仓库WHIPS(WareHouseInformationProjectatStanford);美国正在启动一个空间信息处理项目EOS(EarthOverviewSystem),到2003年,对全球地面监测的精度将达到1米的分辨率,该项目对巩固美国在全球的竞争优势具有重要的作用。该项目的主要组成部分之一就是空间数据的联机分析与挖掘技术的研究;IBM的Almenden实验室、北美和德国的一些公司、和科研机构的实验室在这个领域的研究中处于领先位置。国内外研究现状§10.1数据仓库与空间数据仓库目前的空间数据仓库原型系统主要有:AMicrosoftTerraServer(由JimGray主持),GeoMiner(由加拿大SimonFraser大学开发)等。在国内,国家“九五”科技重点攻关项目“空间信息共享和处理技术研究”专题项目已取得阶段成果,提出了空间信息共享系统设计方案。视觉与听觉信息处理国家重点实验室开放课题基金项目“空间数据联机分析与空间数据挖掘研究”,该项目重点对空间数据联机分析与空间数据挖掘及底层的空间数据仓库技术作基础理论研究。国内外研究现状§10.1数据仓库与空间数据仓库(1)空间数据仓库模型的研究:空间数据面向主题的集成的一个关键步骤是空间数据仓库的建模。空间数据仓库的逻辑模型与普通数据仓库模型一样,通常采用类似的多维模型。普通数据仓库模型通常采用星型模型或雪花模型。与普通数据仓库模型相比,空间数据仓库要管理复杂的空间数据类型,其维和度量中不仅可以包含简单数据类型的数据,同时也可以包含空间对象。由于空间对象占用的存储空间较大,其操作也比较复杂,这就需要扩充维和度量的定义,以便更有效地处理这样的维和度量。目前空间数据仓库主要研究内容§10.1数据仓库与空间数据仓库(2)海量空间数据的存储:空间数据仓库通常以空间数据库为基础,由于空间数据仓库涉及海量的空间信息,同时空间信息计算耗费的资源较多,确定空间信息的合理存储策略(如数据分片等),以便计算和显示,也是当前许多专家关注的焦点。目前空间数据仓库主要研究内容§10.1数据仓库与空间数据仓库(3)异构空间数据源的有效集成:空间数据仓库所要集成的数据分布于各个企业或各个政府部门,这些数据源通常具有不同的数据格式;此外,空间数据的表示、存储和访问方式目前还没有统一的标准,空间数据的语义也往往比较复杂。这就给空间数据的集成和共享带来了极大的困难,如何实现空间数据的有效集成是国内外空间数据仓库工程的一个重点和难点。目前空间数据仓库主要研究内容§10.1数据仓库与空间数据仓库(4)空间数据仓库的索引机制:空间数据库的索引方法主要包括:z-序索引、四叉树索引、kd-树索引、R树索引、R+树索引等。由于空间数据仓库中的数据具有海量的、极少更新的、随时间变化的特点,其主要的操作是数据的追加和查询,因此要求针对空间数据仓库的特点设计更加合适的空间数据仓库索引机制是空间数据仓库机制的重要组成部分,也是目前许多专家关注的焦点。目前空间数据仓库主要研究内容§10.1数据仓库与空间数据仓库(5)空间数据仓库元数据机制:空间数据仓库的元数据是确定空间数据仓库的逻辑结构、存储策略的重要组成部分。从数据仓库建设者的角度来看,空间数据仓库元数据是数据仓库的描述,是关于数据加载方法和数据加载频率、数据存储和应用的描述信息。从用户的角度来看,它是用户理解和使用数据仓库的向导。空间数据仓库元数据的主要内容包括:数据仓库的描述信息、数据仓库的信息源描述、数据转换方法描述信息、数据加载方法的描述信息、业务术语的定义、业务处理的规则的描述信息。因此要求建立合理的空间数据仓库元数据的机制,确保空间数据仓库的合理性和高可用性。目前空间数据仓库主要研究内容§10.1数据仓库与空间数据仓库按照关系数据库之父E.F.Codd的定义,OLAP是大量多维数据的动态综合(synthesis)、分析(analysis)与合并(consolidation),它是能够快速交互地,方便地获取它们所需信息的一些技术(多维数据分析,神经网络等)的综合,它通过快速、一致、交互地访问

1 / 82
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功