第五章空间数据质量与元数据学习目标:理解空间数据质量及其相关概念了解空间数据质量评价的标准,并分析造成数据质量问题的来源说明控制空间数据质量的措施理解元数据的概念,了解空间数据元数据所用到的概念了解空间数据元数据的分类和标准了解空间数据元数据的获取方法弄清为什么在地理信息系统中使用元数据说明空间数据元数据的应用第一节空间数据的质量空间数据质量的概念空间数据质量评价空间数据质量问题的来源与分析数据质量控制一、空间数据质量的概念空间数据:是对有关空间位置、专题特征及时间信息的符号纪录,是对现实世界中空间特征和过程的抽象表达。空间数据质量:空间数据在表达实体空间位置、特征和实践所能达到的准确性、一致性、完整性和三者统一性的程度,以及数据适应于不同应用的能力。二、空间数据质量评价与数据质量相关的几个概念空间数据质量标准1、相关概念误差:数据与真值之间的差异准确度:测量值与真值之间的接近程度精度:对现象描述的详细程度不确定性:关于空间过程和特征不能准确确定的程度,在真值不可测或无法知道时,取代误差。2、空间数据质量标准空间数据质量标准是生产、使用和评价空间数据的依据。数据质量是数据整体性能的综合体现。其主要内容如下:数据说明:要求对空间数据的来源、数据内容及其处理过程等作出准确、全面和详尽的说明。位置精度:指空间实体的坐标数据与实体真实位置的接近程度,常表现为空间三维坐标数据的精度。属性精度:指空间实体的属性值与其真值相符的程度。它取决于地理数据的类型,常常与位置精度有关。时间精度:指时间的现势性。可以通过数据更新的时间和频度来体现。2、空间数据质量标准逻辑一致性:指地理数据关系上的可靠性,包括数据结构、数据内容,以及拓扑性质上的内在一致性。完整性:指地理数据在范围、内容及结构等方面满足所有要求的完整程度,包括数据范围、空间实体类型、空间关系分类、属性特征分类等方面的完整性。表达形式的合理性:指数据抽象、数据表达与实体的吻合性,包括空间特征、专题特征和时间特征表达的合理性等。:三、空间数据质量问题的来源与分析源误差操作误差空间数据使用中的误差1、源误差地面测量数字数据的误差地图数字化数据的误差遥感数据的误差(1)地面测量数字数据的误差来源于地面测量的数字数据中含有控制测量和碎部测量误差。其中控制点误差又受控制网的参考基准、网形和观测精度以及观测费用等因素的影响。碎部点误差除继承了控制点的误差外,还受自身的观测方法、观测精度和地界的人为判断,以及地物地貌的取舍等因素的影响。当然,原始观测误差受观测仪器、观测者和外界环境三种因素影响。地面测量数据中的误差可以表现为随机误差、系统误差或粗差。一般而言,粗差可采用可靠性理论探测剔除,系统误差可采用实验方法校正或建立系统误差模型处理,随机误差可采用随机模型,如最小二乘法平差处理。利用误差传播规律可求得点坐标的方差—协方差矩阵或误差椭圆(球)元素来表达点坐标数据的精度。(2)地图数字化数据的误差地图数字化是GIS数据来源之一,原图固有误差和数字化过程误差是地图数字化数据误差的主要来源。原图固有误差除含有上述地面控制测量和碎部测量的全部误差外,还含有制图误差。制图误差数字化误差①制图误差控制点展绘误差:展绘控制点是成图的第一步。编绘误差:地形图的编绘一般用摄影测量手段把各种原始资料化为同一比例尺的过程,其中所引入的误差大约在0.30~0.33毫米之间。绘图误差:这项误差是在绘图过程中产生的。综合误差:地图综合误差的大小取决于特征的类型与复杂程度,故该项误差极难量化。①制图误差地图复制误差:地图复制误差的均方差为0.1~0.2毫米。分色版套合误差:该项误差的均方差为0.17~0.30毫米。绘图材料的变形误差:地图一般印刷于纸质载体上,随着温度和湿度的变化,纸的尺寸也会改变。归化到同一比例尺所引起的误差:地图的比例尺是指真实的主比例尺,在将地图数字化或从地图量距时,必须利用适当的比例尺因子进行修正。①制图误差特征的定义:自然界的许多特征并无明确的界限。特征定义会引起特征位置的某些不确定性,但并非所有的特征都有此误差。特征夸大误差:为了增强地图的易读性,有时需要夸大某些特征,因为它们在图上难以按其真实情况表示。由于很难知道制图过程中各种误差间的关系以及图纸尺寸的不稳定性,因此,很难准确地评价原图固有误差。②数字化误差数字化方式主要有手扶跟踪数字化和扫描数字化。在生产实践中,采用扫描数字化,然后屏幕半自动化跟踪。线划跟踪与扫描数字化所引起的平面误差较小,只是在扫描时,要素结合处出现的误差较大。手扶跟踪数字化引起的误差主要与被数字化的要素对象、作业员和数字化仪有关。要素对象:要素本身的宽度、密度和复杂程度对数字化误差有显著影响。②数字化误差作业员:作业员的经验与技能主要表现在选择最佳点位、跟踪曲线和判断十字丝与目标重合程度的能力等方面。数字化仪:数字化仪的分辨率对数字化误差有决定性影响。一般在选择数字化仪时采用经济实用的原则。(3)遥感数据误差遥感数据的误差积累过程可以分为:数据获取误差、数据预处理误差和人工判读误差等。数据获取误差:遥感资料获取时存在着多种误差。其中有些误差源是可控的,有些则是不可控的,可控的数据获取误差又包括几何误差和遥感平台误差。数据预处理误差:数据预处理包括利用地面控制对原始数据进行的几何校正、图像增强和分类等。这些预处理会引入各种各样的误差。(3)遥感数据误差人工判读误差:在数据分析和判读阶段会引入人工判读误差。在GIS中使用遥感数据时,人工判读会影响随后的地图分析结果。2、操作误差除了地图原始录入数据本身带有的源误差外,空间数据处理操作中还会引入新误差。由计算机字长引起的误差空间数据处理中的误差在计算机中,数据是由一定字长的编码表示的。舍入误差是由计算机字长引起的一种误差。除了数据处理精度外,数据存储精度也与计算机字长有关。(2)空间数据处理中的误差投影变换:地图投影是三维地球椭球面到二维平面的拓扑变换。在不同投影形式下,地理特征的位置、面积和方向的表现会有误差。数据格式转换:在矢量格式和栅格格式之间的转换中,数据所表达的空间特征的位置具有差异性。数据抽象:在数据发生比例尺变换时,对数据进行聚类、归并、合并等操作时产生的误差。建立拓扑关系:建立拓扑过程中,伴随有数据所表达的空间特征的位置坐标的变化。(2)空间数据处理中的误差与主控数据层的匹配:为保证各数据层之间空间位置的协调性,在同一地区的多层数据面中,一般建立一个主控数据层,以控制其他数据层的边界和控制点。在与主控数据层匹配的过程中也会存在空间位移,从而导致误差。数据叠加操作和更新:数据在叠加运算以及数据更新时,会产生空间位置和属性值的差异。数据集成处理:在来源不同、类型不同的各种数据集的相互操作过程中错产生的误差。(2)空间数据处理中的误差数据的可视化表达:数据在可视化表达过程中,为适应视觉效果序对数据的空间特征位置、注记等进行调整,由此产生数据表达上的误差。数据处理过程中误差的传递和扩散:在数据处理的各个环节和过程中,误差是累积和扩散的,前一过程的误差可能成为下一阶段的误差起源,从而导致新的误差的产生。3、空间数据使用中的误差在空间数据使用过程中也会导致误差的出现,主要表现在两方面:一是用户错误理解信息造成的误差;二是缺少文档说明,从而导致用户不正确地使用信息,造成数据的随意性使用而使误差扩散。一般来说,源误差远大于操作误差,因此,要想控制GIS产品的质量,良好的原始录用数据是首要的。四、数据质量控制数据质量控制是指为达到规范或规定对数据质量要求而采取的作业技术和措施。空间数据质量控制常见的方法有:传统的手工方法:主要是将数字化数据与数据源进行图形部分和属性部分的比较检查。元数据方法:通过元数据可以检查数据质量,通过跟踪元数据可以了解数据质量的状况和变化。地理相关法:指的是用空间数据的地理特征要素自身的相关性来分析数据的质量。第二节空间数据的元数据元数据概念与分类空间数据元数据所涉及的概念空间数据元数据的标准空间数据元数据的获取与管理空间数据元数据的应用一、元数据概念与分类元数据概念元数据的分类一、元数据概念与分类1、元数据概念元数据:是关于数据变化的描述,是描述数据的数据,它应尽可能多地反映数据集自身的特征规律,以便于用户对数据的准确、高效与充分的开发与利用。元数据共同点是:促进数据集的高效利用,并为计算机辅助软件工程服务。元数据的内容包括:(1)对数据的描述,对数据集中各数据项,数据来源、数据所有者、数据序代(数据生产历史)等的说明;(2)对数据质量的描述,如数据精度、数据的逻辑一致性、数据完整性、分辨率、源数据的比例尺等;(3)对数据处理的说明,如量纲的转换等;(4)对数据转换方法的描述;(5)对数据库的更新、集成方法等的说明。1、元数据概念元数据的表达形式:元数据也是一种数据,在形式上与其他数据没有区别,它可以以数据存在的任何一种形式存在。主要的形式是与元数据内容标准相一致的数字形式,数字形式的元数据可以用多种方法建立、存储和使用。(1)最基本的方法是文本文件。(2)元数据的另一种形式是用超文本链接标示语言(HTML)编写的超文本文件,用户可用浏览器查阅元数据。(3)用通用标示语言(SGML)建立元数据。SGML提供一种有效的方法连接元数据便于在空间数据交换网络上查询。元数据2、元数据的分类分类原则不同,元数据的分类体系和内容将会有很大的差异,主要分类方法有:根据元数据的内容分类根据元数据描述对象分类根据数据在系统中的作用分类根据元数据的作用分类(1)根据元数据的内容分类科研型元数据:主要目标是帮助用户获取各种来源的数据及其相关信息,主要任务是帮助科研工作者高效获取所需数据。评估型元数据:主要服务于数据利用的评价。模型元数据:用于描述数据模型的元数据,与描述数据的元数据在结构上大致相同。(2)根据元数据描述对象分类数据层元数据:指描述数据集中每个数据的元数据。属性元数据:关于属性数据的元数据。实体元数据:是描述整个数据记得元数据。(3)根据数据在系统中的作用分类系统级别元数据:指用于实现文件系统特征或管理文件系统中数据的信息。应用层元数据:指有助于用户查找、评估、访问和管理数据等与数据用户有关的信息。(4)根据元数据的作用分类说明元数据:是为用户使用数据服务的元数据。控制元数据:是用于计算机操作流程控制的元数据,这类元数据有一定的关键词和特定的句法来实现。二、空间数据元数据的内容空间数据:用于确定具有自然特征或者人工建筑特征的地理实体的地理位置、属性及其便捷的信息;类型:在元数据标准中,数据类型指该数据能接收的值的类型;对象:对地理实体的部分或整体的数字表达;实体类型:对于具有相似地理特征的地理实体集合的定义和描述;点:用于位置确定的零维地理对象;结点:拓扑连接两个或多个链或环的一维对象;标识点:显示地图或图表时,用于特征标识的参考点;二、空间数据元数据的内容线:一维对象的一般术语;线段:两个点之间的直线段;弧:由数学表达式确定的点集组成的弧状曲线;链:两个结点之间的拓扑关联;链环:非相切线段或由结点区分的弧段构成的有方向无分支序列;环:封闭状不相切链环或弧段序列;多边形:在二维平面中由封闭弧段包围的区域;二、空间数据元数据的内容外多边形:数据覆盖区域内最外侧的多边形,其面积是其他所有多边形的面积之和;内部区域:不包括其边界的区域;格网:组成一规则或近似规则的棋盘状镶嵌表面的格网集合,或者组成一规则或近似规则的棋盘状镶嵌表面的点集合;格网单元:表示格网最小可分要素的二维对象;矢量:有方向线的组合;栅格:同一格网或数字影像的一个或多个叠加层;二、空间数据元数据的内容像元:二维图形要素,它是数字影像最小要素;栅格对象:一个或多个影像或格网,每一个影像或格网表示一个数据层,各层之间相应