空间数据分析原理与方法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第11章面状数据空间模式分析面状数据是地理学研究中的一类重要数据,很多地理现象都通过规则的或不规则的多边形表示,这类地理现象的显著特点是空间过程与边界明确的面积单元有关。面状数据通过各个面积单元上变量的数值描述地理现象的分布特征,变量的值描述的是这个空间单元的总体特征,与面积单元内的空间位置无关。例如气候类型区、土壤类型区、土地利用类型区、行政区、人口普查区等。空间点模式主要从点的位置信息研究空间分布模式,而面状数据的空间模式研究的是面积单元的空间关系作用下的变量值的空间模式,换句话说,面积单元之间的邻接与否、距离远近等对于变量的空间分布具有重要影响。本章重点探讨面状数据空间模式的概念与测度方法。11.1空间接近性与空间权重矩阵在研究面积单元的空间模式之前,我们首先需要定义空间接近性,这是测度空间模式的基础。实质上“空间接近性”就是面积单元之间的“距离”关系,根据地理学第一定律,“空间接近性”描述了不同“距离”关系下的空间相互作用,而接近性程度一般使用空间权重矩阵描述。对“距离”的不同定义就产生了不同的空间接近性测度方法,于是就会有不同形式的空间权重矩阵。空间权重矩阵给出了一个面积单元受邻近空间单元影响的可量化测度。11.1.且空间接近性基于“距离”的空间接近性测度就是使用面积单元之间的距离定义接近性,那么如何测度任意两个面积单元之间的距离呢?这就产生了两种方法:其一是按照面积单元之间是否有邻接关系的邻接法,其二是基于面积单元中心之间距离的重心距离法(图11.1)。(1)边界邻接法——面积单元之间具有共享的边界(即分界线),被称为是空间接近的,用边界邻接首先可以定义一个面积单元的直接近邻,然后根据近邻的传递关系还可以定义间接近邻,或者多重近邻。(2)重心距离法——面积单元的重心或中心之间的距离小于某个指定的距离,则面积单元在空间上是接近的。显然这个指定距离的大小对于一个单元的近邻数量有影响。图11.1不规则面积单元的空间接近性图11.1描述了不规则面积单元的空间接近性。规则的正方形网格相当于高度简化的多边形结构,其接近性的定义是类似的,一般分为3种方式(图11.2),即类似国际象棋棋子的行走方式,分别是车的行走方式、象的行走方式和王后的行走方式。常用的是按照车和王后的行走方式来定义空间上接近的网格单元。对于图11.2中的9个单元格,中心单元格为X,在“车行走方式”下的接近性相当于具有共享边界的情况,X有4个近邻,分别为BDGE。在“王后行走方式”下,周围8个面积单元都是X的近邻,虽然有的多边形仅是通过点相连接。这相当于按照距离的接近性定义,假设网格的边长为L,则中心之间的距离L2的网格单元定义为X的近邻。对于图11.2所示的情况,这些近邻都是X的直接近邻,所以称为一阶近邻。一阶近邻的直接近邻形成X的二阶近邻,据此我们可以推广到n阶近邻。(a)按照车的行走方式(b)按照象的行走方式(c)按照王后的行走方式图11.2规则格网的接近性11.1.2空间权重矩阵空间权重矩阵是空间接近性的定量化测度。假设研究区域中有n个多边形,任何两个多边形都存在一个空间关系,这样就有n×n对关系。于是需要n×n的矩阵存储这n个面积单元之间的空间关系。但是根据不同的准则能够定义不同的空间关系矩阵。下面将讨论定义空间关系的方法及其相关的矩阵——空间邻接矩阵或空间权重矩阵,这一矩阵对于空间自相关统计量的计算具有重要的意义。1.二元邻接矩阵前已指出不同的接近性定义可导出不同的矩阵。首先考虑最简单的邻近定义,共享边界的面积单元定义为近邻。两个单元共享边界,则权重矩阵的元素1Wij,否则,0Wij,即,其他共享边界和,0AA1Wijij(11.1)根据重心距离也可以得到类似于式(11.1)的权重定义:,其他距离范围内重心的重心位于,0AA1Wiijdj(11.2)图11.3研究区域中的7个面积单元上述权重矩阵称为二元邻接矩阵,因为根据式(11.1)或式(11.2)定义的n个面积单元之间的接近性矩阵W是由0,1构成的。下面我们以图11.3为例,运用式(11.1)得到的研究区域中面积单元的邻接矩阵W,这是一个对称的矩阵。图11.3所示的面积单元之间的二元邻接矩阵为(11.3)二元邻接矩阵C有很多重要的性质:①对角线元素0Cii,因为面积单元i不能成为自己的邻居。②矩阵具有对称性)(jiijCC,即如果面积单元A是B的邻居,则B是A的邻居。③矩阵的行元素之和表示该空间单元直接邻居的数量,ijiCC。假设共享边界的数量为J,则矩阵的元素之和为262J。由于二元连接矩阵中有大量的0出现,以及对称矩阵的性质,因此将引起存储冗余问题。我们以图11.4所示的美国俄亥俄州7个县的空间邻接情况说明这一问题。表11.1是用0和1表示的7个县的二元邻接矩阵。由于对称关系,矩阵中出现很多0,即同时记录了非直接近邻。因此采用表11.2所示的方式进行压缩,使得记录中只存放一个空间单元的近邻多边形。表11.1美国俄亥俄州7个县的二元邻接矩阵我们还可以给出高阶形式的二元邻接矩阵。对于图11.3的情况,考虑任意一个面积单元的3阶最近邻,则得到接近性矩阵W如式(11.4)所示,这是一个非对称关系的接近性矩阵。矩阵各行求和的值,表示该行对应的面积单元的3阶近邻的数量。同理,根据距离也可以定义高阶的邻接矩阵。(11.4)2.行标准化权重矩阵在二元邻接矩阵中,若面积单元是近邻则权重为1。数学上,单位值权重对空间关系建模不一定很好。例如,我们期望分析一幢房屋的价值是如何受到周围单元的影响的。根据房地产的实践,我们认为周围每一个单元对房屋价值都将产生部分影响,如果有4个邻居单元,每一个单元对于房屋的影响的权重都是o.25。已知二元矩阵1表示相对应的行和列上的面积单元是相邻的,因此对于每一行,行和记为iC,表示该面积单元的近邻的总数。为了找出每一个近邻单元对于所考察的面积单元的贡献,用矩阵元素的值ijC除以iC就得到每一个近邻面积单元的权重iijijCCW/(11.5)以美国俄亥俄州7个县为例,其二元邻接矩阵记为C,见表11.1,根据式(11.5)可以得到这7个县的行标准化矩阵,记为W,结果见表11.3。比较C和W可看出,该矩阵不再具有对称性。11.1.3重心距离与权重矩阵除了使用近邻性测度来描述一组地理对象之间的空间关系和定义近邻之外,经常使用的另一种方法是采用面积单元之间的距离。使用距离的某种形式作为权重描述空间关系的能力非常强,根据地理学第一定律,两个对象之间的关系是其距离的函数,因此使用距离作为权重描述空间关系有很好的理论基础。考虑到距离的远近对于变量值的贡献,接近性测度可定义为式(11.6)的形式,表示随着重心之间距离的增加,第j个面积单元对于第i个面积单元的影响呈指数下降。,其他其中距离0,ijijijddW(11.6)式中,是幂指数如果用距离表示的空间权重矩阵记为D,其元素记为ijd,表示第i个多边形和第j个多边形之间的距离。距离权重一般使用倒数的方式,因为空间作用关系随着距离的增加而减弱。因此,当使用距离矩阵时,权重是距离的倒数。但是根据空间过程的经验研究,权重并非和距离倒数成正比关系,研究发现,很多空间关系的强度随着距离的减弱程度要强于线性比例关系,因此经常采用平方距离的倒数作为权重。仍然以美国俄亥俄州的7个县为例,任意两个县重心之间的距离计算如表11.4所示,根据式(11.6),取2,则可采用式(11.7)计算基于距离的权重矩阵,见表11.5。式(11.7)认为——个面积单元对于另一个面积单元影响的权重按照距离二次方的倒数递减。21ijijdW(11.7)按照距离定义空间权重矩阵时,需要注意距离的定义方式带来的影响。通常,两个点之间的距离易于定义,而两个多边形之间的距离定义存在多种方法。最为常用的是用两个多边形的重心间的距离表示多边形的距离。重心指的是多边形的几何中心。但是确定多边形几何中心的方法有多种,得到的结果却存在差异。一般而言,多边形的不规则性对几何中心的位置有重要的影响,计算的重心经常会出现在不合意的位置上。当多边形是凹多形时,可能会产生重心位于多边形外的情况,这时几何中心的确定可以采用骨架算法。11.2面状数据中趋势分析空间数据的一阶效应反映了研究区域上变量的空间趋势,通常用变量的均值描述这种空间变化。研究一阶效应使用的方法主要是利用空间权重矩阵进行空间滑动平均估计。如果面积单元数据是基于规则格网的,一般使用中位数光滑(mediapolish)的方法,此外核密度估计方法也是研究面状数据一阶效应的常用方法。这些方法不仅用于探索面状数据均值的空间变化,而且从一种面积单元到另一种面积单元变换时的空间插值,也经常使用这一技术。5.2.1空间滑动平均空间滑动平均是利用近邻面积单元的值计算均值的一种方法,称之为空间滑动平均。设区域R中有m个面积单元,对应于第j个面积单元的变量Y的值为jy,面积单元i邻近的面积单元的数量为n个,则均值平滑的公式为:niijnjjijiWyW11(11.8)最简单的情况是假设近邻面积单元对i的贡献是相同的,即nWij/1,则有njjiyn11(11.9)式(11.8)和式(11.9)的作用是对变量进行空间滤波,或用于空间插值。5.2.2中位数光滑若面积单元是规则的格网,则常用的方法是用中位数光滑来估计趋势。趋势估计中使用中位数替代均值是因为均值对于离群值比较敏感,当数据中存在离群值时,中位数比均值更加稳健。根据统计学的思想,一个变量的空间分布可看作是多种因素影响下的空间过程的一个实现,在这个空间过程中包含了全局趋势、局部效应和随机误差。于是对于规则格网表示的变量的空间分布情况,变量的值可表示成式(11.10)所示的分解:ijjiijy(11.10)式中,是总的趋势;i和ij分别表示的是行和列的效应,相当于局部效应;ij是随机误差。于是总的均值为jiij(11.11)为了计算规则格网中变量的空间趋势,根据式(11.11)得到中位数光滑算法的一般过程如下:(1)将每一行的中位数记录在这一行的边上,并在每一行中减去中位数。(2)计算行中位数的中位数,将其作为总的效应,从每一行中位数中减去总效应。(3)将每一列的中位数记录在这一列的下面,并在每一列中减去中位数。(4)计算列中位数的中位数,将其和总效应相加,从每一列中位数的总效应中减去这一数值。(5)重复步骤(1)~(4),直到行或列的中位数不再变化。经过上述步骤计算即可产生的每一个网格的值山,作为均值的估计,提供了数据的全局趋势:jiij(11.12)同时,我们从观测数据中剔出这一趋势便得到残差,可对残差做深入的分析,这需要使用11.2节以后的二阶方法。在中位数光滑过程中,需要注意根据格子的方向进行趋势分解可能产生条带效应,而这些方向可能和数据的趋势方向并无关系;并且这一方法无法控制光滑的程度。我们使用图11.5的数据说明中位数光滑方法的应用。图11.5是一个33的规则网格,其变量的数值分布见图中的数字。对其进行的中位数光滑计算过程如下:(1)将每一行的中位数记录在这一行的边上,即记录于1s列中,并在每一行中减去1s列对应的中位数,添加1r行,行元素充0,结果如图11.6所示。(2)计算行中位数的中位数,结果为5,将其作为总的效应,从每一行中位数中减去总效应,结果见1s列(图11.7)。(3)将每一列的中位数记录在这一列的下面,并在每一列中减去中位数(图11.8)(4)计算列中位数的中位数,将其和总效应相加,从每一列中位数的总效应中减去这一数值,到此步为止,行和列的中位数不再变化(图11.9)。于是,5jiij,表示在本例中所有单元格的均值都为5,而剩余的随机残差是各个网格中的数值减去该网格的均值。11.2.3核密度估计方法在点模式的研究中,核密度估计方法(简称核估计)被用于探索点密度的变化,也常用于描述连续数据的一阶趋势的变化。核估计

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功