第七章空间数据的统计分析方法(2)武汉大学遥感信息工程学院遥感科学与技术本科生教案(2012)秦昆qinkun163@163.com2空间点模式分析方法面状数据空间模式分析方法3空间点模式分析方法4空间点模式分析方法在地图上,居民点、商店、旅游景点、流行病、犯罪现场、交通事故发生地等都表现为点的特征,有些是具体的地理实体对象,有些则是曾经发发生的事件的地点。这些地理对象或事件(点)的空间分布模式对于城市规划、服务设施布局、商业选址、流行病的控制等具有重要的作用。根据实体或事件的空间位置研究其分布模式的方法称为空间点模式。5空间点模式分析方法点模式分析技术曾经在20世纪60年代的计量革命时代十分盛行,但是早期的系统和方法缺乏直观的地图表示。随着GIS的发展和地理空间数据的丰富,以及对GIS空间分析能力的广泛需求促进了空间数据分析方法的发展。点模式空间统计分析方法重新引起了人们的兴趣,基于GIS或地图环境的交互式模式分析工具不断出现,或作为方法库被统计分析程序所调用,或作为GIS软件包的宏模块,或作为空间分析软件包的函数。6空间点模式分析方法空间点模式的概念点模式是研究区域R内的一系列点的组合[S1=(x1,y1),S2=(x2,y2),…,Sn=(xn,yn)]其中,Si是第i个观测事件的空间位置。研究区域R的形状可以是矩形,也可以是复杂的多边形区域。7空间点模式分析方法点在空间上的分布千变万化,但不会超出从均匀到集中的模式。一般将点模式区分为三种基本类型:聚集分布、随机分布、均匀分布。区域内点集对象或事件分布模式的基本问题:这些对象或事件的分布是随机的、均匀的、还是聚集的?研究分布的模式对于探索导致这一分布模式形成的原因非常重要。例如:在一个城市区域中大型商业网点的空间分布模式是否显著地影响了餐饮网点的分布,这是二元空间点模式问题。8从统计学的角度,地理现象或事件出现在空间任意位置都是有可能的。如果没有某种力量或者机制来“安排”事件的出现,那么分布模式最有可能是随机分布的,否则将以规则或者聚集的模式出现。对于此类问题,地理世界中的事物可能存在某种联系。一种现象的分布模式是否对另一种现象的分布模式产生影响也是点模式需要解决的重要问题。空间点模式分析方法9点模式空间分析方法空间模式的研究一般是基于所有观测点事件在地图上的分布,也可以是样本点的模式。点模式关心的是空间点分布的聚集性和分散性问题,地理学家在研究过程中发展了两类点模式分析方法:(1)以聚集性为基础的基于密度的方法:主要有样方计数法和核函数方法两种;(2)以分散性为基础的基于距离的技术:通过测度最近邻点的距离分析点的空间分布模式,主要包括最邻近指数、G-函数、F-函数、K-函数方法等。空间点模式分析方法10基于密度的方法——样方计数法与核函数法样方分析:样方分析(quadratanalysis,QA)是研究空间点模式最常用的直观方式。基本思想:通过空间上点分布密度的变化探索空间分布模式,一般使用随机分布模式作为理论上的标准分布,将QA计算的点密度和理论分布做比较,判断点模式属于聚集分布、均匀分布还是随机分布。11基于密度的方法——样方计数法与核函数法样方分析:QA的一般过程:(1)将研究区域划分为规则的正方形网格区域;(2)统计落入每个网格中点的数量。由于点在空间上分布的疏密性,有的网格中点的数量多,有的网格中点的数量少,有的网格中点的数量甚至为零;(3)统计出包含不同数量点的网格数量的频率分布。(4)将观测得到的频率分布和已知的频率分布或理论上的随机分布(如泊松分布)作比较,判断点模式的类型。12样方分析方法QA中对分布模式的判别产生影响的主要因素:样方的形状,采样的方式,样方的起点、方向和大小等,这些因素会影响到点的观测频次和分布。QA分析中样方的形状一般采用正方形的网格覆盖,也可以自己定义样方的形状,如圆形、正六边形等,以适合于所要研究的问题。无论采用何种形式的样方要求网格形状和大小必须一致,以避免在空间上的采样不均匀。13样方分析方法除了规则网格外,采用固定尺寸的随机网格也能得到同样的效果。从统计意义上看,使用大量的随机样方估计才能获得研究区域点密度的公平估计。14样方的尺寸选择对计算结果会产生很大的影响。(b)和(c)两种不同尺寸的网格,可能会导致不同的分析结论。根据专家的研究,最优的样方尺寸是根据区域的面积和分布于其中的点的数量确定的,计算公式为:Q=2A/n式中,Q是样方的尺寸(面积);A为研究区域的面积;n为研究区域中点的数量。最优样方的边长取。nA/2样方分析方法15当样方的尺寸确定后,利用这一尺寸建立样方网格覆盖研究区域或者采用随机覆盖的方法,统计落入每个样方中的数量,建立其频率分布。根据得到的频率分布和已知的点模式的频率分布的比较,判断点分布的空间模式。2)样方分析方法核密度估计法(kerneldensityestimation,KDE)认为地理事件可以发生在空间的任何位置上,但是在不同的位置上,事件发生的概率不一样。点密集的区域事件发生的概率高,点稀疏的地方事件发生的概率低。KDE反映的就是这样一种思想:使用事件的空间密度分析表示空间点模式。和样方计数法相比较,KDE更加适合于可视化方法表示分布模式。核密度估计法16在KDE中,区域内任意一个位置都有一个事件密度,这是和概率密度对应的概念。空间模式在点S上的密度或强度是可测度的,一般通过测量定义在研究区域中单位面积上的事件数量来估计。最简单的事件密度估计方法是在研究区域中使用滑动的圆来统计出落在圆域内的事件数量,再除以圆的面积,就得到估计点S处的事件密度。核密度估计法17核密度估计法18根据概率理论,核密度估计的一般定义为:设X1,…,Xn是从分布密度函数f的总体中抽取的独立同分布样本,估计f在某点x处的值f(x),通常有Rosenblatt-Paren核估计:19核密度估计法核密度估计法20核密度估计法核密度估计法的特点:21关于KDE中的带宽22核密度估计法23核密度估计法KDE中的边缘效应这是位于R内的体积,当R是一个非规则的多边形区域时,将导致计算量的急剧增加。24KDE方法在热带气旋源地分析中的应用:25我们还对1×1经纬度的网格用样方计数法进行了计算。通过两种方法对比可以看出KDE方法能够更好地揭示台风源地的模式。26KDE方法在热带气旋源地分析中的应用:基于距离的方法最近邻距离法:27最邻近距离法(也称为最邻近指数法)使用最邻近的点对之间的距离描述分布模式,形式上相当于密度的倒数(每个点代表的面积),表示点间距。最邻近距离法首先计算最邻近的点对之间的平均距离,然后比较观测模式和已知模式之间的相似性。一般将随机模式作为比较的标准,如果观测模式的最邻近距离大于随机分布的最邻近距离,则观测模式趋向于均匀,如果观测模式的最邻近距离小于随机分布模式的最邻近距离,则趋向于聚集分布。最邻近距离:28基于距离的方法最邻近距离是指任意一点到其最邻近的点之间的距离。图4.10中编号1的点的最邻近点是2,最邻近距离为3.67。CSR模式:完全随机模式29基于距离的方法最近邻指数测度方法30基于距离的方法为了使用最邻近距离测度空间点模式,1954年Clark和Evans提出了最邻近指数法(NNI)。NNI的思想:首先对研究区内的任意一点都计算最邻近距离,然后取这些最邻近距离的均值作为评价模式分布的指标。对于同一组数据,在不同的分布模式下得到的NNI是不同的,根据观测模式的NNI计算结果与CSR模式的NNI比较,即可判断分布模式的类型。聚集模式由于点在空间上多聚集于某些区域,计算得到的NNI应当小于CSR模式的NNI;均匀分布模式下,点之间的距离比较平均,计算得到NNI大于CSR模式的NNI。因此,通过最邻近距离的计算和比较就可以评价和判断分布模式。NNI的一般计算过程:31基于距离的方法NNI的一般计算过程:32基于距离的方法33基于距离的方法34在现实世界中,观测模式的分布呈现出各种各样的状态,在理论上还存在极端聚集和极端均匀的情况。极端聚集的状态:所有事件发生在研究区域的某一个位置上,R=0;极端均匀的分布模式:均匀区域上邻近的3个点构成等边三角形,即空间被正六边形划分,点位于正六边形的中心。R=2.149。在现实世界中,地理现象或事件的分布方式完全凝聚于一点或被组织为正六边形的情况十分罕见。显著性检验3536显著性检验实例研究37NNI中通过简单的概念揭示了分布模式的特征,但是只用一个距离的平均值概括所有邻近距离是有问题的。在点的空间分布中,简单的平均最近邻距离概念忽略了最邻近距离的分布信息在揭示模式特征中的作用。如果最近邻距离是均匀分布的,那么均值是唯一的稳健估计。图中给出了用实例数据计算得到的最邻近距离的频率分布直方图,显然这是一种偏态分布,更多点的最邻近距离小于均值99.48km。此外,NNI中,模式的显著性信息被忽略了。G函数与F函数38G函数和F函数就是用最近邻距离的分布特征揭示空间点模式的方法。这两个函数是关于最邻近距离分布的函数。G函数39G函数与F函数G函数40示例如图所示的研究区域中分布有10个事件(点),计算其G函数G函数41首先,计算最邻近距离,并按照升序对这些距离排序。G函数42G函数43根据G(d)曲线的形状分析空间点模式:如果点事件的空间分布趋向聚集,具有较小的最邻近距离的点的数量就多,那么G函数会在较短的距离内快速上升;如果点模式中事件趋向均匀分布,具有较大的最邻近距离的点的数量多,那么G函数值得增加就比较缓慢。如果G(d)在短距离内迅速增长,表明点空间分布属于聚集模式;如果G(d)先缓慢增长后迅速增长,表明点空间分布属于均匀模式。G函数44图4.16是聚集、随机、均匀三类点模式的G函数曲线的形状。在实际应用中还需要进行显著性检验。45F函数46F函数47F函数48实例分析F函数49F函数50K函数和L函数为了在更加宽泛的尺度上研究地理事件空间依赖性与尺度的关系,Ripley提出了基于二阶性质的K函数方法,随后,Bessage又将K函数变换为L函数。K函数和L函数是描述在各向同性或均质条件下点过程空间结构的良好指标。51K函数521.定义与K函数估计K函数531)定义(4.36)K函数54(4.36)K函数55K函数56K函数573)K函数的边缘效应与校正K函数582.K函数的点模式判别准则实例研究K函数59K函数60L函数6162L函数:实例63面状数据空间模式分析方法面状数据是地理学研究中的一类重要数据,很多地理现象都通过规则的或不规则的多边形表示,这类地理现象的显著特点是空间过程与边界明确的面积单元有关。面状数据通过各个面积单元变量的数值描述地理现象的分布特征。例如气候类型区、土壤类型区、土地利用类型区、行政区、人口普查区等。面状数据的空间模式研究的是面积单元的空间关系作用下的变量值的空间模式。面积单元之间的邻接与否、距离远近等对于变量的空间分布具有重要影响。面状数据空间模式分析方法64空间邻接性就是面积单元之间的“距离关系”,基于“距离”的空间邻接性测度就是使用面积单元之间的距离定义邻接性。测度任意两个面积单元之间的距离的两种方法:(1)按照面积单元是否有邻接关系的邻接法,(2)基于面积单元中心之间距离的重心距离法。空间接近性与空间权重矩阵65(1)边界邻接法:面积单元之间具有共享的边界,被称为是空间邻接的,用边界邻接可以定义一个面积单元的直接邻接,然后根据邻接的传递关系还可以定义间接邻接,或者多重邻接。(2)重心距离法:面积单元的重心或中心之间的距离小于某个指定的距离,则面积单元在空间上是邻接的。这个指定距离的大小对于一个单元的邻接数量有影响。66空间权重矩阵是空间邻接性的定量化测度。假设研究区域中有n个多边形,任何两个多边形都存在一个空间关系,这样就有n×n对关系,需要n×n的矩阵存储这n个面积单元之间的空间关系。根据不同准则可以定义不同的空间关系矩阵,主要的空间权重矩阵包括以