第五讲空间点数据分析1.引言2.点数据概述3.点数据分析--SpatialPointDataAnalysis--1.引言点模式分析由植物学家和生态学家在1930s应用。但是,随后许多不同领域也开始应用点模式分析,如考古学、流行病学、天文学和犯罪学。一般来说,点模式分析可以用来描述任何类型的事件数据(incidentdata)。因为每一事件都可以抽象化为空间上的一个位置点。抢劫案Data城市发展的空间演变模式星罗棋布的村庄来源:USGSArp272是两个螺旋星云——NGC6050和IC1179相撞形成的,这两个星云的螺旋臂相互扭结在一起。它们是武仙座星群的一部分。武仙座星群是已知的宇宙中最大的结构:所谓的长城的一部分。Arp272距离地球大约4.5亿光年。是一对大小相似的螺旋星云——NGC5257和NGC5258。这两个星系显然通过一个暗淡的恒星桥相互作用。它们两个的中心都有超大质量黑洞。Arp240位于室女座内,距离地球大约3亿光年。是一个拥有奇特形状的星系,它可能是一个早期合并过程的残余物,没有成形。ESO99-4位于北三角座内,距离地球大约4亿光年。轧制钢横截面(100×100微米)573个碳化物颗粒中心混凝土(10×10×10毫米)(白色为切的刚玉颗粒,黑色为气孔)细胞表面的蛋白质位置矩形大小:107×119微米血液样本(红细胞为黑色)矩形大小:225×182微米“点”模式在自然与社会经济中普遍存在。识别空间点模式(spatialpointpattern)的目的是为了更好地理解空间点过程(spatialpointprogress),揭示隐藏在空间模式表象之下的空间过程的机理。—空间随机/聚集/均匀—过程建模2.点数据概述随机分布:任何一点在任何一个位置发生的概率相同,某点的存在不影响其它点的分布。又称泊松分布(Poissondistribution)。均匀分布:个体间保持一定的距离,每一个点尽量地远离其周围的邻近点。在单位(样方)中个体出现与不出现的概率完全或几乎相等。聚集分布:许多点集中在一个或少数几个区域,大面积的区域没有或仅有少量点。总体中一个或多个点的存在影响其它点在同一取样单位中的出现概率。空间点数据的三种基本分布模式随机均匀聚集点数据的三种基本空间分布模式怎样描述点模式?一阶效应(First-OrderEffects)–事件间的绝对位置具有决定作用,单位面积的事件数量在空间上有比较清楚的变化。如,空间上平均值/密度的变化。二阶效应(Second-OrderEffects)–事件间的相对位置和距离具有决定作用。如,空间相互作用。3.1基于密度的方法:测度一阶效应3.点数据分析3.2基于距离的方法:测度二阶效应①最近邻距离:G函数、F函数②最近邻距离的统计检验③K函数(KFunction)①样方分析②样方分析的统计检验③核密度估计Visualization可视化Modelling建模全局分析样方分析(QA)核密度估计(KDE)最近邻距离(NND)G函数F函数K函数Exploration探索分析Data点数据模式分析描述性分析局部分析自相关点模式分布随机均匀聚集平均中心标准距离热点探测聚集存在聚集存在空间点数据分析架构3.点数据分析3.1基于密度的方法①样方分析(Quadratanalysis)②样方分析的统计检验③核密度估计(KernelDensityEstimation)利用所有点:–样方的形状、大小、方向对结果有影响–如果样方太大/小,那么……?随机抽样方法:–有增加样本量的作用–可以描述一个没有完全数据的空间点过程①样方分析-两种方式样方形状“Quadrat”strictlymeansafoursidedfigure,butinpracticethistermisusedtomeananysamplingunit,whethersquare,rectangular,circular,hexagonalorevenirregularinoutline.样方分析步骤a).研究区域中打上网格,建议方格大小为:QuadratSize=2A/nA:研究区域面积,n:点的个数。b).确定每个网格中点的个数。c).计算均值(Mean)、方差(Var)和方差均值比:VMR=Var/Mean–对于均匀分布,方差=0,因此VMR的期望值=0;–对于随机分布,方差=均值,因此VMR的期望值=1;–对于聚集分布,方差大于均值。因此VMR的期望值1。注:N=样方数量=10随机均匀聚集1)(122NXXSNii随机聚集000010100000Quadrat#NumberofPointsPerQuadrat(xi-xa)^21042043044045106461064704804904100420160Variance17.778Mean2.000Var/Mean8.889x均匀2222222222Quadrat#NumberofPointsPerQuadrat(xi-xa)^21202203204205206207208209201020200Variance0.000Mean2.000Var/Mean0.000x00.21NXXNii3150211331Quadrat#NumberofPointsPerQuadrat(xi-xa)^213121135940452061171183193110112020Variance2.222Mean2.000Var/Mean1.111x样方分析的缺点结果依赖于样方的大小和方向。总的模式是分散的,但局部有聚集现象。样方分析主要依据点密度,而不是点之间的相互关系,所以不能区别图示的两种情况:样方分析不能探测区域内的变化。密度:aASan)(#密度依赖于研究区域的大小。a:a,4a,16a,64an:2,2,5,10:2.0,0.5,0.31,0.15如何比较精确地检验零假设?H0:没有空间模式假设在一区域内通过随机放点来模拟零假设,并计算其方差-均值比(VMR)。更进一步地,假如重复模拟1000次,得到模拟结果的直方图,当H0为真时,1000次VMR的均值将接近于1。直方图中VMR的尾部值(VMR的抽样分布),当零假设为真时相对稀少。②样方分析的统计检验-方差均值比的x2检验如果观测模式的VMR大于VMRH,则拒绝零假设,相对于随机模式而言观测值更趋于均匀分布;如果观测模式的VMR小于VMRL,也拒绝零假设,相对于随机模式而言观测值更趋于聚集分布。当H0为真时VMR的抽样分布如果观测到VMR的极值(大于VMRH或小于VMRL),则拒绝没有空间模式的零假设。在这种情况下,1)零假设实际上是真的,而我们拒绝了它,犯了第I类错误(弃真);2)零假设不是真的,我们做了一个正确的决定。为了确定临界值点(VMRH、VMRL),首先必须确定所容许犯第I类错误的概率。如果α=0.05,那么1000次模拟当中50个较大的值用于获取临界值(50/1000=0.05)。如果把1000次模拟的VMR值从小到大依次排序,第25个值将作为VMRL,当H0为真时1000次中有25次低于VMRL;相似地,第975个值将作为VMRH,当H0为真时1000次中有25次高于VMRH。这样,当采用该临界值时,1000次当中有50次,或5%的几率犯第I类错误。样方分析:假设检验示例判断下图是否空间随机(共100个点,分布于10×10的样方内)?均值:100/(10×10)=1含3个点的样方:6个含2个点的样方:20个含1个点的样方:42个含0个点的样方:32个方差为:{6(3-1)2+20(2-1)2+42(1-1)2+32(0-1)2}/(100-1)=0.77VMR=0.77/1=0.771,趋于均匀分布。如果H0为真,0.77是否小到可以拒绝原假设?方法:随机模拟,均值=1重复模拟1000次,建立VMR的抽样分布,得到的结果从小到大排序。第25个最小值VMRL=0.747,第975个值VMRH=1.313。由于VMRL0.77VMRH,接受原假设,即随机情况下VMR=0.77不是特别不正常。上述方法即所谓的蒙特卡罗模拟(MonteCarloSimulation)。优点:易于理解和实现缺点:不同的人得到的模拟结果不同,e.g.10个人可能得到10个不同的临界值。蒙特卡罗模拟方法的基本思想圆的外切正方形的边长。蒙特卡罗模拟方法的基本思想当H0为真时,有一个简单的方法可以避免采用前述的模拟方法。临界值可用x2=(m-1)VMR具有m-1个自由度的x2分布表确定。当自由度(df)比较大时,x2=(m-1)VMR趋于正态分布。特别地,当H0为真、df30的情况下,(m-1)VMR具有均值为m-1、方差为2(m-1)的正态分布。这意味着(1)(1)(1)/2(1)2(1)mmzmmVMRVMR是均值为0、方差为1的标准正态分布。在α=0.05的情况下,临界值分别为zL=-1.96、zH=+1.96。如果zzL或zzH,则拒绝原假设。上例中:990.77991.6182(99)1.961.96z自由度小于30的情况100个点,5×5样方:VMR=0.6875。x2=(25-1)×VMR=16.5由于自由度(df)小于30,需要应用x2分布表。查找df=24、p=0.025和p=0.975,并进行插值,得到上、下临界值40.5、12。因为1216.540.5,所以接受零假设。点模式为空间随机分布。基本思想:在研究区域内的任一点都有一个密度,而不仅仅是在事件点上。该密度通过计数一定区域内的事件点数量,或核(Kernel)进行估计。核以估计点为中心,一定距离为半径。2)],(#.[rrpCSp其中:C(p,r)是以待估点p为圆心、r为半径的圆。带宽:r如果r太大/小,那么……?r固定?r变化?③核密度估计(KernelDensityEstimation,KDE)边界?KernelWindows©PaulBolstad,GISFundamentals带宽选择是核密度估计中一个具有挑战性的问题,可以采用不同的带宽对同一问题进行分析,探测模式的异质性。AnalysisKernelDensities密度估计(带宽700Km)密度估计(带宽300Km)密度估计(带宽500Km)EventssiStudyregionlocationsBandwidthr(.)KernelκQuelle:AdaptiertvonGatrelletal.(1996)QuarticKernelFunktion#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S#S