7.空间插值7.1空间插值的概念和理论空间插值常用于将离散点的测量数据转换为连续的数据曲面,以便与其它空间现象的分布模式进行比较,它包括了空间内插和外推两种算法。空间内插算法是一种通过已知点的数据推求同一区域其它未知点数据的计算方法;空间外推算法则是通过已知区域的数据,推求其它区域数据的方法。在以下几种情况下必须作空间插值:1)现有的离散曲面的分辨率,象元大小或方向与所要求的不符,需要重新插值。例如将一个扫描影象(航空像片、遥感影象)从一种分辨率或方向转换到另一种分辨率或方向的影象。2)现有的连续曲面的数据模型与所需的数据模型不符,需要重新插值。如将一个连续的曲面从一种空间切分方式变为另一种空间切分方式,从TIN到栅格、栅格到TIN或矢量多边形到栅格。3)现有的数据不能完全覆盖所要求的区域范围,需要插值。如将离散的采样点数据内插为连续的数据表面。空间插值的理论假设是空间位置上越靠近的点,越可能具有相似的特征值;而距离越远的点,其特征值相似的可能性越小。然而,还有另外一种特殊的插值方法——分类,它不考虑不同类别测量值之间的空间联系,只考虑分类意义上的平均值或中值,为同类地物赋属性值。它主要用于地质、土壤、植被或土地利用的等值区域图或专题地图的处理,在“景观单元”或图斑内部是均匀和同质的,通常被赋给一个均一的属性值,变化发生在边界上。7.2空间插值的数据源连续表面空间插值的数据源包括:摄影测量得到的正射航片或卫星影象;卫星或航天飞机的扫描影象;野外测量采样数据,采样点随机分布或有规律的线性分布(沿剖面线或沿等高线);数字化的多边形图、等值线图;空间插值的数据通常是复杂空间变化有限的采样点的测量数据,这些已知的测量数据称为“硬数据”。如果采样点数据比较少的情况下,可以根据已知的导致某种空间变化的自然过程或现象的信息机理,辅助进行空间插值,这种已知的信息机理,称为“软信息”。但通常情况下,由于不清楚这种自然过程机理,往往不得不对该问题的属性在空间的变化作一些假设,例如假设采样点之间的数据变化是平滑变化,并假设服从某种分布概率和统计稳定性关系。采样点的空间位置对空间插值的结果影响很大,理想的情况是在研究区内均匀布点。然而当区域景观大量存在有规律的空间分布模式时,如有规律间隔的数或沟渠,用完全规则的采样网络则显然会得到片面的结果,正是这个原因,统计学家希望通过一些随机的采样来计算无偏的均值和方差。但是完全随机的采样同样存在缺陷,首先随机的采样点的分布位置是不相关的,而规则采样点的分布则只需要一个起点位置,方向和固定大小的间隔,尤其是在复杂的山地和林地里比较容易。其次完全随机采样,会导致采样点的分布不均,一些点的数据密集,另一些点的数据缺少。图5-15列出空间采样点分布的几种选择。图5-15:各种不同的采样方式规则采样和随机采样好的结合方法是成层随机采样,即单个的点随机的分布于规则的格网内。聚集采样可用于分析不同尺度的空间变化。规则断面采样常用于河流、山坡剖面的测量。等值线采样是数字化等高线图插值数字高程模型最常用的方法。7.3空间插值方法空间插值方法可以分为整体插值和局部插值方法两类。整体插值方法用研究区所有采样点的数据进行全区特征拟合;局部插值方法是仅仅用邻近的数据点来估计未知点的值。整体插值方法通常不直接用于空间插值,而是用来检测不同于总趋势的最大偏离部分,在去除了宏观地物特征后,可用剩余残差来进行局部插值。由于整体插值方法将短尺度的、局部的变化看作随机的和非结构的噪声,从而丢失了这一部分信息。局部插值方法恰好能弥补整体插值方法的缺陷,可用于局部异常值,而且不受插值表面上其它点的内插值影响。7.3.1整体插值方法1)边界内插方法边界内插方法假设任何重要的变化发生在边界上,边界内的变化是均匀的,同质的,即在各方向都是相同的。这种概念模型经常用于土壤和景观制图,可以通过定义“均质的”土壤单元、景观图斑,来表达其它的土壤、景观特征属性。边界内插方法最简单的统计模型是标准方差分析(ANOVAR)模型:式中,z是在x0位置的属性值,μ是总体平均值,αk是k类平均值与μ的差,ε为类间平均误差(噪声)。该模型假设每一类别k的属性值是正态分布;每类k的平均值(μ+αk)由一个独立样品集估计,并假设它们是与空间无关的;类间平均误差ε假设所有类间都是相同的。评价分类效果的指标是,为类间方差,为总体方差,比值越小分类效果越好。分类效果的显著性检验可以用F检验。实质上,边界内插方法的理论假设是:属性值z在“图斑”或景观单元内是随机变化的,不是有规律的;同一类别的所有“图斑”存在同样的类方差(噪声);所有的属性值都呈正态分布;所有的空间变化发生在边界上,是突变而不是渐变。在使用边界内插时,应仔细考虑数据源是否符合这些理论假设。2)趋势面分析某种地理属性在空间的连续变化,可以用一个平滑的数学平面加以描述。思路是先用已知采样点数据拟合出一个平滑的数学平面方程,再根据该方程计算无测量值的点上的数据。这种只根据采样点的属性数据与地理坐标的关系,进行多元回归分析得到平滑数学平面方程的方法,称为趋势面分析。它的理论假设是地理坐标(x,y)是独立变量,属性值Z也是独立变量且是正态分布的,同样回归误差也是与位置无关的独立变量。多项式回归分析是描述长距离渐变特征的最简单方法。多项式回归的基本思想是用多项式表示线、面,按最小二乘法原理对数据点进行拟合。线或面多项式的选择取决于数据是一维的还是二维的。用一个简单的示例来说明,地理或环境调查中特征值z沿一个断面在x1,x2…xn处采样,若z值随x值增加而线性增大,则该特征值的长期变化可以用下面一个回归方程进行计算:其中,b0,b1为回归系数,ε为独立于x的正态分布残差(噪声)。然而许多情况下,不是以线性函数,而是以更为复杂的方式变化,则需用二次多项式进行拟合:对于二维的情况,XY坐标的多元回归分析得到的曲面多项式,形式如下:前三种形式分别是:平面斜平面二次曲面其中,p是趋势面方程的次数。是趋势面多项式正常情况下的最少项数个数。零次多项式是平面,有1个项数;一次多项式是斜平面,有3个项数;二次曲面有6个项数,三次趋势面有10个项数。计算系数bi是一个标准的多元回归问题。趋势面分析的优点是非常容易理解,至少是在计算方面。另外大多数情况下可用低次多项式进行拟合,但给复杂的多项式赋与明确的物理意义比较困难。趋势面是个平滑函数,很难正好通过原始数据点,除非是数据点少且趋势面次数高才能是曲面正好通过原始数据点,所以趋势面分析是一个近似插值方法。实际上趋势面最有成效的应用是揭示区域中不同于总趋势的最大偏离部分,所以趋势面分析的主要用途是,在使用某种局部插值方法之前,可用趋势面分析从数据中去掉一些宏观特征,不直接用它进行空间插值。趋势面拟合程度的检验,同多元回归分析一样,可用F分布进行检验,其检验统计量为:其中,U为回归平方和,Q为残差平方和(剩余平方和),p为多项式项数(不包括常数项b0),n为使用数据点数目。当FFa时,趋势面显著,否则不显著。3)变换函数插值根据一个或多个空间参量的经验方程进行整体空间插值,也是经常使用的空间插值方法,这种经验方程称为变换函数。下面以一个研究实例进行说明。冲积平原的土壤重金属污染与几个重要因子有关,其中距污染源(河流)的距离,和高程两个因子最重要。一般情况,携带重金属的粗粒泥沙沉积在河滩上,携带重金属的细粒泥沙沉淀在低洼的在洪水期容易被淹没的地方,而那些洪水频率低的地方,由于携带重金属污染泥沙颗粒比较少,受到污染轻。由于距河流的距离和高程是比较容易得到的空间变量,可以用各种重金属含量与它们的经验方程进行空间插值,以改进对重金属污染的预测。本例回归方程的形式如下:式中是z(x)某种重金属含量(ppm),b0…bn是回归系数,p1…pn是独立空间变量,本例p1是距河流的距离因子,p2是高程因子。这种回归模型通常叫做转换函数,大多数GIS软件都可以计算。转换函数可以应用于其他独立变量,如温度、高程、降雨量和距海、植被的距离关系可以组合为一个超剩含水量的函数。地理位置及其属性可以尽可能多的信息组合成需要的回归模型,然后进行空间插值。但应该注意的一点是,必须清楚回归模型的物理意义。还要指出的是所有的回归转换函数都属于近似的空间插值。整体插值方法通常使用方差分析和回归方程等标准的统计方法,计算比较简单。其它的许多方法也可用于整体空间插值,如傅立叶级数和小波变换,特别是遥感影象分析方面,但它们需要的数据量大。7.3.2局部插值方法局部插值方法只使用邻近的数据点来估计未知点的值,包括几个步骤:1)定义一个邻域或搜索范围;2)搜索落在此邻域范围的数据点;3)选择表达这有限个点的空间变化的数学函数;4)为落在规则格网单元上的数据点赋值。重复这个步骤直到格网上的所有点赋值完毕。使用局部插值方法需要注意的几个方面是:所使用的插值函数;邻域的大小、形状和方向;数据点的个数;数据点的分布方式是规则的还是不规则的。1)最近邻点法:泰森多边形方法泰森多边形(Thiessen,又叫Dirichlet或Voronoi多边形)采用了一种极端的边界内插方法,只用最近的单个点进行区域插值。泰森多边形按数据点位置将区域分割成子区域,每个子区域包含一个数据点,各子区域到其内数据点的距离小于任何到其它数据点的距离,并用其内数据点进行赋值。连接所有数据点的连线形成Delaunay三角形,与不规则三角网TIN具有相同的拓扑结构。GIS和地理分析中经常采用泰森多边形进行快速的赋值,实际上泰森多边形的一个隐含的假设是任何地点的气象数据均使用距它最近的气象站的数据。而实际上,除非是有足够多的气象站,否则这个假设是不恰当的,因为降水、气压、温度等现象是连续变化的,用泰森多边形插值方法得到的结果图变化只发生在边界上,在边界内都是均质的和无变化的。2)移动平均插值方法:距离倒数插值距离倒数插值方法综合了泰森多边形的邻近点方法和趋势面分析的渐变方法的长处,它假设未知点x0处属性值是在局部邻域内中所有数据点的距离加权平均值。距离倒数插值方法是加权移动平均方法的一种。加权移动平均方法的计算公式如下:式中,权重系数由函数计算,要求当时,一般取倒数或负指数形式。其中最常见的形式是距离倒数加权函数,形式如下:式中,xj为未知点,xi为已知数据点。加权移动平均公式最简单的形式称为线性插值,公式如下:距离倒数插值方法是GIS软件根据点数据生成栅格图层的最常见方法。距离倒数法计算值易受数据点集群的影响,计算结果经常出现一种孤立点数据明显高于周围数据点的“鸭蛋”分布模式,可以在插值过程中通过动态修改搜索准则进行一定程度的改进。3)样条函数插值方法在计算机用于曲线与数据点拟合以前,绘图员是使用一种灵活的曲线规逐段的拟合出平滑的曲线。这种灵活的曲线规绘出的分段曲线称为样条。与样条匹配的那些数据点称为桩点,绘制曲线时桩点控制曲线的位置。曲线规绘出的曲线在数学上用分段的三次多项式函数来描述这种曲线,其连接处有连续的一阶和二阶连续导数。样条函数是数学上与灵活曲线规对等的一个数学等式,是一个分段函数,进行一次拟合只有与少数点拟合,同时保证曲线段连接处连续。这就意味着样条函数可以修改少数数据点配准而不必重新计算整条曲线,趋势面分析方法做不到这一点,(图16)。图5-16:样条函数的局部特征(a:当二次样条曲线的一个点位置变化时,只需要重新计算四段曲线;b:而一次样条曲线的一个点位置变化时,只需要重新计算两段曲线)一般的分段多项式p(x)定义为:p(x)=pi(x)xixxi+1(i=1,2,3…,k-1)(j=0,1,2,...,r-1;i=1,2,...,k-1)x1,...,xk-1将区间x0,xk分成k个子区间,这些分割点称“断点”,曲线上具有这些x值的点称为“节”。函数pi(x)为小于等于m次的多项式。r项用来表示样条函数的约束条件:r=0,无约束;r=1,函数连续且对它的导数无任何约束;r=m-1,区间[x0xk]可用一个多项式表示;r=m,约束条件最多。m=