2014-4-22地理学中可能遇到的问题:了解天津市空气质量宏观分布天津市空气质量监测点了解我国某个地区的气候状况气象站分布-温度降水某观测站因意外存在缺测、漏测解决问题的难点:到研究区每个点进行观测是非常困难的——时间、人力或财力都不允许。GIS不仅对实际可视的地面对象进行计算,还可以对实际上无法显示,但是可以用数值表示并可视化,称为统计面。构建统计面实际上和地形分析方法类似,只是要求输入的数据为点数据样本。由于点数据无法形成一个面,因此需要对点与点之间的空白区域进行估计,以构成一个完整的面,这个构成,成为空间插值。如何生成表面?如何才能获得尽可能精确的表面?如何评价和比较分析的结果?空间插值:用已知点的数值来估算其他点的数值的过程。内插:在已观测点的区域内估算未观测点的数据的过程;外推:在已观测点的区域外估算未观测点的数据的过程。——预测通过已知的空间数据,找到一个函数关系式,使关系式最好得逼近这些已知的空间数据,并能够根据该函数关系式,推求出区域范围内其他任意点或多边形分区范围的值。空间插值的结果是形成栅格,因此空间插值也可以理解为将点状矢量数据转化为栅格数据的过程。也是将点数据转换为面数据的一种方法。012345678901234567890123456701234567将空间上离散点的测量数据转换为连续的曲面数据,即填补样本点之间的数据空白,以便与其它空间现象的分布进行建模研究。012345678901234567已知数据函数关系式未知数据从存在的观测数据中找到一个函数关系式,使该关系式最好的逼近这些已知的空间数据,并能根据函数关系式推求出区域范围内其它任意点的值。距离衰减效应空间位置上越靠近的点,越可能具有相似的观察值;而距离越远的点,其特征值相似的可能性越小。Tobler(1970)”地理学第一定律”描述了这样的性质:所有的事物或现象在空间上都是有联系的,但相距近的事物或现象之间的联系一般较相距远的事物或现象间的联系要紧密。缺值估计◦如何在没有测点的地区得到我们需要的数据?◦测点自然或人为的原因,缺少某天或某个时间段的数据。内插等值线◦形象直观的显示空间数据分布◦平面制图数据格网化◦以不规则点图元组织的Z变量的数据,并不适合于图形显示,也不适于进行分析。多数空间分析要求将Z值转换成一个规则间距空间格网,或者转换成不规则三角形网。◦规则格网数据更好的显示空间数据连续分布一、控制点控制点是已知数值的点。已知点、样本点、观测点。控制点的数量和分布极大地影响空间插值的精度。二、空间插值的类型1.整体插值和局部插值;2.精确插值和近似插值。3.确定性插值和地统计插值;整体插值:用研究区所有采样点数据进行全区特征拟合。在整个区域用一个数学函数表达地形曲面,采用全部控制点计算未知点数据。整个区域的数据都会影响单个插值点,单个数据点变量值的增加、减少或者删除,都对整个区域有影响。典型例子是:全局趋势面分析、回归模型、FourierSeries(周期序列)局部内插法只使用邻近的数据点(样本控制点)来估计未知点的值,步骤如下:◦定义一个邻域或搜索范围;◦搜索落在此邻域范围的数据点;◦选择能表达这有限个点空间变化的数学函数;◦为未知的数据点赋值。将复杂的地形地貌分解成一系列的局部单元,在这些局部单元内部地形曲面具有单一的结构,由于范围的缩小和曲面形态的简化,用简单曲面即可描述地形曲面。局部内插方法:◦泰森多边形(Voronoi边形、边界内插)◦样条函数插值法◦反距离权重内插◦Kriging插值(空间自由协方差最佳内插)◦密度估算单个数据点的改变只影响其周围有限的数据点。整体插值方法将小尺度的、局部的变化看作随机和非结构性噪声,从而丢失了这一部分信息。局部插值方法恰好能弥补整体插值方法的缺陷。整体插值方法通常不直接用于空间插值,而是用来检测总趋势和不同于总趋势的最大偏离部分,即剩余部分,在去除了宏观趋势后,可用剩余残差来进行局部插值。精确插值:产生通过所有观测点的曲面。◦在精确插值中,插值点落在观测点上,内插值等于估计值。近似插值:插值产生的曲面不通过所有观测点。◦当数据存在不确定性时,应该使用近似插值,由于估计值替代了已知变量值,近似插值可以平滑采样误差。确定性方法◦基于未知点周围点的值和特定的数学公式,来直接产生平滑的曲面;基于自相关性(测量点的统计关系),根据测量数据的统计特征产生曲面;由于建立在统计学的基础上,因此不仅可以产生预测曲面,而且可以产生误差和不确定性曲面,用来评估预测结果的好坏◦多种kriging方法①内插方法(模型)的选择;②空间数据的探索性分析,包括对数据的均值、方差、协方差、独立性和变异函数的估计等;③进行内插;④内插结果评价;⑤重新选择内插方法,直到合理;⑥内插生成最后结果。①精确性:②参数的敏感性:许多的插值方法都涉及到一个或多个参数,如距离反比法中距离的阶数等。有些方法对参数的选择相当敏感,而有些方法对变量值敏感。后者对不同的数据集会有截然不同的插值结果。希望找到对参数的波动相对稳定,其值不过多地依赖变量值的插值方法。③耗时:一般情况下,计算时间不是很重要,除非特别费时。④存储要求:同耗时一样,存储要求不是决定性的。特别是在计算机的主频日益提高,内存和硬盘越来越大的情况下,二者都不需特别看重。⑤可视化、可操作性(插值软件选择):三维的透视图等。(1)交叉验证交叉验证法(cross-validation),首先假定每一测点的要素值未知,而采用周围样点的值来估算,然后计算所有样点实际观测值与内插值的误差,以此来评判估值方法的优劣。各种插值方法得到的插值结果与样本点数据比较。(2)“实际”验证将部分已知变量值的样本点作为“训练数据集”,用于插值计算;另一部分样点“验证数据集”,该部分站点不参加插值计算。然后利用“训练数据集”样点进行内插,插值结果与“训练数据集”验证样点的观测值对比,比较插值的效果。采样点的空间位置对空间插值的结果影响很大。1)理想情况是研究区内均匀布点:但当区域景观存在有规律的空间分布模式时,用完全规则的采样网络可能会得到片面的结果;2)完全随机的采样:采样点的分布位置是不相关的,完全随机采样可能会导致采样点的分布不均,一些点的数据密集,另一些点的数据缺少。3)规则采样和随机采样的结合方法是成层随机采样,即划分为规则格网,每个格网中的样本数固定,但单个点随机地分布于规则格网内。(1)规则采样(2)随机采样(4)成层随机采样(5)聚集采样(3)断面采样(6)等值线采样趋势面模型回归模型通常把实际的地理曲面分解为趋势面和剩余面两部分,前者反应地理要素的宏观分布规律,属于确定性因素作用的结果;而后者则对应于微观区域,被认为是随机因素影响的结果。趋势面分析的一个基本要求就是,所选择的趋势面模型应该是剩余值最小,而趋势值最大,这样拟合度精确度才能达到足够的准确性。趋势面分析是通过回归分析原理,运用最小二乘法拟合一个二维非线性函数,模拟地理要素在空间上的分布规律,展示地理要素在地域空间上的变化趋势。在数学上,拟合数学曲面要注意两个问题:一是数学曲面类型(数学表达式)的确定,二是拟合精度的确定。设某地理要素的实际观测数据为zi(xi,yi)(i=1,2,…,n),趋势值拟合值为,则有用来计算趋势面的数学方程式有多项式函数和傅立叶级数,其中最常用的是多项式函数。因为任何一个函数都可以在一个适当的范围内用多项式来逼近,而且调整多项式的次数,可使所求的回归方程适合实际问题的需要。式中,为剩余值(残差值)趋势面分析的核心就是从实际观测值出发推算趋势面,一般采用回归分析方法,使得残差平方和最小从而估计趋势面参数。假设二维空间中有n个观测点(xl,yl)(l=1,2,…,n),观测值为zl(l=1,2,…,n)则空间分布z的趋势面可表示为N次多项式根据最小二乘法,可得利用克莱姆法则可以求出各个参数ai是一种多项式回归分析模型,用多项式表示线或面,按最小二乘法原理对数据点进行拟合。A、当数据为一维时,1)线性回归:2)二次或高次多项式:B、数据是二维的二元二次或高次多项式多项式分析◦多项式趋势面随着N值的不同,其形态也不同。◦一般地讲,N值越大,拟合精度越高。拟合精度C以下式表示,通常C为60%~70%时,该多项式就能够揭示空间趋势。一次多项式二次多项式三次多项式趋势面拟合适度的R2检验式中,为剩余平方和,它表示随机因素对z的离差为回归平方和,它表示p个自变量对因变量z的离差的总影响R2越大,趋势面的拟合度就越高。趋势面拟合适度的显著性F检验•检验的办法是在显著性水平下,查F分布表得Fa。若计算的F值大于临界值Fa,则认为趋势面方程显著;否则,不显著。•p为多项式项数(不包括常数项),序号降水量Z/mm横坐标x/104m纵坐标y/104m127.601238.41.10.63241.80424.72.9505323.40.2655.51.81.7740.40.71.3837.50.229310.853.351031.71.653.1511532.653.11244.93.652.55上表为某流域1月份降水量与各观测点的坐标位置数据1)建立趋势面模型运用上述介绍的趋势面分析原理,首先采用二次多项式进行趋势面拟合,用最小二乘法求得拟合方程为z=5.998+17.438x+29.787y-3.558x2+0.375xy-8.070y2(R2=0.839,F=6.236)再采用三次趋势面进行拟合,用最小二乘法求得拟合方程为z=-48.810+37.557x+130.130y+8.389x2-33.166xy-62.740y2-4.133x3+6.138x2y+2.566xy2+9.785y3(R2=0.965,F=6.054)2)模型检验(1)趋势面拟合适度的R2检验。结果表明,二次趋势面回归模型和三次趋势面回归模型的显著性都较高,而且三次趋势面较二次趋势面具有更高的拟合程度。(2)趋势面适度的显著性F检验。在置信水平a=0.05下,查F分布表得F2a=F0.05(5,6)=4.53,F3a=F0.05(9,2)=19.4。显然,F2F2a,而F3F3a,故二次趋势面的回归方程显著而三次趋势面不显著。因此,F检验的结果表明,用二次趋势面进行拟合比较合理。优点◦产生平滑的曲面;◦结果点很少通过原始数据点,只是对整个研究曲产生最佳拟合面;缺点◦高次多项式在数据区外围产生异常高值或低值建立因变量与自变量的联系自变量的选择:非空间属性、空间属性求解方法与趋势面类似例子:流域雪水量模型,山区降水量估算模型整体内插函数保凸性较差,采样点的增减或移动都需要对多项式的系数作全面调整,从而采样点之间会出现难以控制的振荡现象,致使函数极不稳定,从而导致保凸性较差。多项式物理意义不明显解算速度慢且对计算机容量要求高不能提供内插区域的局部地形特征。由于以上缺点,在空间内插中整体内插并不常用整个区域上函数的唯一性、能得到全局光滑连续的空间曲面、充分反映宏观地形特征等。在空间内插中,一般是与局部内插方法配合使用,例如在使用局部内插方法之前,利用整体内插去掉不符合总体趋势的宏观地物特征。整体内插函数常常用来揭示整个区域内的地形宏观起伏态势。泰森多边形密度估算反距离权重内插薄板样条函数使用边界内插法时,首先要假定任何重要的变化都发生在区域的边界上,边界内的变化则是均匀的、同质的。边界内插的方法之一是泰森多边形法。泰森多边形法的基本原理是,未知点的最佳值由最邻近的观测值产生。泰森(Thiessen)多边形最初用于估算区域降水量的平均值。荷兰气候学家A·H·Thiessen提出了一种根据离散分布的气象站的降雨量来计算平均降雨量的方法,即将所有相邻气象站连成三角形,作这些三角形各边的垂直平分线,于是每个气象站周围的若干垂直平分线便围成一个多边形。用这个多边形内所包含的一个唯一气象站的降雨强度来表示这