10空间统计分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第10章空间统计分析城乡规划与园林学院空间统计分析,即空间数据的统计分析,通过空间位置建立数据间的统计关系。空间统计分析含义:“空间数据的统计分析”“数据的空间统计分析”着重于空间物体和现象的非空间特性的统计分析,研究如何以数学统计模型来描述和模拟空间现象和过程。直接从空间物体的空间位置、联系等方面出发,研究既具有随机性和结构性,或具有空间相关性和依赖性的自然现象。1.空间统计学产生的原因?大多数经典统计学分析要求样本相互独立,而空间数据间并非完全独立,而是存在依赖性。2空间统计分析的目的?描述事物在空间上的分布特征(随机的、聚集的或规则的)。分析数据的空间自相关性,空间自相关性对空间格局的影响,如何利用这种关系构建模型本章主要内容:一基本统计量二探索性数据分析三分级统计分析四空间插值五空间回归分析一基本统计量基本统计量集中趋势离散程度分布特征平均数中位数众数分位数极差离差平均离差离差平方和方差标准差变异系数偏度峰度总和比率比例种类描述数据特征的统计量其他统计量本章主要内容:一基本统计量二探索性数据分析三分级统计分析四空间插值五空间回归分析二探索性数据分析对样本数据性质的研究,没有先验的理论假设,通过对数据全面深入分析来了解其在空间分布、空间结构以及空间相互影响方面的特征。ExploratoryDataAnalysis—EDA(一)基本分析工具(二)检验数据分布(三)寻找数据离群值(四)全局趋势分析(五)空间自相关分析二探索性数据分析(一)基本分析工具1直方图2QQplot分布图3变异函数4Voronoi图1直方图对采样数据按一定的分级方案进行分级,统计采样点落入各个级别中的个数,并通过条带图或柱状图表现出来。2QQplot分布图(1)正态QQPlot分布图用来评估单变量样本数据是否服从正态分布。特点:如果采样数据服从正态分布,其正态QQplot分布图中采样点分布应该是一条直线。如果有个别采样点偏离直线太多,那么这些采样点可能是一些异常点,应对其进行检验。河南省18个地级市2010年人均GDPQ-Q图(2)普通QQPlot分布图(GeneralQQPlot)用来评估两个数据集的分布的相似性。它揭示了两个物体的相关关系,如果在普通QQplot分布图中呈直线,说明两物体呈一种线性关系,可以用一元一次方程来拟合。如果在普通QQplot分布图中呈抛物线,说明两物体的关系可以用二次多项式来拟合。河南省18个地级市2010年人均GDP与第三产业比值普通Q-Q图3变异函数2()11()()()()NhiiirhzxzxhNh方差变异分析工具:半变异函数曲线图和协方差函数曲线反映了一个采样点与其相邻采样点的空间关系。他们对异常采样点具有很好的探测作用。3变异函数۰۰۰۰۰۰۰۰۰۰hr(h)基台C0+C0块金C0变程α变异函数图4Voronoi图由俄国数学家M.G.Voronoi于1908年发现并以他的名字命名的。又称泰森多边形。思考题:中央电视台天气预报,那个省会城市的天气情况与你家乡最接近?Voronoi图的定义:平面n个离散点,把平面分成n个区,每个区包括一个点,该点所在的区是到该点距离最近的点的集合。Voronoi图的特点:1组成多边形的边总是与两相邻样点的连线垂直;2多边形内的任意位置总是离该多边形内样点的距离最近,离相邻多边形内样点距离远;3每个多边形内包含且仅包含一个样点。(二)检验数据分布在地统计分析中,克里格方法是建立在平稳假设的基础上,这种假设在一定程度上要求所有数据值具有相同的变异性。另外,一些克里格插值都假设数据服从正态分布。如果数据不服从正态分布,需要进行一定的数据变换,从而使其服从正态分布。因此,检验数据分布特征,了解和认识数据具有非常重要的意义。(三)寻找数据离群值数据离群值分为全局离群值和局部离群值两大类。全局离群值是指对于数据集中所有点来讲,具有很高或很低的值的观测样点。局部离群值值对于整个数据集来讲,观测样点的值处于正常范围,但与其相邻测量点比较,它又偏高或偏低。用直方图查找离群值离群值在直方图上表现为孤立存在或被一群显著不同的值包围。用半变异函数云图识别离群值如果数据集中有一个异常高值的离群值,则与这个离群值形成的样点对,无论距离远近,在半变异/协方差函数云图中都具有很高的值。用Voronoi图查找局部离群值熵(entropy)Voronoi图聚类(cluster)Voronoi图(四)全局趋势分析空间趋势反映了空间物体在空间区域上变化的主体特征,它主要揭示了空间物体的总体规律,而忽略局部的变异。趋势面分析是根据空间抽样数据,拟合一个数学曲面,用该数学曲面来反映空间分布的变化情况。趋势分析透视图(五)空间自相关分析1空间分布模式2空间权重矩阵3空间自相关系数可以划分为聚集模式(clusteredpattern)、分散模式(dispersedpattern)和随机模式(randompattern)三类。聚集模式分散模式随机模式1空间分布模式真实世界中的大部分模式都介于随机与分散模式或随机与聚集模式之间,极少能遇到极端聚集、极端分散或极端随机的模式。既然现实模式很难轻易归入聚集、分散或随机型,那么我们就要考虑某一给定的空间模式与这三种模式中的某一种到底有多接近?如果它接近其中的一种模式,那么这种接近到底是有偶然因素还是系统过程造成的?我们在分析某变量的空间分布模式时,实际上是在测度空间自相关程度或者说空间依赖程度。空间自相关是指属性值在空间上相关是由要素的地理位置造成的。空间自相关是根据位置相似性和属性相似性的匹配情况来测度的。位置的相似性可以通过空间接近性矩阵(或权重矩阵)W来描述;属性的相似性一般通过交叉乘积xixj,或平方差异(xi-xj)2,或绝对差异│xi-xj│来描述。基于“距离”的空间接近性测度就是使用面积单元之间的距离定义接进行。如何测度任意两个面积单元之间的距离呢?①按照面积单元之间是否有邻接关系的邻接法;②基于面积单元中心距离的重心距离法。2空间权重矩阵(空间接近性矩阵)式中:Wij表示区域i与j的临近关系,它可以根据邻接标准或距离标准来度量。nnnnnn212222111211假设研究区有n个多边形,任何两个多边形都存在一个空间关系,这样就有n×n对关系,需要n×n的矩阵存储这n个单元之间的空间关系。(1)简单的二进制邻接矩阵其他相邻接和当区域01jiwij123456789123456789车的行走方式王、后的行走方式(2)基于距离的二进制空间权重矩阵其他距离范围之内重心重心位于01dijwij(1)Moran’sI设研究区域中存在n个面积单元,第i个单元上的观测值记为xi,观测变量在n个单元中的均值记为,Moran’sI定义为:xninjniiijninjjiijxxwxxxxwnI111211ninjijninjjiijwSxxxxw11211))((ninjijninjjiijwzzw11113空间自相关系数-1≤I≤11表示极强的正空间自相关,-1表示极强的负空间自相关。对于Moran指数,可以用标准化统计量Z来检验n个区域是否存在空间自相关关系,Z的计算公式为:当Z值为正且显著时,表明存在正的空间自相关,也就是说相似的观测值(高值或低值)趋于空间集聚;当Z值为负且显著时,表明存在负的空间自相关,相似的观测值趋于分散分布;当Z值为零时,观测值呈独立随机分布。)()(IVARIEIZ(2)Geary系数CninjniiijninjjiijxxwxxwnC111211221基于相关位置间的数字差分:0≤C≤2C1表示负相关,C=1表示不相关,C1表示正相关。本章主要内容:一基本统计量二探索性数据分析三分级统计分析四空间插值五空间回归分析三分级统计分析把数据划分成不同的级别,体现数据自身的特征,为应用研究及专题制图提供基础。(一)分级的概念与目的(二)分级的原则(三)分级统计的方法三分级统计分析(一)分级的概念与目的概念:根据一定的方法或标准把数据分成不同的级别。目的:区分数据集中个体的差别。(二)分级的原则*科学性原则*完整性原则*适用性原则*美观性原则(三)分级统计的方法*单一分级法和复合分级法*等值分级法和不等值分级法*自定义分级法和模式分级法1自定义分级—根据自己的应用目的设定各个级别的数值范围来实现分级的方法。不同分级体系下坡度的分级结果2模式分级(1)等间距分级(2)分位数分级(3)等面积分级(4)标准差分级(5)自然裂点法分级(6)其他分级方法按固定模式进行分级,级差由特定的算法自动设定。(1)等间距分级按某个恒定间隔来对数据进行分级。间距D=(最大值-最小值)÷分级数等间距分级结果(2)分位数分级把数列划分为相等个数的分段。先将数列按大小排列,从一端开始计算其分位数,把处于分位数上的那个值作为分级值。分位数分级可以使每一级别的数据个数接近一致,往往能产生较好的制图效果。分位数分级结果(3)等面积分级等面积分级结果(4)标准差分级标准差可以反映各数据间的离散程度。首先要保证数据的分布具有正态分布的规律,才可计算平均值和标准差,然后根据数据波动情况划分等级。1倍标准差分级结果1/2倍标准差分级结果(5)自然裂点法分级基于让各级别中的变异总和达到最小的原则来选择分级断点的。任何统计数列都存在一些自然转折点、特征点,用这些点可以把研究的对象分成性质相似的群组。自然裂点法分级结果(6)其他分级方法*有规律的不等间距分级*按嵌套平均值分级*按面积正态分布分级本章主要内容:一基本统计量二探索性数据分析三分级统计分析四空间插值五空间回归分析四空间插值*由点→面,涉及到3方面问题:①内插点邻域范围的确定②权值确定方法③内插函数的选择四空间插值(一)整体内插(二)局部分块内插(三)逐点内插法(一)整体内插整个区域用一个数学函数来表达变量的空间变化特征。河南省人均GDP分布1-4次趋势面整体内插法若选取采样点个数较少时,不足以描述整个变量变化特征,若选用较多的采样点则内插函数易出现振荡现象,很难获得稳定解。(二)局部分块内插基于的思想:分而治之分块单元常用的内插数函数1线性内插2双线性内插3样条函数4克里格插值法分块内插能够较好地保留变量变化细节,并通过块间一定重叠范围保持内插曲面的连续性。分块内插方法的一个主要问题是分块大小的确定。(三)逐点内插法*逐点内插法:以内插点为中心,确定一个邻域范围,用落在邻域范围内的采样点计算内插点的;*逐点内插本质上是局部内插,但与局部分块内插有所不同;*逐点内插法的邻域范围大小、形状、位置乃至采样点个数随内插点的位置而变动,又称为移动曲面法。逐点内插法的基本步骤为:1定义内插点的邻域范围;2确定落在邻域内的采样点;3选定内插数学模型;4通过邻域内的采样点和内插模型计算内插点的值;逐点内插计算简单,比较灵活,主要问题是内插点邻域的确定,它不仅影响到内插精度,也影响到内插速度。本章主要内容:一基本统计量二探索性数据分析三分级统计分析四空间插值五空间回归分析五空间回归分析空间回归在经典的统计回归分析中考虑了空间的自相关性,这种模型在20世纪70年代后期开始出现并逐步成熟。

1 / 83
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功