1.名词解释:空间效应是空间计量经济学的基本特征,它是反映着空间因素的影响。空间效应可分为空间相关性和空间异质性。(1)空间自相关性自相关的这个“自”,表示你进行相关性观察统计量,是来源于不同对象的同一个属性,比如两学生(不同对象),同时对他们的数学成绩(统一属性)进行统计,如果他们同桌(空间邻接),而且A考得好B就考得好,A考不好B也考不好(高端相关),那么基本上就可以判定他们他们的空间自相关性很强——有考试串通作弊的行为。(2)空间异质性(spatialheterogeneity):是指因为空间位置的不同而引发的获取到不同的数据(因为观察位置不同,而引发的不同特征)。空间异质性与空间自相关的表示方法还是有所不同的,它无法用一个具体的指数或指标来描述。更好的形容他的话,它是一种性质、一种现象,或者说是一种在我们的分析过程中需要充分考虑的因素,以及一种解释某些异常变化的原因。一般来说,空间异质性,会用来解释,在不同的区域,某些类别数值相互之间的关系产生变化的原因,揭示这个变化的规律或者原因产生积极的作用。(3)空间差异(spatialdisparity)是指不同地域范畴因为(社会、经济等)发展水平及其结构不同,而产生的差异(4)空间非平稳性是空间异质性的一种表现形式,不能等同。因为地理位置的变化,而引起的变量间关系或结构的变化称之为“空间非平稳性”。(5)在空间统计中,零假设指的是空间位置在一定区域里呈现完全随机(均匀)分布。2.地理加权回归的由来伪吃货眼里的中国地图吃货眼里的地图以上两图就是用全局眼光和局部眼光两个角度对中国美食的定义。一直以来,我们都在赞美全局思维,批判局部思维,比如“盲人摸象”等。但是在分析的时候,很多时候,全局的思路反而会带来各种问题,比如:寒冷的冬季,全国天气预报温馨提示:全国平均温度18℃,18℃对于人体来说应该是比较适宜、舒服的温度,但是,你在此时身在东北,这里的气温明明已经达到了零下十几度。我们不能说天气预报不准确,因为综合考虑以海南为代表的南方气温以及以哈尔滨为代表的北方气温,得到这个数字是完全正确的。所以,这种全局的思考模式在实际生活中是很难得到应用的。从概念上来说,进行分析的时候,全局模式(globalmodel)在分析之前,就假定了变量的关系具有同质性(homogeneity),从而掩盖了变量间关系的局部特征,所得到的结果是研究区域内的某种“平均”。但是就像上面所举的“全国各地区气温存在差异”的例子,这种因为地理位置的变化,而引起的变量间关系或结构的变化称之为“空间非平稳性”。出现“空间非平稳性”的原因可能包括以下三点:(1)随机抽样的误差引起的。但是抽样误差是无法避免的,所以统计学上一般只假定它服从某一分布,这对分析本身的关系作用不大。(2)由于分析的模型与实际不符,或者忽略了模型中本来应该有的一些回归变量而导致的空间非平稳性。(3)由于各地区不同的自然环境、人文环境等差异所引起的变量间的关系随着地理位置的变化而变化。这种变化反应是数据本身的空间特征,所以在空间分析中是需要着重注意的地方。应对“空间非平稳性”有以下方法:序号方法原理缺点1局部回归分析把研究区域根据某种指标,划分成若干同质性的区域,然后分别进行回归缺点区域为人为划分,各区域内样本数据不一致2移动窗口回归在每个样本的周边定义一个回归区域,这个区域由窗口的大小和性质决定,以窗口内的样本数据简历回归方程进行参数估计虽然解决了边界突然跳变的问题,但是依然无法避免相邻的回归点上的参数估计的跳变问题。从本质上依然是一种全局性的回归。3变参数回归模型是地理加权回归的前身,将地理位置作为全局模型中的参数加入建模和运算。如果空间模型的参数变化更加复杂,这个方法就不起作用了【注】按照行政区的划分,不论各种人文环境,在行政区划的交界处,会因为不同区域内的参数估计不一样,而产生突然的“跳变”。但是实际上,很多空间关系在行政区划或者自然区域的交界处的变化是缓慢而连续的。所以,总结上述解决“空间非平稳性”的方法,美国科学院院士,英国圣安德鲁斯大学的A.StewartFotheringham教授在1996年,正式提出地理加权回归(Geographicalweightedregression,GWR)。3.地理加权回归(GWR)方法的发展历程4.使用GWR方法的适用条件5.使用GWR方法的基础5.1空间自相关:由于空间地理现象之间的复杂关系,空间数据比一般的统计数据包含了更多复杂的性质,其中典型的特征是空间自相关,它使得空间数据无法满足数据独立性的假设。空间自相关是根据位置相似性和属性相似性的匹配情况来测度的,位置的相似性由空间权重矩阵W来描述,而属性值的相似性,一般通过交叉乘积XiXj,或平方差异(Xi-Xj)2,或绝对差异┃Xi-Xj┃来描述,若存在正空间自相关,则在近邻的位置上的属性值的差异小。全局Moran’sI空间自相关统计---Moran’sI(还有Geary’sC统计量法,但是由于我们一直以来使用的都是Moran’sI法,这里就介绍Moran’sI方法)Moran′sI=∑∑𝑊𝑖𝑗(𝑦𝑖−𝑦)(𝑦𝑗−𝑦)𝑛𝑗=1𝑛𝑖=1𝑆2∑∑𝑊𝑖𝑗𝑛𝑗=1𝑛𝑖=1𝑆2=∑(𝑦𝑖−𝑦)²𝑛𝑖=1𝑛n为地区总数;yi为第i个单元上的观测值,;观测变量在n个单元中的均值记为y;Wij为空间权值矩阵W和(𝑦𝑖−𝑦)(𝑦𝑗−𝑦)的乘积相当于对相邻的单元进行计算,于是I值的大小决定于i和j单元中的变量值对于均值的偏离符号,若在相邻的位置上,yi和yj是同号的,则I为正,yi和yj是异号的,则I为负。Moran’sI指数的变化范围为(-1,1)。如果空间过程是不相关的,则I的期望值接近于0,当I取负值时,一般表示负相关,I值为正值,则表示正相关。统计的ZI得分按以下形式计算:Z=𝑀𝑜𝑟𝑎𝑛′𝑠𝐼−𝐸(𝐼)√𝑉𝐴𝑅(𝐼)其中,E(I)=−1𝑛−1,VAR(I)=𝐸(𝐼)²−𝐸2(𝐼)Z得分P值(概率)置信度-1.65或+1.650.1090%-1.96或+1.960.0595%-2.58或+2.580.0199%LocalMoran’sI空间自相关程度随着空间位置会发生变化,因此一个分部或空间模式可以也是空间异质性的,为了描述这种异质性条件下的空间自相关,我们必须能够在局部尺度上探测空间自相关的测度方法,LISA(空间联系局部化指标)和局部G统计计量就是为这一目的而设计的。LISA是Moran’sI全局相关的局部化版本,为了说明在局部尺度上空间自相关的水平。如果说全局莫兰指数是按照所有的数据配合空间权重矩阵计算出来的一个综合的数值,那么局部莫兰指数的计算方法与全局莫兰指数大致是一样的,所不同的是没有了权重矩阵和数据值平均数的聚合计算过程。所以,在每一个要素上面都会计算出一个属于自己的莫兰指数。如下:𝐼𝑖=𝑍𝑖∑𝑊𝑖𝑗𝑖𝑍𝑗式中,Zi,Zj分别是对于均值和标准差的标准化变量;Zi=(xi-x)/δ,δ为xi的标准差。X是标准化之后的观测值,Y轴是所谓的空间滞后值(spatiallag),其表示的是:该观测值周围邻居的加权平均。局部Moran’sI的高值表示具有相似变量值的面积单元的空间聚集(可以是高或低),而局部Moran’sI的低值说明不相似值的空间单元集聚。首先从空间权重矩阵中,获取该要素的邻接要素;然后获取邻接要素额标准化观察值,并且进行加权平均,最后将这个加权平均值赋予中心要素。全部计算完之后,X轴和Y轴就全部计算出来了。5.2OLS模型的构建模型的构建是一个迭代过程,在该过程中,需要找到有效的自变量来解释要建模或了解的因变量,且需要运行回归工具来确定哪些为有效的预测因子,然后需要反复执行变量移除或者添加操作,直到找到最佳的回归模型。地理加权回归是建立在构建一个正确的OLS模型的基础上的:OLS公式+原理:Y=β0+β1X1+β2X2+…+βnXn+Ɛβ0为回归截距,它表示所有自变量均为零时,因变量的预期值。OLS要求样本回归函数尽可能好地拟合某组数据,即样本回归线上的点Y估计值与Y实际值的“总体误差”尽可能小。OLS回归方法操作:首先导入基础数据:选择OLS回归方法:进入如下界面(1)输入要素:即在导入数据是绘制的图层(2)唯一ID:这个字段主要是用来进行标识的,在ARCGIS中的任何一个唯一标识符都可以(3)输出要素:存储位置(4)因变量:因变量的字段(5)自变量:解释变量的字段,注意这里的解释变量仅能显示数值型的字段。扩展文件中:(6)输出报表文件:输出一个PDF的报告文件,这个文件记录了分析过程中的所有信息。(7)系数输出表:这个系数输出表,会把各解释变量的模型系数、标准化系数、标准误差和概率都写入到这个表里面。(8)诊断输出表:这个模型的诊断信息,都被写入到这个表里面。OLS输出结果:结果一:在message中显示出来的结果(包括了各自变量的回归系数、各种检验结果)结果二:报表文件(全面)详细介绍第二个输出结果:(所有信息均包括)第一页:标准输出表(1)Coefficient系数回归分析的系数代表了每个自变量对因变量的贡献度,系数的绝对值越大,表示该变量在模型里面的贡献越大,也说明该自变量与因变量的关系越密切。这个系数也表示了自变量与因变量之间的关系类型,即它分为正向和负项,系数为正,表示正相关,系数为负,表示负相关。不管是正向大还是负向大,越大,表示与因变量的关系强度越大,只不过是正相关还是负相关的问题。如,人口规模回归系数为0.89231,则表示当人口规模每增加一个单位,在其他自变量的值不发生改变的时候,因变量CO2排放量会增加0.89231个单位。(2)StdError回归系数的标准差是模型中随机扰动项(误差项)的标准差的估计值。它的平方误差项的方差的无偏估计量,实际上又叫误差均方,等于残差的平方和/(样本容量-待估参数的个数),这个值越小,表示模型的预测越准确。(3)t-Statistic用于回归模型系数显著性检验,有些时候与P-value意义差不多,都是用于验证零假设的情况下,模型的显著性。t-Statistic越大,表示越显著,如上图中的人口的t-Statistic最大。(4)Probability:P值用于回归模型系数的显著性检验,P值表示所观测到的空间模式是由某一随机过程创建而成的概率。当P值很小时,意味着所观测到的空间模式不太可能产生随机过程(小概率事件),拒绝零假设。(5)Robust_SE、Robust_t、Robust_Pr[b]这三个字段,分别表示了标准差的稳健性、T统计量的稳健性和概率的稳健性。在统计学中RobustTest通常被翻译为稳健性检验,就是通过修改(增加或删除)变量值,看所关注解释变量的回归系数和结果是否稳健。(6)VIF(VarianceInflationFactor):方差膨胀因子这个值主要验证解释变量里面是否有冗余(多重共线性),一般来说,只有VIF超过7.5,就表示该变量有可能是荣誉变量,可能需被剔除。如:上图的城镇化率因素。第二页:检验结果(7)dependentvariable(因变量)(8)NumberofObservations(观测值的数量)就是研究省份的个数。(9)AICcAIC(Akaikeinformationcriterion),是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的,其建立在熵的概念基础上,可以衡量所估计模型的复杂度和此模型拟合数据的优良性。AIC=(2倍(模型的独立参数个数)-2倍ln(模型的极大似然函数))/观测值个数首先AIC法假设误差的出现是服从独立正态分布的,所以采用极大似然函数就有意义了。AIC的大小取决于独立参数的个数和模型的极大似然函数两个值,参数值少,AIC小,且极大似然函数大,AIC也小,参数少表示模型简洁,极大似然函数大表示模型精确。因此AIC和