1©陈强,《高级计量经济学及Stata应用》课件,第二版,2014年,高等教育出版社。第29章空间计量经济学29.1地理学第一定律许多经济数据都涉及一定的空间位置。比如,研究全国各省的GDP、投资、贸易、R&D等数据。此前各章很少关注各省经济之间的互动,通常假设各省的变量相互独立。但各省经济有着广泛的联系,而且越近的省份联系越密切。2根据Tobler(1970),“所有事物都与其他事物相关联,但较近的事物比较远的事物更关联”(Everythingisrelatedtoeverythingelse,butnearthingsaremorerelatedthandistantthings)。这被称为“地理学第一定律”(FirstLawofGeography)。各省之间的距离信息并不难获得,比如是否相邻,直线距离或运输距离。将各省的变量数据,再加上各省的位置信息(或相互距离),即可得到“空间数据”(spatialdata或arealdata)。研究如何处理空间数据的计量经济学分支,称为“空间计量经济学”(spatialeconometrics)。3空间计量经济学的最大特色在于充分考虑横截面单位之间的空间依赖性(spatialdependence)。空间效应(spatialeffects)包括空间依赖性与“空间异质性”(spatialheterogeneity)。由于标准的计量经济学也考虑横截面单位之间的异质性(比如异方差),故空间计量经济学的关注重点为空间依赖性。空间计量经济学诞生于1970年代。近年来,空间计量经济学蓬勃发展并进入主流,可归功于两方面。首先,由于GIS(地理信息系统)的发展,空间数据或包含地理信息的数据(geo-referenceddata)日益增多。4其次,在经济理论方面,人们越来越关注经济行为人之间的互动,而不仅仅停留于代表性厂商或个人。比如,在考察同伴效应(peereffect),相邻效应(neighborhoodeffect),溢出效应(spillovereffect)或网络效应(networkeffect)时,都需要明确地考虑空间因素。29.2空间权重矩阵进行空间计量分析的前提是度量区域之间的空间距离。记来自n个区域的空间数据为1niix,下标i表示区域i。记区域i与区域j之间的距离为ijw,则可定义“空间权重矩阵”(spatialweightingmatrix)如下:51111nnnnW其中,主对角线上元素110nnww(同一区域的距离为0)。空间权重矩阵W为对称矩阵。最常用的距离函数为“相邻”(contiguity),即如果区域i与区域j有共同的边界,则1ijw;反之,则0ijw。比照(国际)象棋中棋子的行走路线,相邻关系可分为以下几种:6(1)车相邻(rookcontiguity):两个相邻区域有共同的边。(2)象相邻(bishopcontiguity):两个相邻区域有共同的顶点,但没有共同的边。(3)后相邻(queencontiguity):两个相邻区域有共同的边或顶点。图29.1常用相邻关系车相邻象相邻后相邻7在实践中,为了区分“边”与“点”,须设定一个最小距离,在此距离以下为点,而在此距离以上为边。究竟使用车、象或后相邻,取决于具体情况。比如,区域i与区域j仅在一点相交(象相邻),但有一条主要高速公路通过此点连接两区域,则不宜使用车相邻。假设有如下四个区域,其变量取值分别为1234()xxxxx。8图29.2假想的四个区域其空间权重矩阵为:0111101011011010W第一行表示,区域1与其余三个区域均相邻;第二行表示,区域2与区域1、区域3相邻,但不与区域4相邻;以此类推。1x4x3x2x9空间权重矩阵考虑的是一阶邻居,还可以考虑二阶邻居,即邻居的邻居,可用矩阵2W来表示。矩阵2W的主对角线上元素一般不再为0,这意味着邻居的邻居也包括自己。实践中,有时对空间权重矩阵进行“行标准化”(rowstandardization),即将矩阵中的每个元素(记为ijw)除以其所在行元素之和,以保证每行元素之和为1:ijijijj10如果区域i为孤岛,与其他区域均不相邻,则上式分母为0,并不适用;可将分母改为max(1,)ijjw。不包含孤岛的行标准化矩阵也称为“行随机矩阵”(row-stochasticmatrix),所有元素均介于0与1之间,且每行元素之和为1,在形式上与离散型概率分布一样。将前面的空间权重矩阵行标准化可得(仍记为W):01313131201201313013120120W11行标准化的好处在于,如果将行标准化矩阵W乘以x,则可得到每个区域邻居的平均值。在上例中:23411321243134()30131313()2120120()31313013()2120120xxxxxxxxxxxxxxWx比如,区域1的邻居为区域2,3和4,而上式右边第一行元素正好为234()3xxx,即区域1邻居的平均值;以此类推。12比照时间序列中时间滞后(timelag)的概念,Wx也被称为x的“空间滞后”(spatiallag),即x邻居的平均取值。行标准化之后的空间权重矩阵一般不再是对称矩阵,这是它的缺陷之一。由于每行元素之和均为1,这意味着区域i所受其邻居的影响之和一定等于区域j所受其邻居的影响之和(任意ij);此假定可能过强,这是行标准化的另一局限。定义相邻关系的另一方法基于区域间的距离。13记区域i与区域j的距离为ijd,可定义空间权重如下:10若若ijijijddwdd其中,d为事先给定的距离临界值。也可直接以距离之倒数(inversedistance)作为空间权重:1ijijwd14在上式中,距离ijd既可以是地理距离,比如直线距离或大圆距离(greatcircledistance);也可以是基于运输成本或旅行时间的经济距离;甚至社交网络中的距离。例:林光平等(2005)使用基于地理相邻关系的简单权重矩阵W来研究我国28个省市在1978-2002年期间实际人均GDP的收敛情况。但相邻地区经济上的相互关系并不完全相同。为此,林光平等(2005)使用地区间人均GDP的差额作为测度地区间“经济距离”的指标,并引入经济空间权重矩阵*WWE,其中矩阵E的主对角线元素均为0,非主对角线的(,)ij元素为1ijijEYY(ij),iY为地区i样本期间的人均实际GDP平均值。1529.3空间自相关在使用空间计量方法前,首先要考察数据是否存在空间依赖性。如果不存在,则使用标准的计量方法即可;如果存在,则可使用空间计量方法。比照时间序列(timeseries),空间数据有时也称为“空间序列”(spatialseries)。时间序列可视为在时间轴上分布的随机过程,而空间数据(序列)则为在空间分布的随机过程。16时间序列的一个重要特性是可能存在自相关,特别是一阶自相关。对于空间序列,自相关的情形则更为复杂;因为时间序列只可能在一个方向上相关(过去影响现在,但现在无法影响过去),而空间序列则可以在多个方向上相关,而且可以互相影响(ix影响jx,而jx也影响ix)。“空间自相关”(spatialautocorrelation)可理解为位置相近的区域具有相似的变量取值。如果高值与高值聚集在一起,低值与低值聚集在一起,则为“正空间自相关”(positivespatialautocorrelation)。17如果高值与低值相邻,则为“负空间自相关”(negativespatialautocorrelation);较少见。如果高值与低值完全随机地分布,则不存在空间自相关。考虑空间序列1niix。文献中提出了一系列度量空间自相关的方法,最为流行的是“莫兰指数I”(Moran’sI):11211()()nnijijijnnijijwxxxxISw18其中,221()niixxSn为样本方差,ijw为空间权重矩阵的(,)ij元素(用来度量区域i与区域j之间的距离),而11nnijijw为所有空间权重之和。如果空间权重矩阵为行标准化,则11nnijijwn,莫兰指数I为:1121()()()nnijijijniiwxxxxIxx19莫兰指数I的取值一般介于-1到1之间,大于0表示正自相关,即高值与高值相邻、低值与低值相邻;小于0表示负自相关,即高值与低值相邻。如果莫兰指数I接近于0,则表明空间分布是随机的,不存在空间自相关。莫兰指数I可视为观测值与其空间滞后(spatiallag)的相关系数。如果将观测值与其空间滞后画成散点图,称为“莫兰散点图”(Moranscatterplot),则莫兰指数I就是该散点图回归线的斜率。考虑原假设“0:Cov(,)0,ijHxxij”(即不存在空间自相关)。20在此原假设下,莫兰指数I的期望值为1E()1In莫兰指数I的方差表达式更为复杂,记为Var()I。标准化的莫兰指数I服从渐近标准正态分布:*E()(0,1)Var()dIIINI在使用莫兰指数I检验空间自相关时,须注意两个问题。21问题之一,莫兰指数I取决于空间矩阵W,如果空间矩阵设定不正确,则可能导致错误的结果。问题之二,莫兰指数I的核心成分为()()ijxxxx,其隐含假设是1niix的期望值为常数(constantmean),不存在任何趋势(trend)。如果存在趋势,则可能导致检验结果出现偏差。为了解决问题一,须仔细选择合适的空间矩阵,或使用不同的空间矩阵以考察结果的稳健性。为了解决问题二,可引入协变量,通过回归的方法去掉趋势,然后对残差项进行莫兰指数I检验。22以上的莫兰指数I也被称为“全局莫兰指数I”(globalMoran’sI),考察整个空间序列1niix的空间集聚情况。如果想知道某区域i附近的空间集聚情况,可使用“局部莫兰指数I”(localMoran’sI):21()()niiijjjxxIwxxS局部莫兰指数I的含义与全局莫兰指数I相似。莫兰指数I并非唯一的空间自相关指标,另一常用指标为“吉尔里指数C”(Geary’sC)(Geary,1954),也称为“吉尔里相邻比率”(Geary’sContiguityRatio):232112111(1)()2()nnijijijnnnijiijinwxxCwxx吉尔里指数C的核心成分为2()ijxx。吉尔里指数C的取值一般介于0到2之间(2不是严格上界),大于1表示负相关,等于1表示不相关,而小于1表示正相关。吉尔里指数C与莫兰指数I呈反向变动;前者比后者对于局部空间自相关更为敏感。24在不存在空间自相关的原假设下,吉尔里指数C的期望值为1,而方差的表达式较复杂,记为Var()C。标准化的吉尔里指数C服从渐近标准正态分布:*1(0,1)Var()dCCNC莫兰指数I与吉尔里指数C的共同缺点在于,即无法分别“热点”(hotspot)与“冷点”(coldspot)区域。所谓热点区域,即高值与高值聚集的区域;而冷点区域则是低值与低值聚集的区域。热点区域与冷点区域都表现为正自相关。25GetisandOrd(1992)提出了以下“Getis-Ord指数G”:111nnijijijnnijijiwxxGxx其中,0,ixi;而ijw来自非标准化的对称空间权重矩阵,且所有元素均为0或1。如果样本中高值聚集在一起,则G较大;如果低值聚集在一起,则G较小。26在无空间自相关的原假设下,1E()(1)nnijijiwGnn。如果G值大于此期望值,则表示存在热点区域;如果G值小于此期望值,则表示存在冷点区域。标准化