第三章统计分析方法§1地理要素间的相关分析§2地理要素间的回归分析§3时间序列分析法§4系统聚类分析方法§5主成分分析方法§6马尔可夫预测方法§7地理系统的空间趋势面分析§1地理要素间的相关分析地理相关的意义地理相关程度的度量方法相关系数的显著性检验多要素间相关程度的测度地理要素之间的相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系的密切程度的测定,主要是通过对相关系数的计算与检验来完成的一、地理相关的意义相关与地理相关–相关是指两个或两个以上变数间相互关系是否密切。在研究这种关系时并不专指哪一个是自变量,哪一个是因变量,而视实际需要确定。相关分析仅限于测定两个或两个以上变数具有相关关系者,其主要目的是计算出表示两个或两个以上变数间的相关程度和性质–地理相关,就是应用相关分析法来研究各地理要素间的相互关系和联系强度的一种度量指标地理要素间的关系–函数关系:确定性的关系,这种关系在地理各要素间较少见,这是因为许多地理要素的变化具有随机性的缘故;–相关关系:即要素间既存在密切的关系,但又不能由一个(或几个)要素(或变量)的值明确地求出另一个要素(变量)的值二、地理相关程度的度量方法(一)简单直线相关程度的度量–相关程度研究两个地理要素之间的相互关系是否密切–相关方向正相关:y值随x的增加而变大或随x的减少而变小负相关:y值随x的增加而变小或随x的减少而增大1、一般常用相关系数的计算22)()())((yyxxyyxxrxyrxy为要素x与y之间的相关系数,它就是表示该两要素之间相关程度的统计指标,其值在[-1,1]区间之内–rxy>0,表示正相关,即两要素同向发展–rxy<0,表示负相关,即两要素异向发展–rxy的绝对值越接近于1,表示两要素的关系越密切;越接近于0,表示两要素的关系越不密切2222221)(1)(1)()(iiiyyiiixxiiiiiixyynyyylxnxxxlyxnyxyyxxlyyxxxyxylllr•举例,北京市多年各月平均气温与5cm深的平均地温,如表所示,请计算两者的相关系数月份123456789101112气温-4.7-2.34.413.220.224.226.024.619.512.54.0-2.8地温-3.6-1.45.114.522.326.928.226.521.113.44.6-1.9用导出公式nyynxxnyxyxlllriiiiiiiiyyxxxyxy2222相关系数计算表月份气温(x)地温(y)xyx2y21-4.7-3.616.9222.0912.962-2.3-1.43.225.291.9634.45.122.4419.3626.01413.214.5191.40174.24210.25520.222.3450.46408.04497.29624.226.9650.98585.64723.61726.028.2733.20676.00795.24824.626.5651.90605.16702.25919.521.1411.45380.25445.211012.513.4167.50156.25179.56114.04.618.4016.0021.1612-2.8-1.95.327.843.61总和138.8155.73323.193056.163619.1121611.169995.0)7.155(12111.3616)8.138(12116.3056)7.155)(8.138(12119.3323)()())((222222nyynxxnyxyxriiiiiiii月份123456789101112平均气温t(oC)3.845.8811.314.416.516.213.810.86.74.7降雨量p(mm)77.751.260.154.155.456.84555.367.573.376.679.6伦敦的月平均气温与降水量资料来源:相关分析实例根据表3.1.1中的数据,我们可以利用公式(3.1.1),计算伦敦市月平均气温(T)与降水量(P)之间的相关系数:计算结果表明,伦敦市的月平均气温(t)与降水量(p)之间呈负相关,即异向相关。34.150855.25091.300)()())((12121212121iiiiiiiTPppttppttr4895.084.3883.1591.300290.19016274170.660527.59)()())((53125312531iiiiiiivyyyvvyyvvr8808.017.034034.1360527.59=计算结果表明,降水量(p)和纬度(y)之间异向相关,而蒸发量(v)与纬度(y)之间同向相关。相关系数的检验:相关系数是根据要素之间的样本值计算出来,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。检验是通过在给定的置信水平下,查相关系数检验的临界值表来实现的。0.100.050.020.010.0011234567891011120.987690.900000.80540.72930.66940.62150.58220.54940.52140.49730.47620.45750.996920.950000.87830.81140.75450.70670.66640.63190.60210.57600.55290.53240.9995070.980000.934330.88220.83290.78870.74930.71550.68510.65810.63390.61200.9998770.990000.958730.917200.87450.83430.79770.76460.73480.70790.68350.66140.9999980.9990000.9911600.974060.950740.924930.89820.87210.84710.82330.80100.7800表3.1.3检验相关系数的临界值()表0r}|{|rrp检验相关系数ρ=0的临界值(rα)表–左边的f值称为自由度,其数值为f=n-2,这里n为样本数;上方的α代表不同的置信水平;表内的数值代表不同的置信水平下相关系数ρ=0的临界值,即ra;公式p={|r|>rα}=α的意思是当所计算的相关系数r的绝对值大于在a水平下的临界值rα时,两要素不相关(即ρ=0)的可能性只有a。–一般而言,当|r|<rα时,则认为两要素不相关,这时的样本相关系数就不能反映两要素之间的关系(1)对伦敦市月平均气温(T)与降水量(P)之间的相关系数,f=12-2=10,在显著性水平上,查表3.1.3,得知:。因为,所以,伦敦市月平均气温(T)与降水量(P)之间的相关性并不显著。0.497310.0r10.00.49734895.0rrTP2、顺序(等级)相关系数计算16122nndris月份气温(x)平均气温顺序号Ts地温(y)5cm平均地温顺序号Tdsd=Ts-Tdsd21-4.712-3.6120.000.002-2.310-1.4100.000.0034.485.180.000.00413.2614.560.000.00520.2422.340.000.00624.2326.921.001.00726.0128.210.000.00824.6226.53-1.001.00919.5521.150.000.001012.5713.470.000.00114.094.690.000.0012-2.811-1.9110.000.00合计2.00993.0)112(122612srn显著水平αn显著水平α0.050.010.050.0141.000--160.4250.60150.9001.000180.3990.56460.8290.943200.3770.53470.7140.893220.3590.50880.6430.833240.3430.48590.6000.783260.3290.465100.5640.746280.3170.448120.4560.712300.3060.432140.4560.645------n代表样本个数,α代表不同的置信水平,也称显著水平,表中的数值为临界值。秩相关系数的检验表3.1.5秩相关系数检验的临界值r在上例中,n=31,表中没有给出相应的样本个数下的临界值,但是同一显著水平下,随着样本数的增大,临界值减少。在n=30时,查表得:=0.432,由于=0.806=0.432,所以在α=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。rr01.0rxyr'01.0r(二)简单非线性相关程度的度量–表示简单非线性相关程度的统计量,通常用相关指数Ryx来度量22ˆ1yyyyRiiiyx)(ˆiixfy–相关指数的性质,随相关曲线形状的不同而异:相关指数的分布范围介于0到1之间,即0≤Ryx≤1相关指数的值大,两个要素(变量)间的相关程度越密切。当Ryx=1时,表示两个要素间为完全曲线相关;当Ryx=0时,表示两个要素间为完全无曲线相关相关指数必大于或至少等于用同一批资料所求得的相关系数的绝对值,即Ryx≥∣r∣Ryx的性质与上述情况基本相同,但在通常情况下,Ryx与Rxy不相等,仅当完全相关或完全无关时,两者才相等(三)多要素相关与相关矩阵–如果问题涉及到多个要素(n个),则对于其中任何两个要素xi和xj,都可以按照下面的公式计算。得到多要素的相关系数矩阵jjiiijnkjjknkiiknkjjkiikijlllxxxxxxxxr12121)()())((多要素的相关系数矩阵–对角线数值为1的对称矩阵nnnnnnrrrrrrrrrR212222111211三、多要素间相关程度的测度地理系统是一种多要素的复杂巨系统,其中一个要素的变化必然影响到其它各要素的变化。在多要素所构成的地理系统中,当我们研究某一个要素对另一个要素的影响或相关程度时,把其它要素的影响视为常数(保持不变),即暂不考虑其它要素的影响,而单独研究那两个要素之间的相互关系的密切程度时,则称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数(一)偏相关系数的计算与检验1.偏相关系数的计算–定义:在多要素所构成的地理系统中,先不考虑其它要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数–偏相关系数,可利用单相关系数来计算。假设有三个要素x1,x2,x3,其两两间单相关系数矩阵为111323123211312333231232221131211rrrrrrrrrrrrrrrR因为相关系数矩阵是对称的,故在实际计算时,只要计算出r12,r13和r23即可。在偏相关分析中,常称这些单相关系数为零级相关系数。对于上述三个要素x1,x2,x3,它们之间的偏相关系数共有三个,即r12·3,r13·2,r23·1(下标点后面的数字,代表在计算偏相关系数时,保持不变量,如r12·3即表示x3保持不变)一级偏相关系数(三个要素))1)(1()1)(1()1)(1(231221312123123232212321213213223213231312312rrrrrrrrrrrrrrr