•1、相关分析•2、回归分析•3、时间序列分析•4、系统聚类分析•5、主成分分析•6、马尔可夫预测•7、趋势面分析•8、地统计分析第三章地理学中的经典统计分析方法§3.1相关分析§3.1相关分析相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系密切程度的测定,主要是通过对相关系数的计算与检验来完成的。•两要素之间相关程度的测定•多要素间相关程度的测定相关关系的分类•按照影响因素分类•简单线性相关•偏相关•复相关正相关负相关线性相关非线性相关主要步骤•判断现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点;•确定研究变量均为随机变量;•根据变量个数和特征选择合适的分析方法;•计算相关系数;•对相关系数进行显著性检验。一、两要素之间相关程度的测定相关系数的计算与检验秩相关系数的计算与检验(一)、相关系数的计算与检验相关系数的计算①定义和为两要素的平均值。②说明:-1==1,大于0时正相关,小于0时负相关。的绝对值越接近于1,两要素的关系越密切;越接近于0,两要素的关系越不密切。niiniiniiixyyyxxyyxxr12121)()())((yxxyrxyr(3.1.1)xyr极显著相关显著相关③简化记公式3.1.1可简化为:niniiniiiiiniixyyxnyxyyxxL11111)()(2112121)(niniiiniixxxnxxxL2112121)(niniiiniiyyynyyyLyyxxxyxyLLLr(3.1.2)月份123456789101112平均气温t(oC)3.845.8811.314.416.516.213.810.86.74.7降雨量p(mm)77.751.260.154.155.456.84555.367.573.376.679.6表3.1.1伦敦的月平均气温与降水量资料来源:相关分析实例根据表3.1.1中的数据,我们可以代入公式(3.1.1),计算伦敦市月平均气温(T)与降水量(P)之间的相关系数:计算结果表明,伦敦市的月平均气温(t)与降水量(p)之间呈负相关,即异向相关。34.150855.25091.300)()())((12121212121iiiiiiiTPppttppttr4895.084.3883.1591.300又如:根据甘肃省53个气象台站的多年平均数据(见教材表3.1.2),可以对降水量(p)和纬度(y)之间的相关系数以及蒸发量(v)和纬度(y)之间的相关系数,分别代入公式(3.1.1)计算如下:290.192401143.1923848.21-)()())((53125312531iiiiiiipyyyppyyppr9035.017.031549.5623848.21-=290.19016274170.660527.59)()())((53125312531iiiiiiivyyyvvyyvvr8808.017.034034.1360527.59=计算结果表明,降水量(p)和纬度(y)之间异向相关,而蒸发量(v)与纬度(y)之间同向相关。相关系数的检验相关系数是根据要素之间的样本值计算出来,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。检验是通过在给定的置信水平下,查相关系数检验的临界值表来实现的。自由度(degreeoffreedom,df)在数学中能够自由取值的变量个数,如有3个变量x、y、z,但x+y+z=18,因此其自由度等于2。在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。在上表中,f称为自由度,为f=n-2,n为样本数;上方的代表不同的置信水平;表内的数值代表不同的置信水平下相关系数的临界值;公式的意思是当所计算的相关系数的绝对值大于在水平下的临界值时,两要素不相关(即)的可能性只有。相关系数真值ρ=0时样本相关系数的部分临界值rα}|{|rrprr00.100.050.020.010.0011234567891011120.987690.900000.80540.72930.66940.62150.58220.54940.52140.49730.47620.45750.996920.950000.87830.81140.75450.70670.66640.63190.60210.57600.55290.53240.9995070.980000.934330.88220.83290.78870.74930.71550.68510.65810.63390.61200.9998770.990000.958730.917200.87450.83430.79770.76460.73480.70790.68350.66140.9999980.9990000.9911600.974060.950740.924930.89820.87210.84710.82330.80100.7800f(1)对伦敦市月平均气温(T)与降水量(P)之间的相关系数,f=12-2=10,在显著性水平上,查表3.1.3,得知:。因为,所以,伦敦市月平均气温(T)与降水量(P)之间的相关性并不显著。0.497310.0r10.00.49734895.0rrTP(2)对于甘肃省53个气象台站降水量(P)和纬度(Y)之间的相关系数,以及蒸发量(V)和纬度(Y)之间的相关系数,f=53-2=51,表中没有给出相应样本个数下的临界值γα,但是我们发现,在同一显著水平下,随着样本数的增大,临界值γα减少。在显著性水平α=0.001上,取f=50,查表3.1.3得知:γα=0.001=0.4433。显然,γPY和γVY的绝对值都远远大于γα=0.001=0.4433,这说明甘肃省53个气象台站降水量(P)和纬度(Y)之间,以及蒸发量(V)和纬度(Y)之间都是高度相关的。某地区土壤中有机碳和有机氮含量分别如1所示,试求两者之间是否存在线性相关关系。分析步骤:1.绘制散点图2.前提条件检验正态性检验3.计算Pearson相关系数4.显著性检验分析结果表明:在0.01水平上,SON和SOC极显著正相关,pearson相关系数为0.96。某山地各气象观测站的相关数据如2所示,试分析其相关关系。分析步骤:1.绘制散点图2.前提条件检验,正态性检验3.计算Pearson相关系数4.显著性检验分析结果表明:在0.01水平上,年降水量与经度极显著负相关,相关系数为-0.559;年降水量与海拔极显著正相关,相关系数为0.937;经度与海拔在数值上极显著负相关,在专业意义上为假相关。秩相关系数,又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。)1(61212nndrniixy(3.1.4)(二)秩相关系数的计算与检验书中表3.1.4给出了2003年中国大陆各省(直辖市、自治区)的GDP(x)和总人口(y)数据及其位次,将数据代入公式(3.1.4),就可以计算它们之间的秩相关系数:即:GDP(x)与总人口(x)之间的等级相关系数为0.7847。7847.029760106861)131(316123112iixydr示例:n显著水平αn显著水平α0.050.010.050.0141.000--160.4250.60150.9001.000180.3990.56460.8290.943200.3770.53470.7140.893220.3590.50880.6430.833240.3430.48590.6000.783260.3290.465100.5640.746280.3170.448120.4560.712300.3060.432140.4560.645------n代表样本个数,α代表不同的置信水平,也称显著水平,表中的数值为临界值γα。秩相关系数的检验在上例中,n=31,表中没有给出相应的样本个数下的临界值γα,但是同一显著水平下,随着样本数的增大,临界值γα减少。在n=30时,查表得:γ0.01=0.432,由于γ’xy=0.7847γ0.01=0.432,所以在α=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。二、多要素间相关程度的测定偏相关系数的计算与检验复相关系数的计算与检验•二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。问题产生偏相关系数的计算与检验偏相关系数的计算①定义:在多要素所构成的地理系统中,先不考虑其它要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。②计算:3个要素的偏相关系数)1)(1(2232132313123.12rrrrrr(3.1.5))1)(1(2232122312132.13rrrrrr(3.1.6))1)(1(2132121312231.23rrrrrr(3.1.7)四个要素的偏相关系数(3.1.8))1)(1(23.2423.143.243.143.1234.12rrrrrr)1)(1(22.3422.142.342.142.1324.13rrrrrr(3.1.9))1)(1(22.4322.132.432.132.1423.14rrrrrr(3.1.10))1)(1(21.3421.241.341.241.2314.23rrrrrr(3.1.11)例如:对于某四个地理要素x1,x2,x3,x4的23个样本数据,经过计算得到了如下的单相关系数矩阵:1469.0950.0579.0469.01592.0346.0950.0592.01416.0579.0346.0416.0144434241343332312423222114131211rrrrrrrrrrrrrrrrR利用一级偏向关系数公式计算一级偏向关系数,如表3.1.5所示:r12·34r13·24r14·23r23·14r24·13r34·12-0.1700.8020.635-0.1870.821-0.337r12·3r13·2r14·2r14·3r23·1r24·1r24·3r24·1r34·20.8210.8080.6470.895-0.8630.9560.945-0.8750.371利用二级偏相关系数公式计算二级偏相关系数,见下表:性质①偏相关系数分布的范围在-1到1之间;②偏相关系数的绝对值越大,表示其偏相关程度越大;③偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即R1·23≥|r12·3|。偏相关系数的显著性检验t检验法的计算公式:11341223412mnrrtmm。。上例检验:查t分布表,在自由度为23-3-1=19时,t