第五章回归分析与相关分析第一节回归和相关的概念函数关系有精确的数学表达式(确定性的关系)直线回归分析一元回归分析变量间的关系因果关系曲线回归分析(回归分析)多元线性回归分析多元回归分析相关关系多元非线性回归分析(非确定性的关系)简单相关分析——直线相关分析平行关系复相关分析(相关分析)多元相关分析偏相关分析回归分析内容相关分析5.1下表为青海一月平均气温与海拔高度及纬度的数据,试分析一月平均气温与海拔高度,一月平均气温与纬度是否存在线性关系(计算一月气温分别与海拔高度和纬度的简单相关系数)。测站一月气温海拔高度纬度昂欠-6.936432.2清水河-1744233.8玛多-16.942235共和-11.328436.3铁卜加-14.232037.1茫崖-12.331438.4托勒-18.233638.9伍道梁-17.346535.3察尔汗-10.426836.8吉迈-13.339733.8尖扎-6.420835.9西宁-8.622636.6相关性1-.728**-.186.007.563121212-.728**1-.471.007.122121212-.186-.4711.563.122121212Pearson相关性显著性(双侧)NPearson相关性显著性(双侧)NPearson相关性显著性(双侧)N一月温度海拔高度纬度一月温度海拔高度纬度在.01水平(双侧)上显著相关。**.从上表可知,一月气温与海拔高度和纬度的相关系数分别为-0.728和-0.186,说明一月气温与海拔高度和纬度均呈负相关关系;进一步对照其所对应的显著性分别为0.0070.05和0.5630.05,表明一月气温与海拔高度的相关性显著,而一月气温与纬度的相关性不显著。5.1下表为青海一月平均气温与海拔高度及纬度的数据,试分析一月平均气温与海拔高度和纬度的偏相关系数(因为第三个变量纬度(海拔)的存在所起的作用,可能会影响纬度(海拔)与一月平均温度之间的真实关系)。测站一月气温海拔高度纬度昂欠-6.936432.2清水河-1744233.8玛多-16.942235共和-11.328436.3铁卜加-14.232037.1茫崖-12.331438.4托勒-18.233638.9伍道梁-17.346535.3察尔汗-10.426836.8吉迈-13.339733.8尖扎-6.420835.9西宁-8.622636.6相关性1.000-.728-.186..007.56301010-.7281.000-.471.007..12210010-.186-.4711.000.563.122.101001.000-.941..00009-.9411.000.000.90相关性显著性(双侧)df相关性显著性(双侧)df相关性显著性(双侧)df相关性显著性(双侧)df相关性显著性(双侧)df一月温度海拔高度纬度一月温度海拔高度控制变量-无-a纬度一月温度海拔高度纬度单元格包含零阶(Pearson)相关。a.将-0.728与-0.941对照;同时再与前面讲的例子对照看有什么不同从表中可知-0.728是一月温度和海拔高度的简单相关系数;而-0.941是一月气温与海拔高度的偏相关系数相关性1.000-.186-.728..563.00701010-.1861.000-.471.563..12210010-.728-.4711.000.007.122.101001.000-.875..00009-.8751.000.000.90相关性显著性(双侧)df相关性显著性(双侧)df相关性显著性(双侧)df相关性显著性(双侧)df相关性显著性(双侧)df一月温度纬度海拔高度一月温度纬度控制变量-无-a海拔高度一月温度纬度海拔高度单元格包含零阶(Pearson)相关。a.将-0.186与-0.875对照;同时再与前面讲的例子对照看有什么不同5.2一条河流流经某地区,其降水量X(mm)和径流量Y(mm)多年观测数据如表所示。试建立Y与X的线性回归方程,并根据降水量预测径流量。Y2581363370542044144175X1101841451221651437812962130168回归分析(一元线性回归)从表中可知FF0.01(p0.01),说明方程通过了显著性检验,说明径流量与降水量之间存在着极显著的直线回归关系方程检验表从表中可知tt0.01(p0.01),说明方程中的回归系数通过了显著性检验,说明径流量与降水量之间有真实的直线回归关系。系数检验表5.3随机抽测某渔场16次放养记录,结果如表(投饵量,放养量,鱼产量)。试求鱼产量对投饵量、放养量的多元回归方程。(要求进行方程和系数的显著性检验)X19.589.59.89.713.59.512.59.411.47.78.312.586.512.9X21.922.62.722.42.32.23.32.33.62.12.52.43.21.9Y7.16.410.410.97107.99.312.87.510.36.69.57.779.5回归分析(多元线性回归)方程检验表从表中可知FF0.01(p0.01),说明方程通过了显著性检验,说明鱼产量依投饵量、放养量的二元线性回归达到显著水平系数检验表从表中可知X1和X2对应的t均大于t0.01(p0.01),说明投饵量和放养量对鱼产量的偏回归系数达极显著水平,偏回归系数通过显著性检验,即鱼产量与投饵量、放养量之间存在真实的多元线性关系。因此,所建方程为Y=-4.349+0.584X1+2.964X27.3一个地区的地理要素Y的变化可能受到地理因素X1,X2,X3,X4,X5,X6的综合影响,请根据样本观测数据,分析Y与X之间是否存在线性关系,并建立其逐步回归方程(最优回归方程)。yx1x2x3x4x5x65.775391.13.916.6515.51.240.756394.382631.75.238.6236.22.542.482112.272771.64.865.661.14.555.131873.646377.88.210.569.51.144.674653.1183378.425.2222.72.642.44361.898017.98.936.2132.63.650.607033.420196.16.742.9641.71.249.323471.534567.27.969.8968.41.565.033081.031038.39.861.159.81.363.942360.092467.27.898.4895.33.272.62808逐步回归分析(最优回归)方程检验表从表中可知,方程最多引入变量X6、X2、X5时其对应的F值大于F0.01(p0.01),说明方程通过了显著性检验,说明地理要素Y依地理因素X6、X2、X5的逐步线性回归达到显著水平系数检验表从表中可知引入自变量变量X6、X2、X5对应的t均大于t0.01(p0.01),说明地理因素Y对地理要素X6、X2、X5的偏回归系数达极显著水平即通过显著性检验;而其它的X1、X3、X4的偏回归系数没有通过显著性检验,所以被剔除。则所见最优(逐步)回归方程为Y=-11.675-0.103X6-0.362X2-0.419X57.5下表给出山脉南侧一组测站年降水量随海拔高度变化的观测值,试建立年降水量依海拔高度的非线性回归方程(一元非线性回归问题)。海拔高度年降水量22048035066047069151072764083183095810409821280116814401022167098717908941830832一元非线性回归分析线性:Y=b0×b1X二次曲线:Y=b0+b1X2复合曲线:Y=b0b1X或lnY=lnb0+Xlnb1增长:Y=exp(b0+b1X)拟合对数:Y=b0+b1lnX三次(立方)模型:Y=b0+b1X+b2X2+b3X3S:Y=exp(b0+b1X)拟合指数方程:Y=b0+eb1X倒数(逆模型):Y=b0+b1/X拟合乘幂曲线:Y=b0Xb1Logisti:Y=I/((1/u)+b0b1X)11种曲线形式曲线回归MODEL:MOD_3.Independent:年降水量DependentMthRsqd.f.FSigfb0b1b2b3海拔高度LIN.462108.60.015-780.602.0951海拔高度LOG.484109.39.012-102411672.91海拔高度INV.477109.13.0132504.03-1.E+06海拔高度QUA.50694.60.042-2676.66.9415-.0029海拔高度CUB.55983.39.0745011.03-23.623.0356-2.E-05海拔高度COM.6651019.85.00163.41541.0030海拔高度POW.7101024.54.0016.7E-052.4296海拔高度S.7191025.64.0008.9234-1781.4海拔高度GRO.6651019.85.0014.1497.0030海拔高度EXP.6651019.85.00163.4154.0030检验结果和系数海拔高度降水量1200110010009008007006005004003000200010000-1000ObservedLinearLogarithmicInverseQuadraticCubicCompoundPowerSGrowthExponential曲线形式多元非线性回归7.6某变量受其它两个变量的影响,其中X、Y这两个变量对y影响的函数表达式为Z=a+bX+cX2+dY+eY2+fXY,根据下面的数据计算这个关系式(不可直线化的多元非线性回归,已知曲线的形式)注:多元多项式回归也用此方法NonlinearRegressionSummaryStatisticsDependentVariableZSourceDFSumofSquaresMeanSquareRegression657582.849809597.14163Residual237.46820.32470UncorrectedTotal2957590.31800(CorrectedTotal)28731.25559Rsquared=1-ResidualSS/CorrectedSS=.98979Asymptotic95%AsymptoticConfidenceIntervalParameterEstimateStd.ErrorLowerUppera-106.310178034.167696857-176.9914441-35.62891183b171.99713390325.14423560-500.6149636844.60923136c289.56749562756.29038887-1274.9383731854.0733642d409.25962991408.66543346-436.12922911254.6484890e721.829818691179.6036046-1718.3661553162.0257927f-1378.9031741889.5079318-5287.6481372529.8417894Z=-106.31+171.997X+c289.572+409.26Y+721.83Y2-1378.9XY