第十三章多重线性回归与相关多重回归(multiplelinearregression)与多重相关(multiplecorrelation)是研究一个因变量和多个自变量之间线性关系的统计学分析方法。第一节多重线性回归的概念及其统计描述例13-1为了研究空气中一氧化氮(NO)的浓度与汽车流量等因素的关系,有人测定了某城市交通点在单位时间内过往的汽车数、气温、空气湿度、风速以及空气中的NO的浓度,数据如表13-1所示。表13-1空气中NO浓度与相关因素的监测数据车流(X1)气温(X2)气湿(X3)风速(X4)NO(Y)车流(X1)气温(X2)气湿(X3)风速(X4)NO(Y)130020.0800.450.06694822.5692.000.005144423.0570.500.076144021.5792.400.01178626.5641.500.001108428.5593.000.003165223.0840.400.170184426.0731.000.140175629.5720.900.156111635.0922.800.039175430.0760.800.120165620.0831.450.059120022.5691.800.040153623.0571.500.087150021.8770.600.12096024.8671.500.039120027.0581.700.100178423.3830.900.222147627.0650.650.129149627.0650.650.145182022.0830.400.135106026.0581.830.029143628.0682.000.099143628.0682.000.099ikikiiixxxY...22110kkxbxbxbby...ˆ22110bj为自变量Xj的偏回归系数(partialregressioncoefficient),是βj的估计值,表示当方程中其他自变量保持常量时,自变量Xj变化一个计量单位,反应变量Y的平均值变化的单位数。iiiiSXXX*标准化偏回归系数(standardizedpartialregressioncoefficient),又称为通径系数(pathcoefficient)。标准化偏回归系数b’j较大的自变量在数值上对反应变量Y的作用较大。回归参数的估计:前提条件:LINE。最小二乘法(leastsquaremethod)。基本原理是:利用观察或收集到的因变量和自变量的一组数据建立一个因变量关于自变量的线性函数模型,使得这个模型的理论值和观察值之间的残差平方和尽可能地小。432103468.000000655.000449.000011619.014166.0ˆxxxxy第二节多重线性回归的假设检验05.00:0:143210不全为iHH表13-2检验回归方程整体意义的方差分析表变异来源自由度SSMSFP回归模型40.063960.0159917.590.0001残差190.017270.00090903总变异230.08123表13-2显示,P0.0001,拒绝H0。说明从整体上而言,用这四个自变量构成的回归方程解释空气中NO浓度的变化是有统计学意义的。偏回归系数的t检验偏回归系数的t检验是在回归方程具有统计学意义的情况下,检验某个总体偏回归系数等于零的假设,以判断是否相应的那个自变量对回归确有贡献。H0:βi=0H1:βi≠0biibiSbt表13-3偏回归系数的t检验与标准化偏回归系数变量自由度回归系数标准误t值P值标准化偏回归系数截距1-0.141660.06916-2.050.05460X110.000116190.000027484.230.00050.59249X210.004490.001902.360.02890.27274X31-0.000006550.00069083-0.010.9925-0.00110X41-0.034680.01081-3.210.0046-0.44770第三节复相关系数与偏相关系数复相关系数的平方称为确定系数(coefficientofdetermination),或决定系数,记为R2,用以反映线性回归模型能在多大程度上解释反应变量Y的变异性。其定义为TRSSSSR2)ˆ,(YYcorrR复相关系数对例13-1,由方差分析表可得:SSR=0.06396,SSE=0.01727,SST=0.08123代入公式(13-4),7874.008123.006396.02R由此说明,用包含气车流量、气温、气湿与风速这四个自变量的回归方程可解释交通点空气NO浓度变异性的78.74%。复相关系数(multiplecorrelationcoefficient)R定义为确定系数的算术平方根,表示变量Y与k个自变量(X1,X2,…Xk)线性相关的密切程度。TRSSSSR8873.07874.0R调整的R2(AdjustedR-Square):当回归方程中包含有很多自变量,即使其中有一些自变量(如本例中的X3)对解释反应变量变异的贡献极小,随着回归方程的自变量的增加,R2值表现为只增不减,这是复相关系数R2的缺点。调整的R2记为,定义为1)1(222knRkRRa7426.004475789.07874.01424)7874.01(47874.02aR2aRModelSummary.887a.787.743.030150.78717.590419.000Model1RRSquareAdjustedRSquareStd.ErroroftheEstimateRSquareChangeFChangedf1df2Sig.FChangeChangeStatisticsPredictors:(Constant),风速,气湿,气温,车流a.ModelSummary.887a.787.755.029387.78724.687320.000Model1RRSquareAdjustedRSquareStd.ErroroftheEstimateRSquareChangeFChangedf1df2Sig.FChangeChangeStatisticsPredictors:(Constant),风速,气温,车流a.偏相关系数暑假期间双胞胎兄弟大明和小明参加勤工俭学,大明在超级市场帮助卖冷饮,小明在游泳池收门票。每天晚上,二人闲聊。昨天大明冷饮卖得多,小明门票也收得多,今天,大明卖得少,小明门票也收得少。一个月下来,他们发现,超级市场冷饮销售量和游泳人数呈正相关。是不是爱吃冷饮的人想游泳?或爱游泳的人喜欢冷饮?表13-4冷饮销售量、游泳人数与气温数据冷饮销售量(元)X1游泳人数(人)X2气温(oC)X3267722293978143045192431528106632618125333655136934690159335740176136780193137889223138996274939r0.05=0.602原来冷饮销售量和气温正相关,游泳人数和气温也正相关,冷饮销售量和游泳人数的正相关是气温造成的假象,扣除气温的影响之后两者就不相关了。一般地,扣除其他变量的影响后,变量Y与X的相关,称为Y与X的偏相关系数。表13-5空气中NO浓度与各自变量的相关系数和偏相关系数自变量相关系数偏相关系数偏相关系数P值车流X10.808000.696200.0005气温X20.017240.476700.0289气湿X30.27854-0.002180.9925风速X4-0.67957-0.592750.0046第四节自变量筛选为确保回归方程包含所有对反应变量有较大影响的自变量,而把对反应变量作用不大或可有可无的自变量排除在方程之外,这一统计过程称为自变量的选择。一、自变量筛选的标准与原则1.残差平方和(SSE)缩小与确定系数(R2)增大;SSTSSER122.残差均方(MSE)缩小与调整确定系数(Ra2)增大1pnSSEMSE3.统计量:pCnqSSECqp2ˆ2结合考虑实际pC的大小,以选择既具有较小pC值,在pC图中又接近于pC=q直线的模型作为“最优”的准则。二、自变量筛选的常用方法1.所有可能自变量子集选择(allpossiblesubsetsselection),又称全局择优法;2.前向选择(forwardselection);3.后向选择(backwardselection);4.逐步选择(stepwiseselection)。1.全局择优法根据某种变量的选择准则,通过比较各子集符合准则的程度,从中选择出一个或几个最优的回归,称为“最优子集回归”。见表13-6。2.前向选择(forwardselection)该方法从仅含常数项的模型开始,首先对每个变量计算反映其进入模型后该变量对新模型贡献量的F值,然后将最大F统计量与预先指定的临界值(inF)比较,如果FinF程序停止,否则将其最大F值所对应的自变量引入模型;然后在有一个自变量的模型基础上,重复以上比较过程;如此反复,每次加一个变量到模型中,直到剩下的变量中再无一个能使其F值大于inF值为止。3.后向选择(backwardselection)首先建立包含所有p个自变量的全模型,然后逐个计算出剔除某一变量后仅包含p-1个自变量的p个模型,同时计算剔除变量后所致残差平方和增量的F值,然后将p个F值中的最小者与预先指定的剔除临界outF相比较,若最小的FoutF,则将最小F值所对应的自变量从模型中剔除;然后在选中的含p-1个自变量的模型基础上,重复以上剔除自变量的计算、比较、剔除过程。每次循环剔除一个对模型贡献最可忽略的变量。如此反复,直到再没有任何变量的F值低于outF为止。4.逐步选择(stepwiseselection)逐步选择法又称逐步回归,其本质是前向选择法,为了克服向前选择法在后续变量进入模型后可能使已在方程中的变量变得不重要的缺点,同时吸收了向后剔除的作法。即在逐步选择过程中,把经F检验有意义的变量引入方程后,又对已在方程中的自变量进行一次关于剔除的F检验,保留有统计学意义的变量,而剔除无统计学意义的变量。反复进行引入、剔除过程,直到既没有变量被引入,也没有变量被剔除为止。小结1.多重线性回归是简单线性回归的扩展,模型的前提假设、最小二乘原则都与简单线性回归分析相同。2.偏回归系数与标准偏回归系数;3.复相关系数、偏相关系数;4.确定系数和调整的确定系数;5.模型自变量的筛选方法和准则。电脑实验:回归的区间估计、异常值影响及共线性问题CONFIDENCEINTERVAL、OUTLIERANDMULTICOLLINEARITYINLINEARREGRESSIONMODEL实验目的:1.通过实验观察回归中E(Y|X)的置信区间;2.了解异常值对回归结果的影响;3.观察共线性现象及处理方法。已知儿子身高Y与父亲身高X有线性关系=70+0.6X,设定X~N(170,22),Y~N(70+0.6X,22),Yˆ实验1重复抽样下的回归直线及其分布现随机抽取该总体的20对父子构成一份样本,拟合回归直线。重复抽取相同样本量的多份样本(1、5、10、50、100、500),观察样本回归直线的分布情况。Ex9-1(区间估计)区间估计220v,0)()(1t±Yˆxxxxnsα从该总体中抽取n=20的样本,的(1-α)分布范围为0ˆY220.x|y)()(1±0xxxxnZxy0|xy给定X=x0时,的(1-α)置信区间为区间估计μx讨论:异常值影响1.如果抽取相同样本量的500份样本,为什么得到样本回归直线的重叠范围大于该总体中的95%分布范围?0ˆY2.请清点一下100条样本回归直线中有多少条落在该总体中的95%分布范围外?0ˆYEx9-2(异常值)异常值影响实验2回归中