多元线性回归分析多元线性回归分析施红英主讲温州医学院预防医学系WenzhouMedicalCollegeWenzhouMedicalCollege--《《应用统计学应用统计学》》子代身高饮食运动遗传例子居民储蓄存款的影响因素分析现阶段房价的影响因素与预测住院费用的影响因素分析及其预测老年人血压的影响因素分析及其预测艾滋病患者生活质量的影响因素研究多元线性回归是研究一个因变量(定量)与多个自变量之间线性关系的统计分析方法。其基本目的是用一个以上自变量(X1,X2,…,Xk)的数值估计另一个反应变量(Y)及其变异性的统计分析方法。是简单回归与相关的延续与拓广,其基本原理和方法与简单回归和相关完全一致。内容提要一.多元线性回归模型简介二.多元线性回归模型的参数估计三.多元线性回归模型的假设检验四.多元线性回归模型的评价五.自变量筛选六.多元线性回归方程的应用和注意事项七.SPSS操作为了研究空气中一氧化氮的浓度与汽车流量等因素的关系,有人测定了某城市交通点在单位时间内过往的汽车数、气温、空气湿度、风速以及空气中的NO的浓度,数据如下表。(data:NO)车流X1气温X2气湿X3风速X4一氧化氮Y车流X1气温X2气湿X3风速X4一氧化氮Y130020.0800.450.06694822.5692.000.005144423.0570.500.076144021.5792.400.01178626.5641.500.001108428.5593.000.003165223.0840.400.170184426.0731.000.140175629.5720.900.156111635.0922.800.039175430.0760.800.120165620.0831.450.059120022.5691.800.040153623.0571.500.087150021.8770.600.12096024.8671.500.039120027.0581.700.100178423.3830.900.222147627.0650.650.129149627.0650.650.145182022.0830.400.135106026.0581.830.029143628.0682.000.099143628.0682.000.099数据库格式一、简介01122kkyxxxββββε=+++++总体线性回归模型:一、简介01122ˆkkybbxbxbx=++++样本线性回归方程:Yhat:为x=(x1,x2,……,xk)时,反应变量y的总体平均值的估计值;b0:常数项,表示当所有自变量为0时y的总体平均值的估计值;bj:是βj的估计值,自变量xj的偏回归系数(partialregressioncoefficient),表示当方程中其他自变量保持不变时,自变量xj变化一个单位,反应变量y平均变化的单位数;因为k个自变量都具有各自的计量单位以及不同的变异度,所以不能直接用普通偏回归系数的数值大小来反映方程中各个自变量对反应变量Y的贡献大小。怎么办?*iiiiXXXS−=用标准化的数据进行回归模型的拟合,得到的回归系数,称为标准化偏回归系数,又称通径系数。该系数越大,表示相应的自变量对反应变量Y的贡献越大。对原始数据进行标准化变换:一、简介前提条件:–线性–独立性–正态性–方差齐性–自变量之间没有线性关系二、多元线性回归模型的参数估计最小二乘法基本原理是:利用观察或收集到的因变量和自变量的一组数据建立一个因变量关于自变量的线性函数模型,使得这个模型的理论值和观察值之间的离差平方和尽可能地小,即残差平方和最小。计算量相当大,一般依靠统计软件包完成。Coefficientsa-.142.069-2.048.055.000.000.5924.227.000.004.002.2732.364.029-6.6E-006.001-.001-.009.993-.035.011-.448-3.208.005(Constant)车流气温气湿风速Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:一氧化氮a.三、多元线性回归模型的假设检验1.整体回归效应,即回归方程的假设检验–F检验2.偏回归系数,即各自变量的假设检验–t检验1、整体回归效应的假设检验012340Hββββ====:1Hα:回归方程有意义=0.05方法:方差分析ANOVAb.0644.01617.590.000a.01719.001.08123RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),风速,气湿,气温,车流a.DependentVariable:一氧化氮b.变异来源自由度SSMSFP回归40.063960.0159917.590.0001残差190.017270.00090903总变异230.08123检验回归方程整体意义的方差分析表SST=SSR+SSESSRSSESSTυ回归υ残差υ总F=MS回归/MS残差υ总=υ回归+υ残差F=MS回归/MS残差SPSSP0.0001,拒绝H0,接受H1,说明从整体上而言,用4个自变量构成的回归方程解释空气中NO浓度的变化是有统计学意义的。P0.0001,拒绝H0,接受H1,说明从整体上而言,用4个自变量构成的回归方程解释空气中NO浓度的变化是有统计学意义的。2、偏回归系数的t检验在回归方程有意义的前提下,检验某个总体偏回归系数等于0的假设,以判断是否相应的自变量对回归方程有贡献。00iHβ=:10iHβ≠:α=0.05计算检验统计量:ibibibtS=Sbi:第i个偏回归系数的标准误SPSSCoefficientsa-.142.069-2.048.055.000.000.5924.227.000.004.002.2732.364.029-6.55E-006.001-.001-.009.993-.035.011-.448-3.208.005(Constant)车流气温气湿风速Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:NOa.偏回归系数的t检验与标准化偏回归系数标准化偏回归系数四、多元线性回归模型的评价1.复相关系数2.确定系数3.调整确定系数4.剩余标准差复相关系数R:表示模型中所有自变量与反应变量之间线性相关的密切程度。实际上是实测值与估计值yhat的简单相关系数。取值范围为(0,1),没有负值。是确定系数的算术平方根,即SSRRSST=缺点:增加无统计学意义的自变量,R值仍增大。1、复相关系数当回归方程中包含有很多自变量,即使其中有一些自变量对解释变量变异的贡献很小,随着回归方程的自变量的增加,R2表现为只增不减。这是复相关系数的缺点。ModelSummary.887a.787.743.030150Model1RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),风速,气湿,气温,车流a.2、确定系数复相关系数的平方称为确定系数或决定系数,记为R2,用以反映线性回归模型能在多大程度上解释反应变量Y的变异性。2SSRRSST=变异来源自由度SSMSFP回归40.063960.0159917.590.0001残差190.017270.00090903总变异230.08123检验回归方程整体意义的方差分析表R2=0.06396/0.08123=0.7874确定系数的取值范围为0≤R2≤1。直接反映了回归方程中所有自变量解释了反应变量总变异的百分比。其值越接近于1,表示回归模型的拟合效果越好。R2是联系多重回归与相关的纽带,反映回归模型拟合数据的优良程度。ModelSummary.887a.787.743.030150Model1RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),风速,气湿,气温,车流a.说明用汽车流量、气温、气湿与风速等4个自变量的回归方程可解释交通点空气NO浓度变异的78.7%。调整的R2:记为222(1)1akRRRnk−=−−−优点:对回归方程中自变量个数实施惩罚,较大的k会使R2降低。优点:对回归方程中自变量个数实施惩罚,较大的k会使R2降低。3、调整的确定系数ModelSummary.887a.787.743.030150Model1RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),风速,气湿,气温,车流a.SPSS4、剩余标准差是误差均方MSE的算术平方根,就是残差的标准差。反映了用建立的模型去预测因变量时的精度。其值越小,说明模型拟合的效果越好。优点:同调整的确定系数ModelSummary.887a.787.743.030150Model1RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),风速,气湿,气温,车流a.SPSS五、自变量的选择1.强行进入法enter2.向前筛选法forward3.向后筛选法backward4.逐步筛选法stepwise前进法、后退法、逐步回归法的侧重点不同。当自变量之间不存在线性相关关系时,三种方法计算结果是一致的。当自变量之间存在线性相关关系时,前进法侧重于向模型中引入单独作用较强的变量,后退法侧重于引入联合作用较强的变量,逐步回归法则介于两者之间。前进法、后退法、逐步回归法的侧重点不同。当自变量之间不存在线性相关关系时,三种方法计算结果是一致的。当自变量之间存在线性相关关系时,前进法侧重于向模型中引入单独作用较强的变量,后退法侧重于引入联合作用较强的变量,逐步回归法则介于两者之间。注意:剔除变量的标准应大于或等于引入变量的标准。注意:剔除变量的标准应大于或等于引入变量的标准。六、应用和注意事项1.应用2.注意事项1、多元线性回归的应用①影响因素分析②估计和预测(应该选择决定系数较高的模型)③统计控制(逆估计)④通径分析2、多元线性回归应用的注意事项①指标的数量化②样本含量③关于逐步回归④多重共线性⑤变量间的交互作用⑥残差分析--适用条件的判断指标的数量化多元线性回归分析,要求因变量为连续性变量,而自变量可以是连续性变量、无序分类变量或者有序分类变量。–连续性变量:原始观测值–无序分类变量:哑变量(同进同出)–有序分类变量:按连续性变量或哑变量处理样本含量多元线性回归既可用于大样本资料,也可用于小样本资料,但是如果方程中的自变量个数较多,样本含量相对于自变量个数并不很大时,建立的回归方程会不稳定。自变量个数的10-15倍关于逐步回归不宜盲目信任逐步回归的结果,所谓的最优方程不一定是最好的,没有选入方程的变量也未必没有统计学意义。回归方程有各种用途,一个回归方程对一种用途来说是最好的,对于另一个用途也许就不是最好的。方程中引入什么变量,应该结合问题本身和专业知识以及经验来确定。多重共线性多重共线性:是指一些自变量之间存在较强的线性相关关系,即一个自变量可以用其他一个自变量或多个自变量的线性表达式来表示。–例如,研究高血压与年龄、吸烟年限、饮酒年限等变量之间的关系。多重共线性主要表现:–整个模型的检验结果Pα,但各自变量的偏回归系数Pα;–专业上认为有意义的自变量结果却无统计学意义;–偏回归系数的大小或者符号明显与实际相违背,难以解释;–增删一个自变量或一条记录,偏回归系数发生较大变化。多重共线性多重共线性的识别(诊断):