第十一章多元线性回归与多元逐步回归(MultipleLinearRegressionandMultipleStepwiseRegression)华中科技大学同济医学院尹平例子一个应变量与多个自变量间的关系儿童身高与年龄、性别的关系肺活量与年龄、性别、身高、体重以及胸围的呼吸差等因素的关系多元线性回归第一节多元线性回归第二节多元逐步回归第三节多元线性回归的注意事项第一节多元线性回归(multiplelinearregression)多元线性回归的数据格式表11-1多元线性回归原始观察数据例号iX1X2……XkY1X11X21……Xk1Y12X12X22……Xk2Y23X13X23……Xk3Y3…………nX1nX2n……XknYn一、多元线性回归方程(multiplelinearregressionequation)01122ˆkkYbbXbXbXˆYˆYˆY常数项,表示当所有自变量为0时应变量Y的总体平均值的估计值表示除以外的其它自变量固定不变的情况下,每改变一个测量单位时所引起的应变量Y的平均改变量bj为偏回归系数(partialregressioncoefficient)两个自变量与应变量的散点图两个自变量与应变量的拟合面bj为xj方向的斜率1.求偏回归系数bj及b0•根据最小二乘法(methodofleastsquare)原理求出bj,即21ˆSSniiiYY残差得到bj)(22110ppxbxbxbyb……2.例子例11.120名糖尿病人的血糖、胰岛素及生长素的测定值列于下表中,试建立血糖对于胰岛素及生长素的二元线性回归方程。表11-2糖尿病人的血糖、胰岛素及生长素的测定值病例号i血糖y(Lmmol/)胰岛素(Lmux/,1)生长素(Lgx/,2)112.2115.29.51214.5416.711.43312.2711.97.53412.0414.012.1757.8819.82.33611.1016.213.52710.4317.010.07813.3210.318.89919.595.913.14109.0518.79.63116.4425.15.10129.4916.44.531310.1622.02.16148.3823.14.26158.4923.23.42167.7125.07.341711.3816.812.751810.8211.210.881912.4913.711.06209.2124.49.16对于本例有:220112211ˆ()nniiiiiSSYYYbbxbx残差01122()bYbxbx采用最小二乘法即可求出常数项b0和偏回归系数b1、b2。其中对表11-2的数据资料由SAS统计软件可得到如下表11-3的主要结果。由此得到回归方程为12ˆ17.0110.4060.098YXX表11-3偏回归系数估计结果变量偏回归系数标准误tP常数项17.0112.4726.8800.000X1-0.4060.094-4.3130.000X20.0980.1160.8430.411二、回归方程的假设检验1.模型检验其中:F=SS/SS/(1)kMSnkMS回归回归残差残差SS总=YYniiinin2121()/SS回归=211ˆ()nniiiYiiYYbLSS残差=21ˆ()SSniiiYYSS总回归自由度为总=n-1,回归=k,剩余=n-k-1SSYYiiNTotal()12SSYYiiNmodel()12SSYYiiNierror()12X2X1YModelSSTotalSSResidualSS由表11-4可知,F=21.54,P0.05。从而,拒绝H0,可以认为β1和β2不全为0,即所求回归方程有统计学意义。对于例11.1的模型检验H0:β1=β2=0H1:β1和β2不全为0=0.05对表11-3的数据资料,由SAS统计软件可得到如下表11-4的模型检验结果。表11-4回归方程的方差分析表变异来源SSMSFP回归116.626258.31321.5390.000残差46.025172.707总变异162.651192.偏回归系数的检验(1)F检验0:0:10jjHH;j=1,2,…,kFj=)1/1/knSSU(残差之中,U为Xj的偏回归平方和,即U=SS回归-SS回归(-j)Fj服从F(1,n-k-1)分布表11-5例11.1数据的偏回归系数F检验表方程内自变量平方和FPSS回归SS回归-SS回归(-j)SS残差X1,X2116.62646.025X266.27550.35218.5980.05X1114.7031.9240.7100.05在=0.05水平上,可以认为胰岛素对血糖的线性回归关系有统计学意义,而生长素对血糖的线性回归关系无统计学意义。所以应剔除X2,只建立X1与Y的线性回归方程。(2)t检验j=1,2,…,k0:0:10jjHH;jjbjbSbt14.31bt20.84bt,P=0.0005;在α=0.05水平下,认为血糖与胰岛素的线性回归关系有统计学意义,而与生长素的线性回归关系无统计学意义。结论与F检验一致。,P=0.4110。三、标准化回归系数(standardizedpartialregressioncoefficient)式中,Sj及Sy分别为自变量Xj及因变量Y的标准差。可以利用标准化偏回归系数的大小来反映各自变量的贡献大小。'/jjjybbSS1.复相关系数(multiplecorrelationcoefficient)又称多元相关系数或全相关系数,表示回归方程中的全部自变量X共同对应变量Y的相关密切程度。复相关系数取值总为正值,在0与1之间,简记为R。如果只有一个自变量,此时1SSSSRSSSS回归残差总总|r|R四、复相关系数与决定系数2.决定系数(coefficientofdetermination)复相关系数的平方又称决定系数,记为,用以反映线性回归方程能在多大程度上解释应变量Y的变异性。2R2R2R21SSSSRSSSS回归残差总总回归方程的拟合程度越好,残差平方和就越小,决定系数越接近1,决定系数越接近12R第二节多元逐步回归(multiplestepwiseregression)1.多元逐步回归的基本思想多元逐步回归(multiplestepwiseregression)有三种筛选自变量的方法:1.向后法(Backwardselection)先建立一个全因素的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能剔除时为止,此法的计算量大,有时不能实现。2.向前法(forwardselection)方程由一个自变量开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无具有统计意义的因素可以引入为止。用此法建立的方程有时不够精炼。3.逐步法(stepwiseselecfion)取上述两种方法的优点,在向前引入每一个新自变量之后都要重新对前已选入的自变量进行检查,以评价其有无继续保留在方程中的价值。为此引入和剔除交替进行,直到无具有统计学意义的新变量可以引入也无失去其统计学意义的自变量可以剔除时为止。2.多元逐步回归的基本原理每一步只引入或剔除一个自变量。自变量是否被引入或剔除则取决于其偏回归平方和的F检验或校正决定系数。如方程中已引入了(m-1)个自变量,在此基础上考虑再引入变量Xj。记引入Xj后方程(即含m个自变量)的回归平方和为SS回归,残差为SS残差;之前含(m-1)个自变量(不包含Xj)方程的回归平方和为SS回归(-j),则Xj的偏回归平方和为U=SS回归-SS回归(-j),检验统计量为:Fj=)1/1/mnSSU(残差Fj服从F(1,n-m-1)分布如果Fj>F(1,n-m-1),则Xj选入方程;否则,不入选。从方程中剔除无统计学作用的自变量,过程则相反,但检验一样。3.多元逐步回归的检验水平在进行逐步回归前,首先应确定检验水平,以作为引入或剔除变量的标准。检验水平可以根据具体情况而定,一般可将F值定在为0.05、0.10或0.20水平上。对于回归方程的选入和剔除水平往往选择选入≤剔除。选择不同的F值(或水平),其回归方程的结果可能不一致,一般可选不同的F值(或值)作调试。至于何种结果是正确的,必须结合医学的实际意义来确定。4.多元逐步回归事例对例11.2采用逐步法筛选自变量,选入水准为0.10,剔除水准为0.15,SAS软件计算过程及相应结果见表11-8至表11-11。表11-8多元逐步回归结果模型变量偏回归系数标准误标准化偏回归系数tP第一步常数6.7740.156-43.5450.000x30.1100.0270.6934.0790.001第二步常数6.0400.432-13.9670.000x30.1110.0250.6974.3500.000x20.0270.0150.2891.8050.089第三步常数4.7990.667-7.1930.000x30.0970.0240.6114.1250.001x20.0310.0140.3302.2870.036x40.0080.0040.3412.2850.036表11-9多元逐步回归方差分析表模型变异来源SSMSFP第一步回归0.71710.71716.6400.001误差0.775180.043总变异1.49219第二步回归0.84120.42110.9930.001误差0.651170.038总变异1.49219第三步回归1.00130.33410.8890.000误差0.491160.031总变异1.49219表11-10多元逐步回归的复相关系数和决定系数表模型复相关系数决定系数第一步0.6930.480第二步0.7510.564第三步0.8190.671表11-11未进入方程的自变量模型变量标准化系数tP第一步x1-0.154-0.8890.386x20.2891.8050.089x40.2981.8030.089x50.1740.9870.337第二步x1-0.128-0.7750.450x40.3412.2850.036x50.1911.1610.263第三步x1-0.043-0.2740.788x50.2321.6260.125234ˆ4.799+0.031+0.097+0.008YXXX多元逐步回归方程为:第三节多元线性回归的注意事项1.应用条件(1)线性依存关系应变量与自变量间具有线性依存关系。(2)正态性应变量原则上是连续型可测正态变量,其预测值与实际观测值的差值(即残差)服从正态分布,当样本量较大时可以忽略正态性的要求。(3)独立性观察单位之间是独立的,即应变量的观测值相互独立。2.样本含量一般应使样本量是自变量个数的5倍以上。3.自变量的数量化注意名义变量的数量化。4.筛选自变量的检验水平要考虑入选变量的实际意义。5.多重共线性可采用主成分分析或因子分析等方法构建新的自变量后再进行多元线性回归来消除多重共线性。谢谢!