线性回归分析公共卫生学院2003年一.前言回归分析的目的:设法找出变量间的依存(数量)关系,用函数关系式表达出来二、基本概念1、应变量(dependentvariable)2、自变量(independentvariable)3、一元线性回归直线回归方程的模型是:yi=a+bxi+ei其中(1)a是截距(2)b是回归系数(回归直线的斜率)(regressioncoefficient)回归系数的统计学意义是:自变量每变化一个单位,应变量平均变化的单位数.(3)ei是残差因此直线回归方程的一般形式是:•其中是应变量y的预测值或称估计值。^iy^iiyabx4、多元线性回归多元线性回归方程模型为:yi=b0+b1x1i+b2x2i+…+bnxni+ei其中(1)b0是常数项,是各自变量都等于0时,应变量的估计值。有时,人们称它为本底值。(2)b1,b2,…,bn是偏回归系数(pertialregressioncoefficient),其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位,应变量平均变化的单位数。如果所有参加分析的变量都是标准化的变量,这时b0就等于0,b1,b2,…,bn就变成了标准化偏回归系数,用符号b1‘,b2’,…,bn‘表示。bi’=bi*sxi/sy由于bi’没有量纲,因此可以相互比较大小,反映自变量的相对作用大小。(3)ei是残差多元线性回归方程的一般形式是:其中的符号含义同前。^01122nniiiiybbxbxbx三、理论假设•自变量x与应变量y之间存在线性关系;•正态性:随机误差(即残差)e服从均值为零,方差为2的正态分布;•等方差:对于所有的自变量x,残差e的条件方差为2,且为常数;•独立性:在给定自变量x的条件下,残差e的条件期望值为零(本假设又称零均值假设);•无自相关性:各随机误差项e互不相关;•残差e与自变量x不相关:随机误差项e与相应的自变量x不相关;•无共线性:自变量x之间相互独立.四、回归方程的建立•散点图•奇异点(ouliers)•最小二乘法(leastsquare,LS)•残差平方和(sumofsquaresforresiduals)五、线性回归的检验1、回归方程的检验方差分析法:应变量的总变异可分解为回归平方和(regressionsumofsquares):可用线性回归解释的部分_2()yy_^2()yy剩余平方和(residualsumofsquares):即残差平方和,不能用线性回归解释的部分以上三部分的自由度分别为n-1,m和n-m-1。其中,n为样本数,m为自变量数。方差分析的假设为一元线性回归:H0:=0H1:0多元线性回归:H0:1=2=…=m=0H1:1,2,…,m中至少有一个不等于零因此方差分析的结论是线性回归方程是否显著,是否有意义。^2()yy2、回归/偏回归系数的检验检验回归系数是否为零,每一个偏回归系数是否为零。用t检验方法。统计量自由度结论:回归/偏回归系数是否意义,是否为零;对应的自变量是否有意义。iibbts1vnm3、常数项(截距)的检验检验常数项(截距)是否为零是否为零。用t检验方法。一元线性回归:H0:=0H1:02aatsvn多元线性回归:H0:0=0H1:00001bbtsvnm4、模型的预测效果检验亦称回归模型的拟合优度检验。检验回归模型对样本数据的拟合程度。•决定系数(determinationcoefficient)(Rsquare)•调整(校正)决定系数(adjustedRsquare)•复相关系数R(multiplecorrelationcoefficient)^222()()yyRyy2211(1)nRRnm5、线性回归适用性检验(1)回归模型残差的正态性检验•残差的直方图•残差的累积概率图(P-P图)(2)回归模型残差的独立性检验用Durbin--Watson检验,其参数称为Dw或D。D的取值范围是0D4。其统计学意义为:D≈2,残差与自变量相互独立;D2,残差与自变量正相关;D2,残差与自变量负相关。(3)残差的方差齐性检验以上都是对残差的分析,称为残差分析。残差分析还可以1)检出奇异点,2)评判预测效果。(4)共线性诊断•共线性(collinearity)•共线性的危害•共线性的鉴别容差(tolerance)方差膨胀因子(varianceinflationfactor)六、自变量的选择•强迫引入法(Enter)•强迫剔除法(Remove)•前进法(Forward)•后退法(Backward)•逐步向前法(Forwardstepwise)•逐步向后法(Backwardstepwise)七、线性回归的应用•预测•控制•鉴别影响因素八、线性回归分析实例九、线性回归分析的注意事项•应用条件•样本量•自变量的观察范围•分类/等级变量谢谢!