多重线性回归流行病与卫生统计学系内容•多重线性回归•回归分析中自变量的选择•多因素线性回归的应用及注意事项复习•线性回归分析是研究一个变量和另外一些变量间线性关系的统计分析方法。在回归分析中,最简单的情形是模型中只包含两个有“依存关系”的变量,一个变量(反应变量)随另一个变量(自变量)的变化而变化,且呈直线变化趋势,称之为简单线性回归。给定X的数值,Y的数值取在一个平均值(y|x)附近对应于不同的X值,Y的平均值座落在一条直线上----回归直线.y|x和X的关系可用一个线性方程描写.|yxX简单线性回归方程总体样本“Yhat”表示估计值,给定x时y的总体均数的估计值。ˆYabXXXY直线回归方程的求解:最小二乘原理ˆYabXYXˆiiYY回归系数及其计算找一条直线使残差平方和最小利用微积分知识,容易得到这条线一定过两个点和最小)ˆ(2yy2)())((xxyyxxllbiiixxxyxbya),(yx),0(abXaYˆ线性回归分析的前提条件•线性(Linear)–反应变量Y与自变量X呈线性变化趋势•独立(Independent)–任意两个观察值相互独立,一个个体的取值不受其他个体的影响•给定X时,Y正态分布(Normal)–给定X取值时,Y的取值服从正态分布•等方差(Equalvariance)–指对应于不同的X值,Y值的总体变异相同直线回归应用条件LINE示意图回归方程有统计学意义吗•建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,这种关系是否有统计学意义,还需要进一步进行假设检验。–检验回归模型是否成立:方差分析–检验总体回归系数β是否为零:t检验•例1:•某研究者研究大气污染物一氧化氮(NO)的浓度(ppm)与汽车流量(千辆)、气温(℃)、空气湿度(%)、风速(m/s)等因素的关系,结果见表1:•单位时间内过往的汽车数(千辆)、气温(℃)、空气湿度(%)、风速(m/s)这四个因素是否都对空气中一氧化氮(NO)的浓度(ppm)有影响?•如何定量地描述这些因素对一氧化氮浓度的影响?•哪个因素对一氧化氮浓度的影响最大?哪个因素的影响最小?•如果利用这些影响因素去预测空气中一氧化氮的浓度,如何预测?效果如何?第一节多重线性回归•多重线性回归(multiplelinearregression)•因变量:一个,Y•自变量:多个,X1,X2,X3,…,Xp方程:ppXbXbXbbY...ˆ22110概念•多元线性回归(multi-variatelinearregression)•简称多元回归(multi-variateregression):•因变量:多个,Y1,Y2,…•自变量:多个,X1,X2,X3,…方程:ppXbXbXbbY1221111011...ˆppXbXbXbbY2222112022...ˆ多重线性回归方程•多重线性回归方程是简单线性回归方程的扩展pppxxxYXXX22110,...,2,1|其中表示当所有自变量为0时反应变量Y的总体平均值。为变量Xi的总体偏回归系数(partialregressioncoefficient),表示当方程中其他自变量保持常量时,自变量Xi每增加(或减少)一个计量单位,反应变量Y平均变化个单位。0ii•样本回归方程ppXbXbXbbY...ˆ22110ˆY反应变量Y的总体平均值12|,,...,pYxxx的估计值。b00的估计。为常数项,又称为截距,是总体参数bi为自变量Xi的偏回归系数,是总体参数的估计值。i•如果要建立由车流量()和风速()预测一氧化氮浓度(Y)的线性回归方程,模型可以写成:1X4X44110ˆXbXbbY4b4b表示在车流量不变的情况下,风速每增加一个单位(1m/s),估计空气中一氧化氮的浓度平均改变个单位(ppm)。例号X1X2…XmY1X11X12…X1mY12X21X22…X2mY2┇┇┇…┇┇nXn1Xn2…XnmYn表13-1多重线性回归分析数据格式前提条件(LINE)多重线性回归模型应满足以下条件:(1)Y与mX,X,X21之间具有线性关系;(2)各观测值n,,,jYj21之间相互独立;(3)残差服从均数为0、方差为2的正态分布,它等价于对于任意一组自变量mX,X,X21,应变量Y均服从正态分布且方差齐。多重线性回归分析步骤(1)求回归方程-----最小二乘原则(2)假设检验-----检验回归方程是否具有统计学意义,模型有意义的前提下,再分别对各偏回归系数进行假设检验。(3)变量选择-----以尽量少的自变量,达到较好地解释Y的目的基本原理:寻找一套适宜的偏回归系数(),建立多重线性回归方程,使得反应变量的观测值与回归方程的估计值回归系数的估计,求回归方程采用最小二乘法(leastsquaredmethod)来估计偏回归系数pbbbb,,,,210iYiYˆ之间的残差平方和最小。SPSS实现方法:•Analyze---Regression---Linear---y选入Dependentx1、x2、X3...XP选入IndependentMethod---EnterStepwiseBackwardForward---ok43621035.01055.6004.0116.0142.0ˆXXXXY•当建立样本回归方程后,首先要考察这个回归方程是否有意义?即在,,,,中,是否至少存在一个自变量与Y的总体均数呈线性关系?•回归方程的效果如何?也即是这四个自变量能够解释反应变量的变异的百分比是多少?•四个自变量是否都对反应变量有影响?即各个偏回归系数()所对应的总体偏回归系数()是否等于0?考虑:1X2X3X4X4321,,,bbbb4321,,,•回归的目的:估计•H0成立时,只能用Y的均数来估计•残差:,自由度=•H1成立时,给定可以用来估计•残差:,自由度=•残差减少了统计推断•这个回归方程有统计学意义吗?0...:210pH,0,...,,:211不全为pHXYyXY2)(yySSi总1nXYiyix2)ˆ(iiyySS残1pn回残总SSSSSS----这是回归模型的贡献2)ˆ(yySSi回自由度=p方差分析的基本思想•总变异:把反应变量的观察值的离均差平方和记为,它反映了没有利用自变量的信息时的观察值的变异性,即没有考虑车流量、气温、气湿和风速等因素的情况下一氧化氮浓度的变异的大小,其自由度记为(n为样本量)。2)(yySSi总1n总•根据回归方程计算得到的预测值与实际观察值之间的差异称为残差,记残差的离均差平方和为,它反映了的变异中不能由回归解释的部分,其自由度记为,P为自变量个数。把与之差记为回归平方和,它反应了回归模型的贡献,即车流量、气温、气湿和风速等因素对一氧化氮浓度的影响,其自由度记为。iyˆiy2)ˆ(iiyySS残1pnE总SS残差SS回归SSp回变异来源DFSSMSFP回归p2)ˆ(yySSi回归pSSMS/回归回归误差回归MSMS/误差n-p-12)ˆ(iiyySS误差)1/(pnSSMS误差误差总n-121)(yySSnii总)1/(nSSMS总总表13-2方差分析表SSMSFP表13-3检验回归方程整体意义的方差分析表变异来源自由度回归40.0640.01617.59.001残差190.0170.001总230.081P0H表中值小于0.001,按照0.05的检验水准,可以拒绝认为所建立的回归方程是有意义的。用这四个自变量构成的回归方程解释空气中一氧化氮浓度的变化是有意义的。32回归模型好坏的评价1)拟合的回归方程在总体上有统计学意义2)决定系数R2R2=1-SS残/SS总=SS模/SS总,它表示在因变量y的总变异中可由回归方程所解释部分的比例。0R2≤1,越接近于1,说明回归方程效果越好。33•复相关系数是随方程中的变量个数增加而增加的,为了克服这一缺点,对它进行校正•AdjR2=1-MS残/MS总,•0AdjR2≤1,越接近于1,说明回归方程效果越好。调整的确定系数(adjustedR2,)11111/1/1122pnnRnSSpnSSMSMSRad总残差总残差2adR353)剩余标准差或标准估计误差(standarderrorofestimate)。它反映了应变量在扣除自变量的线性影响后的离散程度;剩余标准差越接近于0,说明回归方程效果越好。2ˆ12.nyysniiixy364)回归系数估计值的正负号与专业上的含义相吻合,根据回归方程计算的Y的预测值在专业上有意义。确定系数•或称决定系数,以反映回归方程的效果好坏。总回归SSSSR22R本例=0.79,说明利用车流量、气温、气湿和风速等四个因素可以解释一氧化氮浓度的约80%的变异,可以认为回归的效果较好。复相关系数(coefficientofmultiplecorrelation)又称多重相关系数决定系数R----这是Y和(X1,X2,…,Xm)相关系数上例,89.079.0R回归系数的假设检验•由于存在抽样误差,即使总体偏回归系数为零,也可能得到样本偏回归系数不为零的情形,因此需要对偏回归系数进行假设检验,以推断总体偏回归系数是否为零。0:0iH0:1iH05.0•检验统计量为biibiSbtbiSi其中,是第个偏回归系数的标准误05.0P05.0P车流量、气温、风速对一氧化氮浓度的影响有统计学意义(),但是气湿的影响没有统计学意义()。)。标准偏回归系数StandardizedpartialregressioncoefficientYXiiSSbb车流量:1b=0.592(对一氧化氮影响最大)气温:2b=0.273气湿:3b=-0.001(对一氧化氮影响非常小)风速:4b=-0.448所有变量标准化后做回归,所得系数称为标准偏回归系数.注意:一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,增加或减少一个单位时Y的平均变化量。不能用各来比较各对的影响大小。标准化回归系数无单位,用来比较各自变量对应变量的影响大小,越大,对的影响越大。iXibiXYˆ,ibXiYˆ第二节回归分析中变量的选择•并不是事先考虑的所有的自变量对反应变量的影响都有统计学意义。•在许多研究中,多因素线性回归分析的目的是建立一个预测效果最优的回归模型,需要对自变量进行筛选:–将对反应变量没有影响的自变量从模型中剔除,将对反应变量的作用有意义的自变量纳入模型当中。残差平方和()缩小或确定系数()增大2)ˆ(iiyySS残残差SS2R越小越好!总残差总回归SS12SSSSSSR越大越好!然而,只要增加自变量个数,这个量就会减小!?自变量筛选的统计学标准残差的均方()缩小或调整确定系数()增大残差MS2adR1pnSSMS残差残差11111/1/1122pnnRnSSpnSSMSMSRad总残差总残差自变量筛选的统计学标准AIC统计量pSSnAIC2)nln(残差AIC值达到最小,该模型为最佳模型,AIC准则自变量筛选的统计学标准自变量筛选的方法•最优子集回归分析法:•p个变量有2p-1个方程•逐步回归分析:•向前引入法(forwardselection)•向后剔除法(backwardselection)•逐步引入-剔除法(stepwiseselection)(一)最优子集回归法求出所有自变量可能组合子集的回归方程的模型(共有2p-1个),按一定准则选择最优模型,常用的准则有:①校正决定系数或残差的均方(考虑了自变量的个数)②AIC(Akaike`sInformationCriterion)