多元线性回归分析(MultipleLinearRegression)讲述内容第一节多元线性回归第二节自变量选择方法第三节多元线性回归的应用及其注意事项目的:作出以多个自变量估计应变量的多元线性回归方程。资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。用途:解释和预报。意义:由于事物间的联系常常是多方面的,一个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。第一节多元线性回归•变量:应变量1个,自变量m个,共m+1个。•样本含量:n•回归模型一般形式:eXXXYmm22110上式表示数据中应变量Y可以近似地表示为自变量mXXX,,,21的线性函数。0为常数项,m,,,21为偏回归系数,表示在其它自变量保持不变时,jX增加或减少一个单位时Y的平均变化量,e是去除m个自变量对Y影响后的随机误差(残差)。一、多元线性回归模型例号X1X2…XmY1X11X12…X1mY12X21X22…X2mY2┇┇┇…┇┇nXn1Xn2…XnmYn表15-1多元回归分析数据格式条件(1)Y与mXXX,,,21之间具有线性关系。(2)各例观测值),,2,1(niYi相互独立。(3)残差e服从均数为0、方差为2的正态分布,它等价于对任意一组自变量mXXX,,,21值,应变量Y具有相同方差,并且服从正态分布。一般步骤(1)求偏回归系数mbbbb,,,,210mmXbXbXbbY22110ˆ建立回归方程(2)检验并评价回归方程及各自变量的作用大小二、多元线性回归方程的建立27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。总胆固醇甘油三脂胰岛素糖化血血糖(mmol/L)(mmol/L)(μU/ml)红蛋白(%)(mmol/L)序号iX1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.344.851.075.888.311.654.602.324.057.513.466.050.641.4213.618.374.908.5012.608.511.187.083.006.7511.512.193.852.1116.287.99.6104.650.636.597.18.4114.591.973.618.79.3124.291.976.617.810.6137.971.937.579.98.4146.191.181.426.99.6156.132.0610.3510.510.9165.711.788.538.010.1176.402.404.5310.314.8186.063.6712.797.19.1195.091.032.538.910.8206.131.715.289.910.2215.783.362.968.013.6225.431.134.3111.314.9236.506.213.4712.316.0247.987.923.379.813.22511.5410.891.2010.520.0265.840.928.616.413.3273.841.206.459.610.4表15-227名糖尿病人的血糖及有关变量的测量结果2221102)]([)ˆ(mmXbXbXbbYYYQmYmmmmmYmmYmmlblblbllblblbllblblbl22112222212111212111)(22110mmXbXbXbYb求偏导数()(),,j=1,2,,m()(),1,2,ijijiijjijjjYjjjXXlXXXXXXinXYlXXYYXYjmn43216382027060351501424094335X.X.X.X..Yˆ原理最小二乘法三、假设检验及其评价012:0mH,1:jH各(j=1,2,,m)不全为0,0.051.方差分析法:残回总SSSSSS残回残回(MSMSmnSSmSSF)1//(一)对回归方程)1(~mn,mFF变异来源自由度SSMSFP总变异n-1SS总回归mSS回SS回/mMS回/MS残残差n-m-1SS残SS残/(n-m-1)表15-4例15-1的方差分析表变异来源自由度SSMSFP总变异26222.5519回归4133.710733.42778.280.01残差2288.84124.0382表15-3多元线性回归方差分析表查F界值表得31.4)22,4(01.0F,31.4F,01.0P,在05.0水平上拒绝H0,接受H1认为所建回归方程具有统计学意义。(0.05)(0.05)102R,说明自变量mXXX,,,21能够解释Y变化的百分比,其值愈接近于1,说明模型对数据的拟合程度愈好。本例6008.05519.2227107.1332R表明血糖含量变异的60%可由总胆固醇、甘油三脂、胰岛素和糖化血红蛋白的变化来解释。21SSSSRSSSS回残总总2.决定系数R2:3.复相关系数可用来度量应变量Y与多个自变量间的线性相关程度,亦即观察值Y与估计值Yˆ之间的相关程度。计算公式:2RR,本例7751060080..R若m=1自变量,则有|r|R,r为简单相关系数。(二)对各自变量指明方程中的每一个自变量对Y的影响(即方差分析和决定系数检验整体)。含义回归方程中某一自变量jX的偏回归平方和表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献,相当于从回归方程中剔除jX后所引起的回归平方和的减少量,或在m-1个自变量的基础上新增加jX引起的回归平方和的增加量。1.偏回归平方和)(jXSS回表示偏回归平方和,其值愈大说明相应的自变量愈重要。()/1/(1)jjSSXFSSnm回残一般情况下,m-1个自变量对Y的回归平方和由重新建立的新方程得到,而不是简单地把jjXb从有m个自变量的方程中剔出后算得。121,1nm平方和(变异)回归方程中包含的自变量SS回SS残①4321X,X,X,X133.710788.8412②432X,X,X133.097889.4540③431XX,X121.7480100.8038④421XX,X113.6472108.9047⑤321XX,X105.9168116.6351表15-5对例15-1数据作回归分析的部分中间结果各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表15-5给出了例15-1数据分析的部分中间结果。11234234()(,,,)(,,)133.7107-133.0978=0.6129SSXSSXXXXSSXXX回回回21234134()(,,,)(,,)133.7107-121.748011.9627SSXSSXXXXSSXXX回回回31234124()(,,,)(,,)133.7107-113.647220.0635SSXSSXXXXSSXXX回回回41234123()(,,,)(,,)133.7107-105.916827.7939SSXSSXXXXSSXXX回回回152.0)1427(/8412.881/6129.01F,962.2)1427/(8412.881/9627.112F968.4)1427/(8412.881/0635.203F,883.6)1427/(8412.881/7939.274F结果2.t检验法是一种与偏回归平方和检验完全等价的一种方法。计算公式为jbjjSbt检验假设:H0:0j,jt服从自由度为1mn的t分布。如果12mn,/jt|t|,则在(0.05)水平上拒绝H0,接受H1,说明jX与Y有线性回归关系。jb为偏回归系数的估计值,jbS是jb的标准误。390036560142401...t721120420351502...t229212140270603...t623224330638204...t结果结论0742222050.t,/.,074.2||34tt,P值均小于0.05,说明3b和4b有统计学意义,而1b和2b则没有统计学意义。3.标准化回归系数变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。'()jjjjXXXS计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。YjjYYjjjjSSbllbb'标准化回归系数没有单位,可以用来比较各个自变量jX对Y的影响强度,通常在有统计学意义的前提下,标准化回归系数的绝对值愈大说明相应自变量对Y的作用愈大。注意:一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,增加或减少一个单位时Y的平均变化量。不能用各来比较各对的影响大小。标准化回归系数无单位,用来比较各自变量对应变量的影响大小,越大,对的影响越大。jXjbjXYˆjbjXYˆ11.5934S,22.5748S,33.6706S,41.8234S,2.9257YS0776.09257.25934.11424.0'1b309309257257482351502....b'339509257267063270603....b'397709257282341638204....b'结论结果显示,对血糖影响大小的顺序依次为糖化血红蛋白)(4X、胰岛素)(3X、甘油三脂)(2X和总胆固醇)(1X。第二节自变量选择方法目的:使得预报和(或)解释效果好一、全局择优法目的:预报效果好意义:对自变量各种不同的组合所建立的回归方程进行比较择优。选择方法:1.校正决定系数2cR选择法2.pC选择法1.校正决定系数2cR选择法,其计算公式为总残MSMSpnnRRc111)1(122n为样本含量,2R为包含)(mpp个自变量的回归方程的决定系数。2cR的变化规律是:当2R相同时,自变量个数越多2cR越小。所谓“最优”回归方程是指2cR最大者。2.pC选择法)]1(2[)()(pnMSSSCmpp残残pSS)(残是由)(mpp个自变量作回归的误差平方和,mMS)(残是从全部m个自变量的回归模型中得到的残差均方。当由p个自变量拟合的方程理论上为最优时,pC的期望值是p+1,因此应选择pC最接近p+1的回归方程为最优方程。如果全部自变量中没有包含对Y有主要作用的变量,则不宜用pC方法选择自变量。例15-2用全局择优法对例15-1数据的自变量进行选择。方程中的自变量2cRpC方程中的自变量2cRpCX2,X3,X40.5463.15X2,X30.4089.14X1,X2,X3,X40.5285.00X1,X30.37510.78X1,X3,X40.4885.96X40.34711.63X1,X2,X40.4477.97X10.28414.92X1,X40.4417.42X1,X20.27515.89X2,X40.4407.51X30.23117.77X3,X40.4357.72X20.17920.53X1,X2,X30.4089.88m=4,故回归方程拟合数为4212115m。最优组合均为X2,X3,X4,即由甘油三脂、胰岛素和糖化血红蛋白与血糖建立的回归方程最优。二、逐步选择法1.1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。2.后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。剔除自变量的方法是在方程中选一个偏回归