第十五章多元线性回归分析(MultipleLinearRegression)讲述内容第一节多元线性回归第二节自变量选择方法第三节多元线性回归的应用及其注意事项人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间例子目的:作出以多个自变量估计应变量的多元线性回归方程。资料:应变量为定量指标,一定是随机的;自变量全部或大部分为定量指标,可以是随机变动的,也可以是人为选定的,若有少量定性或等级指标需作转换。用途:解释和预报。更精确第一节多元线性回归•变量:应变量1个,自变量m个,共m+1个。•样本含量:n•数据格式见表15-1•回归模型一般形式:eXXXYmm22110表示数据中应变量Y可以近似地表示为自变量mXXX,,,21的线性函数。0为常数项,m,,,21为偏回归系数,表示在其它自变量保持不变时,jX增加或减少一个单位时Y的平均变化量,e是去除m个自变量对Y影响后的随机误差(残差)。一、多元线性回归模型例号X1X2…XmY1X11X12…X1mY12X21X22…X2mY2┇┇┇…┇┇nXn1Xn2…XnmYn表15-1多元回归分析数据格式条件(1)Y与mXXX,,,21之间具有线性关系。(2)各例观测值),,2,1(niYi相互独立。(3)残差e服从均数为0、方差为2的正态分布,它等价于对任意一组自变量mXXX,,,21值,应变量Y具有相同方差,并且服从正态分布。两自变量与应变量的散点图一般步骤(1)求偏回归系数mbbbb,,,,210mmXbXbXbbY22110ˆ建立回归方程(2)检验并评价回归方程及各自变量的作用大小二、多元线性回归方程的建立例15-127名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。总胆固醇甘油三脂胰岛素糖化血血糖(mmol/L)(mmol/L)(μU/ml)红蛋白(%)(mmol/L)序号iX1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.344.851.075.888.311.654.602.324.057.513.466.050.641.4213.618.374.908.5012.608.511.187.083.006.7511.512.193.852.1116.287.99.6104.650.636.597.18.4114.591.973.618.79.3124.291.976.617.810.6137.971.937.579.98.4146.191.181.426.99.6156.132.0610.3510.510.9165.711.788.538.010.1176.402.404.5310.314.8186.063.6712.797.19.1195.091.032.538.910.8206.131.715.289.910.2215.783.362.968.013.6225.431.134.3111.314.9236.506.213.4712.316.0247.987.923.379.813.22511.5410.891.2010.520.0265.840.928.616.413.3273.841.206.459.610.4表15-227名糖尿病人的血糖及有关变量的测量结果采用最小二乘法建立多元线性回归方程,即寻找适宜的系数b0,b1,b2,…,使得因变量观测值yi与其回归估计值之间残差平方和最小。yˆ2201122ˆ()[()]kkQYYYbbXbXbX11112211211222221122kkYkkYkkkkkkYlblblbllblblbllblblbl01122()kkbYbXbXbX求偏导数(一阶)()(),,j=1,2,,k()(),1,2,ijijiijjijjjYjjjXXlXXXXXXinXYlXXYYXYjkn原理最小二乘法统计软件包最小43216382027060351501424094335X.X.X.X..Yˆ三、假设检验及其评价012:0mH,1:jH各(j=1,2,,m)不全为0,0.051.方差分析法:残回总SSSSSS残回残回(MSMSmnSSmSSF)1//(一)对回归方程)1(~mn,mFF方差分析法可将回归方程中所有自变量X1,X2,…Xm,,作为一个整体来检验他们与应变量Y之间是否具有线性关系,并对回归方程的预测或解释能力做出综合评价。变异来源自由度SSMSFP总变异n-1SS总回归mSS回SS回/mMS回/MS残残差n-m-1SS残SS残/(n-m-1)表15-4例15-1的方差分析表变异来源自由度SSMSFP总变异26222.5519回归4133.710733.42778.280.01残差2288.84124.0382表15-3多元线性回归方差分析表(0.05)(0.05)SPSS软件输出结果AnalysisofVarianceModelSumofSquaresdfMeanSquareFSig.RegressionResidualTotal133.710788.8412222.55194222633.42774.03828.280.000查F界值表得31.4)22,4(01.0F,31.4F,01.0P,在05.0水平上拒绝H0,接受H1认为所建回归方程具有统计学意义。102R,说明自变量mXXX,,,21能够解释Y变化的百分比,其值愈接近于1,说明模型对数据的拟合程度愈好。本例6008.05519.2227107.1332R表明血糖含量变异的60%可由总胆固醇、甘油三脂、胰岛素和糖化血红蛋白的变化来解释。21SSSSRSSSS回残总总2.决定系数R2:3.复相关系数可用来度量应变量与多个自变量间的线性相关程度,亦即观察值与估计值之间的相关程度。YYYˆ计算公式:2RR,本例7751060080..R若m=1自变量,则有|r|R,r为简单相关系数。(二)对各自变量的假设检验与评价指明方程中的每一个自变量对Y的影响含义回归方程中某一自变量jX的偏回归平方和表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献,相当于从回归方程中剔除jX后所引起的回归平方和的减少量,或在m-1个自变量的基础上新增加jX引起的回归平方和的增加量。1.偏回归平方和在其它自变量存在于回归方程中的条件下,考察某一自变量Xj对应变量Y的回归效应)(jXSS回表示偏回归平方和,其值愈大说明相应的自变量愈重要。()/1/(1)jjSSXFSSnm回残一般情况下,m-1个自变量对Y的回归平方和由重新建立的新方程得到,而不是简单地把jjXb从有m个自变量的方程中剔出后算得。121,1nm平方和(变异)回归方程中包含的自变量SS回SS残①4321X,X,X,X133.710788.8412②432X,X,X133.097889.4540③431XX,X121.7480100.8038④421XX,X113.6472108.9047⑤321XX,X105.9168116.6351表15-5对例15-1数据作回归分析的部分中间结果各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表15-5给出了例15-1数据分析的部分中间结果。11234234()(,,,)(,,)133.7107-133.0978=0.6129SSXSSXXXXSSXXX回回回21234134()(,,,)(,,)133.7107-121.748011.9627SSXSSXXXXSSXXX回回回31234124()(,,,)(,,)133.7107-113.647220.0635SSXSSXXXXSSXXX回回回41234123()(,,,)(,,)133.7107-105.916827.7939SSXSSXXXXSSXXX回回回152.0)1427(/8412.881/6129.01F,962.2)1427/(8412.881/9627.112F968.4)1427/(8412.881/0635.203F,883.6)1427/(8412.881/7939.274F结果2.t检验法是一种与偏回归平方和检验完全等价的一种方法。计算公式为jbjjSbt检验假设:H0:0j,jt服从自由度为1mn的t分布。如果12mn,/jt|t|,则在(0.05)水平上拒绝H0,接受H1,说明jX与Y有线性回归关系。jb为偏回归系数的估计值,jbS是jb的标准误。390036560142401...t721120420351502...t229212140270603...t623224330638204...t结果结论0742222050.t,/.,074.2||34tt,P值均小于0.05,说明3b和4b有统计学意义,而1b和2b则没有统计学意义。对于同一资料,不同自变量的t值间可以相互比较,t的绝对值越大,说明该自变量对Y的回归所起的作用越大。3.标准化回归系数自变量取值的单位及其离散程度是不同的,因此量纲不同的各回归系数之间不能直接比较大小,可对变量进行标准化变换,然后拟合回归方程,这样获得的回归系数称为标准化回归系数。(可说明各自变量相对贡献大小)。变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。'()jjjjXXXS计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。YjjYYjjjjSSbllbb'标准化回归系数没有单位,可以用来比较各个自变量jX对Y的影响强度,通常在有统计学意义的前提下,标准化回归系数的绝对值愈大说明相应自变量对Y的作用愈大。注意:一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,增加或减少一个单位时Y的平均变化量。不能用各来比较各对的影响大小。标准化回归系数无单位,用来比较各自变量对应变量的影响大小,越大,对的影响越大。jXjbjXYˆjbjXYˆ11.5934S,22.5748S,33.6706S,41.8234S,2.9257YS0776.09257.25934.11424.0'1b309309257257482351502....b'339509257267063270603....b'397709257282341638204....b'结论结果显示,对血糖影响大小的顺序依次为糖化血红蛋白)(4X、胰岛素)(3X、甘油三脂)(2X和总胆固醇)(1X。第四节自变量筛选目的:使得预报和(或)解释效果好多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。选择自变量的基本思路是:尽可能将回归效果显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。一、全局择优法目的:根据一些准则建立“最优”回归模型意义:对自变量各种不同的组合所建立的回归方程进行比较,择优选择方法:1.校正决定系数2cR选择法2.pC选择法决定系数R2的缺点:当回归方程中包含有很多自变量,