多元线性回归分析(正式)分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1MultipleLinearRegressionAnalysis多元线性回归分析第15章华中科技大学同济医学院公共卫生学院流行病学与卫生统计学系蒋红卫Email:jhwccc@21cn.com2讲课内容第一节多元线性回归(重点)第二节自变量选择方法(重点)第三节多元线性回归的应用及注意事项3第一节多元线性回归一、多元线性回归模型4表15-227名糖尿病人的血糖及有关变量的测量结果总胆固醇甘油三酯胰岛素糖化血红蛋白血糖(mmol/L)(mmol/L)(U/ml)(%)(mmol/L)序号iX1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3273.841.206.459.610.45表15-1多元回归分析数据格式例号X1X2XmY1X11X12X1mY12X21X22X2mY2nXn1Xn2XnmYn多元回归:多个Y,多个X多重回归:一个Y,多个X6eXXXYmm22110β0常数项βj偏回归系数(partialregressioncoefficient):在其它自变量保持不变时,Xj增加或减少一个单位时Y的平均变化量。e去除m个自变量对Y影响后的随机误差。7多元线性回归模型应用条件:1.Y与X1,X2,,Xm之间具有线性关系;2.各个Yi间相互独立;3.e服从均数为0、方差为2的正态分布。8多元线性回归分析步骤:1.根据样本数据求得模型参数估计值:2.对回归方程及各Xj作假设检验。mm22110XbXbXbbYˆ9二、多元线性回归方程的建立10YXbXaYˆ110XbbYˆ11110XbbYˆ110XbYb11Y11llbY1111lblXXXY2ll)XX()YY)(XX(bXbYa12X1X2Y22110XbXbbYˆ1102XbbXˆ1322110XbXbbYˆ)(22110XbXbYbY1212111lblblY2222121lblbl用最小二乘法解正规方程组,使残差平方和Q最小。2221102XbXbbYYˆYQ14mm22110XbXbXbbYˆ)(mm22110XbXbXbYbY1mm1212111lblblblY2mm2222121lblblblmYmmm22m11mlblblbl152mm221102XbXbXbbYYˆYQ用最小二乘法解正规方程组,使残差平方和Q最小。16表15-227名糖尿病人的血糖及有关变量的测量结果总胆固醇甘油三酯胰岛素糖化血红蛋白血糖(mmol/L)(mmol/L)(U/ml)(%)(mmol/L)序号iX1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3273.841.206.459.610.417222.551984.5570142.4347-89.802567.696284.557086.440757.3863-26.728631.3687142.4347-57.3863-350.31069.4929-53.9523-89.802526.72869.4929-172.364867.360867.696231.368753.9523-67.36080103.66lij84.5570b86.4407b57.3863-b26.7286b31.3687142.4347-b57.3863-b350.3106b9.4929-b53.9523-89.8025b26.7286b9.4929-b172.3648b67.360867.6962b31.3687b53.9523-b67.3608b0103.6643214321432143216382.0b2706.0b3515.0b1424.0b4321189259.11Y1185.9X1467.6X8407.2X8126.5X6382.0b2706.0b3515.0b1424.0b432143219433.5XbXbXbYbmm22110)(4321X6382.0X2706.0X3515.0X1424.09433.5Yˆ19三、多元线性回归方程的假设检验及评价20(一)回归方程的假设检验及评价1.方差分析法残回残回回总残回)(MSMS1mn/SSm/SSFSSSSSSlblblbSS)m,,2,1j(:H0:HmYmY22Y11j1m210不全为0。21表15-3多元线性回归方差分析表变异来源自由度SSMSFP总变异n-1SS总回归mSS回SS回/mMS回/MS残残差n-m-1SS残SS残/(n-m-1)22表15-4多元线性回归方差分析表变异来源自由度SSMSFP总变异26222.5519回归4133.710733.42778.28<0.01残差2288.84124.0382F0.01(4,22)=4.31236008.05519.2227107.133SSSSR2总回2.决定系数R2血糖含量变异的60%可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。247751.06008.0RR23.复相关系数RY与多个自变量间的线性相关程度;Y与估计值间的Pearson相关系数r。Yˆ25(二)各自变量的假设检验及评价)()(残回1mn/SS1/XSSF0.050:H,0:Hjjj1j01.偏回归平方和表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献。其值愈大说明相应的自变量愈重要。26对例15-1数据作回归分析的部分中间结果平方和(变异)回归方程中包含的自变量SS回SS残X1X2X3X4133.710788.8412X2X3X4133.097889.4540X1X3X4121.7480100.8038X1X2X4113.6472108.9047X1X2X3105.9168116.6351277939.279168.1057107.133XSS0635.206472.1137107.133XSS9627.117480.1217107.133XSS6129.00978.1337107.133XSS4321回回回回0.6129+11.9627+20.0635+27.7939≠133.71072830.4F0.05P883.61427/8412.881/7939.27F0.05P968.41427/8412.881/0635.20F0.05P962.21427/8412.881/9627.11F0.05P152.01427/8412.881/6129.0F)22,1(05.04321)()()()(胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线性回归关系。29jbjjSbt2433.0S1214.0S2042.0S3656.0S6382.0b2706.0b3515.0b1424.0b4321bbbb43212.t检验法30074.2t0.05P623.22433.06382.0t0.05P229.21214.02706.0t0.05P721.12042.03515.0t0.05P390.03656.01424.0t22,2/05.04321胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线性回归关系。31标准化回归系数bj’的绝对值用来比较各个自变量Xj对Y的影响程度大小;绝对值越大影响越大。标准化回归方程的截距为0。3.标准化回归系数YjjYYjjj'jSSbllbb标准化回归系数与一般回归方程的回归系数的关系:SXXXjjj'j标准化回归方程323977.09257.28234.16382.0b3395.09257.26706.32706.0b3093.09257.25748.23515.0b0776.09257.25934.11424.0b'4'3'2'1对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)与总胆固醇(X1)。胰岛素为负向影响。33第二节自变量选择方法34一、全局选择法对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个“最优”的回归方程。35R2可用来评价回归方程优劣。随着自变量增加,R2不断增大,对两个不同个数自变量回归方程比较,须考虑方程包含自变量个数影响,应对R2进行校正。所谓“最优”回归方程指最大者。2cR总残)(MSMS11pn1nR11R22c2cR1.校正决定系数选择法36pCP为方程中自变量个数。最优方程的Cp期望值是p+1。应选择Cp最接近P+1的回归方程为最优。mp1p2nMSSSCmpp)()(残残2.选择法37所有回归方程(24-1=15)的2cR和Cp统计量的值方程中自变量2cRCp方程中自变量2cRCpX2X3X40.5463.15X2X30.4089.14X1X2X3X40.5285.00X1X30.37510.78X1X3X40.4885.96X40.34711.63X1X2X40.4477.97X10.28414.92X1X40.4417.42X1X20.27515.89X2X40.4407.51X30.23117.77X3X40.4357.72X20.17920.53X1X2X30.4089.8838二、逐步选择法全局选择计算量很大:6个变量,计算26-1=63个方程;10个变量,计算210-1=1023个方程。按选入变量顺序不同分前进法、后退法与逐步回归法,共同特点是每一步只引入或剔除一个自变量Xj。39对Xj的取舍要进行F检验:)()(残回1pn/SS1/XSSFljlj计算进行到第l步时:p:方程中自变量个数SS回:Xj的偏回归平方和SS残:残差平方和401.前进法(只选不剔)开始方程中无自变量,然后从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程,直至无自变量可以引入方程为止。缺点:后续变量的引入可能使先前引入的变量变的不重要。入入PFF)1pn,1(jXj入选412.后退法(只剔不选)开始方程中包含全部自变量,然后从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。缺点:当某些自变量高度相关时,可能得不出正确结果。出出PFF)1pn,1(jXj剔除423.逐步回归法(先选后剔,双向筛选)开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程;每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除;直至方程外无自变量可引入,方程内无自变量可剔除为止。43出出PFF)1pn,1(jXj剔除内剔入入PFF)1pn,1(jXj入选外引α入值定的越小选取自变量标准越严,被选入方程内自变量数越少。α入值越大则反之。小样本:α入=0.05,α出=0.10。大样本:α入=0.10,α出=0.15。α入α出,以免Xj上一步剔除后下一步又被选入4427名糖尿病人血糖及有关变量逐步回归过程(入=0.10,出=0.15)步骤(l)引入变量剔除变量变量数(p)R2jlXSS回lSS残F值P值1X410.37282.714139.83714.7880.000

1 / 62
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功