多重线性回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

多重线性回归分析军事医学科学院统计学教研室高辉2内容基本原理方法简介分析步骤几点补充3一、方法简介•1.1分析目的与方法选择研究一个因变量与一个自变量间的线性关系时简单线性回归分析研究一个因变量与多个自变量间的线性关系时多重线性回归分析研究多个因变量与多个自变量间的线性关系时多元多重线性回归分析4一、方法简介•1.2概念用回归方程定量地刻画一个因变量与多个自变量之间的线性依存关系,称为多重线性回归分析(multiplelinearregressionanalysis)。自变量是相互独立的连续型变量或分类变量。一、方法简介•1.3数据结构表1进行多重线性回归分析资料的数据结构5编号X1X2…XkY1X11X12…X1kY12X21X22…X2kY2:::::nXn1Xn2…XnkYn6二、基本原理•2.1原理简介多重线性回归模型:Y=b0+b1X1+b2X2+…+bkXk+e=bX+e其中,bj(j=0,1,2…,k)为未知参数,e为随机误差项。7二、基本原理•2.1原理简介多重线性回归模型中包含多个自变量,它们同时对因变量Y发生作用。若要考察一个自变量对Y的影响,就必须假设其他自变量保持不变。8二、基本原理•2.1原理简介因此,多重线性回归模型中的回归系数为偏回归系数。它反映的是当模型中的其他自变量不变时,其中一个自变量对因变量Y的均值的影响。9二、基本原理•2.2前提条件多重线性回归分析要求资料满足线性(Linear)、独立性(Independence)、正态性(Normality)和方差齐性(Equalvariance),即LINE条件。除此之外,还要求多个自变量之间相关性不要太强。10二、基本原理•2.2前提条件线性——指自变量与因变量之间的关系是线性的独立性——指各观测值之间是相互独立的正态性——指自变量取不同值时,因变量服从正态分布方差齐性——指自变量取不同值时,因变量的方差相等11三、分析步骤•1.基本任务求出模型中参数的估计值,对模型和参数进行假设检验;对自变量进行共线性诊断,对观测值进行异常值诊断;结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。12三、分析步骤•2.具体步骤•2.1回归参数估计多重线性回归分析的参数估计,常采用最小二乘法(OLS)进行。参数估计值为:-1ˆXXXYb=13三、分析步骤•2.具体步骤•2.2模型检验根据方差分析的思想,将总的离均差平方和SS总分解为回归平方和SS回和残差平方和SS残两部分。SS总的自由度为n-1,SS回的自由度为k,SS残的自由度为n-k-1。14三、分析步骤•2.具体步骤•2.2模型检验222ˆˆSSyySSyySSyy===总回残15三、分析步骤•2.具体步骤•2.2模型检验模型的显著性检验步骤为:第一步,建立检验假设。H0:b1=b2=…=bk=0H1:b1,b2,…,bk不同时为016三、分析步骤•2.具体步骤•2.2模型检验模型的显著性检验步骤为:第二步,计算统计量F的值。,1/~/1knkSSkFFSSnk=回残17三、分析步骤•2.具体步骤•2.2模型检验模型的显著性检验步骤为:第三步,确定P值,下统计学结论。根据检验统计量F的值和自由度,确定其对应的P值。若Pa,则接受H0,认为回归模型的系数全部为0;若Pa,则拒绝H0,接受H1,认为回归模型的系数不全为0。18三、分析步骤•2.具体步骤•2.3参数检验回归方程有统计学意义,可以说明整体上自变量对Y有影响,但并不意味着每个自变量对因变量的影响都有统计学意义。19三、分析步骤•2.具体步骤•2.3参数检验考察各个自变量对因变量的影响,即检验其系数是否为0。若某自变量对因变量的影响无统计学意义,可将其从模型中删除,重新建立回归方程。20三、分析步骤•2.具体步骤•2.3参数检验对自变量Xi的系数是否为0进行假设检验,步骤为:第一步,建立检验假设。H0:bi=0H1:bi≠021三、分析步骤•2.具体步骤•2.3参数检验第二步,计算检验统计量。ˆ1ˆiitvnkSbb==22三、分析步骤•2.具体步骤•2.3参数检验第三步,确定P值。根据自由度和临界水平,查t分布表,可得双侧界值为ta/2(n-k-1)。23三、分析步骤•2.具体步骤•2.3参数检验若tta/2(n-k-1)或t-ta/2(n-k-1),则Pa。此时,拒绝H0,接受H1,认为该回归系数不等于0。反之,则接受H0,认为该回归系数为0。24三、分析步骤例1为推算少年儿童心脏面积,重庆医科大学对33名8岁正常男童进行观测,获得身高(x1,cm)、体重(x2,cm)、心脏横径(x3,cm)、心脏纵径(x4,cm)、心脏宽径(x5,cm)、胸腔横径(x6,cm)及心脏面积(y,cm2)的值,结果如表2。25三、分析步骤表233名8岁正常男童的观测数据idx1x2x3x4x5x6y1120.5020.508.338.807.2018.4048.282133.5027.509.6010.308.1021.6066.893121.5021.008.809.708.0019.8054.73::::::::25126.0025.009.1010.207.7020.9049.09::::::::33124.5024.009.509.907.8020.8057.0026三、分析步骤•SAS程序如下dataa;inputidx1-x6y;cards;1120.5020.508.338.807.2018.4048.282133.5027.509.6010.308.1021.6066.893121.5021.008.809.708.0019.8054.73……;run;procreg;modely=x1-x6;run;27三、分析步骤•SAS结果模型检验结果AnalysisofVarianceSourceDFSumofSquaresMeanSquareFValuePrFModel61985.79167330.9652854.99.0001Error26156.480886.01850CorrectedTotal322142.2725528三、分析步骤•SAS结果参数估计及假设检验结果ParameterEstimatesVariableDFParameterEstimateStandardErrortValuePr|t|Intercept1-83.1803616.97446-4.90.0001x110.302460.187821.610.1194x21-0.504350.36265-1.390.1761x313.767411.503302.510.0188x414.067031.586902.560.0165x514.806791.344873.570.0014x610.142860.823430.170.863629三、分析步骤•2.具体步骤•2.4变量筛选由例1的分析结果可知,不是所有的自变量都对因变量的作用都有统计学意义。故需要找到一个较好的回归方程,使之满足:方程内的自变量对回归都有统计学意义,方程外的自变量对回归都无统计学意义。30三、分析步骤•2.具体步骤•2.4变量筛选这就是自变量的选择问题,或称为变量筛选。选择时,一要尽可能地不漏掉重要的自变量;二要尽可能地减少自变量的个数,保持模型的精简。31三、分析步骤•2.具体步骤•2.4变量筛选就回归方程而言,每个变量均有两种可能性,即被选择或被踢除。所以,所有可能的模型有2k个(k为自变量个数)。自变量个数较多时,计算量过大。此时,需要一定的变量筛选方法。32三、分析步骤•2.具体步骤•2.4变量筛选常用的变量筛选方法有以下8种:前进法后退法逐步回归法最大R2增量法最小R2增量法R2选择法修正R2选择法Mallow’sCp选择法33三、分析步骤•2.4.1前进法(FORWARD)回归方程中变量从无到有依次选择一个自变量进入回归方程,并根据该变量在回归方程中的Ⅱ型离差平方和(SS2)计算F统计量及P值。当P小于sle(规定的选变量进入方程的临界水平)则该变量入选,否则不能入选。34三、分析步骤•2.4.1前进法当回归方程中变量少时某变量不符合入选标准,但随着回归方程中变量逐次增多时,该变量就可能符合入选标准;这样直到没有变量可入选为止。具体而言,是从仅含常数项(即截距项)的最简单模型开始,逐步在模型中添加自变量。35三、分析步骤•2.4.1前进法局限性:sle取值小时,可能没有一个变量能入选;sle取值大时,开始选入的变量后来在新条件下不再进行检验,因而不能剔除后来变得无统计学意义的变量。36三、分析步骤•2.4.2后退法(BACKWARD)从模型中包含全部自变量开始,计算留在回归方程中的各个自变量所产生的F统计量和P值,当P值小于sls(规定的从方程中踢除变量的临界水准)则将此变量保留在方程中。37三、分析步骤•2.4.2后退法否则,从最大的P值所对应的自变量开始逐一踢除,直到回归方程中没有变量可以被踢除时为止。38三、分析步骤•2.4.2后退法局限性:sls大时,任何一个自变量都不能被踢除;sls小时,开始被踢除的自变量后来在新条件下即使变得对因变量有较大的贡献了,也不能再次被选入回归方程并参与检验。39三、分析步骤•2.4.3逐步回归法(STEPWISE)此法是前进法和后退法的结合。回归方程中的变量从无到有像前进法那样,根据F统计量和P值大小按sle水平决定该自变量是否入选。40三、分析步骤•2.4.3逐步回归法(STEPWISE)当回归方程选入自变量后,又像后退法那样,根据F统计量和P值按sls水平踢除无统计学意义的各自变量,依次类推。这样直到没有自变量可入选,也没有自变量可被踢除或入选的自变量就是刚被剔除的自变量时,则停止逐步筛选过程。41三、分析步骤•2.4.3逐步回归法逐步回归法有无符合纳入标准的新变量纳入新变量有无符合排除标准的变量踢除完成无有无有42三、分析步骤•2.4.3逐步回归法逐步回归法比前进法和后退法都能更好地选出变量构造模型,但它也有局限性:其一,当有m个变量入选后,选第m+1个变量时,对它来说,前m个变量不一定是最佳组合;其二,选入或踢除自变量仅以F值和P值作标准,完全没考虑其它标准。43三、分析步骤•2.4.4SAS应用在SAS编程法中,通过在model语句中增加适当的选择项,可以有9种筛选变量的方法,语法格式为:selection=关键词。可用关键词分别为:NONE(全模型法)STEPWISE(逐步回归法)BACKWARD(后退法)FORWARD(前进法)44三、分析步骤•2.4.4SAS应用9种筛选变量方法的关键词分别为:MAXR(基于最大R2增量法)MINR(基于最小R2增量法)RSQUARE(基于R2数值大小的选择变量法)ADJRSQ(基于校正R2数值大小的选择变量法)CP(基于MallowsCp数值大小的选择变量法)45三、分析步骤•2.4.4SAS应用用前6种方法筛选变量后,一般都会给出回归方程中参数的估计值。用后3种方法筛选变量后,一般只给出各种自变量组合模型的某统计量值(如R2等)。46三、分析步骤•2.4.4SAS应用后3种筛选变量的方法可统称为求“最优回归子集”的方法。此时,欲得到回归参数的估计值,需给定变量的组合,按不筛选变量法直接拟合多重线性回归方程。47三、分析步骤•2.4.5变量筛选方法的选择究竟哪一种筛选变量的方法最好?这个问题没有绝对的定论。一般来说,逐步回归法和最优回归子集法较好。对于一个给定的资料,可试用多种变量筛选的方法,结合以下几条判断原则,从中选择最佳者。48三、分析步骤•2.4.5变量筛选方法的选择其一,拟合的回归方程在整体上有统计学意义;其二,回归方程中各回归参数的估计值的假设检验结果都有统计学意义;其三,回归方程中各回归参数的估计值的正负号与其后的变量在专业上的含义相吻合;49三、分析步骤•2.4.5变量筛选方法的选择其四,

1 / 98
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功