第十一章多元线性回归与logistic回归

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

98第十一章多元线性回归与logistic回归一、教学大纲要求(一)掌握内容1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论。4.logistic回归模型结构:模型结构、发病概率比数、比数比。5.logistic回归参数估计方法。6.logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。(二)熟悉内容常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。(三)了解内容标准化偏回归系数的解释意义。二、教学内容精要(一)多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y与多个自变量X间的线形依存关系,称为多元线形回归(multiplelinearregression),简称多元回归(multipleregression)基本形式:01122ˆkkYbbXbXbX式中Yˆ为各自变量取某定值条件下应变量均数的估计值,1X,2X,…,kX为自变量,k为自变量个数,0b为回归方程常数项,也称为截距,其意义同直线回归,1b,2b,…,kb称为偏回归系数(partialregressioncoefficient),jb表示在除jX以外的自变量固定条件下,jX每改变一个单位后Y的平均改变量。(二)多元线性回归的分析步骤Yˆ是与一组自变量1X,2X,…,kX相对应的变量Y的平均估计值。多元回归方程中的回归系数1b,2b,…,kb可用最小二乘法求得,也就是求出能使估计值Yˆ和实际观察值Y的残差平方和22)ˆ(YYei为最小值的一组回归系数1b,2b,…,kb值。根据以上要求,用数学方法可以得出求回归系数1b,2b,…,kb的下列正规方程组(normalequation):99kykkkkkykkykkllblblbllblblbllblblb22112222221111122111式中()()()()ijijjiiijjijXXllXXXXXXnnYXYXYYXXliiiiiy))(())((常数项0b可用下式求出:kkXbXbXbYb22110(三)多元线性回归分析中的假设检验在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量1X,2X,…,kX是否与Y真有线性依存关系,也就是检验无效假设0H(1230k),备选假设1H为各j值不全等于0或全不等于0。检验时常用统计量F)1(knlklMSMSF误差回归误差回归式中n为个体数,k为自变量的个数。式中kykyylblblbl2211回归回归总误差lllyylYYl2总(四)logistic回归模型结构设kXXX,,,21为一组自变量,Y为应变量。当Y是阳性反应时,记为Y=1;当Y是阴性反应时,记为Y=0。用P表示发生阳性反应的概率;用Q表示发生阴性反应的概率,显然P+Q=1。Logistic回归模型为:kkkkXXXXXXeeP22110221101同时可以写成:kkXXXeQ2211011式中0是常数项;(12)jjk,,,是与研究因素jX有关的参数,称为偏回归系数。事件发生的概率P与x之间呈曲线关系,当x在,之间变化时,P或Q在(0,1)之间变化。若有n例观察对象,第i名观察对象在自变量ikiiXXX,,,21作用下的应变量为iY,阳性100反应记为iY=1,否则iY=0。相应地用iP表示其发生阳性反应的概率;用iQ表示其发生阴性反应的概率,仍然有iP+iQ=1。iP和iQ的计算如下:01122011221iikikiikikXXXXXXPiee0112211iikikiXXXQe这样,第i个观察对象的发病概率比数(odds)为iiQP,第l个观察对象的发病概率比数为llQP,而这两个观察对象的发病概率比数之比值便称为比数比OR(oddsratio)。对比数比取自然对数得到关系式:ln)()()(222111lkikklililliiXXXXXXQPQP等式左边是比数比的自然对数,等式右边的ljijXXkj,,,21是同一因素iX的不同暴露水平ijX与ljX之差。j的流行病学意义是在其它自变量固定不变的情况下,自变量jX的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量jX的水平每增加一个测量单位时所引起的比数比为增加前的je倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。(五)logistic回归参数估计由于logistic回归是一种概率模型,通常用最大似然估计法(maximumlikelihoodestimate)求解模型中参数j的估计值(12)jbjk,,,。Y为在kXXX,,,21作用下的阳性事件(或疾病)发生的指示变量。其赋值为:应个观察对象出现阴性反,第应个观察对象出现阳性反,第iiYi01第i个观察对象对似然函数的贡献量为:1iiYYiiilPQ当各事件是独立发生时,则n个观察对象所构成的似然函数L是每个观察对象的似然函数贡献量的乘积,即niniYiYiiiiQPlL111式中∏为i从1到n的连乘积。依最大似然估计法的原理,使得L达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton—Raphson迭代算法求101解参数估计值)21(kjbj,,,。(六)logistic回归筛选自变量在logistic回归中,筛选自变量的方法有似然比检验(likelihoodratiotest)、计分检验(scoretest)、Wald检验(Waldtest)三种。其中似然比检验较为常用,用Λ表示似然比检验统计量,计算公式为:)ln(ln2ln2''LLLL式中ln为自然对数的符号,L为方程中包含)(kmm个自变量的似然函数值,'L为在方程中包含原m个自变量的基础上再加入1个新自变量jX后的似然函数值。在无效假设0H条件下,统计量Λ服从自由度为1的2分布。当2)1(时,则在水平上拒绝无效假设,即认为jX对回归方程的贡献具有统计学意义,应将jX引入到回归方程中;否则,不应加入。逆向进行即可剔除自变量。三、典型试题分析(一)单项选择题1.多元线性回归分析中,反映回归平方和在应变量Y的总离均差平方和中所占比重的统计量是()。A.复相关系数B.偏相关系数C.偏回归系数D.确定系数答案:D[评析]本题考点:多元线性回归中的几个概念的理解。多元线性回归中的偏回归系数(multiplelinearregression)表示在其它自变量固定不变的情况下,自变量jX每改变一个单位时,单独引起应变量Y的平均改变量。确定系数(coefficientofdetermination)表示回归平方和回归SS占总离均差平方和总SS的比例,简记为2R。即总回归SSSSR2。确定系数的平方根即R称为复相关系数(multiplecorrelationcoefficient),它表示p个自变量共同对应变量线性相关的密切程度,它不取负值,即0≤R≤1。2.Logistic回归分析适用于应变量为()。A.分类值的资料B.连续型的计量资料C.正态分布资料D.一般资料答案:A[评析]本题考点:logistic回归的概念。logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以是计量观测值。(二)计算题根据表11-2数据,分别用SPSS统计软件、SAS统计软件写出多元线性回归的统计分102析步骤及其简要结果。表11-1某学校20名一年级女大学生肺活量及有关变量测量结果编号体重1X/kg胸围2X/cm肩宽3X/cm肺活量Y/L150.873.236.32.96249.084.134.53.13342.878.331.01.91455.077.131.02.63545.381.730.02.86645.374.832.01.91751.473.736.52.98853.879.437.03.28949.072.630.12.521053.979.537.13.271148.883.833.93.101252.688.438.03.281342.778.230.91.921452.588.338.13.271555.177.231.12.641645.281.630.22.851751.478.336.53.161848.772.530.02.511951.378.236.43.152045.875.032.51.94答案:SPSS:数据文件:“EXAP11—2.sav”。数据格式:4列20行。过程:StatisticRegressionLinear...Dependent:YIndependent(s):1X,2X,3XMethod:Enter结果:VariablesEntered/RemovedModelVariablesEnteredVariablesRemovedMethod13X(肩宽),2X(胸围),1X(体重).EnteraAllrequestedvariablesentered.bDependentVariable:Y(肺活量)103ModelSummaryModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.846.715.662.2893aPredictors:(Constant),3X,2X,1XANOVAModelSumofSquaresdfMeanSquareFSig.1RegressionResidualTotal3.3671.3394.706316191.1228.368E-0213.413.000aPredictors:(Constant),3X,2X,1XbDependentVariable:YCoefficientsModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)3X2X1X-4.6766.036E-023.508E-025.010E-021.321.021.015.029.474.333.307-3.5412.8992.2721.735.003.010.037.102aDependentVariable:YSAS:数据步过程步DATAEXAP11—2;INPUTx1x2x3y@@;PROCREG;CARDS;MODELy=x1x2x3;50.873.236.32.96…45.875.032.51.94;RUN;结果:AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePrFModel33.367321.1224413.410.0001Error161.338930.08368CorrectedTotal194.70626104ParameterEstimatesParameterSt

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功