第八章直线回归、直线相关与logistic回归(下)(医学统计之星)上次更新日期:§8.4多元线性回归REG过程不仅可以完成只有一个自变量的简单直线回归,还可以作含有多个自变量的多元线性回归。作多元线性回归时REG过程的语法格式与简单直线回归的语法几乎完全相同,只要把要分析的多个自变量名放在MODEL语句中应变量后即可。因为多元线性回归时一般要作自变量的筛选,涉及到MODEL语句的选项,现将多元线性回归常用的选项介绍如下:8.4.1语法选项1.SELECTION=method,规定变量筛选的方法,method可以是以下几种选项oFORWARD(或F),前进法,按照SLE规定的P值从无到有依次选一个变量进入模型oBACKWARD(或B),后退法,按照SLS规定的P值从含有全部变量的模型开始,依次剔除一个变量oSTEPWISE(或S),逐步法,按照SLE的标准依次选入变量,同时对模型中现有的变量按SLS的标准剔除不显著的变量oNONE,即不选择任何选项,不作任何变量筛选,此时使用的是含有全部自变量的全回归模型2.SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.153.SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.154.标准化偏回归系数STB可用来比较各个自变量作用的大小5.COLLIN要求详细分析自变量之间的共线性,给出信息矩阵的特征根和条件数,来判断自变量之间有无多重共线性。8.4.2应用实例例8.3现有20名糖尿病人的血糖(y,mmol/L)、胰岛素(X1,mU/L))及生长素(X2,μg/L)的测量数据列于中,试进行多元线性回归分析(卫生统计第四版例11.1)。20名糖尿病人的血糖、胰岛素及生长素的测量数据病例号i血糖y胰岛素X1生长素X2112.2115.209.51214.5416.7011.43312.2711.907.53412.0414.0012.1757.8819.802.33611.1016.2013.52710.4317.0010.07813.3210.3018.89919.595.9013.14109.0518.709.63116.4425.105.10129.4916.404.531310.1622.002.16148.3823.104.26158.4923.203.42167.7125.007.341711.3816.8012.751810.8211.2010.881912.4913.7011.06209.2124.409.16平均值10.8517.778.94假设上表的资料已建立文本文件c:\user\li4_1,调用REG过程拟合多元回归方程,程序如下:Libnamea‘c:\user’;dataa.bk4_1;infile‘c:\user\li4_1’;inputidyx1x2@@;procregdata=a.bk4_1;modely=x1x2/stb;modely=x1x2/selection=stepwisestb;run;REG过程中MODEL语句可以交互使用,本例我们建立了两个模型,第一个model没有作变量筛选,建立一个含有两个自变量的方程,并输出标准化偏回归系数。第二个model指定逐步回归法筛选变量。程序运行的主要结果如下:Model:model1模型1DependentVariable:YAnalysisofVariance回归模型的方差分析SumofMeanSourceDFSquaresSquareFValueProbF变异来源自由度离均差平方和均方F值P值Model2116.6264658.3132321.5390.0001Error1746.024942.70735CTotal19162.65140误差的均方根RootMSE1.64540决定系数R-square0.7170应变量的均数DepMean10.85000调整的决定系数AdjR-sq0.6837应变量的变异系数C.V.15.16500ParameterEstimates以下是参数估计和假设检验(t检验法)ParameterStandardTforH0:StandardizedVariableDFEstimateErrorParameter=0Prob|T|Estimate变量名自由度参数估计值估计值的标准误Sbt值P值截距INTERCEP117.0108242.472371346.8800.00010.00000000X11-0.4059070.09412204-4.3130.0005-0.74340924X210.0976690.115881500.8430.41100.14528940Model:model2(模型2)DependentVariable:Y(应变量名)AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProbFModel1114.70324114.7032443.0600.0001Error1847.948162.66379CTotal19162.65140RootMSE1.63211R-square0.7052DepMean10.85000AdjR-sq0.6888C.V.15.04250ParameterEstimatesParameterStandardTforH0:StandardizedVariableDFEstimateErrorParameter=0Prob|T|EstimateINTERCEP118.7961431.2647274114.8620.00010.00000000X11-0.4585200.06987466-6.5620.0001-0.83976728REG过程拟合带截距项的直线回归方程,用最小二乘法估计模型的参数,并给出模型及参数的方差分析和t检验。本例的两个模型检验P值都小于0.05,模型有统计学意义。模型1含有两个自变量,其截距项和X1检验有统计学意义,X2的检验无统计学意义。模型2为逐步回归法,只纳入了X1。比较两个模型的决定系数,模型1因含有两个自变量,决定系数比模型2要大,但因为模型纳入了不显著的自变量X2,导致它的调整决定系数反而较小,所以我们选择模型2,回归方程:Y=18.796-0.459X1。§8.5logistic回归如果应变量为分类的变量,则不符合一般回归分析模型的要求,可用logistic回归来分析。Logistic回归按反应变量的类型分为:两分类的Logistic回归多分类有序反应变量的Logistic回归多分类无序反应变量的Logistic回归按照设计类型可分为:非条件Logistic回归,即研究对象未经过配对条件Logistic回归,即研究对象为1:1或1:m配对简单的Logistic回归需调用SAS中LOGISTIC过程完成,一些较复杂的则需要调用CATMOD过程来实现。本节我们重点介绍LOGISTIC过程的用法,通过实例说明如何实现简单的Logistic回归分析。8.5.1语法格式PROCLOGISTIC[DATA=数据集名][选项];MODEL应变量名=自变量名列/[选项];[BY变量名列;FREQ变量名;WEIGHT变量名;OUTPUTOUT=新数据集名关键字=新变量名...;]8.5.2语法说明LOGISTIC过程,用最大似然法对应变量拟合一个Logistic模型。除了PROC和MODEL语句为必需,其他都可省略。【过程选项】OUTEST=数据集名指定统计量和参数估计输出的新数据集名。NOPRINT禁止统计结果在OUTPUT视窗中输出。ORDER=DATA|FORMATTED|INTERNAL规定拟和模型的应变量的水平顺序DATA:应变量的顺序与数据集中出现的顺序一致FORMATTED:按照格式化值的顺序,为默认的选项,相当于应变量所赋值的大小顺序INTERNAL:按照非格式化值的顺序DESCENDING|DES颠倒应变量的排列顺序,如果同时指定了选项ORDER,则系统先按照ORDER规定的顺序排列,然后则降序排列。就是说,如果应变量的赋值,死亡为1,存活0,为了得到死亡对存活的概率(或者说是死亡的风险),应选择此选项,否则得到的是存活对死亡的概率。【MODEL语句】MODEL语句指定模型的自变量、应变量,模型选项及结果输出选项,如要拟和交互作用项,需先产生一个表示交互作用的新变量。可以拟合带有一个或多个自变量的Logistic回归模型,用最大似然估计法估计模型的参数,打印出模型估计的过程和模型参数的可信区间。MODEL语句中常用的选项有:NOINT在模型中不拟合常数项,在条件的Logistic回归中用到。SELECTION=FORWARD(或F)|BACKWARD(或B)|STEPWISE|SCORE规定变量筛选的方法,分别为向前、向后、逐步和最优子集法。缺省时为NONE,拟合全回归模型。SLE=概率值,指定变量进入模型的显著水平,缺省为0.05SLS=概率值,指定变量保留在模型的显著水平,缺省为0.05CL|WALDCL,要求估计所有回归参数的可信区间CLODDS=PL|WALD|BOTH,要求计算OR值的可信区间PLRL,对所有自变量估计OR的可信区间8.5.3应用实例例8.4某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析。表中有关符号意义说明:i:样品序号x1:确诊时患者的年龄(岁)x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级x3:肾细胞癌组织内微血管数(MVC)x4:肾癌细胞核组织学分级,由低到高共Ⅳ级x5:肾细胞癌分期,由低到高共Ⅳ期y:肾细胞癌转移情况(有转移y=1;无转移y=0)。26例行根治性肾切除术患者的肾癌标本资料iX1X2X3X4X5Y159243.4210236157.21103612190.02104583128.0431555380.0341661194.4210738176.01108421240.0320950174.01101058368.622011683132.84201225294.64311352156.01101431147.82101536331.63111642166.221017143138.633118321114.02301935140.221020703177.24312165251.644122452124.024023683127.233124312124.823025581128.043026603149.8431本题的应变量为二分类变量,用最简单的logistic回归模型进行配合,采用逐步筛选法筛选变量,程序如下:libnamea'c:\user';dataa.bk4_2;inputx1-x5y;定义X1,X2,X,X4,X5和Y五个变量。cards;59243.4210...603149.8431proclogisticdes;选项des指定按照y=1|y=0的概率来拟合模型modely=x1-x5/selection=stepwise;用逐步回归法拟合模型run;过程名后面如果不指定选项DES,则系统按照Y=0的概率拟和模型(Y=0|Y=1),可尝试一下去掉此选项,会发现不仅应变量的排序水平颠倒了,而且所有的参数估计符号相反,OR值为原来的倒数。程序运行的主要输出结果如下:TheLOGISTICProcedureDataSet:A.BK4_2计算所用的数据集名ResponseVariable:Y应变量ResponseLevels:2应变量的水平数NumberofObservations:26观察单位数LinkFunction:Logit联系函数ResponseProfileOrderedValueYCount1