第八章直线回归直线相关与logistic回归(下)

等待还是虾糕
2 ℃
2019-12-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第八章直线回归、直线相关与logistic回归（下）（医学统计之星）上次更新日期：§8.4多元线性回归REG过程不仅可以完成只有一个自变量的简单直线回归，还可以作含有多个自变量的多元线性回归。作多元线性回归时REG过程的语法格式与简单直线回归的语法几乎完全相同，只要把要分析的多个自变量名放在MODEL语句中应变量后即可。因为多元线性回归时一般要作自变量的筛选，涉及到MODEL语句的选项，现将多元线性回归常用的选项介绍如下：8.4.1语法选项1.SELECTION=method，规定变量筛选的方法，method可以是以下几种选项oFORWARD(或F)，前进法，按照SLE规定的P值从无到有依次选一个变量进入模型oBACKWARD（或B），后退法，按照SLS规定的P值从含有全部变量的模型开始，依次剔除一个变量oSTEPWISE（或S），逐步法，按照SLE的标准依次选入变量，同时对模型中现有的变量按SLS的标准剔除不显著的变量oNONE，即不选择任何选项，不作任何变量筛选，此时使用的是含有全部自变量的全回归模型2.SLE=概率值，入选标准，规定变量入选模型的显著性水平，前进法的默认是0.5，逐步法是0.153.SLS=概率值，剔除标准，指定变量保留在模型的显著水平，后退法默认为0.10，逐步法是0.154.标准化偏回归系数STB可用来比较各个自变量作用的大小5.COLLIN要求详细分析自变量之间的共线性，给出信息矩阵的特征根和条件数，来判断自变量之间有无多重共线性。8.4.2应用实例例8.3现有20名糖尿病人的血糖(y,mmol/L)、胰岛素(X1,mU/L))及生长素(X2,μg/L)的测量数据列于中，试进行多元线性回归分析（卫生统计第四版例11.1）。20名糖尿病人的血糖、胰岛素及生长素的测量数据病例号i血糖y胰岛素X1生长素X2112.2115.209.51214.5416.7011.43312.2711.907.53412.0414.0012.1757.8819.802.33611.1016.2013.52710.4317.0010.07813.3210.3018.89919.595.9013.14109.0518.709.63116.4425.105.10129.4916.404.531310.1622.002.16148.3823.104.26158.4923.203.42167.7125.007.341711.3816.8012.751810.8211.2010.881912.4913.7011.06209.2124.409.16平均值10.8517.778.94假设上表的资料已建立文本文件c:\user\li4_1，调用REG过程拟合多元回归方程，程序如下：Libnamea‘c:\user’;dataa.bk4_1;infile‘c:\user\li4_1’;inputidyx1x2@@;procregdata=a.bk4_1;modely=x1x2/stb;modely=x1x2/selection=stepwisestb;run;REG过程中MODEL语句可以交互使用，本例我们建立了两个模型，第一个model没有作变量筛选，建立一个含有两个自变量的方程，并输出标准化偏回归系数。第二个model指定逐步回归法筛选变量。程序运行的主要结果如下：Model:model1模型1DependentVariable:YAnalysisofVariance回归模型的方差分析SumofMeanSourceDFSquaresSquareFValueProbF变异来源自由度离均差平方和均方F值P值Model2116.6264658.3132321.5390.0001Error1746.024942.70735CTotal19162.65140误差的均方根RootMSE1.64540决定系数R-square0.7170应变量的均数DepMean10.85000调整的决定系数AdjR-sq0.6837应变量的变异系数C.V.15.16500ParameterEstimates以下是参数估计和假设检验（t检验法）ParameterStandardTforH0:StandardizedVariableDFEstimateErrorParameter=0Prob|T|Estimate变量名自由度参数估计值估计值的标准误Sbt值P值截距INTERCEP117.0108242.472371346.8800.00010.00000000X11-0.4059070.09412204-4.3130.0005-0.74340924X210.0976690.115881500.8430.41100.14528940Model:model2（模型2）DependentVariable:Y（应变量名）AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProbFModel1114.70324114.7032443.0600.0001Error1847.948162.66379CTotal19162.65140RootMSE1.63211R-square0.7052DepMean10.85000AdjR-sq0.6888C.V.15.04250ParameterEstimatesParameterStandardTforH0:StandardizedVariableDFEstimateErrorParameter=0Prob|T|EstimateINTERCEP118.7961431.2647274114.8620.00010.00000000X11-0.4585200.06987466-6.5620.0001-0.83976728REG过程拟合带截距项的直线回归方程，用最小二乘法估计模型的参数，并给出模型及参数的方差分析和t检验。本例的两个模型检验P值都小于0.05，模型有统计学意义。模型1含有两个自变量，其截距项和X1检验有统计学意义，X2的检验无统计学意义。模型2为逐步回归法，只纳入了X1。比较两个模型的决定系数，模型1因含有两个自变量，决定系数比模型2要大，但因为模型纳入了不显著的自变量X2，导致它的调整决定系数反而较小，所以我们选择模型2，回归方程：Y=18.796-0.459X1。§8.5logistic回归如果应变量为分类的变量，则不符合一般回归分析模型的要求，可用logistic回归来分析。Logistic回归按反应变量的类型分为：两分类的Logistic回归多分类有序反应变量的Logistic回归多分类无序反应变量的Logistic回归按照设计类型可分为：非条件Logistic回归，即研究对象未经过配对条件Logistic回归，即研究对象为1：1或1：m配对简单的Logistic回归需调用SAS中LOGISTIC过程完成，一些较复杂的则需要调用CATMOD过程来实现。本节我们重点介绍LOGISTIC过程的用法，通过实例说明如何实现简单的Logistic回归分析。8.5.1语法格式PROCLOGISTIC[DATA=数据集名][选项]；MODEL应变量名=自变量名列/[选项]；[BY变量名列;FREQ变量名;WEIGHT变量名;OUTPUTOUT=新数据集名关键字=新变量名...;]8.5.2语法说明LOGISTIC过程，用最大似然法对应变量拟合一个Logistic模型。除了PROC和MODEL语句为必需，其他都可省略。【过程选项】OUTEST=数据集名指定统计量和参数估计输出的新数据集名。NOPRINT禁止统计结果在OUTPUT视窗中输出。ORDER=DATA|FORMATTED|INTERNAL规定拟和模型的应变量的水平顺序DATA：应变量的顺序与数据集中出现的顺序一致FORMATTED：按照格式化值的顺序，为默认的选项，相当于应变量所赋值的大小顺序INTERNAL：按照非格式化值的顺序DESCENDING|DES颠倒应变量的排列顺序，如果同时指定了选项ORDER，则系统先按照ORDER规定的顺序排列，然后则降序排列。就是说，如果应变量的赋值，死亡为1，存活0，为了得到死亡对存活的概率（或者说是死亡的风险），应选择此选项，否则得到的是存活对死亡的概率。【MODEL语句】MODEL语句指定模型的自变量、应变量，模型选项及结果输出选项，如要拟和交互作用项，需先产生一个表示交互作用的新变量。可以拟合带有一个或多个自变量的Logistic回归模型，用最大似然估计法估计模型的参数，打印出模型估计的过程和模型参数的可信区间。MODEL语句中常用的选项有：NOINT在模型中不拟合常数项，在条件的Logistic回归中用到。SELECTION=FORWARD(或F)|BACKWARD（或B）|STEPWISE|SCORE规定变量筛选的方法，分别为向前、向后、逐步和最优子集法。缺省时为NONE，拟合全回归模型。SLE=概率值，指定变量进入模型的显著水平，缺省为0.05SLS=概率值，指定变量保留在模型的显著水平，缺省为0.05CL|WALDCL，要求估计所有回归参数的可信区间CLODDS=PL|WALD|BOTH，要求计算OR值的可信区间PLRL，对所有自变量估计OR的可信区间8.5.3应用实例例8.4某工作者在探讨肾细胞癌转移的有关临床病理因素研究中，收集了一批行根治性肾切除术患者的肾癌标本资料，现从中抽取26例资料作为示例进行logistic回归分析。表中有关符号意义说明：i：样品序号x1：确诊时患者的年龄(岁)x2：肾细胞癌血管内皮生长因子(VEGF)，其阳性表述由低到高共3个等级x3：肾细胞癌组织内微血管数(MVC)x4：肾癌细胞核组织学分级，由低到高共Ⅳ级x5：肾细胞癌分期，由低到高共Ⅳ期y：肾细胞癌转移情况(有转移y=1;无转移y=0)。26例行根治性肾切除术患者的肾癌标本资料iX1X2X3X4X5Y159243.4210236157.21103612190.02104583128.0431555380.0341661194.4210738176.01108421240.0320950174.01101058368.622011683132.84201225294.64311352156.01101431147.82101536331.63111642166.221017143138.633118321114.02301935140.221020703177.24312165251.644122452124.024023683127.233124312124.823025581128.043026603149.8431本题的应变量为二分类变量，用最简单的logistic回归模型进行配合，采用逐步筛选法筛选变量，程序如下：libnamea'c:\user';dataa.bk4_2;inputx1-x5y;定义X1，X2，X，X4，X5和Y五个变量。cards;59243.4210...603149.8431proclogisticdes;选项des指定按照y=1|y=0的概率来拟合模型modely=x1-x5/selection=stepwise;用逐步回归法拟合模型run;过程名后面如果不指定选项DES，则系统按照Y=0的概率拟和模型（Y=0|Y=1），可尝试一下去掉此选项，会发现不仅应变量的排序水平颠倒了，而且所有的参数估计符号相反，OR值为原来的倒数。程序运行的主要输出结果如下：TheLOGISTICProcedureDataSet:A.BK4_2计算所用的数据集名ResponseVariable:Y应变量ResponseLevels:2应变量的水平数NumberofObservations:26观察单位数LinkFunction:Logit联系函数ResponseProfileOrderedValueYCount1