有序多分类logistic回归模型OrdinalRegression暨南大学医学院医学统计学教研室林汉生表1性别和两种疗法对某病疗效的影响性别治疗方法疗效(Y)痊愈2有效1无效0男新药疗法(X2=0)527X1=0传统疗法(X2=1)1010女新药疗法(X2=0)1656X1=1传统疗法(X2=1)6719一、用途和基本原理用途:分析1个有序多分类应变量与多个自变量之间的关联基本原理:依次将应变量按不同的取值水平分割成两个等级,对这两个等级建立反应变量为二分类的logistic回归模型。不管模型中反应变量的分割点在什么位置,模型中各自变量的回归系数i都保持不变,所改变的只有常数项。无效0,有效1,痊愈2无效与有效痊愈,无效有效与痊愈,可建立两个方程。两个方程的常数项不同,但回归系数相同。二分类logistic回归模型mmXXXPP...1ln22110)(1ln22111XX无效的概率无效的概率Ordinallogistic回归模型(SPSS)无效0,有效1,痊愈2mmjXXXjYPjYP...)(1)(ln22110)(1ln22112XX无效和有效的概率无效和有效的概率OrdinalModelLargercoefficients(i)indicateanassociationwithlargerscores(Y1:无效;2:有效;3:显效).Whenyouseeapositivecoefficientforadichotomousfactor,youknowthathigherscoresaremorelikelyforthefirstcategory(category2isthereferencecategory).Anegativecoefficienttellsyouthatlowerscoresaremorelikely.Foracontinuousvariable,apositivecoefficienttellsyouthatasthevaluesofthevariableincrease,thelikelihoodoflargerscoresincreases.)(1ln22111XX无效的概率无效的概率)(1ln22112XX无效和有效的概率无效和有效的概率Ordinallogistic回归模型应变量Y有3个等级:无效0、有效1、治愈2影响因素:性别X1(0男;1女);治疗方法X2(0新药;1传统);取值大的类别为参照组。某分类变量的回归系数为正时,则暴露组(如新药)为更高的等级(如治愈)的可能性大于参照组(传统药)某连续变量的回归系数为正时,则随着该变量的变量值增加,应变量为更高等级的可能性也增加。二、SPSS操作与结果解释建立数据文件,Weight性别治疗方法疗效(Y)痊愈2有效1无效0男新药疗法(X2=0)527X1=0传统疗法(X2=1)1010女新药疗法(X2=0)1656X1=1传统疗法(X2=1)6719AnalyzeRrgressionOrdinalFactor与Covariate自变量是分类变量,选入Factor栏,取值大的类别为参照组。自变量是计量资料,选入Covariate栏。分别单击:Options,Output,Location,ScaleOptions(默认)Link:logit:EvenlydistributedcategoriesComplementary:HighercategoriesmoreprobableNegative:LowercategoriesmoreprobableProbit:LatentvariableisnormallydistributedCauchit:LatentvariablehasmanyextremevaluesLink:logit:用于反应变量各取值水平发生概率相近的资料Complementary:用于反应变量取值水平高的水平发生概率高的资料Negative:用于反应变量取值水平低的水平发生概率高的资料Probit:用于潜在变量服从正态分布的资料Cauchit:用于潜在变量存在很多极端值的资料OutputTestofparallellines:不管反应变量的分割点在什么位置,模型中各自变量的系数都保持不变Location(默认)Scale(默认)单击OK说明各种取值水平组合中有多少其观察频数为0。如果有连续性变量,这个比例会较大。WarningsThereare1(8.3%)cells(i.e.,dependentvariablelevelsbycombinationsofpredictorvariablevalues)withzerofrequencies.变量各水平的例数CaseProcessingSummary4250.0%1416.7%2833.3%4148.8%4351.2%2529.8%5970.2%84100.0%084无效有效治愈y新疗法传统疗法treat男性女性sexValidMissingTotalNMarginalPercentage似然比检验:模型中自变量偏回归系数是否全为0。结果P=0.000,说明至少有一个自变量的偏回归系数不为0。ModelFittingInformation43.48423.59819.8872.000ModelInterceptOnlyFinal-2LogLikelihoodChi-SquaredfSig.Linkfunction:Logit.拟合优度检验:各种取值水平组合中其观察频数为0的比例较高时,该检验不可靠。本例P值均大于0.05,拟合较好。Goodness-of-Fit1.9104.7522.7124.607PearsonDevianceChi-SquaredfSig.Linkfunction:Logit.伪决定系数:分类数据,该系数一般不会太高。PseudoR-Square.211.243.117CoxandSnellNagelkerkeMcFaddenLinkfunction:Logit.经Testofparallellines,2=1.47,P=0.480。可认为:不管反应变量的分割点在什么位置,模型中各自变量的系数都保持不变。该资料适合用有序多分类Logistic回归模型。TestofParallelLinesa23.59822.1281.4692.480ModelNullHypothesisGeneral-2LogLikelihoodChi-SquaredfSig.Thenullhypothesisstatesthatthelocationparameters(slopecoefficients)arethesameacrossresponsecategories.Linkfunction:Logit.a.参数估计无效,有效,治愈无效与有效治愈,无效有效与治愈,可建立两个方程。)319.1797.1(494.01lnsextreat无效的概率无效的概率)319.1797.1(348.11lnsextreat无效和有效的概率无效和有效的概率ParameterEstimates.494.3412.0951.148-.1751.1631.348.37113.1921.000.6212.0761.797.47314.4491.000.8712.7240a..0...-1.319.5296.2101.013-2.356-.2820a..0...[y=0][y=1]Threshold[treat=0][treat=1][sex=0][sex=1]LocationEstimateStd.ErrorWalddfSig.LowerBoundUpperBound95%ConfidenceIntervalLinkfunction:Logit.Thisparameterissettozerobecauseitisredundant.a.OR=exp()不同疗法的OR值为exp(1.797)=6.03。新疗法优于传统疗法。疗效至少优于1个等级的可能性,新疗法是传统疗法的6.03倍。不同性别的OR值为exp(-1.319)=0.27。男性的疗效比女性差。疗效至少优于1个等级的可能性,男性是女性的0.27倍。ParameterEstimates.494.3412.0951.148-.1751.1631.348.37113.1921.000.6212.0761.797.47314.4491.000.8712.7240a..0...-1.319.5296.2101.013-2.356-.2820a..0...[y=0][y=1]Threshold[treat=0][treat=1][sex=0][sex=1]LocationEstimateStd.ErrorWalddfSig.LowerBoundUpperBound95%ConfidenceIntervalLinkfunction:Logit.Thisparameterissettozerobecauseitisredundant.a.表2不同性别和疗法对某病疗效*的影响影响因素ORPOR95%CI性别:男性女性0.271.000.0130.09~0.75疗法:新疗法传统疗法6.031.000.0002.39~15.24*疗效分3个等级1:无效;2:有效;3:治愈例2:对某地人群调查所从事的工作是否满意,可能的影响因素有:年龄、性别、收入水平。文化程度。数据文件satisfy.sav。变量赋值变量名赋值满意度1不满意2中立3满意年龄岁性别1男性2女性年收入①2.5万以下②2.5万~③5万~④7.5万~文化程度①初中及以下②高中③大专④大学⑤研究生建立数据文件AnalyzeRegressionOrdinal分别单击:Options,Output,Location,ScaleOptions(默认)OutputTestofparallellines:不管反应变量的分割点在什么位置,模型中各自变量的系数都保持不变Location(默认)Scale(默认)单击OK说明各种取值水平组合中有多少其观察频数为0。如果有连续性变量,这个比例会较大。WarningsThereare1686(36.7%)cells(i.e.,dependentvariablelevelsbycombinationsofpredictorvariablevalues)withzerofrequencies.变量各水平的例数CaseProcessingSummary237737.1%139321.8%263041.1%322150.3%317949.7%117418.3%238837.3%112017.5%171826.8%139021.7%193630.3%136021.3%135521.2%3595.6%6400100.0%06400不满意态度中立满意满意度男性女性sex2.5万以下2.5万-5.0万-7.5万及以上年收入水平初中及以下高中大专大学研究生文化程度ValidMissingTotalNMarginalPercentage似然比检验:模型中自变量偏回归系数是否全为0。结果P=0.000,说明至少有一个自变量的偏回归系数不为0。ModelFittingInformation7297.8806202.1501095.7309.000ModelInterceptOnlyFinal-2LogLikelihoodChi-SquaredfSig.Linkfunction:Logit.拟合优度检验:各种取值水平组合中其观察频数为0的比例较高时,该检验不可靠。Goodness-of-Fit