SPSS分类树应用-暨南大学高级医学统计学

ppflying1
1 ℃
2020-02-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

SPSSClassificationTrees13.0分类树的应用暨南大学医学院医学统计学教研室林汉生内容提出问题基本概念快速入门知识拓展报告结果第一节提出问题分析Y（结果变量）与多个Xi（解释变量）之间的关联，样本含量较大，如何用回归模型进行多因素分析？Y是计量资料；Xi是计量资料，分类资料Y是分类资料（二分类，有序多分类，无序多分类）；Xi是分类资料，计量资料还能选用其它方法吗？例1：儿童肥胖症危险因素调查1352名少年儿童肥胖症危险因素调查资料肥胖症：无；有（根据体重指数BMI划分）性别：男；女年龄组：7-9岁；10-12岁；13-15岁；16岁及以上胆固醇：低；高甘油三脂：低；高例2：学生压力的影响因素分析第二节基本概念什么是分类树？对资料的要求用途如何确定变量的重要性、相互关系、交互作用分类树的优缺点分类树的运算法则1.WhatistheClassificationTree?TheClassificationTreeprocedurecreatesatree-basedclassificationmodel.Itclassifiescasesintogroupsorpredictsvaluesofadependent(target)variablebasedonvaluesofindependent(predictor)variables.Theprocedureprovidesvalidationtoolsforexploratoryandconfirmatoryclassificationanalysis.什么是分类树？分类树产生一个基于树状的分类模型；它将研究对象分组，可以根据自变量预测因变量；是探索性和证实性分类分析的有效工具。2.对资料的要求：任何类型不要求解释变量Xi和结果变量Y具有某种特定的分布。允许不同数据类型的解释变量一起进入模型，可以使用不同数据类型的结果变量。传统方法对资料的类型和分布有相对严格的规定（如多元线性回归）；不易处理共线性问题和多水平变量之间复杂的交互作用（如logistic回归）。DataConsiderationsThedependentandindependentvariablescanbe:Nominal.Avariablecanbetreatedasnominalwhenitsvaluesrepresentcategorieswithnointrinsicranking;Ordinal.Avariablecanbetreatedasordinalwhenitsvaluesrepresentcategorieswithsomeintrinsicranking;Scale.Avariablecanbetreatedasscalewhenitsvaluesrepresentorderedcategorieswithameaningfulmetric.ScaleNominalOrdinalBydefault,SPSSassumesthatnumericvariablesarescaleandstringvariablesarenominal.Aniconnexttoeachvariableinthevariablelistidentifiesthevariabletype.3.用途Theprocedurecanbeusedfor:Segmentation.Identifypersonswhoarelikelytobemembersofaparticulargroup.Stratification.Assigncasesintooneofseveralcategories,suchashigh-,medium-,andlow-riskgroups.Prediction.Createrulesandusethemtopredictfutureevents1352名少年儿童肥胖症危险因素儿童肥胖症的高危人群和低危人群Datareductionandvariablescreening.Selectausefulsubsetofpredictorsfromalargesetofvariablesforuseinbuildingaformalparametricmodel.Interactionidentification.Identifyrelationshipsthatpertainonlytospecificsubgroupsandspecifytheseinaformalparametricmodel.Categorymerginganddiscretizingcontinuousvariables.Recodegrouppredictorcategoriesandcontinuousvariableswithminimallossofinformation.淋巴结转移的高危人群4.变量的重要性及变量间的相互关系如何确定？解释变量的重要性表现为该解释变量出现在树干的起始部位，或离起始部位很接近；另一方面，重要性还表现为同一解释变量多次在模型中出现。利用解释变量之间上下的关系分析解释变量间是否有可能存在交互作用。如果某些解释变量在单因素分析时与结果变量之间无明显关联，而在模型中的某些局部有明显的效应，提示这些解释变量之间可能存在交互作用。5.分类树的优缺点是一种新的多因素分析方法，其结果直观、明了、易于解释，能有效处理缺失数据及变量之间的共线性，对资料分布无任何要求。只适合大样本资料。如果结果变量是连续性资料，样本含量可以小一些。如果结果变量是分类资料，样本含量要大。6.运算法则根据解释变量（预测变量）对结果变量（目标变量）进行分类和预测CHAIDExhaustiveCHAIDCRTQUEST（1）CHAID法应用：因变量为分类资料（最常用）、计量或等级资料CHAID法分类具体过程将一个分类解释变量与目标变量进行交叉分类产生一系列2×C表，分别计算各表的Pearson2值。将其中所得的最大P值与合并水准（merge）比较，若Pmerge则将这两个类别合并。然后采用Bonferroni法对最后所得P值进行调整。所有解释变量都完成上述计算后比较各解释变量调整后的P值大小，以P值最小而且P小于设定的拆分水准（split）的二维表作为最佳初始分类表。在最佳二维分类表的基础上继续使用解释变量对目标变量进行分类，重复上述过程直到P值大于split值为止。（2）ExhaustiveCHAID法ExhaustiveCHAID是CHAID的改进算法寻找解释变量各类别之间的最佳截断点，使得结果变量的类间差别最大；而CHAID法寻找的截断点，直到结果变量的类间差别有统计学意义为止，不继续寻找最大差异的截断点。应用：因变量为分类资料（最常用）、计量或等级资料（3）CRTClassificationandRegressionTrees（分类与回归树）.CRTsplitsthedataintosegmentsthatareashomogeneousaspossiblewithrespecttothedependentvariable.Aterminalnodeinwhichallcaseshavethesamevalueforthedependentvariableisahomogeneous,purenode.应用：因变量为计量资料（最常用）；如果因变量分类或等级资料，则自变量仅显示2个类别；可估计缺失值，评价自变量的相对重要性。（4）QUESTQuick,Unbiased,EfficientStatisticalTree.Amethodthatisfastandavoidsothermethods'biasinfavorofpredictorswithmanycategories.QUESTcanbespecifiedonlyifthedependentvariableisnominal.应用：因变量必须是无序分类资料。在自变量具有多个类别时，分类树中仅显示2个类别；能避免其它方法产生的偏倚。可估计缺失值。在自变量具有多个类别时，分类树中仅显示2个类别第三节快速入门QuickStart1352名少年儿童肥胖症危险因素学生压力的影响因素分析快速入门操作一、结果变量是分类资料1352名少年儿童肥胖症危险因素性别：男、女年龄组：7-9岁，10-12岁，13-15岁，≥16岁胆固醇：5.18(mmol/L)，≥5.18(mmol/L)甘油三脂：0.50(mmol/L)，≥0.50(mmol/L)1.数据文件2.SPSS过程单击OK（不必在此定义变量属性）右键单击变量，定义变量类型定义变量“性别”Nominal定义变量“年龄组”Ordinal定义变量“胆固醇”Nominal定义变量“甘油三脂”Nominal定义变量“肥胖症”Nominal肥胖症DependentVariable性别、年龄组、胆固醇、甘油三脂IndependentVariableGrowingMethodExhaustiveCHAID单击OK3.主要结果二、结果变量是连续资料学生压力的影响因素分析学生压力的影响因素分析（61例）性别：1：男；2：女专业：1：会计系；2：注册会计师系专业满意：1：不满意；2：一般；3：满意；4：很满意学业成绩：1：较差；2：一般；3：好；4：很好压力总分：0～181.数据文件2.SPSS过程单击OK定义变量“性别”、“系”Nominal定义变量“专业满意”、“学业成绩”OrdinalGrowingMethod:CRT;单击CriteriaCriteria对话框：ParentNode?ChildNode?ParentNode:20;ChildNode:10单击OK3.主要结果ChildNodeParentNode第四节知识拓展CHAID,ExhaustiveCHAIDCRT一、CHAID,ExhaustiveCHAIDExample:Abankwantstocategorizecreditapplicantsaccordingtowhetherornottheyrepresentareasonablecreditrisk.Basedonvariousfactors,includingtheknowncreditratingsofpastcustomers,youcanbuildamodeltopredictiffuturecustomersarelikelytodefaultontheirloans.Atree-basedanalysisprovidessomeattractivefeatures:Itallowsyoutoidentifyhomogeneousgroupswithhighorlowrisk.Itmakesiteasytoconstructrulesformakingpredictionsaboutindividualcases.模型构建的主要参数如下应变量为分类资料，选用ExhaustiveCHAID或CHAID算法。拆分及合并的检验水准一般设置为0.05分类树的最大生长深度定为几层（默认为3层，可最多设定8层）？设定母结点和子结点中的最少例数分别为多少（默认：母结点100；子结点50）？（一）数据文件（定义Measure:Scale,Nominal,Ordinal）（二）ToObtainClassificationTreesAnalyzeClassifyTree...（三）DefineVariableProperties如果在数据文件中已经定义，则单击OK关闭该对话框定义数据测量类型Measure计数资料：Nominal等级资料：Ordinal计量资料：ScaleClassificationTree