对数线性模型及SPSS操作

lorryli
1 ℃
2020-04-08

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

对数线性模型多项分布对数线性模型Poisson对数线性模型2高维列联表和多项分布对数线性模型•前面例子原始数据是个三维列联表，对三维列联表的检验也类似。•但高维列联表在计算机软件的选项可有所不同，而且可以构造一个所谓(多项分布)对数线性模型(loglinearmodel)来进行分析。•利用对数线性模型的好处是不仅可以直接进行预测，而且可以增加定量变量作为模型的一部分。3多项分布对数线性模型•现在简单直观地通过二维表介绍一下对数线性模型，假定不同的行代表第一个变量的不同水平，而不同的列代表第二个变量的不同水平。用mij代表二维列联表第i行，第j列的频数。人们常假定这个频数可以用下面的公式来确定：ln()ijijijm这就是所谓的多项分布对数线性模型。这里αi为行变量的第i个水平对ln(mij)的影响，而βj为列变量的第j个水平对ln(mij)的影响，这两个影响称为主效应（maineffect）；εij代表随机误差。4多项分布对数线性模型•这个模型看上去和回归模型很象，但由于对于分布的假设不同，不能简单地用线性回归的方法来套用(和Logistic回归类似)；计算过程也很不一样。当然我们把这个留给计算机去操心了。只要利用数据来拟合这个模型就可以得到对于参数m的估计（没有意义），以及ai和bj的“估计”。•有了估计的参数，就可以预测出任何i，j水平组合的频数mij了（通过其对数）。•注意，这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的,因此,只有事先固定一个参数值(比如a1=0),或者设定类似于Sai=0这样的约束，才可能估计出各个的值。没有约束，则这些参数是估计不出来的。5多项分布对数线性模型•二维列联表的更完全的对数线性模型为ln()()ijijijijm•这里的(αβ)ij代表第一个变量的第i个水平和第二个变量的第j个水平对ln(mij)的共同影响(交叉效应)。即当单独作用时，每个变量的一个水平对ln(mij)的影响只有αi(或βj)大，但如果这两个变量一同影响就不仅是αi+βj，而且还多出一项。•这里的交叉项的诸参数的大小也是相对的，也需要约束条件来得到其“估计”；涉及的变量和水平越多，约束也越多。6注意，无论你对模型假定了多少种效应，并不见得都有意义；有些可能是多余的。本来没有交叉影响，但如果写入，也没有关系，在分析过程中一般可以知道哪些影响是显著的，而那些是不显著的。Poisson分布简介在某些固定的条件下,人们认为某些事件出现的次数服从Poisson分布,比如在某一个时间段内某种疾病的发生病数,显微镜下的微生物数,血球数,门诊病人数,投保数,商店的顾客数,公共汽车到达数,电话接通数等等.然而,条件是不断变化的.因此,所涉及的Poisson分布的参数也随着变化.8Poisson对数线性模型•假定哮喘发生服从Poisson分布；但是由于条件不同，Poisson分布的参数也应该随着条件的变化而改变。这里的条件就是给出的性别、空气污染程度与年龄。当然，如何影响以及这些条件影响是否显著则是我们所关心的。这个模型可以写成•这里μ为常数项，αi为性别（i=1,2分别代表女性和男性两个水平），βj为空气污染程度（j=1,2,3代表低、中高三个污染水平），x为连续变量年龄，而γ为年龄前面的系数，εij为残差项。ln()ijijx•SPSS中一共提供了对数线性模型的三个过程:General过程、Logit过程和ModelSelection过程，三者都应用对数线性模型的基本原理，但在具体的拟和方法和结果输出上有些不同，分别用于不同的研究情况。•General过程适用于研究人员只对某些特定效应项感兴趣的情况，属于证实性研究。General过程的另外一个特点是，分析中只考虑因素之间是否相关，不考虑谁是原因谁是结果，最后在结果解释时才由研究人员来做出判断。•如果因变量为两分类，就可以用Logit过程提供的Logit模型来分析。相比之下，它比另两个模型更像方差分析，明确分出了应变量和自变量，直接服务于分类变量之间的因果关系。•ModelSelection过程拟合的是分层对数线性模型(HierarchicalMode)。如果在探索性分析中研究人员只是设想若干分类变量之间可能有关系，但是并无明确假设，也没有具体分出哪个是因变量、哪个是自变量，此时比较适宜采用分层对数线性模型分析。9对数线性模型-General模型•一般对数线性模型是对数线性模型中最简单的一种。•例：某医科大学附属医院用内科疗法治疗一般类型胃溃病患者80例，治愈63例，治疗特殊类型胃溃病患者99例，治愈31例，试通过此资料比较用内科疗法治疗两种胃溃病病人所得的治愈率是否相同。•影响格子中频数大小的因素有两个:组别和治疗结果，根据前面的分析可知，要比较两种类型胃溃疡病的治愈率是否相同，就是分析组别和治疗结果两个因素对单元格频数的作用是否存在交互作用。10•可以认为用内科疗法治疗两种胃溃疡病人所得的治愈率是不同的。•一般类型病人的治愈率高于特殊类型，或者可以说，治愈率和组别与治疗结果两个因素有关，对单元格频数的作用存在交互作用。11拟合Poisson回归模型时使用首先应当使用WeightCases过程，将count指定为频数变量。结果分析：17模型迭代的基本情况：允许最大迭代次数为20次，用于判断收敛的相对容忍度为0.001，本模型迭代4次后即成功收敛。表格下方的脚注给出了具体模型的信息：单元格内频数服从多项分布，具体的模型如下，即含交互作用项的饱和模型。abbaab)(ln•这里关心的是参数6的估计值及假设检验结果，即两个因素的交互作用是否有意义。•其参数估计值为2.095,P0.05，认为胃溃疡类型和治疗结果两个因素之间存在交互作用，即不同胃溃疡类型有不同的治疗率。•结合具体资料可以看出，一般类型胃溃疡治愈率高于特殊类型。•输出的分别是4个系数的协方差矩阵和相关系数矩阵。作为参照水平的参数(都赋值为0)没有列出。•再次提醒：由于拟合的是饱和模型，故所有的残差均为0，因此没有输出与残差有关的图形。•如果选择Custom模型，分析group和result两个因素的Maineffect，不包含两者的交互效应，结果会怎样？22从模型的拟和优度检验可见，无论是似然比χ2还是普通的Pearsonχ2,P值都是小于0.05的，从饱和模型中去除交互项后所用的这个模型在拟合优度上和原饱和模型有统计学差异，即被去除的交互项实际上是存在的。也就是两变量间有关系，即不同类型胃溃疡病人的治愈率不同。这与饱和模型的分析结果是完全一致的。•4个单元格的观察频数、期望频数和校正残差的散点图矩阵。•上排中间的格子是指以期望频数横坐标、实际频数为纵坐标的散点图；•第二排左边的散点图是以实际频数为横坐标、期望频数为纵坐标。•如果把这两个图作一定的旋转，就会发现它们是完全一样的。•从观察频数和校正残差的散点图可看出，4个散点明显存在着一定的趋势，这说明残差不服从正态分布，所拟合的模型尚不能完全解释4个格子频数的分布规律，可能还有有意义的变量未被纳入(实际上就是交互项未被纳入)。•校正残差的正态Q-Q图和去势正态Q-Q图，可见虽然只有4个格子的残差，但明显存在着一定趋势，结论和前面相同。Poisson回归模型•SPSS中一般对数线性模型主对话框右下侧的DistributionofCellCounts单选框组默认为Poisson，即各单元格中频数服从Poisson分布。•在上文所讨论的模型中，单元格内频数都被假定成服从多项分布，此时拟合的是标准的对数线性模型。•但是如果将频数分布设定为Poisson分布，此时拟合的又是什么模型呢?25•例：现收集了某一年代英国男性医生冠心病死亡与抽烟关系的年龄分组数据。请推断英国男医生冠心病死亡与抽烟、年龄是否有关？注意由于死亡与追踪人数和追踪时间均有关，故对人数进行了校正，实际上是用经过校正的观察人数作为观察单位。•由于冠心病并非传染病，且在人群中的病死率较低，因此可以认为死亡人数服从Poisson分布。•在清楚了模型的基本结构后，本例的操作就不再困难了，唯一比较特殊的是由于各年龄组的观察人数不同，需要在CellStructure框中加以设定。2728首先对死亡数died进行加权。由模型的拟合优度可见，当前模型和饱和模型相比没有统计学差异，说明不需要再纳入两个变量的交互项了。•模型的参数估计值，由于Poisson回归模型都是对前瞻性研究数据进行拟合，因此可以通过对事件发生率(此处为死亡率)的比较计算出相对危险度。•本例的结果：和抽烟者相比，不抽烟者的死亡风险较低，其RR为exp(-0.5)=0.6060。而随着年龄的增加，死亡的风险也在逐渐上升，和35岁组(编码为1)相比，65岁组(编码为4)的RR值为exp(3.338)=28.163。对数线性模型-Logit模型•一般线性模型己经可以完成许多分析了，它的特色是对所有的变量不分因变量和自变量，一视同仁的分析。但有的时候，研究人员对研究变量间的因果关系已经了解，研究目的是分析自变量与因变量之间的关系，此时用一般对数线性模型就无法利用该信息。•在这种情况下，可以用Logit过程提供的Logit模型来分析。该模型明确分出因变量和自变量，分析因变量和自变量之间的因果关系。•模型中将自动引入自变量与因变量的交互项。在拟合结果上，Logit模型实际上和我们熟悉的Logistic模型等价。31•例：要研究两种手术后并发症的严重程度与手术类型是否有关，在甲乙两个医院各观察70、54例子术病人。32•本研究分析不同手术类型和不同医院对术后并发症的影响，显然是否出现术后并发症是因变量，手术类型和医院是自变量。•这一问题可以用Logistic回归来解决，也可以用对数线性模型来解决，二者是等价的。首先应当使用WeightCases过程，将count指定为频数变量。可见该不饱和模型的拟合优度与含所有交互项的饱和模型相比并无统计学差异，也就是说，用此模型己经可以充分反映三个变量间的关系了。•SPSS12之后新增的输出，用于给出反应模型的解释度，它类似于回归模型中的决定系数，具体以熵(Entropy)或集中度(Concentration)来计算。•以熵为例，可见数据的总熵为83.613，其中被模型解释掉了2.916，因此通过熵测得的模型解释度为2.916/83.613=0.035。•但是，由于这里拟合的是分类数据的模型，因此解释度指标只是近似的反映了模型的效果，就如同Logistic模型中的伪决定系数一样。•模型中所有参数的估计值，对于自变量的任意组合分别估计了常数项。其余的11个系数中3个有效参数均给出了标准误、Z值以及参数95%可信区间，从可信区间可见第11个参数有统计学意义的，可以这样理解，在控制了hospital这一变量的混杂作用后，因变量effect与自变量trt之间存在交互作用。•结合具体数据可知，手术1的术后并发症发生率低于手术2。两所不同医院之间，术后并发症发生情况无明显差别。对数线性模型-ModelSelectio•SPSS中的Loglinear→ModelSelection过程可以进行对数线性模型的选择。该过程从饱和模型入手，从高阶交互项开始逐步排除无意义的参数，直到最终形成一个最佳的简约模型。•但是分层模型只提供饱和模型的参数估计、不能输出简略模型的参数估计，在用它得到最佳简约模型后，还应当采用一般模型来得到具体的参数估计和检验结果。•对广大用户来说，该过程的应用价值是最高的，因为它可以进行自动筛选，类似于多元回归中的逐步回归，这在三维以上列联表进行联合分析时可以大大降低我们的工作量。39•例：某医师研究工作姿势(B)与子宫后倾(C)有无关系，随机抽查370名劳动强度及年龄相仿的女职工的工作姿势与子宫后倾情况，请作统计分析(假定在可比性方面无问题)。40•本例是由三个分类变量(A、B、C)构成的三维列联表。研究者主要关心B与C是否有关，A是混杂因素，