倾向匹配法——回顾性研究中提高试验质量的利器大连医科大学附属第二医院张策总结欢迎您提出宝贵意见!在临床中离不开回顾性研究,也就是总结以往的临床数据,得到结果。但回顾性研究中的一切都是已经发生的,其中“干扰因素”(混杂因素)不能在试验中控制,造成组间比较失败,而倾向匹配法就是去除混杂因素的关键方法。用统计学方法把我们回顾性研究效能提升为与前瞻性研究同等质量,今天就和大家一起通过一个SPSS操作实例介绍这种方法的具体使用过程。这种方法在以后论文发表中起到至关重要的作用,大大提高回顾性文章的科学性和中稿率。一、再次强调本方法的作用倾向匹配方法到底达到什么作用,用下图说明:性别年龄RGBHb性别年龄RGBHb组1组2回顾性研究组间有差异组间有差异我们想考察两组Hb的差异,但其余三项都有差异,不知这种Hb的差异是否是其余三项差异带来的采用倾向匹配法性别年龄RGBHb性别年龄RGBHb组1组2回顾性研究组间无差异组间有差异达到前瞻性比较质量二、要利用的软件要SPSS22.0以上才有此项功能,SPSS20.0需要安装插件完成,相关插件安装要点我在后面作为附件说明。在这里感谢大连医科大学附属第二医院内分泌苏本利主任向我提供SPSS22.0的版本。三、用一个例子说明1、要解决的问题数据如下图,取937例患者,NUMBER是顺序号,在后续统计中作为标识用,非常重要;GROUP是分组,两组必须用“1”和“0”表示,最终系统将“0组”病例向“1组”病例匹配。本实验目的是均衡AGE、SBP、WBC、RBC、PLT的影响后,考察Hb在两组间的差别。2、通过SPSS软件比较组间差异,结果如下:发现两组间除AGE(P0.05)没有差别外,其余都有差异(P0.05),故混杂因素实在是太多,不能得出Hb在两组间有差异的结论。IndependentSamplesTestLevene'sTestforEqualityofVariancest-testforEqualityofMeansFSig.tdfSig.(2-tailed)MeanDifferenceStd.ErrorDifference95%ConfidenceIntervaloftheDifferenceLowerUpperageEqualvariancesassumed4.560.033-.222937.824-.182.820-1.7921.427Equalvariancesnotassumed-.226863.873.822-.182.809-1.7701.405SBPEqualvariancesassumed7.764.005-4.848962.000-5.85681.2080-8.2274-3.4862Equalvariancesnotassumed-4.692728.927.000-5.85681.2482-8.3073-3.4063DBPEqualvariancesassumed.026.871-10.007962.000-7.9226.7917-9.4764-6.3689Equalvariancesnotassumed-10.005822.475.000-7.9226.7918-9.4769-6.3684WBCEqualvariancesassumed1.978.160-5.427971.000-.51743.09535-.70453-.33032Equalvariancesnotassumed-5.629914.055.000-.51743.09193-.69783-.33702RBCEqualvariancesassumed13.850.000-29.406971.000-.63723.02167-.67976-.59470Equalvariancesnotassumed-30.317900.547.000-.63723.02102-.67848-.59598HbEqualvariancesassumed2.859.091-36.848971.000-22.8902.6212-24.1093-21.6711Equalvariancesnotassumed-36.993832.066.000-22.8902.6188-24.1048-21.6757PLTEqualvariancesassumed16.609.0007.870971.00025.69053.264519.284332.0968Equalvariancesnotassumed7.439666.028.00025.69053.453718.909132.47203.下面用软件消除混杂因素的差异-倾向匹配法SPSS22.0在安装过程中,要注意选择安装“Python”项目,否则将没有“倾向匹配”选项。首先按下图打开“倾向匹配法”对话框(数据倾向得分匹配)P值打开对话框后,进行相应的设置:注意:这里要注意所有的字段名都要用英文名称,用中文名称将导致回归模型建立失败,程序中断。结果如下图所示,可以看到,我们原始数据表中多出了“defen”和“pipei”两个字段,“defen”字段是各指标的“倾向评分”,这是匹配的依据。pipei字段是最终的匹配结果,可见第一个匹配成功的是NUMBER号第8条记录,在“1”组,与“0”组的NUMBER号的第546号相匹配,pipei字段中空格部分是没有匹配成功的字段,将在我们的试验中删除。将标有“0”和“1”的组别GROUP字段选到这里我们要比较Hb,所以不选,把其它干扰因素都选到这里这里输入一个列名,用来放各病例匹配依据“倾向评分”,可以自己取名,不与现有字段重复即可“匹配容差”输入一个0-1的数,越接近0约完全匹配,越接近于1,匹配越不严格,这里要试着找最佳点。当然“完全匹配”要丢失更多的病例,如果选0,有可能找不到匹配的记录,这点大家注意,别误认为软件不好用了“个案标识”,将序号NUMBER变量字段选入,匹配结果将用各病例序号进行匹配这里输入字段名称,用于储存数据匹配后的结果。随意起名,不与现有字段重复就可以这里输入一个数据表名,系统将建立一个匹配后的数据表,这里用以指定新数据表名称,名字不与现有数据表重复即可如何删除不匹配记录呢采用菜单栏宏的数据选择个案,选择“如果条件满足”,然后在对话框中将PIPEI选入,输入公式,如下图所示。这样确定后我们看到pipei为空的字段被删除了,在序号中出现了一条斜线,在以后的计算中将不参与计算。进行如上删除处理后我们再做一次两独立样本的t检验,结果如下图:我们发现,除Hb(我要考虑组间差异的变量),P=0,差异具有显著性意义,其余干扰因素在组间的P值均0.05,组间统计没有差异,结果非常可信。IndependentSamplesTestLevene'sTestforEqualityofVariancest-testforEqualityofMeansFSig.tdfSig.(2-tailed)MeanDifferenceStd.ErrorDifference95%ConfidenceIntervaloftheDifferenceLowerUpperageEqualvariancesassumed8.791.003-.629268.530-1.0071.602-4.1612.146Equalvariancesnotassumed-.629255.838.530-1.0071.602-4.1612.147SBPEqualvariancesassumed.948.331-.274268.784-.65932.4079-5.40004.0815Equalvariancesnotassumed-.274265.398.784-.65932.4079-5.40024.0817DBPEqualvariancesassumed.069.793-.269268.788-.40001.4856-3.32502.5250Equalvariancesnotassumed-.269267.985.788-.40001.4856-3.32502.5250WBCEqualvariancesassumed.134.715.546268.586.08526.15627-.22242.39294Equalvariancesnotassumed.546267.821.586.08526.15627-.22242.39294RBCEqualvariancesassumed.008.930-1.481268.140-.05437.03671-.12665.01791Equalvariancesnotassumed-1.481267.934.140-.05437.03671-.12665.01791HbEqualvariancesassumed2.202.139-9.732268.000-9.6489.9915-11.6010-7.6968Equalvariancesnotassumed-9.732265.879.000-9.6489.9915-11.6010-7.6967PLTEqualvariancesassumed.011.916.121268.904.68445.6683-10.475711.8446Equalvariancesnotassumed.121267.989.904.68445.6683-10.475711.8446当然,我们也因此损失了大量不能匹配的数据,本文的973条数据,到最后匹配成功(匹配容差0.1)剩余270条数据,但这270条数据具有前瞻性研究的数据质量。4、和大家说说“匹配容差”P值如何得到最佳匹配容差呢,我的经验如下:a)先设置为“0”,有成功匹配记录,则做组间独立样本t检验,是否能均衡混杂因素。如果能试试0.5,看看能否也能控制混杂因素并纳入更多的病例。b)如不成功设置为“1”,再试做两独立样本t检验。c)如不成功设置为“0.5”,再试做两独立样本t检验。d)如不成功设置为“0.3”,再试做两独立样本t检验。e)如不成功设置为“0.1”,再试做两独立样本t检验。总之要在控制混杂因素的基础上,获得更多的有效病例。最后谢谢大家的关注,您的关注是我最大的动力。