51Stata软件基本操作和数据分析入门第五讲多组平均水平的比较一、复习和补充两组比较的统计检验1.配对设计资料(又称为DependentSamples)a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对t检验(ttest差值变量=0)b)大样本的情况下,可以用配对t检验c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验(signrank差值变量=0)2.成组设计(TwoIndependentSamples)a)如果方差齐性并且大样本情况下,可以用成组t检验(ttest效应指标变量,by(分组变量))b)如果方差齐性并且两组资料分别呈正态分布,可以用成组t检验c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验(Ranksumtest)groupx07909309109209407709307409101015208307308801020900100081091083010608407808709501011101110011141861106110711071941891104198111018911031891121194195192110919819811201104111053二、多组比较1.完全随机分组设计(要求各组资料之间相互独立)a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求),则采用完全随机设计的方差分析方法(即:单因素方差分析,OneWayANOVA)进行分析。b)方差不齐或小样本情况下资料偏态,则用KruskalWallis检验(H检验)例5.1为研究胃癌与胃粘膜细胞中DNA含量(A.U)的关系,某医师测得数据如下,试问四组人群的胃粘膜细胞中平均DNA含量是否相同?组别groupDNA含量(A.U)浅表型胃炎19.8112.7312.2912.5312.959.5312.68.912.2714.2610.68肠化生214.6117.5415.11713.3915.3213.7418.2413.8112.6314.5316.17早期胃癌323.2620.820.623.517.8521.9122.1322.0419.5318.4121.4820.24晚期胃癌423.7319.4622.3919.5325.920.4320.7120.0523.4121.3421.3825.70由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。检验问题是考察四组DNA含量的平均水平相同吗。如果每一组资料都正态分布并且方差齐性可以用Oneway-ANOVA进行分析,反之用KruskalWallis检验。STATA数据输入格式gx19.81112.73112.29112.53112.955419.53112.618.9112.27114.26110.68214.61217.54215.1217213.39215.32213.74218.24213.81212.63214.53216.17323.26320.8320.6323.5317.85321.91322.13322.04319.53318.41321.48320.24423.73419.46422.39419.53425.955420.43420.71420.05423.41421.34421.38425.7分组正态性检验,=0.05.sktestxifg==1Skewness/KurtosistestsforNormality-------joint------Variable|Pr(Skewness)Pr(Kurtosis)adjchi2(2)Probchi2-------------+-------------------------------------------------------x|0.4910.4851.070.5861.sktestxifg==2Skewness/KurtosistestsforNormality-------joint------Variable|Pr(Skewness)Pr(Kurtosis)adjchi2(2)Probchi2-------------+-------------------------------------------------------x|0.4820.5410.960.6201.sktestxifg==3Skewness/KurtosistestsforNormality-------joint------Variable|Pr(Skewness)Pr(Kurtosis)adjchi2(2)Probchi2-------------+-------------------------------------------------------x|0.5270.7500.520.7704.sktestxifg==4Skewness/KurtosistestsforNormality-------joint------Variable|Pr(Skewness)Pr(Kurtosis)adjchi2(2)Probchi2-------------+-------------------------------------------------------x|0.2600.6161.750.4166上述结果表明每一组资料都服从正态分布。56单因素方差分析的STATA命令:oneway效应指标变量分组变量,tb其中t表示计算每一组均数和标准差,b表示采用Bonferroni统计方法进行两两比较。本例命令为onewayxgroup,tb.onewayxg,tb|Summaryofxg|MeanStd.Dev.Freq.------------+------------------------------------1|11.6863641.6884388112|15.1733331.749173123|20.9791671.7668279124|22.00252.242908712------------+------------------------------------Total|17.5831914.608078947AnalysisofVarianceSourceSSdfMSFProbF------------------------------------------------------------------------Betweengroups824.9425493274.9808577.870.0000Withingroups151.839445433.53114987------------------------------------------------------------------------Total976.7819944621.2343912Bartlett'stestforequalvariances:chi2(3)=1.1354Probchi2=0.769方差齐性的检验为:卡方=1.1354,自由度=3,P值=0.769,因此可以认为方差是齐性的。H0:1=2=3=4四组总体均数相同H1:1,2,3,4不全相同=0.05,相应的统计量F=77.87以及相应的自由度为3和43,P值0.0001,因此4组均数的差别有统计学意义。Comparisonofxbyg(Bonferroni)RowMean-|ColMean|12357---------+---------------------------------2|3.48697(第2组样本均数-第1组样本均数)|0.000(H0:1=2检验的P值)|3|9.29285.80583(第3组样本均数-第2组样本均数)|0.0000.000(H0:3=2检验的P值)|4|10.31616.829171.02333(第4组样本均数-第3组样本均数)|0.0000.0001.000(H0:3=4检验的P值)上述输出为两两比较的结果,在表格的每个单元中,第一行为两组均数的差值,第二行为两组均数比较检验的P值。根据上述结果可以知道,第2组、第3组和第4组的AU均数均大于第1组的AU均数,并且差别有统计学意义。说明肠化生患者和胃癌患者的DNA的AU含量平均水平均高于正常人的AU平均水平,并且差别有统计学意义。第3组和第4组的AU均数也大于第2组的AU平均水平,并且差别有统计学意义。说明胃癌患者的DNA的AU含量平均水平均高于肠化生患者的AU平均水平,并且差别有统计学意义。第3组和第4组两组均数的差别没有统计学意义,说明没有足够的证据可以DNA的AU含量与癌症的早期与晚期有关系。假如本例的资料不满足方差分析的要求,则用KruskalWallis检验,数据结构同上。命令为:kwallis效应指标变量,by(分组变量)本例的命令为kwallisx,by(g)H0:4组的AU总体分布相同H1:4组的AU总体分布不全相同58=0.05结果如下:Test:Equalityofpopulations(Kruskal-Wallistest)g_Obs_RankSum11172.00212205.00312411.50412439.50chi-squared=37.814with3d.f.probability=0.0001chi-squaredwithties=37.816with3d.f.probability=0.0001说明:4组AU的总体分布不全相同,然后秩和检验,但应取小一些(多重比较时,会增大第一类错误的概率)。根据Sidak检验的建议:11(1)k,其中k为要比较的次数,为多组比较总的检验水平(一般为0.05),’为两两比较时的检验水平。如本例:4组两两比较共比246C次,因此161(0.95)0.0085a,对于比较第1组和第2组的AU分布差别的操作命令为:先计算中位数sortg组别变量排序byg:centilex,centile(50)计算各组中位数-g=1--Binom.Interp.--Variable|ObsPercentileCentile[95%Conf.Interval]-------------+-------------------------------------------------------------x|115012.299.72956412.7932-g=2--Binom.Interp.--Variable|ObsPercentileCentile[95%Conf.Interval]-------------+-------------------------------------------------------------x|125014.85513.7474516.91172-g=3--Binom.Interp.--Variable|ObsPercentileCentile[95%Conf.Interval]-------------+-------------------------------------------------------------59x|125021.1419.6055222.12043-g=4--Binom.Interp.--Variable|ObsPercentileCentile[95%Conf.Interval]-------------+-------------------------------------------------------------x|125021.3620.0904223.69596得到这4组中位数分别为:M1=12.29,M2=14.855,M3=21.14和M4=21.36ranksumxifg==1|g==2,by(g)Two-sampleWilcoxonrank-