第九章相关分析――Correlate菜单详解在医学中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程:Bivariate过程此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的95%以上。下面的讲述也以该过程为主。Partial过程如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。Distances过程调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。§9.1Bivariate过程9.1.1界面说明【Variables框】用于选入需要进行相关分析的变量,至少需要选入两个。【CorrelationCoefficients复选框组】用于选择需要计算的相关分析指标,有:Pearson复选框选择进行积距相关分析,即最常用的参数相关分析Kendall'stau-b复选框计算Kendall's等级相关系数Spearman复选框计算Spearman相关系数,即最常用的非参数相关分析(秩相关)【TestofSignificance单选框组】用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。【Flagsignificantcorrelations】用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P0.05的系数值旁会标记一个星号,P0.01的则标记两个星号。【Options钮】弹出Options对话框,选择需要计算的描述统计量和统计分析:Statistics复选框组可选的描述统计量。它们是:1.Meansandstandarddeviations每个变量的均数和标准差2.Cross-productdeviationsandcovariances各对变量的交叉积和以及协方差阵MissingValues单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Excludecasespairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludescaseslistwise)。默认为前者,以充分利用数据。9.1.2分析实例例9.1请计算SPSS自带的样本数据judges.sav中意大利(judge1)和韩国法官(judge2)得分的相关性。解:由于judge1和judge2的数据分布不太好,这里同时计算Pearson相关系数和Spearman相关系数。操作如下:这种做法严格说来是有问题的,我这样做主要是想偷懒。1.Variables框:选入judge1、judge22.Pearson复选框:选中3.Spearman复选框:选中4.单击OK钮9.1.3结果解释例9.1的输出结果如下所示:Correlations在上面的结果中,变量间两两的相关系数是用方阵的形式给出的。每一行和每一列的两个变量对应的格子中就是这两个变量相关分析结果结果,共分为三列,分别是相关系数、P值和样本数。由于这里只分析了两个变量,因此给出的是2*2的方阵。由上表可见judge1、judge2自身的相关系数均为1(ofcourse),而judge1和judge2的相关系数为0.91,P0.001,有非常显著的统计学意义。如果需要得到具体的P值。请进入表格的编辑模式,双击P值所在的单元格,就可以看到精确的P值大小。上表的标题内容翻译如下:ItalySouthKoreaItalyPearson积距相关系数P值(双侧)样本数1.000.300.910.000300SouthKoreaPearson积距相关系数P值(双侧)样本数.910.0003001.000.300NonparametricCorrelations此处的表格内容和上面Pearson相关系数的结果非常相似,只是表格左侧注明为Spearman等级相关。可见judge1和judge2的等级相关系数为0.92,P0.001,有非常显著的统计学意义。9.2Partial过程9.2.1界面说明【Variables框】用于选入需要进行偏相关分析的变量,至少需要选入两个。【Controllingfor框】用于选择需要在偏相关分析时进行控制的协变量,如果不选入,则进行的就是普通的相关分析。【TestofSignificance单选框组】意义同前,用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。【Displayactualsignificincelevel复选框】用于确定是否在结果中给出确切的P值,一般选中。【Options钮】弹出Options对话框,选择需要计算的描述统计量和统计分析:Statistics复选框组可选的描述统计量。它们是:1.Meansandstandarddeviations每个变量的均数和标准差2.Zero-ordercorrelations给出包括协变量在内所有变量的相关方阵MissingValues单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Excludecasespairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludescaseslistwise)。默认为前者,以充分利用数据。9.2.2结果解释偏相关分析的结果和普通相关分析几乎完全相同,非常容易看懂,比如说我们要在排除变量judge3的影响后计算变量judge1和judge2的相关性(只是举个例子而已,这样是没有实际依据的),则结果如下:PartialCorr---PARTIALCORRELATIONCOEFFICIENTS---Controllingfor..JUDGE3JUDGE1JUDGE2JUDGE11.0000.5632(0)(297)P=.P=.000JUDGE2.56321.0000(297)(0)P=.000P=.(Coefficient/(D.F.)/2-tailedSignificance).isprintedifacoefficientcannotbecomputed这些结果一目了然,不用再解释了吧,可见当控制了变量judge3的影响后,judge1和judge2的相关系数值大大降低,但仍然具有统计学意义。请注意,友好的统计软件界面是会骗人的:偏相关分析和协方差分析一样,里面蕴涵的统计学知识要远比你用统计软件进行操作时感觉到的内容复杂的多,这些分析都具有严格的适用条件,在进行分析之前需要对数据是否满足条件进行考察。因此进行这些分析前一定要参考有关书籍,并慎重行事。9.3Distances过程Distances过程是专门进行距离相关分析用的,由于该方法大多数人用的非常少,里面又涉及到太深的统计原理,这里我只对界面做一解释,就不再深入下去了。如要用到,请参考有关的多元统计专业书。【Variables框】用于选入需要进行距离相关分析的变量,至少需要选入两个。【Labelcasesby框】选择一个变量用于给各个记录加上标签,可以不选。【ComputeDistances单选框组】其中有两个选择,Betweencases表示作变量内部观察值之间的距离相关分析,Betweenvariables表示作变量之间的距离相关分析。【Measure单选框组】用于选择分析时采用的距离类型:Dissimilarities为不相似性测距,Similarities为相似性测距。【Measure钮】和前面的Measure单选框组配合使用,单击后弹出Distance:DissimilarityMeasure对话框,用户可根据数据特征选用测距方法:选择Dissimilarities时各种数据类型可用的测距方法有:1、计量资料Euclideandistance:以两变量差值平方和的平方根为距离;SquaredEuclideandistance:以两变量差值平方和为距离;Chebychev:以两变量绝对差值的最大值为距离;Block:以两变量绝对差值之和为距离;Minkowski:以两变量绝对差值p次幂之和的p次根为距离;Customized:以两变量绝对差值p次幂之和的r次根为距离。2、计数资料Chi-squaremeasure:χ2值测距;Phi-squaremeasure:ψ2值测距,即将χ2测距值除合计频数的平方根。3、二分类变量Euclideandistance:二分差平方和的平方根,最小为0,最大无限;SquaredEuclideandistance:二分差平方和,最小为0,最大无限;Sizedifference:最小距离为0,最大无限;Patterndifference:从0至1的无级测距;Variance:以方差为距,最小为0,最大无限;LanceandWilliams:Bray-Curtis非等距系数,界于0至1之间。选择Similarities时各种数据类型可用的测距方法有:1、计量资料Pearsoncorrelation:以Pearson相关系数为距离;Cosine:以变量矢量的余弦值为距离,界于-1至+1之间。2、二分类变量RussellandRao:以二分点乘积为配对系数;Simplematching:以配对数与总对数的比例为配对系数;Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重;Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重;RogersandTanimoto:RogersandTanimoto配对系数,分母为配对数,分子为非配对数,非配对数给予加倍的权重;SokalandSneath1:SokalandSneathⅠ型配对系数,分母为配对数,分子为非配对数,配对数给予加倍的权重;SokalandSneath2:SokalandSneathⅡ型配对系数,分子与分母均为非配对数,但分子给予加倍的权重;SokalandSneath3:SokalandSneathⅢ型配对系数,分母为配对数,分子为非配对数,分子与分母的权重相同;Kulczynski1:KulczynskiⅠ型配对系数,分母为总数与配对数之差,分子为非配对数,分子与分母的权重相同;Kulczynski2:Kulczynski平均条件概率;SokalandSneath4:SokalandSneath条件概率;Hamann:Hamann概率;Lambda:Goodman-Kruskai相似测量的λ值;Anderberg'sD:以一个变量状态预测另一个变量状态;Yule'sY:Yule综合系数,属于2×2四格表的列联比例函数;Yule'sQ:Goodman-Kruskalγ值,属于2×2四格表的列联比例函数。3、其他类型变量Ochiai:Ochiai二分余弦测量;SokalandSneath5:SokalandSneathⅤ型相似测量;Phi4pointcorrelation:Pearson相关系数的平方值;Dispersion:Dispersion相似测量。同时,还可以选择数据转换形式:None:不作数据转