第6章相关分析相关分析的基本概念6.1二元定距变量的相关分析6.2二元定序变量的相关分析6.3偏相关分析6.4距离相关分析6.5描述变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程为相关分析。可根据研究的目的不同,或变量的类型不同,采用不同的相关分析方法。本章介绍常用的相关分析方法:二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析和距离相关分析。6.1相关分析的基本概念任何事物的变化都与其他事物是相互联系和相互影响的,用于描述事物数量特征的变量之间自然也存在一定的关系。变量之间的关系归纳起来可以分为两种类型,即函数关系和统计关系。当一个变量x取一定值时,另一变量y可以按照确定的函数公式取一个确定的值,记为y=f(x),则称y是x的函数,也就时说y与x两变量之间存在函数关系。又如,某种商品在其价格不变的情况下,销售额和销售量之间的关系就是一种函数关系:销售额=价格×销售量。函数关系是一一对应的确定性关系,比较容易分析和测度,可是在现实中,变量之间的关系往往并不那么简单。相关系数的取值范围在−1和+1之间,即−1≤r≤+1。其中:若0<r≤1,表明变量之间存在正相关关系,即两个变量的相随变动方向相同;若−1≤r<0,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;为了判断r对ρ的代表性大小,需要对相关系数进行假设检验。(1)首先假设总体相关性为零,即H0为两总体无显著的线性相关关系。(2)其次,计算相应的统计量,并得到对应的相伴概率值。如果相伴概率值小于或等于指定的显著性水平,则拒绝H0,认为两总体存在显著的线性相关关系;如果相伴概率值大于指定的显著性水平,则不能拒绝H0,认为两总体不存在显著的线性相关关系。在实际中,因为研究目的不同,变量的类型不同,采用的相关分析方法也不同。比较常用的相关分析是二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析和距离分析。6.2二元定距变量的相关分析二元变量的相关分析是指通过计算变量间两两相关的相关系数,对两个或两个以上变量之间两两相关的程度进行分析。根据所研究的变量类型不同,又可以分为二元定距变量的相关分析和二元定序变量的相关分析。在二元变量的相关分析过程中比较常用的几个相关系数是Pearson简单相关系数、Spearman和Kendall'stua-b等级相关系数。定义:二元定距变量的相关分析是指通过计算定距变量间两两相关的相关系数,对两个或两个以上定距变量之间两两相关的程度进行分析。定距变量又称为间隔(interval)变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。例如,“年龄”变量、“收入”变量、“成绩”变量等都是典型的定距变量。6.2.1统计学上的定义和计算公式Pearson简单相关系数用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。计算公式如下。Pearson简单相关系数计算公式为对Pearson简单相关系数的统计检验是计算t统计量,公式为t统计量服从n−2个自由度的t分布。6.2.2SPSS中实现过程研究问题某班级学生数学和化学的期末考试成绩如表6-1所示,现要研究该班学生的数学和化学成绩之间是否具有相关性。表6-1学生的数学和化学成绩人名数学化学hxh99.0090.00yaju88.0099.00yu65.0070.00shizg89.0078.00hah94.0088.00smith90.0088.00watet79.0075.00jess95.0098.00wish95.0098.00laly80.0099.00john70.0089.00chen89.0098.00david85.0088.00caber50.0060.00marry87.0087.00joke87.0087.00jake86.0088.00herry76.0079.00实现步骤图6-1在菜单中选择“Bivariate”命令图6-2“BivariateCorrelations”对话框(一)图6-3“BivariateCorrelations:Options”对话框6.2.3结果和讨论6.2.4绘制相关散点图如果对变量之间的相关程度不需要掌握得那么精确,可以通过绘制变量的相关散点图来直接判断。仍以上例来说明。图6-4在菜单中选择“Scatter/Dot”命令实现步骤图6-5“Scatter/Dot”对话框图6-6“SimpleScatterplot”对话框图6-7散点图结果和讨论6.3二元定序变量的相关分析6.3.1统计学上的定义和计算公式定义:定序变量又称为有序(ordinal)变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1—小学及以下、2—初中、3—高中、中专、技校、4—大学专科、5—大学本科、6—研究生以上。由小到大的取值能够代表学历由低到高。Spearman和Kendall'stua-b等级相关系数用以衡量定序变量间的线性相关关系,它们利用的是非参数检验的方法。计算公式如下。Spearman等级相关系数为对Spearman等级相关系数的统计检验,一般如果个案数n≤30,将直接利用Spearman等级相关统计量表,SPSS将自动根据该表给出对应的相伴概率值。对Kendall'stua-b等级相关系数的统计检验,一般如果个案数n≤30,将直接利用Kendall'stua-b等级相关统计量表,SPSS将自动根据该表给出对应的相伴概率值。6.3.2SPSS中实现过程研究问题某语文老师先后两次对其班级学生同一篇作文加以评分,两次成绩分别记为变量“作文1”和“作文2”,数据如表6-2所示。问两次评分的等级相关有多大,是否达到显著水平?表6-2学生作文两次的得分情况人名作文1作文2hxh86.0083.00yaju78.0082.00yu62.0070.00shizg75.0073.00hah89.0092.00smith67.0065.00watet96.0093.00jess80.0085.00wish77.0075.00laly59.0065.00john79.0075.00chen68.0070.00david85.0080.00caber87.0075.00marry75.0080.00joke73.0078.00jake95.0090.00herry88.0090.00实现步骤图6-8“BivariateCorrelations”对话框(二)6.3.3结果和讨论6.4偏相关分析二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。偏相关分析的工具是计算偏相关系数r12,3。6.4.1统计学上的定义和计算公式6.4.2SPSS中实现过程研究问题某农场通过试验取得某农作物产量与春季降雨量和平均温度的数据,如表6-3所示。现求降雨量对产量的偏相关。表6-3早稻产量与降雨量和温度之间的关系产量降雨量温度150.0025.006.00230.0033.008.00300.0045.0010.00450.00105.0013.00480.00111.0014.00500.00115.0016.00550.00120.0017.00580.00120.0018.00600.00125.0018.00600.00130.0020.00实现步骤图6-9在菜单中选择“Partial”命令图6-10“PartialCorrelations”对话框图6-11“PartialCorrelations:Options”对话框6.4.3结果和讨论6.5.1统计学上的定义和计算公式6.5距离相关分析距离相关分析是对观测量之间或变量之间相似或不相似的程度的一种测量。距离相关分析可用于同一变量内部各个取值间,以考察其相互接近程度;也可用于变量间,以考察预测值对实际值的拟合优度。距离相关分析的结果可以用于其他分析过程。例如,因子分析、聚类分析等,有助于分析复杂的数据集合。距离相关分析根据统计量不同,分为以下两种。不相似性测量:通过计算样本之间或变量之间的距离来表示。相似性测量:通过计算Pearson相关系数或Cosine相关来表示。距离相关分析根据分析对象不同,分为以下两种。样本间分析:样本和样本之间的距离相关分析。变量间分析:变量和变量之间的距离相关分析。在不相似性测量的距离分析中,根据不同类型的变量,采用不同的统计量进行计算。(1)对连续变量的样本(x,y)进行距离相关分析时,常用的统计量有以下几种。6.5.2SPSS中实现过程距离相关分析分为相似性测量和不相似性测量,也可分为样本间分析和变量间分析。下面分别对这4种情况进行讲解。研究问题1—变量之间的相似性测量分析对6个标准电子元件的电阻(欧姆)进行3次平行测试,测得结果如表6-4所示。问测试结果是否一致。表6-43次测量情况123456第一次0.1400.1380.1430.1410.1440.137第二次0.1350.1400.1420.1360.1380.140第三次0.1410.1420.1370.1400.1420.143实现步骤图6-12在菜单中选择“Distances”命令图6-13“Distances”对话框(一)图6-14“Distance:SimilarityMeasure”对话框(一)图6-15“Distances”对话框(二)图6-16“Distance:DissimilarityMeasures”对话框(一)研究问题3—个案之间的相似性测量分析某动物一次产下3个幼仔,分别对3个幼仔的长、体重、四肢总长、头重进行测量,试就这几个测量而言,分析3个幼仔的相似性,数据如表6-5所示。表6-53个幼仔情况长体重四肢总长头重第一个5021510011第二个5122011012第三个5222011212图6-17“Distances”对话框(三)实现步骤图6-18“Distances:SimilarityMeasures”对话框(二)研究问题4—个案之间的不相似性测量分析以问题3中的数据为例,求幼仔的不相似程度(距离)。实现步骤图6-19“Distances”对话框(四)图6-20“Distances:DissimilarityMeasures”对话框(二)6.5.3结果和讨论(1)研究问题1的SPSS运行结果如下面两个表格所示。(2)研究问题2的SPSS运行结果如下面两个表格所示。(3)研究问题3的SPSS运行结果如下面两个表格所示。(4)研究问题4的SPSS运行结果如下面两个表格所示。小结相关分析即是用适当的统计指标来衡量事物之间,以及变量之间线性相关程度的强弱。相关分析的方法很多,包括简单相关分析、偏相关分析和距离相关分析。小结简单相关分析包括定距变量的相关分析和定序变量的相关分析。前者通过计算定距变量间的相关系数来判断两个或两个以上定距变量之间的相关程度。后者则采用非参数检验的方法利用等级相关系数来衡量定序变量之间的相关程度;偏相关分析是指在排除了第三者影响的前提下,衡量两个变量之间的相关程度,当然第三者与这两个变量之间要有一定的联系;距离相关分析是对观测变量之间差异度或相似程度进行的测量。小结简单相关分析可通过“Analysis”/“Correlate”/“Bivariate”子菜单来实现;偏相关分析可通过“Analysis”/“Corre