1浅析相关系数及其应用2摘要:相关系数是衡量观测数据之间相关程度的一个指标,相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量,一般情况下,相关系数越大表明相关程度就越高。本文阐述一下相关系数的概念、意义、分类及应用。关键词:相关系数概念意义分类应用在处理测量数据时,经常要研究变量与变量之间的关系。这一种关系一般可分为两类,一类是函数相关,.另一类是统计相关,研究统计相关的方法有回归分析和相关分析。这两种方法既有区别又有联系。它们的区别在于,前者讨论的是一个非随机量和一个随机变量的情形,而后者讨论的两个都是随机变量的情形。在科学研究中,我们不但要了解一个变量的变化情况,更要进一步了解一个变量与另一个变量之间的关系.变量之间的常见关系有两种:一是确定性函数关系,变量之间的关系可以用函数表示;二是非确定性相关关系,变量之间有一定的关系,但不能完全用函数表达,变量间只存在统计规律.相关和回归是研究变量间线性关系的重要方法.一、相关系数的几种定义相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。样本相关系数用r表示,由于研究对象的不同,相关系数有如下几种定义方式。1、简单相关系数:又称皮尔逊相关系数,又叫相关系数或线性相关系数,一般用字母P表示,是用来度量变量间的线性关系的量。2、复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。3、典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。二、相关系数的意义相关系数是衡量观测数据之间相关程度的一个指标,一般情况下,相关系数越大表明相关程度就越高。但是,相关系数只有相对意义,没有绝对意义。也就3是说,0.99不代表相关程度一定就高,0.4也不代表相关程度一定就低,这与样本空间的大小有关。实际工作中,只要相关关系显著,不必刻意追求高的相关系数。不同样本空间大小对应一个临界相关系数值,若统计值高于它,就代表相关关系显著,否则,为不显著。若有30组数据,临界相关系数为0.361,0.4的相关系数就代表相关关系显著;若只有3组数据,临界相关系数为0.997,0.99的相关系数仍代表相关关系不显著。因此,统计相关系数时必须与临界相关系数对比之后才有意义。许多人在做相关分析时,得到了0.9的相关系数,就得出相关关系很好的结论,实在是太离谱了,因为0.9很可能代表相关关系极不显著。三、相关系数的性质相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下:1、当r0时,表示两变量正相关,r0时,两变量为负相关。2、当|r|=1时,表示两变量为完全线性相关,即为函数关系。3、当r=0时,表示两变量间无线性相关关系。4、当0|r|1时,表示两变量存在一定程度的线性相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。5、一般可按三级划分:|r|0.4为低度线性相关;0.4≤|r|0.7为显著性相关;0.7≤|r|1为高度线性相关。四、根据变量不同的直线相关系数的分类在实践中,由于变量的特点不同,常使用不同的相关系数来描述变量间的相关程度。教育研究中常用的描述变量间直线相关程度的量数主要有积差相关系数、等级相关系数、点二列相关系数和rф系数等。1、积差相关系数英国著名统计学家皮尔逊(KPearson)跟随英国著名科学家高尔顿(FGalton)在合作研究有关人类身高遗传问题的过程中,提出了“回归”的概念以及积差相关分析方法。对于两个连续的变量(比率变量或等距变量),例如父辈的身高变量和子辈的身高变量之间有什么连带关系;学生的体重与身高变量之间有什么连带关系;不同学科成绩之间有什么样的相互关联;人的智力发展水平同学业成就之间相关程度如何等等,通过观测研究,可以用积差相关分析的方法,4定量地描述两个变量之间的相关强度与方向。2、等级相关系数概念等级相关是指以等级次序排列或以等级次序表示的变量之间的相关。等级相关法,不受变量总体分布形态的限制,在科研中应用很广。常用的等级相关方法主要有斯皮尔曼等级相关和肯德尔和谐系数。等级相关法适用于具有等级特征的数据资料间的相关分析,也适用于变量间具有线性关系或虽是测量数据但个数较少或不符合正态分布情况下的相关分析。优缺点适用范围广泛,斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。一组能用积差相关计算的数据,如果改用等级相关,精确度会低于积差相关。凡符合积差相关条件的,最好不要用等级相关计算。3、点二列相关系数如果求相关的两列变量中,其中一个变量是正态连续变量,而另一个变量是实质的二分名义变量,即按照事物性质划分为两类的变量,如男与女、是与非等,或者二分变量来自的总体是否正态连续变量不清楚,描述这样两个变量之间相关程度的方法称为点二列相关。点二列相关应用:鉴定题目的区分度。多用于是非题测验时评价测验内部的一致性,即评价测验中某一问题与测验总成绩之间是否具有一致性。4、rф系数当相关联的两变量至少有一个实质是二分型的,描述这样两个变量的相关程度用rф系数。求rф系数,要求同一组资料按两个标志分类,且每个标志下只有两个点值,表明变量的某种属性,并把资料整理成2×2列联表的形式。五、相关系数的缺点需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对5有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。六、相关系数的应用--应注意的几个问题1、相关系数的取值范围在-1.00至+1.00之间,即-1≤r≤+1。相关系数的正负号表示相关的方向性,正值表示正相关,负值表示负相关。相关的程度则以相关系数绝对值的大小来表示。如相关系数r=0.76和r=-0.76时,相关程度均为0.76,也就是说相关程度上一样的。2、相关系数是一个比值,不具有等距单位,不是相关量的等单位的度量,所以相关系数之间不能做加、减、乘、除运算。例如r=0.4和r=0.8,当时不能说后者是前者相关程度的两倍,也不能说前者是后者相关程度的二分之一。3、两变量间存在相关,并不一定存在因果关系,不能以相关程度为依据判断事物间联系的性质,而要从事物的本质方面进行分析,以便的出科学的结论。4、研究相关,一般要求大样本的成对变量,尤其积差相关系数受样本容量的大小及样本取值范围的影响较大,因此在求积差相关时成对的变量个数以不少于30为好。5、由于样本相关系数受抽样误差的影响,因此,由样本计算的相关系数需通过显著性检验才能确定是否真正有意义。参考文献[1]李传亮.相关系数的意义[J].四川成都:西南石油大学石油工程学院,2010.[2]朱昌平.相关系数的引出与其意义的理解[J].上海:华东师大学数学系2003级教育硕士,2001(7).6[3]陈炳为,许碧云.等级资料的多项相关、直线相关及秩相关系数的比较[J].现代预防医学2009(17):3206-3207.[4]谢文采.关于如何确定样本相关系数(r)相关程度的商榷[J].山西农业大学1988(2).[5]杨遵庆.等级相关系数方法的应用[J].北京商学院学报,1985(2).[6]李秀敏,江卫华.相关系数与相关性度量[J].河北石家庄:河北科技大学理学院,2006(12)