原创:贾国梅作者单位:湖北三峡大学一、线性相关的基本概念二、线性相关系数三、相关系数的显著性检验四、进行线性相关分析的注意事项第一节线性相关(linearcorrelation)第八章线性相关与回归(LinearCorrelation&Regression)例从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长编号身高(cm)前臂长(cm)XYX2Y2(X)(Y)1170477990289002209217342726629929176431604470402560019364155416355240251681517347813129929220961885094003534425007178478366316842209818346841833489211691804988203240024011016543709527225184911166443174285612116合计18915008618532608122810一、线性相关的基本概念为直观地判断两个变量之间的关系,可在直角坐标系中把每对(Xi,Yi)值所代表的点绘出来,形成散点图。例如12名男青年身高与前臂长资料绘制的散点图如图所示:身高190180170160150前臂长525048464442401.如果两个随机变量中,当其中一个变量由小到大变化时,另一个变量也相应地由小到大(或由大到小)变化,并且其相应变化的散点图在直角坐标系中呈现直线趋势,则称这两个随机变量存在直线相关。推断两个随机变量是否存在直线相关关系以及描述这种相关关系大小的分析方法就是直线相关分析(linearcorrelationanalysis),也称简单相关分析(simplecorrelationanalysis)。男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间存在线性相关关系,我们把这种关系称为直线相关。线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况:1.正相关2.负相关3.无相关2.直线相关分析的适用条件•(1)两个变量均为服从正态分布的随机变量,即要求他们服从双变量正态分布(bi-variablenormaldistribution);•(2)每对数据对应的点在直角坐标系中呈现直线趋势。二、线性相关系数在分析两个变量X与Y之间关系时,常常要了解X与Y之间有无相关关系,相关是否密切,是呈正相关还是负相关。相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。皮尔森(Pearson)相关系数的计算公式为:YYXXXYiiXYLLLYYXXYYXXrr.)()())((22相关系数r没有测量单位,其数值为-1≤r≤1相关系数的计算方法计算时分别可用下面公式带入相关系数r的计算公式中NYXXYYYXXNYYYYNXXXX222222相关系数的意义•(1)相关系数的符号反映两变量间的相关方向:r0为正相关,r0为负相关•(2)相关系数的绝对值反映两变量相关的密切程度:|r|越大,相关越密切。•r=1完全正相关•r=-1完全负相关•r=0零相关例从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,身高和前臂长均以cm为单位,测量结果如下表所示,试计算身高与前臂长之间的相关系数。编号身高(cm)前臂长(cm)XYX2Y2(X)(Y)1170477990289002209217342726629929176431604470402560019364155416355240251681517347813129929220961885094003534425007178478366316842209818346841833489211691804988203240024011016543709527225184911166443174285612116合计18915008618532608122810解:11n,X=1891,2X=89599,Y=500,2Y=22810,XY=86185。代入公式(10-2),得:909.1000111891326081)(222nXXLXX727.821150022810)(222nYYLYY455.23011500189186185))((nYXXYLXY按公式(10-1)计算相关系数r8012.0909.1000455.23082.727r•Spss操作三、相关系数的显著性检验与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。因此要判断两个变量X与Y是否真的存在相关关系,仍需根据作总体相关系数ρ是否为零的假设检验。常用的检验方法有两种:1.按自由度直接查附表11的界值表,得到P值。2nr10rt2r2n2.用假设检验法,计算统计量,其公式为:例10.1所得的r值检验男青年身高与前臂长之间是否存在相关关系?第一种方法1.建立检验假设0H:0,即身高与前臂长之间不存在相关关系1H:0;即身高与前臂长之间存在相关关系05.02.计算统计量n=11,r=0.8012,自由度=11-2=9,3.查r界值表,得统计结论查r界值表(附表11),得776.0)9(005.0r,因为r)9(005.0r,故P<0.005,按05.0水准拒绝0H接受1H,可以认为男青年身高与前臂长之间存在正相关关系。第二种方法1.建立同样的检验假设2.计算统计量017.42118012.0108012.02rtν=11-2=93.查界值表,得统计结论查t界值表,得690.3)9(005.0t,)9(005.0ttr,P<0.005,结果与查r界值表一致。22102nnrrsrtr,四、进行线性相关分析的注意事项⒈线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。⒉相关分析要求x、y是来自双变量正态总体的随机变量,一个变量的数值人为选定时不能作相关。四、进行线性相关分析的注意事项⒊依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。四、进行线性相关分析的注意事项⒋相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。出现异常值时慎用相关分层资料盲目合并易出假象一、线性回归的基本概念二、线性回归方程的计算三、线性回归方程的显著性检验四、进行线性回归分析的注意事项第二节线性回归(linearregression)一、线性回归的基本概念相关是分析两个正态变量X与Y之间的互相关系。在相关分析中,分不清X与Y何者为自变量,何者为因变量。现在假设两个变量X、Y中,当一个变量X改变时,另一个变量Y也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关系数r表示变量Y与X线性关系的密切程度,也可以用一个直线方程来表示Y与X的线性关系。根据大量实测数据,寻找出其规律性,寻求一个直线方程来描述两个变量间依存变化的数量关系,即线性回归关系,这样得出的直线方程叫做线性回归方程linearregressionequation。线性回归方程的形式为:bXaY其中XXXY2LL)XX()YY)(XX(bXbYaY是给定X时Y的估计值b称为回归系数(regressioncoefficient)。a为回归直线在Y轴上的截距x取0时,y的平均估计值a0,表示直线与纵轴的交点在原点的上方a0,则交点在原点的下方a=0,则回归直线通过原点b为回归系数,即直线的斜率b0,直线从左下方走向右上方,Y随X增大而增大b0,直线从左上方走向右下方,Y随X增大而减小b=0,表示直线与X轴平行,X与Y无直线关系b的统计学意义是:X每增加(减)一个单位,Y平均改变b个单位最小二乘法原理:各点到回归线的纵向距离的平方和最小。Methodofleastsquare使计算出的回归直线最能代表实测数据所反映出的直线趋势二、线性回归方程的计算例10.3有人研究了温度对蛙的心率的影响,得到了表10-2中所示的资料,试进行回归分析。对象温度(X)心率(Y)XYX2Y212510425241144161213611663612148141126419651022220100484612232761445297143244819610248162946425684191832576324102410203468040011561122337264841089合计1322463622202466101.根据表10-2数据绘制散点图,如下图所示:温度3020100蛙心律4030201002.计算回归系数与常数项在本例中:132X20242X12X246Y26610Y22.363Y3622XY222()()(132)(246)3622670111.523()132440202411XYXXXYXYlnbXlXn22.3631.523124.087aYbXˆ4.0871.523YX则,回归方程为3.作回归直线按求得的回归方程,在X实测值的范围内(本例为2~22)任取两个相距较远的点)ˆ,(11YXA、)ˆ,(22YXB,连接A、B两点即得到回归直线。本例可取31X,计算出65.8ˆ1Y;212X,计算出06.36ˆ2Y,过(3,8.65)和(21,36.06)两点的连线即为所求的回归直线(regressionline)温度3020100蛙心律403020100ˆ4.0871.523YX三、线性回归方程的显著性检验•对线性回归方程要进行假设检验,就是要检验b是否为β=0的总体中的一个随机样本。该假设检验通常用方差分析或者t检验,两者的检验效果等价。H0:β=0(两变量之间无直线关系)H1:β≠0α=0.05bsbtxxxyxyblsxxss.2.)(2)ˆ(2.nyysxy2222)())(()()ˆ(xxyyxxyybllyyxyyyν=n-2对例10.3的回归方程用t检验进行假设检验(1)建立假设检验β=0β≠0α=0.05(2)计算统计量88.313.139YXs3.130.149440bs1.523010.220.149tV=11-2=9(3)确定P值作结论根据V=9,0.01/2(9)t3.250,P0.01,拒绝H0,直线回归方程的应用1.描述两个变量之间的数量依存关系。2.利用回归方程进行预测(1)由现在已知的变量值预测将来未知的变量值(父母身高预测子女身高)(2)由易测的变量值估算难测的变量值(体重预测体表面积)3.利用回归方程进行控制利用回归方程进行逆估计四、进行线性回归分析的注意事项⒈只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。⒉作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X,以“果”的变量为Y。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X。⒊在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个