第十章直线回归与相关本章介绍双变量资料的直线回归(linearregression)与直线相关(linearcorrelation)的统计方法,用以研究两个变量的数量关系,包括统计描述和统计推断。第一节直线回归一、直线回归方程统计研究的双变量有2种情况:①一个变量是选定变量,以X表示,其X值是选定的;一个变量是随机变量,以Y表示,其Y值是随机变化的。医学和生物学中常见的是各X值处Y服从正态分布。例如选定变量为年龄X,用1岁作间距,随机变量为各岁处人群的身高Y,则各X值处Y服从正态分布。②两个变量都是随机变量,以X和Y表示。常见的是(X,Y)服从双变量正态分布(bivariationnormaldistribution),即任意X值处Y服从正态分布,任意Y值处X服从正态分布。例如某个人群的身高和体重用X和Y表示,则(X,Y)服从双变量正态分布。双变量资料的统计方法是研究随机变量和选定变量或两个随机变量的数量关系。这种研究是群体研究,其数量关系为统计关系或不确定关系。X值处的个体Y值是不确定的,而是以其均数为中心随机变化。例如不同年龄处的个体身高值是不确定的,而是以该年龄的身高均数为中心而随机变化。这和一般数学研究两个变量的个体函数关系或确定关系不同。两个变量的数量关系就研究目的来说有依存关系和互依关系。依存关系中一个为自变量,常以X表示;一个为应变量,常以Y表示。研究X对Y的作用或Y对X的依赖,用回归分析。互依关系中两个变量可令为X和Y。研究X和Y的彼此关系或彼此影响,用相关分析。一般说来,相关分析只适用于双随机变量。两个变量的数量关系就数学形式来说有直线关系和曲线关系(或非直线关系)。直线关系为最简单和最基本关系,用直线回归与直线相关描述。本节介绍直线回归。如果选定变量各X值处随机变量Y服从正态分布且方差相等,各X值处Y的总体均数μY.x不等且在一条直线上,则该直线称为总体的μY.X对X的回归直线。双变量正态分布总体若X和Y的总体相关系数(见下节)不等于零,则存在μY.X对X和μY.X(Y值处X的总体均数)对Y的两条回归直线,但实际应用中一般只研究一条回归直线,可定自变量为X,应变量为Y。设样本的n对变量值为:(X1,Y2),(X2,Y2),…,(Xn,Yn)。如果观察到Y随X的变化有直线趋势,即Y随X增大而有相应的增大或减小趋势,把n对变量值在直角坐标图上描出相应的n点,散点图(scatterdiagram)呈直线趋势(并非所有散点恰在1条直线上),则可拟合样本Y对X的直线回归方程(linearregressionequation),作为总体直线回归方程的估计。据样本n对变量值拟合直线回归方程的方法用最小二乘法(leastsquaremethod),即使各散点离回归直线的纵向距离平方和为最小。样本直线回归方程及其计算公式为)YabX=+(·)101bXXYYXXXYYnXXn=???=??∑∑∑∑∑∑()()()()/()/222(·)102()aYbXYnbXn=???∑∑/()/(·)103)Y为值处的总体均数(μ)的估计值。为常数项,是回归直线XYaY.X线在Y轴上的截距。b称为直线回归系数,简称回归系数(regressioncoefficient),是直线的斜率。回归系数b描述Y依赖X的直线变化的数量关系的方向与大小。为了进行直观分析,可据直线回归方程绘制回归直线。在X的实测全距范围内任取相距较远且易读数的两个X值,代入直线回归方程求得两个Y值,把这两对变量值在直角坐标图上描两点,通过两点连直线。直线回归方程及相应的回归直线的主要用途有:①描述应变量依赖自变量变化而变化的数量关系。例如描述儿童身高依赖年龄变化而变化的数量关系。②由易测的变量值来估算难测的变量值。如用病人体重来估算其体表面积。③由现在的变量值来预测将来的变量值。如由父亲身高来预测儿子成人后的身高。④由于引入自变量,缩减了应变量的变异,因此能更精密地确定不同自变量值处应变量值的正常值范围。例如若不考虑年龄,小儿体重的变异范围大,即正常值范围宽,引入年龄作为体重的自变量,各年龄处小儿体重的变异减小,正常值范围变窄。例10·1某地10名女中学生的体重与肺活量如表10-1的第(1)、(2)、(3)栏。①以体重为X(kg)、肺活量为Y(L),绘制散点图,观察有无直线趋势。②若有直线趋势,拟合Y对X的直线回归方程。如图10-1,把表10-1的10对(X,Y)值在直角坐标图上描出相应的10点。观察到散点图有直线趋势。于是拟合Y对X的直线回归方程。计算表如表10-1,其相关系数的计算见下节。b=?×?==9465540523151016501405108975985009112..//...a=23.15/10-0.0911405/10=-1.3746×故得女中学生肺活量Y(L)对体重X(kg)的直线回归方程为)Y=-1.3746+0.0911X据拟合的直线回归方程绘制回归直线:取则×取则×X=35Y=-1.3746+0.091135=1.81X=45Y=-1.3746+0.091145=2.721122))如图10-1,把(35,1.81)和(45,2.72)在直角坐标图上描出2点,通过这2点连直线即得回归直线。回归直线应在X的实测全距范围内或估计的实际可应用范围内绘制,不要任意延长。表10-1某地10名女中学生的体重X(kg)与肺活量Y(L)的直线回归方程及相关系数的计算编号XYX2Y2XY(1)(2)(3)(4)(5)(6)1351.6012252.560056.002371.6013692.560059.203372.4013695.760088.804402.1016004.410084.005402.6016006.7600104.006422.5017646.2500105.007422.6517647.0225111.308432.7518497.5625118.259442.7519367.5625121.0010452.2020254.840099.00合计40523.151650155.2875946.55图10-110名女中学生体重与肺活量的散点图及拟合的肺活量对体重的回归直线二、总体回归系数的假设检验总体μY.X(X值处Y的总体均数)对X的直线回归方程的回归系数用β表示。若β=0,则各X值处μY.X相等,Y的变化不依赖X,即总体不存在μY.X对X的直线回归方程及相应回归直线;只有β≠0时总体才存在μY.X对X的回归直线。因此推断总体是否存在μY.X对X的回归直线,即推断总体回归系数β是否等于零。样本回归系数b为总体回归系数β的点估计,样本直线回归方程为总体直线回归方程的估计。显然只有β≠0,所拟合的样本直线回归方程及绘制样本回归直线才有意义。总体回归系数的假设检验的检验假设(或无效假设)H0为β=0;备择假设H1一般用双侧β≠0。如果H0成立,则b和0的差别完全由抽样误差造成。样本检验统计量为t,称为样本回归系数b和总体回归系数0比较的t检验。计算t值的公式为tbsbsvnbb=?==?||||02(·)104式中sb为回归系数的标准误,计算公式为:sSXXbYX=?∑.()2(·)105式中sY.X为Y的剩余标准差,是扣除X的影响后Y的变异指标,计算公式为sYYnYX.()=??∑)22(·)106式中()为的剩余平方和,即直角坐标图上各散点离回归Y-YY)2∑直线的纵向距离平方和,计算公式为[]()()()()()YYYYXXYYXX?=?????∑∑∑∑)2222(·)107式中,其他可用求值的(·)式的()Y-Y=Y-(Y)/nb102222∑∑∑分子和分母数据。例10·2据例10·1中某地10名女中学生的体重与肺活量资料,问是否存在该地女中学生的肺活量对体重的回归直线?即例10·1中所拟合的样本直线回归方程是否有意义?设该地女中学生总体肺活量对体重的回归系数为β,假设为:H0:β=0H1:β≠0α=0.05在例·中已算得,,101b=0.0911X-XY-=8.975X-X()()()Y∑∑2=98.5。现据表10-1中数据算得()../.YY?=?=∑2255287523151016953然后算得()../..YY?=?=∑)2216953897598508775ssYXb......=?===08775102033120331298500334据(10·9)式有t===??009110033427281028...ν查t界值表得P<0.05。按a=0.05水准拒绝H0,接受H1,认为存在该地女中学生的肺活量对体重的回归直线,因此例10·1中所拟合的样本直线回归方程有意义。第二节直线相关一、相关系数直线相关适用于服从双变量正态分布的双随机变量。直线相关研究两个变量X和Y的互依关系,即X和Y协同变化的数量关系。直线相关系数简称相关系数(correlationcoefficient),用以描述两个变量直线相关的方向与紧密程度。总体相关系数用ρ表示,样本相关系数用r表示。由样本n对变量值(X1,Y1),(X2,Y2),…,(Xn,Yn)求r的公式为[][]rXXYYXXYYXYXYnXXnYYn=???=???∑∑∑∑∑∑∑∑∑∑()(_)()()()()/()/()/222222(·)108相关系数没有单位,其取值范围为:-1≤r(或ρ)≤1。相关系数r的意义可用图10-2说明。若散点图呈椭圆形分布,X和Y有同时增大或减小的趋势,则0<r<1,称为正相关;若X和Y有一个增大、另一个减小的趋势,则-1<r<0,称为负相关。r=1为完全正相关;r=-1为完全负相关。完全相关散点都在一条直线上,即X和Y有确定函数关系。两个随机变量不可能完全相关。r=0,称为零相关。零相关表示X和Y没有协同变化的数量关系,如图中所示常见的3种零相关情况。因此零相关实际可认为是无相关。注意的是:r是就双变量(X,Y)的样本而言,就总体而言应该用ρ。图10-2相关系数的意义示意图例10·3求例10·1中某地10名女中学生体重和肺活量的相关系数。据表10-1有()r=?×??94655405231510165014051065287523151022..//(../)0.6945该地10名女中学生体重和肺活量的相关系数为0.6945。二、总体相关系数的假设检验双变量(X,Y)正态分布总体X和Y的相关系数为ρ。若ρ=0,则X和Y无相关;只有ρ≠0时X和Y才有直线相关关系,ρ>0为正相关,ρ<0为负相关。因此推断总体的X和Y有无直线相关关系,即推断总体相关系数ρ是否等于零。样本相关系数r反映样本中n对变量值直线相关的方向与紧密程度,为总体相关系数ρ的点估计。显然只有ρ≠0,所求得的样本相关系数才有意义。总体相关系数的假设检验的检验假设(或无效假设)H0为ρ=0;备择假设H1双侧为ρ≠0,单侧为ρ>0或ρ<0。如果H0成立,则r和0的差别完全由抽样误差造成。样本检验统计量为t,称为样本相关系数r和总体相关系数0比较的t检验。计算t值的公式为trsrrnnr=?=??=?||||01222ν(·)109式中sr为相关系数的标准误。例10·4据例10·1中某地10名女中学生的体重与肺活量资料,问体重和肺活量有无直线相关关系?设该地女中学生总体体重和肺活量的相关系数为ρ,假设为:H0:ρ=0H1:ρ≠0α=0.05今n=10,在例10·3中已算得r=0.6945。据(10·9)式有t=??==?=06945106945102273010282...ν查t界值表得P<0.05。按α=0.05水准拒绝H0,接受H1,认为该地女中学生的体重和肺活量有正的直线相关关系。现在总结说明直线回归和直线相关的一些注意事项:1.直线回归反映两变量间的依存关系,直线相关反映两变量间的互依关系,依存关系和互依关系都是数量关系,其实际的因果关系要靠专业知识阐述。因此不要把实际毫无关联的医学指标或现象作相关与回归分析。2.对于X选定、Y服从正态分布的双变量,只作直线回归分析;若(X,