第十章直线相关与回归一、教学大纲要求(一)掌握内容⒈直线相关与回归的基本概念。⒉相关系数与回归系数的意义及计算。⒊相关系数与回归系数相互的区别与联系。(二)熟悉内容⒈相关系数与回归系数的假设检验。⒉直线回归方程的应用。⒊秩相关与秩回归的意义。(三)了解内容曲线直线化。二、学内容精要(一)直线回归1.基本概念直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simpleregression)。直线回归方程bXaYˆ中,a、b是决定直线的两个系数,见表10-1。表10-1直线回归方程a、b两系数对比ab含义回归直线在Y轴上的截距(intercept)。表示X为零时,Y的平均水平的估计值。回归系数(regressioncoefficient),即直线的斜率。表示X每变化一个单位时,Y的平均变化量的估计值。系数0a0表示直线与纵轴的交点在原点的上方b0,表示直线从左下方走向右上方,即Y随X增大而增大系数0a0表示直线与纵轴的交点在原点的下方b0,表示直线从左上方走向右下方,即Y随X增大而减小系数=0a=0表示回归直线通过原点b=0,表示直线与X轴平行,即Y不随X的变化而变化计算公式XbYaXXXYllXXYYXXb2)())((2.样本回归系数b的假设检验(1)方差分析;(2)t检验。3.直线回归方程的应用(1)描述两变量的依存关系;(2)用回归方程进行预测;(3)用回归方程进行统计控制;(4)用直线回归应注意的问题。(二)直线相关1.基本概念直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。2.计算公式YYXXXYlllYYXXYYXXr22)()())((相关系数r没有单位,其值为-1≤r≤1。其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。r值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;r的绝对值等于1为完全相关。3.样本相关系数r的假设检验(1)r界值表法;(2)t检验法。(三)直线回归与相关的区别与联系1.区别(1)资料要求:直线回归要求因变量Y服从正态分布,X是可以精确测量和严格控制的变量,一般称为Ⅰ型回归;直线相关要求两个变量X、Y服从双变量正态分布。这种资料若进行回归分析称为Ⅱ型回归。(2)应用情况:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系。(3)意义:b表示X每增(减)一个单位时,Y平均改变b个单位;r说明具有直线关系的两个变量间关系的密切程度与相关方向。(4)计算:b=lxy/lxx;r=lxy/yyxxll。(5)取值范围:—∞<b<+∞;-1≤r≤1。(6)单位:b有单位;r没有单位。2.联系(1)方向一致:对一组数据若能同时计算b和r,它们的符号一致。(2)假设检验等价:对同一样本,r和b的假设检验得到的t值相等,即tb=tr。(3)用回归解释相关:决定系数总回SSSSlllryyxxxy22,回归平方和越接近总平方和,则r2越接近1,说明引入相关的效果越好。(四)秩相关秩相关,又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于下列资料:⒈不服从双变量正态分布而不宜作积差相关分析;⒉总体分布型未知;⒊用等级表示的原始数据。三、典型试题分析1.回归系数的假设检验()A.只能用r的检验代替B.只能用t检验C.只能用F检验D.三者均可答案:D[评析]本题考点:回归系数假设检验方法的理解。回归系数的假设检验常用的方法有:①方差分析;②t检验。对同一样本,r和b的假设检验等价,r和b的假设检验得到的t值相等,即tb=tr。故回归系数的假设检验用三者均可。2.已知r1=r2,那么()A.b1=b2B.tb1=tb2C.tr1=tr2D.两样本决定系数相等答案:D[评析]本题考点:直线相关系数与回归系数关系的理解。因为相关系数r和回归系数b的计算公式不同,不能推导出b1=b2;r和b的假设检验等价,即tr1=tb1,tr2=tb2,而不是tb1=tb2,tr1=tr2;样本决定系数为r2,已知r1=r2,则两样本决定系数相等,即r12=r22。3.|r|r0.05(n-2)时,可认为两变量X与Y间()A.有一定关系B.有正相关关系C.一定有直线关系D.有直线关系答案:D[评析]本题考点:直线相关系数假设检验的理解。因为直线相关系数r是样本的相关系数,它是相应总体相关系数ρ的估计值。由于抽样误差的影响,必须进行显著性检验。r的假设检验是检验两变量是否有直线相关关系。|r|r0.05(n-2)时,P0.05,拒绝H0,接受H1,认为总体相关系数ρ≠0,因此可认为两变量X与Y间有直线关系。4.相关系数检验的无效假设H0是()A.ρ=0B.ρ≠0C.ρ0D.ρ0答案:A[评析]本题考点:直线相关系数显著性检验中检验假设的理解。因为r是样本相关系数,它是总体相关系数ρ的估计值。要判两变量间是否有相关关系,就要检验r是否来自总体相关系数ρ为零的总体。因为即使从ρ=0的总体作随机抽样,由于抽样误差的影响,所得r值也常不等于零。5.同一双变量资料,进行直线相关与回归分析,有()。A.r0,b0B.r0,b0C.r0,b0D.r与b的符号毫无关系答案:B[评析]本题考点:直线相关与回归的区别与联系的理解。因为对同一资料而言直线相关系数与回归系数的方向一致,若能同时计算b和r,它们的符号一致。因此,同一双变量资料,进行直线相关与回归分析,有r0,b0。四、习题(一)单项选择题1.下列()式可出现负值。A.∑(X—X)2B.∑Y2—(∑Y)2/nC.∑(Y—Y)2D.∑(X—X)(Y—Y)2.Y=14+4X是1~7岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位kg,则此方程()。A.截距改变B.回归系数改变C.两者都改变D.两者都不改变3.已知r=1,则一定有()。A.b=1B.a=1C.SY.X=0D.SY.X=SY4.用最小二乘法确定直线回归方程的原则是各观察点()。A.距直线的纵向距离相等B.距直线的纵向距离的平方和最小C.与直线的垂直距离相等D.与直线的垂直距离的平方和最小5.直线回归分析中,X的影响被扣除后,Y方面的变异可用指标()表示。A.,2()(2)xyXXSnB.2()(1)rYYSnC.,2()(2)yxYYSnD.2bxyXXSS6.直线回归系数假设检验,其自由度为()。A.nB.n-1C.n-2D.2n-17.应变量Y的离均差平方和划分,可出现()。A.SS剩=SS回B.SS总=SS剩C.SS总=SS回D.以上均可8.下列计算SS剩的公式不正确的是()。A.YYXYllbB.YYXXlblC.2YYXYXXlllD.2(1)YYrl9.直线相关系数可用()计算。A.YYXXXYlllB.YYXXYXllbC.XYYXbbD.以上均可10.当r=0时,bXaYˆ回归方程中有()。A.a必大于零B.a必等于XC.a必等于零D.a必等于Y(二)名词解释1.直线回归2.回归系数3.剩余平方和4.回归平方和5.直线相关6.零相关7.相关系数8.决定系数9.曲线直线化10.秩相关(三)是非题1.剩余平方和SS剩1=SS剩2,则r1必然等于r2。2.直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系。3.两变量关系越密切r值越大。(四)简答题1.用什么方法考察回归直线图示是否正确?2.剩余标准差的意义和用途?3.某资料n=100,X与Y的相关系数为r=0.1,可否认为X与Y有较密切的相关关系?4.r与rs的应用条件有何不同?5.应用直线回归和相关分析时应注意哪些问题?6.举例说明如何用直线回归方程进行预测和控制?7.直线回归分析时怎样确定因变量与自变量?(五)计算题1.10名20岁男青年身高与前臂长的数据见表10-2。⑴计算相关系数并对ρ=0进行假设检验;⑵计算总体ρ的95%可信区间。表10-210名20岁男青年身高与前臂长身高(cm)170173160155173188178183180165前臂长(cm)454244414750474649432.某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表10-3。⑴此资料有无可疑的异常点?⑵求直线回归方程并对回归系数作假设检验。⑶试估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。⑷求进食量为900g时,个体Y值的95%容许区间,并解释其意义。表10-3八只大白鼠的进食量和体重增加量鼠号12345678进食量(g)800780720867690787934750增量(g)1851581301801341671861333.某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如下,试检验两者有无相关?表10-4八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度城市编号12345678肺癌标化死亡率(1/10万)5.6018.5016.2311.4013.808.1318.0012.10苯并(a)芘(μg/100m3)0.051.171.050.100.750.500.651.204.就下表资料分析血小板和出血症的关系。表10-512例病人的血小板浓度和出血症的关系病例号123456789101112血小板数(109/L)12013016031042054074010601260123014402000出血症状+++++±-++----++-五、习题答题要点(一)单项选择题1.D2.C3.C4.B5.C6.C7.D8.B9.D10.D(二)名词解释1.直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simpleregression)。2.回归系数(regressioncoefficient)即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。3.剩余平方和(residualsumofsquares),SS剩即2ˆYY,它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分。在散点图中,各实测点离回归直线越近,2ˆYY也就越小,说明直线回归的估计误差越小。4.回归平方和(regressionsumofsquares),SS回即2ˆYY,它反映由于X与Y的直线关系而使Y的总变异所减小的部分,也就是在总平方和中可以用X解释的部分。回归平方和越大,说明回归效果越好。5.直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。6.零相关(zerrocorrelation)是指两变量间没有直线相关关系。11.相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个