第12章双变量回归与相关LinearRegressionandCorrelationContent1.Linearregression2.Linearcorrelation3.Rankcorrelation4.Curvefitting双变量计量资料:每个个体有两个变量值总体:无限或有限对变量值样本:从总体随机抽取的n对变量值(X1,Y1),(X2,Y2),…,(Xn,Yn)目的:研究X和Y的数量关系方法:回归与相关简单、基本——直线回归、直线相关英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家KarlPearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:历史背景:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。ˆ33.730.516YX目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。第一节直线回归一、直线回归的概念目的:研究应变量Y对自变量X的数量依存关系。特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X和Y的函数关系。为了直观地说明两相关变量的线性依存关系,用表12-1第(2)、(3)列中大白鼠的进食量和体重增加量的数据在坐标纸上描点,得图12-1所示的散点图(scatterplot)。例12-1用某饲料喂养12只大白鼠,得出大白鼠的进食量与体重增加量如表12-1,试绘制其散点图。表12-112只大白鼠的进食量(g)与体重增加量(g)测量结果序号进食量(g)X体重增加量(g)Y2X2YXY(1)(2)(3)(4)(5)(6)1305.723.693452.49556.967214.522188.614.735569.96216.092772.423277.219.276839.84368.645322.244364.827.7133079.04767.2910104.965285.318.981396.09357.215392.176244.716.159878.09259.213939.677255.917.265484.81295.844401.488149.812.922440.04166.411932.429268.918.372307.21334.894920.8710247.617.761305.76313.294382.5211168.813.728493.44187.692312.5612200.615.640240.36243.363129.36合计2957.9(ΣX)215.6(ΣY)770487.13)(2X4066.9)(2Y55825.2(ΣXY)图12-112只大白鼠进食量与体重增重量散点图51015202530130180230280330380进食量(g),X体重增加量(g),Y在定量描述大白鼠进食量与体重增加量数量上的依存关系时,习惯上将进食量作为自变量(independentvariable),用X表示;体重增加量作为应变量(dependentvariable),用Y表示。由图12-1可见,体重增加量有随进食量增加而增大的趋势,且散点呈直线趋势,但并非12个点都在直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linearregression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。ˆ(121)YabX直线回归方程ˆY为各X处Y的总体均数的估计。一般表达式为1.a为回归直线在Y轴上的截距。a0,表示直线与纵轴的交点在原点的上方;a0,则交点在原点的下方;a=0,则回归直线通过原点。0a=0a0a0XYb0,直线从左下方走向右上方,Y随X增大而增大;b0,直线从左上方走向右下方,Y随X增大而减小;b=0,表示直线与X轴平行,X与Y无直线关系。0XY2.b为回归系数,即直线的斜率。b的统计学意义是:X每增加(减)一个单位,Y平均改变b个单位。b0b0b=0二、直线回归方程的求法残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。ˆYˆYY原则:最小二乘法(leastsumofsquares),即可保证各实测点至直线的纵向距离的平方和最小(X,Y)式中XYl为X与Y的离均差乘积和:()()()()(126)XYlXXYYXYXYn2()()()XYXXXXYYlblXX(12-2)aYbX(12-3)例12-2(续例12-1)根据表12-1数据,对大白鼠的体重增加量进行回归分析。1.由原始数据及散点图(图12-1)的观察,两变量间呈直线趋势,故作下列计算。2.计算X、Y的均数X、Y。3.计算离均差平方和XXl、YYl与离均差积和XYl。解题步骤4.求回归系数和截距。2681.60.064841389.4XYXXlbl17.97(0.0648)(246.49)2.00aYbX5.列出回归方程(回归直线绘制见图12-1)ˆ2.000.0648YXbaˆ2.000.0648YX此直线必然通过点(,)且与纵坐标轴相交于截距a。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的X值代入回归方程得到一个点的坐标,连接此点与点(,)也可绘出回归直线。XYXY二直线回归中的统计推断1回归系数的假设检验建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?0理解回归中方差分析的基本思想,需要对应变量Y的离均差平方和YYl作分解如图12-4所示.1.1回归系数的方差分析任意一点P的纵坐标被回归直线Yˆ与均数Y截成三个线段,其中:)ˆ()ˆ(YYYYYY。由于P点是散点图中任取的一点,将全部数据点都按上法处理,并将等式两端平方后再求和则有数理统计可证明:222)ˆ()ˆ()(YYYYYYˆˆ()()0YYYYSSSSSS总回残上式用符号表示为式中总SS即2)(YY,为Y的离均差平方和,表示未考虑X与Y的回归关系时Y的总变异。回SS即2)ˆ(YY,为回归平方和。由于特定样本的均数Y是固定的,所以这部分变异由ˆiY的大小不同引起。当X被引入回归以后,正是由于iX的不同导致了ˆiiYabX不同,所以回SS反映了在Y的总变异中可以用X与Y的直线关系解释的那部分变异。b离0越远,X对Y的影响越大,回SS就越大,说明回归效果越好。YSS残即2)ˆ(YY,为残差平方和。它反应除了X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分,表示考虑回归之后Y真正的随机误差。在散点图中,各实测点离回归直线越近,SS残也就越小,说明直线回归的估计误差越小,回归的作用越明显。上述三个平方和,各有其相应的自由度,并有如下的关系:以上分解可见,不考虑回归时,随机误差是Y的总变异总SS;而考虑回归以后,由于回归的贡献使原来的随机误差减小为SS残。如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:MS回为回归均方MS残为残差均方。F服从自由度为回残、的F分布。式中22XYXYXXXXSSblllbl回SSMSFSSMS回回回残残残,12n回残,对0这一假设是否成立还可进行如下t检验2.t检验例12-3(续例12-1)根据表12-1数据进行回归系数的方差分析。解:先列出下列计算结果3.193总SS7.1734.413896.268122XXXYXYllblSS回6.197.1733.193回总剩SSSSSS6.8810/6.191/7.173//剩回剩剩回回MSMSSSSSF(2)计算统计量。见方差分析表表12-2方差分析表变异来源SSDFMSFP回归173.71173.70剩余19.6101.9688.60.001总变异193.311(3)确定P值。查F界值表,P0.001。(4)下结论。按水准,拒绝H0,接受H1,故可以认为体重的增加量与进食量之间有直线关系。05.0t检验方法40.12126.19YXS00688.04.4138940.1bs42.900688.00648.0t1021212n6.19剩SS4.41389XXl0648.0b前已算得:注意:(二)回归方程可信区间与预测一、总体回归系数的区间估计0648.0b/2,/2,(,)bbbtSbtS2n例12-5(续例12-1)试估计总体回归系数的95%的可信区间。00688.0bS228.210,2/05.0t(0.06482.2280.00688,0.06482.2280.00688)(0.0495,0.0801)二、二、的区间估计•是指总体中当X为一定值时的均数。把代入回归方程所求得的估计值,为样本条件均数(conditionmean)。对总体的估计可计算其可信区间,其标准误可按公式计算。YY0xY022002()()11()YXYXYXXxXxXSSSnXXnl0ˆ2,2/0ˆYnStY对一已知的自变量值按回归方程求出预测值,再按下式求出此条件下100(1-)%的可信区间。Yˆ0xXY0648.000.2ˆ40.1YXS2500x2.182500648.000.2ˆY405.04.41389)49.246250(12140.120YS例12-6(续例12-1)根据例12-2所求直线回归方程,试计算当时,95%的可信区间。2500xY)10.19,30.17()405.0228.22.18(10n10212228.210,2/05.0t2500xYˆ本例当时,95%的可信区间:个体Y值的容许区间020220()11()()11YYXYXXXxXSSnXXxXSnl容许区间就是总体中X为某定值时,个体Y值的波动范围,其标准差按下式计算。0YS个体Y值的容许区间按下式计算。1)ˆ(02,2/0YnStY例12-7用例12-6的数据,进一步计算当时,个体Y值95%的容许区间。2500x计算出个体Y值的95%容许区间为457.14.41389)49.246250(121140.120YS)44.21,95.14()457.1228.22.18,457.1228.22.18(回归方程的应用一、线性回归的主要用途1.研究因素间的依存关系自变量和应变量之间是否存在线性关系,或者应变量依赖自变量变化而变化的规律。2.估计与预测可用易测定的一组给定的自变量的观测值来推算较难测定的Y值。3.统计控制是利用回归方程进行逆估计,即应变量Y给出一个确定的值或在一定范围内波动时,通过控制自变量的取值来实现。二、线性回归应用的注意事项1.在进行直线回归分析之前,应绘制散点图。2.作回归分析时,要注意两变量间是否存在实际意义。3.两变量间存在直线关系时,不一定表明彼此之间就存在因果关系。4.建立回归方程后,须对回归系数进行假设检验。5.使用回归方程进行估计与预测时,一般只适用于原来的观测范围,即自变量的取值范围,不能随意将范围扩大。6.在