双变量回归与相关JiangsuUniversity两变量间的关系1、确定性关系:函数2、不确定性关系:回归关系或相关关系JiangsuUniversity现实生活中,许多现象之间有相互联系,然而并不像函数那样是确定性关系。例如:身高与体重、体温与脉搏、年龄与医疗费用等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。有些变量间关系密切,有些不密切;有些是因果关系;但是,有的现象之间因果不清,只是伴随关系。直线回归(Linearregression)JiangsuUniversity“regression”一词的来源FGalton的研究JiangsuUniversity为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。JiangsuUniversity图1078对父子身高间的关系*为了描述两变量之间的关系,首先在直角坐标系上描述这些点,这一组点集称为scatterdiagram。JiangsuUniversity直线回归分析就是用来描述一个变量如何依赖于另一个变量的统计方法。dependentvariable(应变量)independentvariable(自变量)JiangsuUniversity回归方程直线回归的任务就是要找出因变量随自变量变化的直线方程,我们把这个直线方程叫做直线回归方程。式中的是由自变量X推算应变量Y的估计值。a是回归直线在Y轴上的截距,称为常数项(constant),即X=0时的Y值;b为样本的回归系数(reg.Coeff.),即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。ˆYabXˆYJiangsuUniversity求偏导数得正规方程组22ˆ()iQeYy2[()]YabXmin00QaQb最小二乘法(leastsquaremethod,LS):使各散点到直线的纵向距离的平方和最小。JiangsuUniversityaybx222XYXXXYXYXxYylnblXxXXn可见:直线一定经过“均数”点,xy解上述方程组,得:JiangsuUniversity回归直线的描绘根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的Y估计值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过。这两点可以用来核对图线绘制是否正确。0,,,axyJiangsuUniversity实例(P184)例9-1某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。表9-18名正常儿童的年龄X(岁)与尿肌酐含量Y(mmol/24h)编号12345678年龄X131196810127尿肌酐含量Y3.543.013.092.482.563.363.182.65JiangsuUniversity图9-18名儿童的年龄与尿肌酐含量散点图2.42.62.83.03.23.43.6468101214年龄(岁)X尿肌酐含量(mmol/24h)Y(,)xyJiangsuUniversity编号年龄X肌酐YX2Y2XY1133.5416912.5346.022113.011219.0633.11393.09819.5527.81462.48366.1514.88582.56646.5520.486103.3610011.2933.607123.1814410.1138.16872.65497.0218.55合计7623.8776472.27232.61SXSYSX2SY2SXY222//232.617623.87/876476/85.84500.139242XYXXXYXYnlblXXnSSSSS/23.87/82.9838yYnS回归方程中参数估计值a、b的计算步骤2.98380.13929.51.6617aybx/76/89.5xXnSˆ11.66710.1392YX例9资料的回归方程:JiangsuUniversitya、b的解释ˆ911.66710.1392YX例资料的回归方程:斜率(b)-回归系数当X每增加1个单位时,Y平均改变b个单位•本例b=0.1392,表明在所研究的年龄范围内,年龄每增加1岁,尿肌酐含量平均增加0.1392mmol/24h截距(a)-常数项X=0时Y的平均值•本例a=1.6617,表示年龄为0时,尿肌酐含量的期望值为1.6617mmol/24h(注意有时这种解释无实际意义,如本例)JiangsuUniversity直线回归方程是从样本资料计算而得的,a、b同样存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数用β表示。回归方程的检验JiangsuUniversity回归系数的假设检验H0:β=0H1:β≠0α=0.05选择合适的假设检验方法(方法有二),计算检验统计量(1)方差分析(2)t检验判断P值做出推论:统计学结论和专业结论JiangsuUniversityˆˆYYYYYYˆ()yy回归部分()Yy总情况Y(,)PXYyXˆ()Yy剩余部分(1)回归系数的方差分析xJiangsuUniversityJiangsuUniversity222ˆˆ()()()ˆˆ()()()YyYyyyYyYyyySSSSSS总剩回总剩回可以证明:即同样有:=+Y的离均差平方和的分解JiangsuUniversitySS总=2)(YY,Y的离均差平方和(totalsumofsquares),未考虑X与Y的回归关系时Y的总变异。1nSS剩=2)ˆ(YY,为剩余平方和(residualsumofsquares),X对Y的线性影响之外的一切因素对Y的变异,即总变异中,无法用X解释的部分。SS剩越小,回归效果越好。2nSS回=2)ˆ(YY,为回归平方和(regressionsumofsquares),由于X与Y的直线关系而使Y变异减小的部分,即总变异中,可以用X解释的部分。SS回越大,回归效果越好。1几个平方和的意义JiangsuUniversity222222ˆˆ()()()ˆ()22YYXYXYXXXXYXYYYYYYSSSSSSSSllSSblbllSSYYSMSnnS剩总回总回剩剩公式可写成:=--===再看公式:2222ˆXXYYXXYYYY=JiangsuUniversitySS剩的求法编号(1)XY(2)(3)(4)(5)=(3)-(4)(6)=(5)21133.543.47130.06870.00472113.013.1929-0.18290.0335393.092.91450.17550.0308462.482.4969-0.01690.0003582.562.7753-0.21530.04646103.363.05370.30630.09387123.183.3321-0.15210.0231872.652.63610.01390.0002合计7623.8723.8728-0.00280.2328Yˆ2)ˆ(YYYYˆˆ1.66170.1392YX备注:JiangsuUniversityb的检验-方差分析剩回剩剩回回MSMSSSSSF;21n剩回,统计量F服从自由度为剩回、的F分布。例9-2检验例9-1求得尿肌酐含量与年龄之间的直线关系是否成立?解:1.建立假设并确定检验水准。Ho:β=0;H1:β≠0;=0.052.计算检验统计量F变异来源SSDFMSFP值总变异1.04627回归0.813410.813420.970.0038剩余0.232860.03883.确定P值下结论。本例P=0.05,按=0.05水准拒绝Ho,…JiangsuUniversityb的检验-t检验公式,υ=n-2b-b-0bbbbtSSS=2YXYXbXXXXSSSl=Sb为回归系数的标准误SY.X为Y的剩余标准差(standarddeviationofresiduals)。JiangsuUniversity剩余(残差)标准差SY.X2ˆ22YXYYSSSMSnn剩剩==度量了实测点远离回归直线的离散程度,反映了模型的可靠性。其值越小,回归模型越好。JiangsuUniversity斜率b的假设检验H0:=0H1:0.05自由度8-2=6查t界值表:Decision:Conclusion:0.139204.5790.197042bbbtS=.05水准拒绝H0回归系数b有统计学意义注意:两种检验是完全等价的,即20.974.579tFJiangsuUniversity回归方程的参数估计(了解)(一)总体回归系数β的区间估计(b-t/2(n-2)Sb,b+t/2(n-2)Sb)简记为bt/2(n-2)Sb求本例β的95%可信区间(0.1392-2.447×0.0304,0.1392+2.447×0.0304)=(0.0648,0.2136)JiangsuUniversity(二)总体截距α的区间估计(a-t/2(n-2)Sa,a+t/2(n-2)Sa)简记为at/2(n-2)Sa22|7640.030480.2970YXabXXSXXSSnnl求本例α的95%可信区间(1.6617-2.447×0.2970,1.6617+2.447×0.2970=(0.9349,2.3884)补充(了解)JiangsuUniversity(一)个体Y值的预测区间(注:不属于参数估计范畴)00/2(2)/2(2)ˆˆ(,)nYnYYtSYtS缩写为0/2(2)ˆnYYtS020.2()11()YYXxXSSnXX本例:当0x=12时,01.66170.1392123.3321Y021(129.5)0.197010.2223842YS个体Y值的95%预测区间:(3.3321-2.447×0.2223,3.3321+2.447×0.2223)=(2.788,3.876)预测值的区间估计回归线的一个重要应用是做预测,预测时必须要考虑的问题是预测的精度。意义:若某名12岁儿童的尿肌酐含量不在该范围内,则可认为:是不正常的,应该查找不正常的原因。JiangsuUniversity(二)的区间估计(注:属于参数估计)00ˆˆ/2(2)/2(2)ˆˆ(,)nnYYYtSYtS缩写为0ˆ/2(2)ˆnYYtS020ˆ2()1()YXYxXSSnXX本例:当0x=1.5时,0ˆ1.66170.1392123.3321Y02ˆ1(129.5)0.19700.1031842YS|YX的95%可信区间:(3.3321-2.447×0.1031,3.3321+2.447×0.1031)=(3.080,3.584)|YX若我们不是估计一个儿童,而是估计具有指定年龄的一群儿童尿肌酐含量的平均水平。这在研究儿童生长发育过程的尿肌酐变化规律中会遇到。JiangsuUniversity95%的置信区间与个体Y的预测区间编号XYY_hat均数标准误个值标准误均数下限均数上限个值