第十章回归分析F.Galton回归是由高尔顿在研究身高与遗传问题时提出的。1855年,他发表“遗传的身高向平均数方向的回归”文章,分析儿童身高与父母身高的关系。他发现父母的身高可以预测子女的身高,即父母越高或越矮时,其子女身高比一般儿童高或矮。但仍然存在例外现象:矮个的人的儿子比其父要高,身材较高的父母所生子女的身高将回归到人的平均身高。当父母身高走向极端化,其子女身高却接近平均身高——“向平均数方向的回归”现象。—摘自《欧美统计学史》2007年普通高等学校招生全国统一考试(广东卷,文18理17)17.(本小题满分12分)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据x3456y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程ˆˆybxa;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:32.5435464.566.5)2011年普通高等学校招生全国统一考试(广东卷,理科13)某数学老师身高176厘米,他爷爷、父亲和儿子的身高分别是173厘米、170厘米和182厘米,因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为___厘米。错误做法:X1234Y173170176180正确做法:X173170176Y170176182拟合后回归方程为Y=X+3当X=182,Y=185本章内容第一节回归分析定义及与相关分析的关系第二节一元线性回归第三节一元回归方程的评价第一节回归分析定义及与相关分析的关系1.回归分析与相关分析的关系回归分析和相关分析均为研究及度量两个或两个以上变量之间关系的方法。回归分析:是以数学方式表示变量间的关系。相关分析:是检验或度量这些关系的密切程度。2.回归分析的定义有X、Y两变量,若其中一个变量的变化依赖于另一变量的变化,它们的每个分量存在以下的关系:则称f(x)为y的关于x的回归方程。在回归分析中,我们称X为自变量或独立变量。Y为应(因)变量或从属变量。为误差变量。如果f(x)只由1个变量组成的线性方程,则称一元线性回归模型,如果f(x)为多个变量的线性方程,则称为多元线性回归模型。iixfy)(ixxf)(2211)(xxxf例10.1企业广告费(千万日元)营业额(亿日元)丰田107286三菱336851日产233589马自达82389铃61158IPM3781037住友129463任天堂313563TEKOKU142372YASUI4281020第二节一元线性回归广告费用与营业额的散布图r=0.945广告费5004003002001000营业额120010008006004002000YASUITEKOKU任天堂住友IPM铃马自达日产三菱丰田图10-1广告费与营业额的散布图我们想知道以下问题:1.广告费是否是增加营业额的原因?2.用广告费能否预测营业额?3.预测效果如何?相关分析:两变量对等的线性关系回归分析:使用一个变量来预测另一变量探索X变量是否Y变量变化的原因回归分析的目的:通过寻找变量间的依存(数量)关系,试用线性函数关系式表达,进行预测和原因探索方面的研究。用数学语言来表示Y=+X+营业额=+(广告费)+=?=?=?一元线性回归直线回归方程的模型是:yi=+xi+i其中,(1)是截距(2)是回归系数(回归直线的斜率)(regressioncoefficient)(3)i是误差。yi=(代入xi后的直线值)+(与该直线的偏差)y=2.1445x+99.0750500100015000100200300400500广告费营业额图10-2广告费与营业额的回归直线示意图图10-3回归直线示意图从散点图中可以看到X与Y的关系实际不是直线,但这些散点的分布有明显的直线趋势。我们就可以找到一条最能代表散点图上分布趋势的直线,这条最优拟合线即为回归线。数学形式为:bxaYˆbxaYˆXYbxaYˆ上述回归方程中,常数a表示该直线在Y轴的截距常数b表示该直线的斜率,在回归分析中b叫回归系数。回归系数的意义:自变量X每变化一个单位,应变量就变化b个单位。我们用最小二乘法来求回归方程。最小二乘法:就是散点图上每一点沿Y轴方向到直线的距离()的平方和最小。YˆiiYYˆYY=a+bx这一方程中的系数是靠x与y变量的大量数据拟合出来的。X●●●●●●●●●●具体步骤如下:用Q表示误差项平方和。,分别对a、b求一次导数后设为0整理方程组利用回归与相关关系Qeyxiininii2112[()]Qyxii20()Qyxxiii20()nxyxxxyiiiiii()()()22ˆxxyssbxbyaˆyxxyxyxyssbrssrb,例13.2下表是学生的课外补习时间导致校内反抗情绪增长的统计表,请建立回归方程学生反抗情绪Y补习小时XY2X21141166.672101810032471.373020416.77428464-3.2357749492.176369360.277542516-2.538610361007.779101018.2710441616-0.23Y平均3.9X平均6.3=241=625和=117.3))((YYXX2Y2X分别求各个有关统计量回归方程776.481.22)(22nXnXsx981.289.8)(22nYnYsy823.0YXXYxysssr514.0776.4/981.2823.0xyxyssrb662.03.6514.09.3xbyaXY514.0662.0ˆ第三节一元回归方程的评价决定系数r2决定系数越大,用这个自变量X来预测Y的效果越好.一元线性回归分析中要求决定系数超过0.5以上)ˆ)(ˆ(2)ˆ()ˆ()ˆˆ)(2222YYYYYYYYYYYYYYi(iIeXiYYYYYY222)ˆ()ˆ()(说明的变动由)()()(SSESSRSST误差平方和回归方程的偏差平方和总的偏差平方和SSTSSRYYYYr总偏差平方和回归方程的偏差平方和222)()ˆ(作业:下表为10名学生初一与初二的数学测验分数,请计算Y的回归方程。学生初一X初二Y017476027175037271046870057676067379076765087077096562107472下表为10名学生初一与初二的数学测验分数,请计算Y的回归方程。学生初一X初二Y01747633.711.1913.6902717502.7007.290372711-1.3-1.311.69046870-3-2.36.995.2905767653.718.52513.6906737926.713.4444.8076765-4-7.329.21653.29087077-14.7-4.7122.09096562-6-10.361.836106.091074723-0.3-0.990.09和710723134110268.1XXYY)(YYXX)(2)(XX)(YY22.1114.13ˆ2xxyssb32.147122.13.72xbya回归方程XY22.132.14ˆ补充资料:线性回归分析SPSS回归分析的基本步骤:步骤:analyze—regression—linear建议:在进行线性回归前,可以利用散点图进行统计分析。步骤:graph—scatter。从输出的散点图上可以看出,识字量与阅读能力呈明显的线性相关。描述阅读能力和识字量的关系的散点图识字量34003200300028002600240022002000阅读能力10090807060回归分析步骤:计算结果:回归方程:xy03.0593.0ˆ测定系数分析:回归方程的方差分析或回归系数的显著检验,解决了回归方程是否显著的问题,但回归分析中还要关心回归效果。测定系数R2表明回归模型中自变量的变异在因变量变异中所占的比例。比率越大,回归效果越好。R=0.82,R2=0.672,即识字量可以解释阅读能力67.2%的差异。