01统计案例§1.1回归分析的基本思想及其初步应用第二课时回归分析的基本思想及其初步应用(二)目标导向1.知识与技能通过具体案例,掌握建立回归模型的基本步骤,并学会进行残差分析.2.过程与方法通过实例,领会总偏差平方和、残差平方和、回归平方和、残差分析等概念,会画残差图,领会建立回归模型的若干注意事项及其基本步骤.3.情感、态度与价值观相关关系有强弱,回归模型有优劣,残差分析是检查数据是否有误,模型是否合适的好办法.知识导学知识点1总偏差平方和、残差平方和、回归平方和与残差分析(1)总偏差平方和:i=1n(yi-y)2在课本P2例1中,假设身高和随机误差的不同不会对体重产生任何影响,那么所有的人的体重将相同,在体重不受任何变量影响的假设下,8名女大学生的体重都是她们体重的平均值,即8个人的体重都为54.5kg,在根据所给的数据作出的散点图中,所有的点都在同一条水平直线上,但事实并非如此,它们对应的点的情况就意味着预报变量(体重)的值受解释变量(身高)或随机误差的影响,例如,编号为6的女大学生的体重并没有落在水平直线上,她的体重为61kg,解释变量(身高)和随机误差共同把这名学生的体重从54.5kg推到了61kg,相差6.5kg,所以6.5kg是解释变量和随机误差的组合效应,用这种方法可以对所有预报变量计算组合效应.在数学上,把每个效应(观测值减去总的平均值)的平方加起来,即用i=1n(yi-y)2表示总的效应,称为总偏差平方和.(2)残差平方和:i=1n(yi-y^i)2假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线y^=a^+b^x上,但是,在实际问题中,数据点并没有完全落在回归直线上,这些点散布在回归直线附近,所以,一定是随机误差把这些点从回归直线上“推”开了,因此数据点和它在回归直线上相应位置的差异(yi-y^i)是随机误差的效应,称e^i=yi-y^i为残差,例如,对于编号为6的女大学生而言,计算随机误差的效应为61-(0.849×165-85.712)=6.627,对于每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号表示为:i=1n(yi-y^i)2称为残差平方和,它代表了随机误差的效应.(3)回归平方和:i=1n(yi-y)2-i=1n(yi-y^i)2(4)残差分析:在研究两个变量之间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差e^1,e^2,…,e^n来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图,从残差图中,如果有两个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误,如果数据采集有错误,就予以纠正,然后重新利用线性回归模型拟合数据,如果数据采集没有错误,则需要寻找其他原因.另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度就越高.知识点2相关指数R2=1-i=1nyi-y^i2i=1nyi-y2(即R2=1-残差平方和总偏差平方和)我们通过R2的值判断模型的拟合效果.R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好(因为R2越接近于1,表示解释变量和预报变量的线性相关性越强).如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选择R2大的模型来作为这组数据的模型.知识点3建立回归模型的若干注意事项及基本步骤(1)建立回归模型,需要注意以下问题:①回归方程只适用于我们所研究的样本的总体.②我们所建立的回归方程一般都有时间性.③样本取值的范围会影响回归方程的适用范围.④不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.(2)建立回归模型的基本步骤为:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).③由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y=b^x+a^).④按一定规则估计回归方程中的参数b^,a^.⑤得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性,等等),若存在异常,则检查数据是否有误,或模型是否合适等.重点导析重点领会建立回归模型的基本要求,学会回归分析,掌握求回归方程的基本步骤.思维导悟导悟1在含有一个解释变量的线性回归模型中,相关指数R2恰好等于相关系数r的平方,推导如下:R2=i=1ny^i-y2i=1nyi-y2=i=1nb^·xi+a^-y2i=1nyi-y2=i=1nb^·xi+y-b^·x-y2i=1nyi-y2i=1nb^·xi-b^·x2i=1nyi-y2=b^2·i=1nxi-x2i=1nyi-y2=i=1nxi-xyi-yi=1nxi-x22·i=1nxi-x2i=1nyi-y2=i=1nxi-xyi-y2i=1nxi-x2·i=1nyi-y2=r2.进一步地,由上式以及线性相关系数的性质知:在线性回归模型中有0≤R2≤1.因此,在一元线性回归模型中,相关指数和两个变量的相关系数都能刻画用线性回归模型拟合数据的效果.相关系数的绝对值越大,相关指数就越大,用线性回归模型拟合数据的效果就越好.当r=±0.8时,R2=0.64;当r=±0.9时,R2=0.81.通常当R20.80时,认为线性回归模型对该组数据是很有效的,这时两个变量的相关系数的绝对值几乎超过0.9.教科书中例1的计算结果是R2≈0.64,此时两个变量的相关系数的绝对值近似为0.8,所以认为该组数据用线性回归模型拟合还是比较有效的.导悟2残差分析在回归模型中,残差变量是一个不能被观测的量,即在实际问题中无法得到残差变量的观测值.因此,不能期望通过某种方法获取残差变量的值以提高预报变量的估计精度,但却能估计预报变量观测值中所包含的残差变量,这种估计对于查找样本数据中的错误和模型的评价极为有用.残差分析是回归诊断的一种方法.最简单的残差分析是通过观测残差图,以发现观测数据中可能出现的错误以及所选用的回归模型是否恰当,利用残差图进行残差分析的具体步骤如下:(1)计算每组观测数据的残差e^i=yi-y^i(i=1,2,…,n),即残差等于观测值减预报值.如教科书中的表1—4,这些数据表示因变量中没有由回归模型解释的部分.当残差比较小时,说明回归模型拟合数据较好.(2)画残差图.残差图的纵坐标为残差,横坐标通常可以是观测样本的编号、自变量x、或因变量的预报值等,残差图是一种散点图,如教科书中的图1.1-5.(3)分析残差图.几种常见的残差图如图1所示.我们以横坐标为观测样本的编号为例,说明每张图的含义.图1(1):残差散点图中的点分布在以原点为中心的水平带形区域上,并且沿水平方向散点的分布规律相同,说明残差是随机的,所选择的回归模型建模是合理的.图1(2):残差散点图中的点分布在一条倾斜的带形区域上,并且沿带形区域方向散点的分布规律相同,说明残差与横坐标有线性关系,此时所选用的回归模型的效果不是最好的,有改进的余地.图1(3):残差散点图中的点分布在一条二次曲线形的弯曲带形区域上,说明残差与坐标横轴变量有二次关系,此时所选用的回归模型的效果不是最好的,有改进的余地.图1(4):残差散点图中的点的分布范围随着横坐标的增加而增加,说明残差的方差与坐标横轴变量有关,不是一个常数,此时所选用的回归模型的效果不是最好的,有改进的余地.图1(4)找异常值.根据计算的残差值和残差图,观察是否存在残差特别大的点,即远离横坐标轴的点.如果存在远离坐标轴的点,就要研究它出现的原因,如是否在数据收集和录入中发生了错误,如果有错误,改正后重新建立回归模型.导悟3通过R2的值可判断拟合效果的好坏【例】假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)以x为解释变量,y为预报变量,作出散点图.(2)求y与x之间的回归方程,对于基本苗数56.7预报成熟期有效穗.(3)计算各组残差,并计算残差平方和.(4)求R2,并判断你所得模型的拟合效果.【解析】(1)散点图如图2:图2(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.设回归方程为y^=bx+a,x=30.36,y=43.5,i=15x2i=5101.56,i=15y2i=9511.43,xy=1320.66,y2=1892.25,x2=921.7296,i=15xiyi=6746.76.由b^=i=15xiyi-5xyi=15x2i-5x2≈0.291,a^=y-b^x≈34.66.故所求的回归直线方程为y^=34.66+0.291x.当x=56.7时,y^=51.16.估计成熟期有效穗为51.16.(3)由于y=bx+a+e,可以算得ei=yi-y^i,分别为e1=0.375,e2=0.73,e3=-0.49,e4=-2.21,e5=1.62,残差平方和i=15e2i=8.422125.(4)总偏差平方和i=15(yi-y)2=50.18,∴R2=1-i=15yi-y^i2i=15yi-y2=1-8.42212550.18≈0.832∴方程y^=0.291x+34.66的拟合效果好.