第三章统计案例3.1回归分析的基本思想及其初步应用第2课时线性回归分析[学习目标]1.了解残差平方和、相关指数R2的概念(重点).2.了解回归分析的基本步骤(难点)3.会用残差平方和与相关指数对回归模型拟合度进行评判(重点)4.了解简单的非线性回归分析方法(难点).1.残差对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差ei=yi-bxi-a,i=1,2,…,n,其估计值为ei=yi-y^i=yi-b^xi-a^,e^i称为相应于点(xi,yi)的残差.2.残差图及相关指数(1)残差图:我们可以利用图形来分析残差特征,作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量或预报变量等,这样作出的图形称为残差图.(2)相关指数:计算公式是R2=___________.其中残R2越大说明残差平方和越小,也就是说模型的拟合效果越好,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.温馨提示相关指数的计算公式中,分子是残差平方和,分母是总偏差平方和,计算时不要弄错,同时要清楚R2的大小与拟合效果的关系.1.思考判断(正确的打“√”,错误的打“×”).(1)在残差图中,纵坐标为残差,横坐标可以作为样本编号.()(2)在残差图中,残差点分布的带形区域越窄,则拟合效果越好.()(3)残差平方和越大,则R2越小,模型拟合效果越差.()解析:根据残差分析的概念知,这三个说法都是正确的.答案:(1)√(2)√(3)√2.下列数据符合的函数模型为()x12345678910y22.6933.383.63.844.084.24.3A.y=2+13xB.y=2exC.y=2e1xD.y=2+lnx解析:分别将x值代入解析式判断知满足y=2+lnx.答案:D3.为研究两个变量之间的关系,选择了4个不同的模型进行拟合,计算得它们的相关指数R2如下,其中拟合效果最好的模型是()A.相关指数R2为0.96B.相关指数R2为0.75C.相关指数R2为0.52D.相关指数R2为0.34解析:相关指数R2越大、越趋近于1,拟合效果越好.答案:A4.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R2为________.解析:由R2=1-残差平方和总偏差平方和得R2=1-6080=0.25.答案:0.255.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围,令z^=lny,求得回归直线方程为z^=0.25x-2.58,则该模型的回归方程为__________________.解析:因为z^=0.25x-2.58,z^=lny,所以y=e0.25x-2.58.答案:y=e0.25x-2.58类型1线性回归分析(自主研析)[典例1]为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x51015202530y7.258.128.959.9010.911.8(1)作出散点图,并求线性回归方程;(2)求相关指数R2,并判断模型的拟合效果;(3)进行残差分析.解:(1)散点图如图所示:—x=16×(5+10+15+20+25+30)=17.5,—y=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,所以R2=1-0.0131814.6784≈0.9991,所以回归模型的拟合效果较好.(3)由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型.[迁移探究1]在典例1条件不变的情况下,画出残差图.解:如图所示.[迁移探究2]在典例1的条件下,当x=35时,估计y的值.解:当x=35时,y=6.285+0.183×35=12.69.归纳升华解决线性回归分析问题的一般方法和步骤1.作散点图,或计算相关系数,判断两个变量之间的线性相关关系.2.列表计算,求线性回归方程.3.计算相关指数R2,或进行残差分析,作残差图,判断模型拟合效果.4.做出预报.类型2非线性回归分析[典例2]菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但采集上市时蔬菜仍存有少量的残留农药,食用时需要用清水清洗干净,下表是用清水x(单位:千克)清洗该蔬菜1千克后,蔬菜上残留的农药y(单位:微克)的统计表:x12345y5854392910(1)令ω=x2,利用给出的参考数据求出y关于ω的回归方程y^=b^ω+a^(a^,b^精确到0.1).参考数据:ωi=55,(ωi-ω—)(yi-y)=-751,(ωi-ω—)2=374,其中ωi=x2i,ω—=15i=15ωi.(2)对于某种残留在蔬菜上的农药,当它的残留量不高于20微克时对人体无害,为了放心食用该蔬菜,请估计至少需要用多少千克的清水清洗1千克蔬菜?(精确到0.1,参考数据5≈2.24)解:(1)由题意得,ω—=11,y=38.b^=-751374≈-2.0,a^=y—-b^ω—=60.0,所以y^=-2.0ω+60.0.(2)由(1)得,y^=-2.0ω+60.0,所以y^=-2.0x2+60.0,当y^≤20时,即-2.0x2+60.0≤20,解得x≥25≈4.5,所以为了放心食用该蔬菜,估计需要用4.5千克的清水清洗1千克蔬菜.归纳升华1.非线性回归方程的求法:(1)根据原始数据(x,y)作出散点图;(2)根据散点图,选择恰当的拟合函数;(3)做恰当的变换,将其转化成线性函数,求线性回归方程;(4)在(3)的基础上通过相应的变换,即可得非线性回归方程.2.非线性相关问题常见的几种线性变换:(1)y=aebx,令y′=lny,x′=x,a′=lna,则有y′=a′+bx′;(2)y=a+blnx,令y′=y,x′=lnx,则有y′=a+bx′;(3)y=bx2+a,令y′=y,x′=x2,则有y′=bx′+a.[变式训练]以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=lny,其变换后得到线性回归方程z=0.3x+4,求c的值.解:因为y=cekx,所以两边取对数,可得lny=ln(cekx)=lnc+lnekx=lnc+kx,令z=lny,可得z=lnc+kx,因为z=0.3x+4,所以lnc=4,所以c=e4.类型3弄不清回归模型的类型致误(误区警示)[典例3]在一次抽样调查中测得样本的5个样本点数值如下表所示:x0.250.5124y1612521试建立y与x之间的回归方程.易错提示:本题易犯的错误是直接使用最小二乘法求出线性回归直线方程,实际上,本题中的数据在散点图上并不在某条直线附近,因此不能用线性回归模型求解.[规范解答]由数值表可作散点图如图所示:根据散点图可知y与x近似地呈反比例函数关系,设y=kx,令t=1x,则y=kt,原数据变为:防范措施:只有当两变量间呈线性相关关系时,才可以求回归系数,得到回归直线方程y^=b^x+a^.若两变量间的关系不是线性相关关系,应观察分析其散点图,找出拟合函数,通过变量代换再作线性回归.由置换后的数值表作散点如图所示:由散点图可以看出y与t呈近似的线性相关关系,列表如下:t4210.50.25y1612521itiyitiyit2iy2i141664162562212244144315512540.5210.25450.2510.250.06251∑7.753694.2521.3125430所以—t=1.55,—y=7.2.[类题尝试]在一项调查中有两个变量x(单位:千元)和y(单位:t),下图是根据这两个变量近8年来的数据得到的散点图,那么适宜作为y关于x的回归方程类型的是()A.y=a+bxB.y=c+dxC.y=m+nx2D.y=p+qcx(q0)解析:散点图呈曲线,排除A选项,且增长速度变慢,排除C,D选项.答案:B1.线性回归分析中拟合效果的评判问题:(1)求出线性回归模型(即线性回归直线方程)、残差平方和越小,拟合效果越好;②R2越大(越接近于1),拟合效果越好.(2)对于同一个问题可以有n个不同的拟合模型,要分别求出各个模型的线性回归直线方程、残差平方和、相关指数,残差平方和小的拟合效果好,相关指数大的,拟合效果好.2.非线性回归分析中的问题:(1)根据实验数据,画出散点图,从中观察其变化规律,并与已知函数的图象对比,看接近于什么函数,根据实践经验来决定选取公式的类型,所选的类型是否符合实际,还需要通过实践来检验.有时候还需要选择不同的模拟函数作比较.(2)如果观察散点图,发现点的分布不呈条状分布,而是与某种曲线相近,这时可选择这条曲线对应的函数作为拟合函数,作恰当变换,转化为线性函数,用线性回归模型求解.常见的非线性回归模型:①反比例函数y=a+bx可作变换t=1x,得y=a+bt.②幂函数型y=axb(a>0)可作变换Y=lny,m=lna,t=lnx,则有Y=m+bt.③指数型函数y=kabx(a>0且a≠1,k>0),可作变换Y=lny,m=lnk,则有Y=m+(blna)x.