3.1回归分析的基本思想及其初步应用●三维目标1.知识与技能通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,解决实际应用问题.2.过程与方法通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,从散点图中点的分布上发现直接求回归直线方程存在明显的不足,从中去发现解决问题的新思路——进行回归分析,发现残差分析的方法和利用R2来表示解释变量对于预报变量变化的贡献率,从中选择较为合理的回归方程.3.情感、态度与价值观利用整体的观点和互相联系的观点来分析问题,进一步加强数学的应用意识,增强学好数学、用好数学的信心,加强与现实生活的联系,以科学的态度评价两个变量的相互关系.体会与他人合作的重要性,理解处理问题的方法与结论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神.●重点、难点重点:线性回归方程的建立及随机误差的来源.难点:残差变量的解释与残差分析.通过例1的讲解使学生进一步理解线性回归方程的建立及随机误差的产生,学会残差分析、突出重点,化解难点.课标解读1.通过对典型、案例的探究,了解回归分析的基本思想、方法及其初步应用.2.会求回归直线方程,并用回归直线方程进行预报.3.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.回归分析【问题导思】某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:推销员编号12345工作年限x/年35679推销金额y/万元23345请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?【提示】画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.设所求的线性回归方程为y∧=b∧x+a∧,则b∧=∑5i=1xi-xyi-y∑5i=1xi-x2=1020=0.5,a∧=y-b∧x=0.4.所以年推销金额y关于工作年限x的线性回归方程为y∧=0.5x+0.4.1.线性回归模型(1)表达式y=Ee=,De=.(2)基本概念:①a和b为模型的未知参数.②e是y与bx+a之间的误差.通常e为随机变量,称为.③x称为,y称为.bx+a+e0σ2随机误差解释变量预报变量2.衡量回归方程的预报精度的方法(1)残差平方和法①ei∧称为相应于点(xi,yi)的残差.②残差平方和,残差平方和,模型拟合效果越好.i=1nyi-yi∧2越小(2)残差图法残差点地落在水平的带状区域内,说明选用的模型比较合适.这样的带状区域的宽度,说明模型的拟合精度越高.比较均匀越窄(3)利用相关指数R2刻画回归效果其计算公式为:R2=;其几何意义:,表示回归的效果越好.1-i=1nyi-yi∧2i=1nyi-y2R2越接近于13.建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是,哪个变量是.(2)画出和的,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程.解释变量预报变量解释变量预报变量散点图(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析是否有异常(如个别数据对应残差,残差呈现等).若存在异常,则检查数据是否有误,或模型是否合适等.残差图过大不随机的规律性求线性回归方程某班5名学生的数学和物理成绩如表:学生学科ABCDE数学成绩(x)8876736663物理成绩(y)7865716461(1)画出散点图;(2)求物理成绩y对数学成绩x的线性回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩.【思路探究】解答本题先求出b∧、a∧即可求出回归方程,然后预测物理成绩.【自主解答】(1)散点图如图:(2)x=15×(88+76+73+66+63)=73.2.y=15×(78+65+71+64+61)=67.8.i=15xiyi=88×78+76×65+73×71+66×64+63×61=25054.i=15x2i=882+762+732+662+632=27174.∴b∧=i=15xiyi-5x·yi=15x2i-5x2≈0.625.∴a∧=y-b∧x=67.8-0.625×73.2=22.05.∴y对x的线性回归方程是y∧=0.625x+22.05.(3)当x=96时,y=0.625×96+22.05≈82.可以预测其物理成绩为82分.1.求线性回归方程的基本步骤:(1)列出散点图,从直观上分析数据间是否存在线性相关关系.(2)计算x,y,i=1nx2i,i=1ny2i,i=1nxiyi.(3)代入公式求出y∧=b∧x+a∧中参数b∧,a∧的值.(4)写出线性回归方程并对实际问题作出估计.2.需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.将本题(2)改为“求数学成绩y对物理成绩x的线性回归方程”,又如何?【解】y=15×(88+76+73+66+63)=73.2.x=15×(78+65+71+64+61)=67.8.i=15xiyi=25054.i=15x2i=782+652+712+642+612=23167.∴b∧=i=15xiyi-5x·yi=15x2i-5x2=25054-5×67.8×73.223167-22984.2=239.2182.8≈1.31,∴a∧=y-b∧x≈73.2-88.8=-15.6.∴y对x的线性回归方程为y∧=1.31x-15.6.线性回归分析某运动员训练次数与成绩之间的数据关系如下:次数(x)3033353739444650成绩(y)3034373942464851(1)作出散点图;(2)求出回归方程;(3)作出残差图;(4)计算相关指数R2.【思路探究】解答本题可按题目所要求的顺序一一作出解答.【自主解答】(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)x=39.25,y=40.875,∑8i=1x2i=12656,∑8i=1y2i=13731,∑8i=1xiyi=13810,∴b∧=∑8i=1xiyi-8xy∑8i=1x2i-8x2≈1.0415,a∧=y-b∧x=-0.003875,∴回归方程为y∧=1.0415x-0.003875.(3)残差分析某运动员训练次数与成绩之间的数据及相应的残差数据x3033353739444650y3034373942464851e∧=y-y∧-1.2411-0.36560.55140.46841.38540.17790.0949-1.0711作残差图如图所示:由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)计算相关指数R2计算得相关指数R2=0.9855.说明了该运动员成绩的差异有98.55%是由训练次数引起的.1.该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.2.刻画回归效果的三个方式(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.(2)残差平方和法:残差平方和∑ni=1(yi-y∧i)2越小,模型的拟合效果越好,(3)相关指数法:R2=1-∑ni=1yi-y∧i2∑ni=1yi-y2越接近1,表明回归的效果越好.在10年期间,一城市居民的年收入与某种商品的销售额之间的关系有如下数据:第几年12345城市居民年收入x(亿元)32.231.132.935.837.1某商品销售额y(万元)25.030.034.037.039.0第几年678910城市居民年收入x(亿元)38.039.043.044.646.0某商品销售额y(万元)41.042.044.048.051.0(1)画出散点图;(2)如果散点图中的各点大致分布在一条直线的附近,求y与x之间的回归直线方程.【解】(1)散点图如下图.(2)由散点图知各点大致分布在一条直线的附近,y与x之间具有线性相关关系.b∧=i=110xiyi-10xyi=110x2i-10x2=15202.9-10×37.97×39.114663.67-10×37.972=356.63246.461≈1.447,a∧=y-bx=39.1-1.447×37.97≈-15.843,因此所求的回归直线方程是y∧=bx+a=1.447x-15.843.非线性回归分析下表为收集到的一组数据:x21232527293235y711212466115325(1)作出x与y的散点图,并猜测x与y之间的关系;(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.【思路探究】画出散点图→确定是否线性相关→确定函数模型→转化为线性模型→求回归方程→进行拟合→进行预报【自主解答】(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y=c1ec2x的周围,其中c1、c2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z=lny,则有变换后的样本点应分布在直线z=bx+a,a=lnc1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:x21232527293235z1.9462.3983.0453.1784.1904.7455.784求得回归直线方程为z∧=0.272x-3.849,∴y∧=e0.272x-3.849.残差列表如下:yi711212466115325yi∧6.44311.10119.12532.95056.770128.381290.325ei∧0.557-0.1011.875-8.9509.23-13.38134.675(3)当x=40时,y=e0.272x-3.849≈1131.非线性回归问题的处理方法(1)指数函数型y=ebx+a①函数y=ebx+a的图象:②处理方法:两边取对数得lny=lnebx+a,即lny=bx+a.令z=lny,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.(2)对数函数型y=blnx+a①函数y=blnx+a的图像:②处理方法:设x′=lnx,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.(3)y=bx2+a型处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.为了研究某种细菌随时间x的变化繁殖个数y的变化,收集数据如下:时间x/天123456繁殖个数y612254995190(1)用时间作解释变量、繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程;(3)计算残差、相关指数R2.【解】(1)散点图如图所示:(2)由散点图可看出,样本点分布在一条指数函数y=c1ecx2的周围,于是令z=lny,则x123456z1.792.483.223.894.555.25由计算器算得z∧=0.69x+1.112,则有y∧=e0.69x+1.112.(3)残差分析列表如下:xi123456yi612254995190z∧i-0.06176-0.085420.9051050.961633-0.77484-0.94778经计算,相关指数R2≈0.9999.混淆a,b致误假设学生在初一和初二的数学成绩是线性相关的,若10个学生初一数学成绩(x)和初二数学成绩(y)列表如下:x74717268767367706574y76757170767965776272试求初一和初二数学成绩间的回归直线方程.【错解】由题意求得x=71,∑10i=1x2i=50520,y=72.3,∑10i=1xiyi=51467,∴a∧=51467-10×71×72.350520-10×712≈1.2182.b