1.1回归分析的基本思想及其初步应用(1)一、【教学目标】重点:了解回归模型与函数模型的区别;了解任何模型只能近似描述实际问题.难点:解释、分析残差变量.知识点:回归分析的基本思想及其初步应用.能力点:通过典型案例,进一步了解回归分析的基本思想、方法及其初步应用.教育点:经历由具体到一般的研究数学问题的过程,体会探究的乐趣,激发学生的学习热情.自主探究点:如何运用实例来研究残差.考试点:建立回归模型的基本步骤.易错易混点:利用残差如何衡量模型的拟合效果.拓展点:非线性回归模型的建立.二、【复习引入】【创设情境】提供六名篮球明星的图片,让学生猜最高最重的人,并提出身高和体重之间是什么关系?我们如何来研究这种关系?【设计意图】从学生感兴趣的篮球明星入手,层层深入,激发学生的学习兴趣.【复习回顾】问题1.现实生活中两个变量间的关系有哪些呢?(函数关系、相关关系)问题2.如何判断两个变量是否具有线性相关关系?(散点图)问题3.对于线性相关的两个变量用什么方法来刻划之间的关系呢?(最小二乘法)问题4.我们用什么方法对具有相关关系的两个变量进行统计分析?(回归分析)【设计意图】必修三和选修1-2这两本书在教学时间上间隔很远,通过有效的复习让学生为后面新知识的讲授打下良好的基础.【引入】在《数学3(必修)》中,我们利用回归分析的方法对两个具有线性相关关系的变量进行了研究,其步骤为画出两个变量的散点图,求回归直线,并用回归直线方程进行预报.下面我们通过案例,进一步学习回归分析的基本思想及其应用,从而引出本节课题.【设计意图】引出本节课题.三、【探究新知】探究一:最小二乘法求回归直线方程.对于一组具有线性相关的数据:1122(,),(,),(,)nnxyxyxy.我们知道其回归方程:ybxa,回归方程的斜率和截距的最小二乘法估计公式分别为:1122211()(),()nniiiiiinniiiixxyyxynxybxxxnx.aybx其中1111,nniiiixxyynn.(,)xy称为样本点的中心.注:回归直线过样本点中心.【设计意图】帮助学生回顾求回归直线方程的公式,便于学生正确运用公式.探究二:线性回归分析.例:从某大学中随机选取8名女大学生,其身高和体重数据如表所示.求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.分析:问题(1):作出散点图,能否从散点图中发现身高与体重的关系?由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y.由散点图可知,身高和体重有比较好的线性相关关系.【设计意图】通过画散点图来锻炼学生的动手操作能力.问题(2):求体重y对身高x的回归直线方程.设回归直线方程为:ybxa.由系数公式得:0.849b,85.712a.所以回归方程为:0.84985.712yx.【设计意图】通过复习线性回归方程的求法,来加强知识的巩固;同时进一步了解线性回归分析的统计地位.思考:线性回归方程中系数b的含义是什么?说明:(1)b是回归直线的斜率的估计值,表示x每增加一个单位,y增加的单位数;(2)当0b时,变量y与x具有正的线性相关关系;当0b时,变量y与x具有负的线性相关关系.【设计意图】结合本题让学生进一步理解回归方程中系数b的含义.问题(3):预报一名身高为172cm的女大学生的体重.59436164545057170155165175170157165481651体重/kg身高/cm编号2345678对于身高172cm的女大学生,可以预报其体重为0.84917285.71260.316y(kg).【设计意图】通过小问题的设置,有意识地引导学生利用所学过的知识来解决问题,步步为营,便于掌握.探究三:残差分析.探究1.身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?显然身高为172cm的女大学生的体重不一定是60.316kg,一般可认为她的体重在60.316kg左右.如图:(1)由图形观察可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.(2)从散点图还可以看到,样本点散布在某一条直线的附近,而不是一条直线上,所以不能用一次函数ybxa来描述它们之间的关系.这时我们用下面的线性回归模型来描述身高和体重的关系:ybxae来表示,其中a和b为模型的未知参数,e称为随机误差.【设计意图】通过该问题探究引入“线性回归模型”,便于学生正确理解线性回归模型的概念.思考:产生随机误差项e的原因是什么?随机误差e的来源(可以推广到一般):(1)忽略了其它因素的影响:影响身高y的因素不只是体重x,可能还包括遗传基因、饮食习惯、生长环境等因素;(2)用线性回归模型近似真实模型所引起的误差;(3)身高y的观测误差.以上三项误差越小,说明我们的回归模型的拟合效果越好.【设计意图】让学生明白回归分析的不确定性.探究2.函数模型与回归模型之间的差别是什么?函数模型:因变量y完全由自变量x确定;回归模型:预报变量y完全由解释变量x和随机误差e确定.【设计意图】引导学生们体会函数模型与回归模型之间的差别,便于理解回归分析的基本思想.探究3.在线性回归模型中,e是用bxa预报真实值y的随机误差,它是一个不可观测的量,那么应如解释变量x(身高)随机误差e预报变量y(体重)何研究随机误差呢?由于随机误差()eybxa,所以eyy是e的估计量.对于样本点1122(,),(,),(,)nnxyxyxy而言,相应的随机误差为:,1,2,,iiieybxain,其估计值为:ˆˆˆˆ,1,2,,iiiiieyyybxain,ˆie称为相应于点(,)iixy的残差.如图:【设计意图】结合上例除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此在此我们引入残差概念.【设计说明】从正面和侧面讲解随机误差e不可观测的原因,并进一步讲解残差概念.探究4.如何发现数据中的错误?如何衡量随机模型的拟合效果?(1)我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果.首先,ˆˆˆˆ,1,2,,iiiiieyyybxain;其次,画残差图;最后,作残差分析:①查找异样样本数据;②残差点分布在以O为中心的水平带状区域,并沿水平方向散点的分布规律相同.(2)残差图的制作:制作:坐标纵轴为残差变量,横轴可以有不同的选择,通常以样本编号为横坐标.列表:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359残差e6.3732.6272.4194.6181.1376.6272.8330.382如图:由图可知,第1个样本点和第6个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他原因.iiyy22(,)xy(,)iixyOyx11(,)xy残差87654321-8-6-48642编号-2O(3)残差图的作用:①横轴为解释变量:可以考察残差与解释变量的关系,常用于调查数据错误或研究模型是否有改进的余地;②判断模型的适用性:若模型选择的正确,残差图中的点应该分布在以横轴为中心的带形区域,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.说明:在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否是线性相关,是否可以用线性回归模型来拟合数据;然后,可以通过残差12,,,neee来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.【设计意图】通过该问题的探究让学生会作残差图,能够利用残差图进行残差分析.探究5.如何刻画模型拟合的精度?我们可用相关指数2R来刻画回归的效果,其计算公式为:22121ˆ()1()niiiniiyyRyy.对于已获取的样本数据,2R表达式中的21()niiyy为确定的数.因此2R越大,残差平方和21ˆ()niiiyy越小,即模型的拟合效果越好;2R越小,残差平方和21ˆ()niiiyy越大,即模型的拟合效果越差.在线性回归模型中,2R表示解释变量对于预报变量变化的贡献率,2R越接近于1,表示回归的效果越好.通常当20.8R时,认为线性回归模型对该组数据是很有效的.在上例中,20.64R,表明“女大学生的身高解释了0064的体重变化”,或者说“女大学生的体重差异有0064是由身高引起的”.【设计意图】师生共同阅读课本,指出用指标衡量模型效果的必要性,并明确如何衡量分析.在讲解时降低思维难度,让学生在老师的引导下自主学习和探索,提高学习的成就感和自信心.四、【理解新知】1.通过例题熟悉回归分析的过程方法;2.会利用残差(或残差图)以及2R来衡量模型拟合的精度;3.用身高预报体重时,需要注意下列问题:(1)回归方程只适用于我们所研究的样本的总体;(2)我们所建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.【设计意图】通过归纳总结,进一步加深学生对本节课重点内容的理解,以便能够正确、灵活的运用.五、【运用新知】例.某运动员训练次数与运动成绩之间的数据关系如下:(1)作出散点图;(2)求出线性回归方程,并预测该运动员训练47次时的成绩,说明其含义;(3)作出残差图,并说明模型的拟合效果;(4)计算2R,并说明其含义.分析:解:(1)作出该运动员训练次数()x与成绩()y之间的散点图,如图所示:(2)可求得888222211139.25,40.875,12656,13731,13180iiiiiiixyxyxy,88118822211()()81.0415,()8iiiiiiiiiixxyyxyxybxxxx0.003875aybx,线性回归方程为1.04150.003875yx.预测该运动员训练47次时的成绩是49,但实际成绩与49可能存在差异.(3)作残差图如图所示:由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)相关指数20.9855R,说明了该运动员的成绩的差异有0098.55的可能性是由向量次数引起的.51504846464442393937373534333030成绩()y次数()x作散点图求回归方程作出残差图计算相关指数2R作出预报60504030201020Oyx4060残差87654321-1.5-11.510.5编号-0.5O说明:(1)散点图只是从几何直观上粗略地反映两个变量的相关性;(2)对于回归模型的拟合效果,常借助于残差图及2R来分析.【设计意图】统计分析的问题一直不能引起学生的重视,总是认为高考不会出现,设置此例主要是颠覆学生的观念:高考也会考统计案例,使学生了解统计案例的高考模式,会简单的运算即可.思考:建立回归模型的基本步骤是什么?(1)确定研究对象,明确哪个变量是解释变量,那个变量是预报变量;(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程);(4)按一定规则(如最小二乘法)估计回归方程中的参数;(5)得出结果后分析残差图是否有异常(如个别数据对于残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.【设计意