•1.1回归分析的基本思想及其初步应用•1.知识与技能•通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.•2.过程与方法•通过求线性回归方程,探究相关性检验的基本思想.•通过对典型案例的探究,体会回归分析在生产实际和日常生活中的广泛应用.•本节重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法——相关指数和残差分析.•本节难点:解释残差变量的含义,了解偏差平方和分解的思想.•一、相关关系的概念•当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.•二、回归分析的相关概念•1.回归分析是处理两个变量之间的一种统计方法.若两个变量之间具有线性相关关系,则称相应的回归分析为.相关关系线性回归分析•3.线性相关关系强与弱的判断:用来描述线性相关关系的强弱.当r0时,表明两个变量;当r0时,表明两个变量.r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值接近于0时,表明两个变量之间线性相关关系.通常当|r|大于时,认为两个变量有很强的线性相关关系.•4.随机误差的概念:当样本点散布在某一条直线的附近,而不是在一条直线上时,不能用一次函数y=bx+a来描述两个变量之间的关系,而是用线性回归模型来表示,其中为模型的未知参数,称为随机误差.相关系数r正相关负相关几乎不存在0.75y=bx+a+ea和be•R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越.在线性回归模型中,R2表示解释变量对预报变量变化的.R2越接近于1,表示回归的效果越好(因为R2越接近于1,表示解释变量和预报变量的线性相关性越强).好贡献率3.残差分析(1)在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后,通过残差e^,e^2,…,e^n来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.•(2)利用图形来分析残差特性,作图时纵坐标为,横坐标可以选为,这样作出的图形称为残差图.如果图中有某个样本点的残差比较大,需要确认在采集这个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.残差样本编号•回归分析问题有线性回归问题和非线性回归问题,对于非线性回归问题,往往利用转换变量的方法进行转化,转变为线性回归问题.•[例1]有下列说法:•①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;•②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;•④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.•其中正确命题的个数是()③通过回归方程y^=b^x+a^可以估计观测变量的取值和变化趋势;•A.1B.2•C.3D.4•[分析]由题目可获取以下信息:•①线性回归分析;•②散点图;•③相关性检验等的相关概念及意义.•解答本题可先逐一核对相关概念及其性质,然后再逐一作出判断,最后得出结论.•[答案]C•[解析]①反映的正是最小二乘法思想,故正确.•②反映的是画散点图的作用,也正确.•③解释的是回归方程=x+的作用,故也正确.•④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.•[点评]线性回归分析的过程:•(1)随机抽取样本,确定数据,形成样本点•(2)由样本点形成散点图,判定是否具有线性相关关系;•(3)由最小二乘法确定线性回归方程;•(4)由回归方程观察变量的取值及变化趋势.•下列有关线性回归的说法,不正确的是()•A.变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系•B.在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图•C.线性回归方程最能代表具有线性相关关系的x,y之间的关系•D.任何一组观测值都能得到具有代表意义的线性回归方程•[答案]D•[解析]只有对两个变量具有线性相关性作出判断时,利用最小乘法求出线性方程才有意义.•[例2]某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:•(1)画出散点图;•(2)求y关于x的回归直线方程.x24568y3040605070•[解析](1)散点图如图所示.•(2)列出下表,并用科学计算器进行有关计算.•[点评]求回归直线方程,关键在于正确地求出,,由于,的计算量较大,计算时要仔细谨慎、分层进行,避免计算失误.1.求b^的值时利用公式b^=∑ni=1xiyi-nxy∑ni=1x2i-nx2,其中x=1n(x1+x2+…+xn),y=1n(y1+y2+…+yn),∑ni=1xiyi=x1y1+x2y2+…+xnyn,∑ni=1x2i=x21+x22+…+x2n.再由a^=y-b^x求出a^的值,并写出回归直线方程.2.回归直线中的截距a^和斜率b^都是通过样本估计而来的,存在着误差,这种误差可能导致预报结果有偏差.3.回归直线方程y^=a^+b^x中的b^表示x每增加1个单位时,y^的变化量为b^,而a^表示y^不随x的变化而变化的量.4.可以利用回归直线方程y^=a^+b^x预报在x取某个值时y的估计值.•[例3]一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得数据如下:•把零件数x作为解释变量,加工时间y作为预报变量.•(1)计算总偏差平方和、残差平方和及相关指数;•(2)作出残差图;•(3)进行残差分析.零件数x(个)102030405060708090100加工时间y(min)626875818995102108115122•[解析](1)由x,y的数据得散点图如图.•由散点图可以认为样本点大致分布在某条直线的附近,因此可以用线性回归模型来拟合.设线性回归方程为=+x,列出下表:i12345xi(个)1020304050yi(min)6268758189xiyi6201360225032404450x678910xi(个)60708090100yi(min)95102108115122xiyi5700714086401035012200续表•将数据代入相应公式可得如下数据表:•续表•(2)作出残差图如图,横坐标为零件数的数据,纵坐标为残差.所以总偏差平方和为3688.1,残差平方和为1.408,相关指数R2=1-1.4083688.1≈0.9996.•(3)由题中数据可得样本相关系数r的值为0.9998,再结合散点图可以说明x与y有很强的线性相关关系.由R2的值可以看出回归效果很好,也说明用线性回归模型拟合数据效果很好.•由残差图也可以观察到,第4个样本点和第5个样本点的残差比较大,需要确认在采集在这两个样本点的过程中是否有人为的错误.•[点评]本题涉及公式多且复杂,计算量也很大,需首先了解公式,明白原理.•(2)在利用残差图对数据进行残差分析时,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(1)求解两个变量的回归直线方程、相关指数R2的计算量较大,需要细心、谨慎地计算.如果会使用有统计功能的科学计算器,能很容易得到∑ni=1xi,∑ni=1yi,∑ni=1x2i,∑ni=1y2i,∑ni=1xiyi这些量的值,也就无需有制表这一步,直接代入公式算出结果就可以了.•一、选择题•1.下列说法中错误的是()•A.如果变量x与y之间存在着线性相关关系,则我们根据实验数据得到的点(xi,yi)(i=1,2,…,n)将散布在某一条直线的附近•B.如果两个变量x与y之间不存在线性关系,那么根据它们的一组数据(xi,yi)(i=1,2,…,n)不能写出一个线性方程C.设x,y是具有相关关系的两个变量,且x关于y的线性回归方程y^=b^x+a^,b^叫做回归系数D.为使求出的线性回归方程有意义,可用统计假设检验的方法来判断变量y与x之间是否存在线性相关关系•[答案]B•[解析]两变量x与y之间不存在线性关系,根据它们的一组数据(xi,yi)(i=1,2,3,…n)可通过已有的函数知识进行变换,利用线性回归模型来建立y与x之间的非线性回归方程•A.y平均增加2.5个单位•B.y平均增加2个单位•C.y平均减少2.5个单位•D.y平均减少2个单位•[答案]C2.设有一个回归方程为y^=2-2.5x,则变量x增加一个单位时,则()[解析]由回归方程的系数b^=-2.5可知,x每增加一个单位,则y平均减少2.5个单位3.为了表示n个点与相应直线在整体上的接近程度,我们常用()表示.()A.i=1n(yi-y^i)B.i=1n(y^i-yi)C.i=1n(yi-y^i)2D.i=1n(yi-y)2•[答案]C[解析]由回归直线方程y^=a^+b^x可知,y^为一个量的估计值,而yi为它的实际值,在最小二乘估计中,(yi-a-bxi)2即(yi-y^i)2,故选C•4.下列两个变量之间的关系不是函数关系的是()•A.角度和余弦值•B.正n边形的边数和一个内角的度数•C.棱锥的体积和底面积•D.某种物质和溶解度和温度•[答案]D二、填空题5.线性回归方程y^=b^x+a^中,b^的意义是__________.[答案]x每增加一个单位,y就平均增加b^个单位.•6.某种产品的广告费支出x与销售额y(单位:万元)之间有下表关系:•已知y与x之间是线性相关关系,若实际销售额不低于82.5万元,则广告费支出最少是__________万元.•[答案]10•[解析]由本节例2可知y关于x的回归直线方程为=6.5x+17.5由6.5x+17.5≥82.5得x≥10.故广告费支出最少为10万元.x24568y3040605070第一章统计案例人教A版数学1.2独立性检验的基本思想及其初步应用第一章统计案例人教A版数学第一章统计案例人教A版数学1.知识与技能通过典型案例,初步经历案例学习的过程,学习一些常见的统计思想与方法,并能用这些方法解决一些实际问题.2.过程与方法通过对案例的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.3.情感态度与价值观通过对数据的收集、整理和分析,增强社会实践能力,培养学生分析问题、解决问题的能力.第一章统计案例人教A版数学第一章统计案例人教A版数学本节重点:理解独立性检验的基本思想及实施步骤.本节难点:(1)了解独立性检验的基本思想.(2)了解随机变量K2的含义.在学习中要多从实际问题考虑,对一些典型案例的数据的处理,了解和使用一些常用的统计方法,树立应用数学的意识,树立数学为实践服务的思想.第一章统计案例人教A版数学第一章统计案例人教A版数学1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的称为列联表.②2×2列联表一般地,假设两个分类变量X和Y,它们的取值分别为和,其样本频数列联表(也称为2×2列联表)为下表.不同类别频数表{x1,x2}{y1,y2}第一章统计案例人教A版数学2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否,常用等高条形图展示列联表数据的.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d互相影响频率特征第一章统计案例人教A版数学第一章统计案例人教A版数学③如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过a,否则就认为在不超过a的前提下不能推断“X与Y的关系”,或者在样本数据中支持结论“X与Y有关系”.4.在独立性检测中,当K2时,有95%的把握说事件A与B有关;当K2时;有99%的把握说事件A与B有关;当K2≤时