第三章统计案例3.1回归分析的基本思想及其初步应用学习目标导航基础知识梳理典型例题剖析重点难点突破随堂练习巩固1.了解回归分析的基本思想,会对两个变量进行回归分析,求两个具有线性相关关系的变量的回归直线方程,并用回归直线方程进行预报.2.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.3.通过典型案例的分析,了解回归分析的初步应用——相关检验.ZHONGDIANNANDIAN重点难点首页JICHUZHISHI基础知识SUITANGLIANXI随堂练习1.回归分析(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系.(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线𝑦^=𝑏^x+𝑎^的斜率和截距的最小二乘估计公式分别为𝑏^=∑𝑖=1𝑛(𝑥𝑖-𝑥)(𝑦𝑖-𝑦)∑𝑖=1𝑛(𝑥𝑖-𝑥)2,𝑎^=𝑦−𝑏^𝑥.其中𝑥=1𝑛∑𝑖=1𝑛xi,𝑦=1𝑛∑𝑖=1𝑛yi,(𝑥,𝑦)称为样本点的中心.(4)用r=∑𝑖=1𝑛(𝑥𝑖-𝑥)(𝑦𝑖-𝑦)∑𝑖=1𝑛(𝑥𝑖-𝑥)2∑𝑖=1𝑛(𝑦𝑖-𝑦)2来描述线性相关.ZHONGDIANNANDIAN重点难点首页JICHUZHISHI基础知识SUITANGLIANXI随堂练习①当r0时,表明两个变量正相关;当r0时,表明两个变量负相关.②|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量之间几乎不存在线性相关关系.通常,当|r|大于0.75时,我们认为两个变量存在着很强的线性相关关系.③r=∑𝑖=1𝑛(𝑥𝑖-𝑥)(𝑦𝑖-𝑦)∑𝑖=1𝑛(𝑥𝑖-𝑥)2∑𝑖=1𝑛(𝑦𝑖-𝑦)2=∑𝑖=1𝑛𝑥𝑖𝑦𝑖-n𝑥𝑦(∑𝑖=1𝑛𝑥𝑖2-n𝑥2)(∑𝑖=1𝑛𝑦𝑖2-n𝑦2).ZHONGDIANNANDIAN重点难点首页JICHUZHISHI基础知识SUITANGLIANXI随堂练习【做一做1-1】下表是x与y之间的一组数据,则y关于x的线性回归直线必过点()x0123y1357A.(2,2)B.(1.5,2)C.(1,2)D.(1.5,4)解析:∵𝑥=0+1+2+34=1.5,𝑦=1+3+5+74=4,∴样本点的中心为(1.5,4),而回归直线过样本点的中心,故选D.答案:DZHONGDIANNANDIAN重点难点首页JICHUZHISHI基础知识SUITANGLIANXI随堂练习【做一做1-2】如果分别计算具有线性相关关系的甲组数据和乙组数据,得相关系数r甲=0.8,r乙=-0.9,则相关关系较强的是()A.甲组数据B.乙组数据C.甲、乙两组数据一样强D.不确定答案:BZHONGDIANNANDIAN重点难点首页JICHUZHISHI基础知识SUITANGLIANXI随堂练习2.随机误差(1)随机误差的均值E(e)=0,方差D(e)=σ2.(2)线性回归模型的完整表达式是𝑦=𝑏𝑥+𝑎+𝑒,𝐸(𝑒)=0,𝐷(𝑒)=𝜎2.在此线性回归模型中,随机误差e的方差σ2越小,通过回归直线预报真实值y的精度越高.随机误差的主要来源:①用线性回归模型近似地逼近真实模型所引起的误差;②忽略了某些因素的影响所产生的误差;③观测误差.(3)对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为𝑒^𝑖=yi-𝑦^𝑖=yi-𝑏^xi-𝑎^,i=1,2,…,n,𝑒^𝑖称为相应于点(xi,yi)的残差.ZHONGDIANNANDIAN重点难点首页JICHUZHISHI基础知识SUITANGLIANXI随堂练习(4)以样本编号或身高数据,或体重的估计等为横坐标,残差为纵坐标作出的图形称为残差图.(5)我们可以用相关指数R2来刻画回归的效果,其计算公式是R2=1-∑𝑖=1𝑛(𝑦𝑖-𝑦^𝑖)2∑𝑖=1𝑛(𝑦𝑖-𝑦)2.(6)R2越大,意味着残差平方和∑𝑖=1𝑛(yi-𝑦^𝑖)2越小,也就是说,模型拟合的效果越好.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率.R2越接近于1,表示回归的效果越好(因为R2越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可以采取几种不同的回归方程进行回归分析,也可以通过比较几个R2,选择其值大的模型.ZHONGDIANNANDIAN重点难点首页JICHUZHISHI基础知识SUITANGLIANXI随堂练习【做一做2】有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②相关指数R2来刻画回归效果,R2值越大,说明模型拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是()A.0B.1C.2D.3答案:DZHONGDIANNANDIAN重点难点首页JICHUZHISHI基础知识SUITANGLIANXI随堂练习3.非线性回归方程当回归方程不是形如y=bx+a(a,b∈R)时,称之为非线性回归方程.非线性回归方程也可以线性化.(1)将幂函数型函数y=axn(a为常数,a,x,y均取正值)化为线性函数:将y=axn两边取常用对数,则有lgy=nlgx+lga,令μ=lgy,v=lgx,b=lga代入上式得μ=nv+b(其中n,b是常数),其图象是一条直线.(2)将指数型函数y=cax(a0,c0,a,c为常数)化为线性函数:将y=cax两边取常用对数,则有lgy=xlga+lgc,令μ=lgy,b=lgc,d=lga,代入上式得μ=dx+b(d,b是常数),它的图象是一条直线.ZHONGDIANNANDIAN重点难点首页JICHUZHISHI基础知识SUITANGLIANXI随堂练习4.建立回归模型的基本步骤一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型.(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.学习目标导航基础知识梳理重点难点突破典型例题剖析随堂练习巩固1.相关分析的意义和作用是什么剖析:函数是大家比较熟悉的概念,它是指变量之间的确定性关系,即当X取某一数值x时,变量Y按照某种规则总有一个确定的数值与之对应.相关关系则是指变量之间的非确定性关系,由于随机因素的干扰,当变量X取确定值x时,变量Y的取值不确定,是一个随机变量,但它的概率分布与X的取值有关.这里,我们看到了函数关系与相关关系的本质区别,在函数关系中变量X对应的是变量Y的确定值,而在相关关系中,变量X对应的是变量Y的概率分布.换句话说,相关关系是随机变量之间或随机变量与非随机变量之间的一种数量依存关系,对于这种关系,只能运用统计方法进行研究.通过对相关关系的研究又可以总结规律,从而指导人们的生活与生产实践.学习目标导航基础知识梳理重点难点突破典型例题剖析随堂练习巩固2.举例说明怎样确定线性回归的模型剖析:在确定数据适合哪种模型之前,首先应该对观测数据绘图,以便进行简单的观测.例如:为了研究建立初始工资与当前工资的回归模型,首先对观测数据绘图如下图所示.学习目标导航基础知识梳理重点难点突破典型例题剖析随堂练习巩固从图中可以发现初始工资与当前工资的趋势大概呈线性关系,可以建立线性回归方程.如果观测数据不呈线性分布,那么还可以根据其他方程模型的观测数据分布图形的特点以及对建立各方程后所得的R2进行比较以便确定一种最佳方程式.一般说来,如果所有的观测量都落到回归直线上,那么R2等于1;如果自变量与因变量之间没有回归关系,那么R2等于0.另外,我们通过对观测数据分布图形的仔细观察还可以发现一些奇异值,所以还可以通过对数据的检查来消除奇异值.但是,对待奇异值时要格外小心.SUITANGLIANXI随堂练习首页JICHUZHISHI基础知识ZHONGDIANNANDIAN重点难点题型一题型二题型三题型四题型一求线性回归方程【例1】一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验.测得的数据如下:零件数x/个102030405060708090100加工时间y/分626875818995102108115122(1)y与x是否具有线性相关关系?(2)如果y与x具有线性相关关系,求回归直线方程;(3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少?SUITANGLIANXI随堂练习首页JICHUZHISHI基础知识ZHONGDIANNANDIAN重点难点题型一题型二题型三题型四解:(1)列出下表:i12345678910xi102030405060708090100yi626875818995102108115122xiyi62013602250324044505700714086401035012200𝑥=55,𝑦=91.7,∑𝑖=110𝑥𝑖2=38500,∑𝑖=110𝑦𝑖2=87777,∑𝑖=110xiyi=55950,因此r=∑𝑖=110𝑥𝑖𝑦𝑖-10𝑥𝑦(∑𝑖=110𝑥𝑖2-10𝑥2)(∑𝑖=110𝑦𝑖2-10𝑦2)=55950-10×55×91.7(38500-10×552)×(87777-10×91.72)≈0.9998.由于r≈0.9998,因此x与y之间有很强的线性相关关系,因而可求回归直线方程.SUITANGLIANXI随堂练习首页JICHUZHISHI基础知识ZHONGDIANNANDIAN重点难点题型一题型二题型三题型四(2)设所求的回归直线方程为𝑦^=𝑏^x+𝑎^,则有𝑏^=∑𝑖=110𝑥𝑖𝑦𝑖-10𝑥𝑦∑𝑖=110𝑥𝑖2-10𝑥2=55950-10×55×91.738500-10×552≈0.668,𝑎^=𝑦−𝑏^𝑥=91.7-0.668×55=54.96,因此,所求的回归直线方程为𝑦^=0.668x+54.96.(3)当x=200时,y的估计值为𝑦^=0.668×200+54.96=188.56≈189.因此,预测加工200个零件所用的工时为189分.SUITANGLIANXI随堂练习首页JICHUZHISHI基础知识ZHONGDIANNANDIAN重点难点题型一题型二题型三题型四题型二线性回归分析【例2】某运动员训练次数与成绩之间的数据关系如下:次数(x)3033353739444650成绩(y)3034373942464851(1)作出散点图;(2)求出回归方程;(3)作出残差图;(4)计算R2(相关指数);(5)试预测该运动员训练47次及55次的成绩.SUITANGLIANXI随堂练习首页JICHUZHISHI基础知识ZHONGDIANNANDIAN重点难点题型一题型二题型三题型四解:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)计算可得𝑥=39.25,𝑦=40.875,∑𝑖=18𝑥𝑖2=12656,∑𝑖=18𝑦𝑖2=13731,∑𝑖=18xiyi=13180,SUITANGLIANXI随堂练习首页JICHUZHISHI基础知识ZHONGDIANNANDIAN重点难点题型一题型二题型三题型四设回归方程为𝑦^=𝑏^x+𝑎^,则𝑏^=∑𝑖=18𝑥𝑖𝑦𝑖-8𝑥𝑦∑𝑖=18𝑥𝑖2-8𝑥2≈1.04148,𝑎^=𝑦−𝑏^�