3.1回归分析的基本思想及其初步应用高二数学选修2-3第三章统计案例2020/4/301v:pzyandong问题1:正方形的面积y与正方形的边长x之间的函数关系是y=x2确定性关系问题2:某水田水稻产量y与施肥量x之间是否有一个确定性的关系?变量之间的两种关系2020/4/302v:pzyandong1020304050500450400350300·······xy施化肥量水稻产量施化肥量x15202530354045水稻产量y3303453654054454504552020/4/303v:pzyandong自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.定义:(1)相关关系是一种不确定性关系;(2)对具有相关关系的两个变量进行统计分析的方法叫回归分析.2020/4/304v:pzyandong现实生活中存在着大量的相关关系如:人的身高与年龄;产品的成本与生产数量;商品的销售额与广告费;家庭的支出与收入,等等.探究1:水稻产量y与施肥量x之间大致有何规律?2020/4/305v:pzyandong1020304050500450400350300·······发现:图中各点,大致分布在某条直线附近.探究2:在这些点附近可画不止一条直线,哪条直线最能代表x与y之间的关系呢?施化肥量x15202530354045水稻产量y330345365405445450455xy散点图施化肥量水稻产量2020/4/306v:pzyandong最小二乘估计下的线性回归方程:ˆˆˆybxaniiniiixnxyxnyx1221niixnx11niiyny11),(yx回归直线必过样本点的中心niiniiixxyyxxb121)())((ˆxbyaˆˆ2020/4/307v:pzyandong例1从某大学中随机选出8名女大学生,其身高和体重数据如下表所示解:由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y.作散点图4045505560657075150155160165170175180185体重/kg身高/cm编号12345678身高165165157170175165155170体重/kg48575054646143592020/4/308v:pzyandong由散点图可知,身高和体重有比较好的线性相关关系,设回归直线方程为y=bx+a由系数公式得849.0ˆb712.85ˆa所以回归方程为712.85849.0ˆxy求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.ŷ=0.849×172-85.712=60.316(kg)探究身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?2020/4/309v:pzyandong1.确定变量;2.作散点图,判断相关关系;3.设回归方程;4.求回归方程;5.根据回归方程作出预报.解答步骤:2020/4/3010v:pzyandong对于一组具有线性相关的数据其回归直线方程为——线性回归模型(x1,y1),(x2,y2),…,(xn,yn),y=bx+ay=bx+a+e2020/4/3011v:pzyandong其中a和b为模型的未知参数,e称为随机误差.线性回归模型eabxy4045505560657075150155160165170175180185体重/kg身高/cm2020/4/3012v:pzyandong线性回归模型其中,a和b是模型的未知参数.通常e为随机变量,称为随机误差.2)(,0)(eDeEeabxy2020/4/3013v:pzyandong当变量x取xi(i=1,2,…n)时,回归方程的ŷi与实际收集到的yi之间的偏差是yi-ŷi=yi-(bxi+a)oxyyi-ŷi(x1,y1)(x2,y2)(xi,yi)2020/4/3014v:pzyandong残差数据点和它在回归直线上相应位置的差异êi=yi-ŷi称为相应于点(xi,yi)的残差。例:编号为6的女大学生,计算随机误差的效应(残差)61(0.84916585.712)6.627残差平方和把每一个残差所得的值平方后加起来,用数学符号表示为:21()niiiyy称为残差平方和2020/4/3015v:pzyandong下图列出了女大学生身高和体重的原始数据以及相应的残差数据。残差分析与残差图的定义:编号12345678身高165165157170175165155170体重/kg4857505464614359残差-6.3732.6272.419-4.6181.1376.627-2.8830.3822020/4/3016v:pzyandong残差图的制作及作用。若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域;对于远离横轴的点,要特别注意。身高与体重残差图异常点•错误数据•模型问题几点说明:第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。2020/4/3017v:pzyandong我们可以用R2来刻画回归的效果,其计算公式是显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的线性相关性越强)。如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。总的来说:相关指数R2是度量模型拟合效果的一种指标。在线性模型中,它代表自变量刻画预报变量的能力。niiniiiiyyyyR1222)()ˆ(12020/4/3018v:pzyandongR21.反映回归直线的拟合程度2.取值范围在[0,1]之间3.R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差的含义2020/4/3019v:pzyandong练习1在一段时间内,某中商品的价格x元和需求量y件之间的一组数据为:求出y对的回归直线方程,并说明拟合效果的好坏。价格x1416182022需求量y1210753解:18,7.4,xy555221111660,327,620,iiiiiiixyxyˆ7.41.151828.1.aˆ1.1528.1.yx回归直线方程为:5152215ˆ5iiiiixyxybxx26205187.41.15.16605182020/4/3020v:pzyandong练习1在一段时间内,某中商品的价格x元和需求量Y件之间的一组数据为:求出Y对的回归直线方程,并说明拟合效果的好坏。价格x1416182022需求量Y1210753列出残差表为521ˆ()iiiyy0.3,521()iiyy53.2,5221521ˆ()1()iiiiiyyRyy0.994因而,拟合效果较好。ˆiiyyiyy00.3-0.4-0.10.24.62.6-0.4-2.4-4.42020/4/3021v:pzyandong案例2一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中:(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?温度xoC21232527293235产卵数y/个711212466115325非线性回归问题2020/4/3022v:pzyandong假设线性回归方程为:ŷ=bx+a选模型由计算器得:线性回归方程为y=19.87x-463.73相关指数R2=r2≈0.8642=0.7464估计参数解:选取气温为解释变量x,产卵数为预报变量y。选变量所以,一元线性模型中温度解释了74.64%的产卵数变化。探索新知画散点图050100150200250300350036912151821242730333639方案1分析和预测当x=28时,y=19.87×28-463.73≈93一元线性模型2020/4/3023v:pzyandongy=bx2+a(非线性关系)t=x2变换y=bt+a(线性关系)方案2选用y=bx2+a,还是y=bx2+cx+a?如何求a、b?-200-1000100200300400-40-30-20-10010203040产卵数气温二次函数模型2020/4/3024v:pzyandong方案2解答平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a温度21232527293235温度的平方t44152962572984110241225产卵数y/个711212466115325作散点图,并由计算器得:y和t之间的线性回归方程为y=0.367t-202.543,相关指数R2=0.802将t=x2代入线性回归方程得:y=0.367x2-202.543当x=28时,y=0.367×282-202.54≈85,且R2=0.802,所以,二次函数模型中温度解释了80.2%的产卵数变化。产卵数y/个0501001502002503003500150300450600750900105012001350t2020/4/3025v:pzyandong变换y=bx+a非线性关系线性关系-50050100150200250300350400450-10-50510152025303540产卵数气温指数函数模型方案32020/4/3026v:pzyandong方案3解答温度xoC21232527293235z=lny1.9462.3983.0453.1784.1904.7455.784产卵数y/个71121246611532500.40.81.21.622.42.8036912151821242730333639xz相关指数R2=0.98,当x=28oC时,y≈44,指数回归模型中温度解释了98.5%的产卵数的变化由计算器得:z关于x的线性回归方程为对数变换:在中两边取常用对数得令,则就转换为z=bx+a.2020/4/3027v:pzyandong最好的模型是哪个?-200-1000100200300400-40-30-20-10010203040产卵数气温-50050100150200250300350400450-10-50510152025303540产卵数气温-10001002003004000510152025303540产卵数线性模型二次函数模型指数函数模型2020/4/3028v:pzyandong比一比函数模型相关指数R2线性回归模型0.7464二次函数模型0.802指数函数模型0.98最好的模型是哪个?2020/4/3029v:pzyandong作业:假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料。使用年限x23456维修费用y2.23.85.56.57.0若由资料知,y对x呈线性相关关系。试求:(1)线性回归方程的回归系数;(2)求残差平方和;(3)求相关系数;(4)估计使用年限为10年时,维修费用是多少?ˆˆˆybxaˆˆab、2R2020/4/3030v:pzyandong知识点一回归分析的概念回归分析是对具有________的两个变量进行统计分析的一种常用方法.知识点二线性回归模型(1)由散点图易发现,样本点散布在某一条直线附近,而不是一条直线上,不能用一次函数y=bx+a描述它们之间的关系,因此用线性回归模型y=bx+a+e来表示,其中a,b为未知参数,e为__________.相关关系随机误差2020/4/3031v:pzyandon