2020/3/223.1回归分析的基本思想及其初步应用(一)高二数学选修2-3数学3——统计内容1.画散点图2.了解最小二乘法的思想3.求回归直线方程y=bx+a4.用回归直线方程解决应用问题2020/3/22问题1:正方形的面积y与正方形的边长x之间的函数关系是y=x2确定性关系问题2:某水田水稻产量y与施肥量x之间是否有一个确定性的关系?复习变量之间的两种关系自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。2020/3/22现实生活中存在着大量的相关关系。如:人的身高与年龄;产品的成本与生产数量;商品的销售额与广告费;家庭的支出与收入。等等探索:水稻产量y与施肥量x之间大致有何规律?2020/3/221020304050500450400350300·······发现:图中各点,大致分布在某条直线附近。探索2:在这些点附近可画直线不止一条,哪条直线最能代表x与y之间的关系呢?xy散点图施化肥量水稻产量施化肥量x15202530354045水稻产量y3303453654054454504552020/3/22称为样本点的中心,线性回归直线一定过样本中心。2、对两个变量进行的线性分析叫做线性回归分析。1122211()()ˆ,()ˆˆnniiiiiinniiiixxyyxnxybxxxnxaybxy1、所求直线方程叫做回归直线方程;相应的直线叫做回归直线。ˆˆˆybxa1111,.nniiiixxyynn其中(,)xy2020/3/22求回归直线方程的步骤:1111(1),nniiiixxyynn求211(2),.nniiiiixxy求(3)代入公式1122211^()()ˆ,(),nniiiiiinniiiixxyyxynxybxxxnxaybx(4)写出直线方程为,即为所求的回归直线方程。ˆˆˆybxa2020/3/22例1、观察两相关量得如下数据:x-1-2-3-4-553421y-9-7-5-3-115379求两变量间的回归方程.解:列表:i12345678910xi-1-2-3-4-553421yi-9-7-5-3-115379xiyi9141512551512149101010221110,0,110,3010.3,1iiiiiiixyyyxx2020/3/221011022110110100ˆ111010010iiiiixybyxxxˆˆˆ000aybxbˆ.yx所求回归直线方程为2020/3/22例题从某大学中随机选出8名女大学生,其身高和体重数据如下表:编号12345678身高165165157170175165155170体重4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。2020/3/22172.85849.0ˆxy分析:由于问题中要求根据身高预报体重,因此选取身高为自变量,体重为因变量.ˆ学身高172cm女大生体重y=0.849×172-85.712=60.316(kg)2.回归方程:1.散点图;2020/3/22探究:身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?答:身高为172cm的女大学生的体重不一定是60.316kg,但一般可以认为她的体重接近于60.316kg。例1从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。案例1:女大学生的身高与体重解:1、选取身高为自变量x,体重为因变量y,作散点图:2、由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。3、从散点图还看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a描述它们关系。2020/3/22在线性回归模型(4)中,随机误差e的方差越小。2s由于样本点不在同一条直线上,只是散布在某一条直线附近,所以身高与体重的关系可用线性回归模型:y=bx+a+e,……(3)来表示,其中a和b为模型的未知参数,e是y与bx+a之间的误差.通常e为随机变量,称为随机误差(randomerror),即e称为随机误差.它的均值E(e)=0,方差D(e)=σ2.这样线性回归模型的完整表达式为:2020/3/22思考:产生随机误差项e的原因是什么?随机误差e的来源(可以推广到一般):1、忽略了其它因素的影响:影响身高y的因素不只是体重x,可能还包括遗传基因、饮食习惯、生长环境等因素;2、用线性回归模型近似真实模型所引起的误差;3、身高y的观测误差。以上三项误差越小,说明我们的回归模型的拟合效果越好。2020/3/22探究3:在线性回归模型中,e是用bx+a预报真实值y的随机误差,它是一个不可观测的量,那么怎样研究随机误差呢?是真实值与估计值的差!2020/3/22思考:如何发现数据中的错误?如何衡量模型的拟合效果?ˆ0.84985.712,iiyx,iiieyy3335047.5812.419eyy如2020/3/22382.0883.2627.6137.1618.4419.2627.2373.6eˆ5943616454505748kg/170155165175170157165165cm/87654321残差体重身高编号残差图2020/3/22-8-6-4-2024680123456789编号残差31.3图2020/3/2222121()1()niiiniiyyRyy2020/3/22例2、在一段时间内,某中商品的价格x元和需求量Y件之间的一组数据为:求出Y对的回归直线方程,并说明拟合效果的好坏。价格x1416182022需求量Y1210753解:18,7.4,xy555221111660,327,620,iiiiiiixyxyˆ7.41.151828.1.aˆ1.1528.1.yx回归直线方程为:5152215ˆ5iiiiixyxybxx26205187.41.15.16605182020/3/22例2、在一段时间内,某中商品的价格x元和需求量Y件之间的一组数据为:求出Y对的回归直线方程,并说明拟合效果的好坏。价格x1416182022需求量Y1210753列出残差表为521ˆ()iiiyy0.3,521()iiyy53.2,5221521ˆ()1()iiiiiyyRyy0.994因而,拟合效果较好。ˆiiyyiyy00.3-0.4-0.10.24.62.6-0.4-2.4-4.42020/3/22即在实际应用中应该尽量选择R2大的回归模型.案例一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中:(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?温度xoC21232527293235产卵数y/个711212466115325非线性回归问题选模型由计算器得:线性回归方程为y=19.87x-463.73相关指数R2=r2≈0.8642=0.7464估计参数解:选取气温为解释变量x,产卵数为预报变量y。选变量所以,一次函数模型中温度解释了74.64%的产卵数变化。探索新知画散点图050100150200250300350036912151821242730333639方案1分析和预测当x=28时,y=19.87×28-463.73≈93一元线性模型假设线性回归方程为:ˆˆˆybxa奇怪?9366?模型不好?y=bx2+a变换y=bt+a非线性关系线性关系方案2问题1选用y=bx2+a,还是y=bx2+cx+a?问题3-200-1000100200300400-40-30-20-10010203040产卵数气温问题2如何求a、b?合作探究t=x2二次函数模型方案2解答平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a温度21232527293235温度的平方t44152962572984110241225产卵数y/个711212466115325作散点图,并由计算器得:y和t之间的线性回归方程为y=0.367t-202.543,相关指数R2=0.802将t=x2代入线性回归方程得:y=0.367x2-202.543当x=28时,y=0.367×282-202.54≈85,且R2=0.802,所以,二次函数模型中温度解释了80.2%的产卵数变化。产卵数y/个0501001502002503003500150300450600750900105012001350t问题2变换y=bx+a非线性关系线性关系21cxyce问题1如何选取指数函数的底?-50050100150200250300350400450-10-50510152025303540产卵数气温指数函数模型方案3合作探究对数方案3解答温度xoC21232527293235z=lny1.9462.3983.0453.1784.1904.7455.784产卵数y/个71121246611532500.40.81.21.622.42.8036912151821242730333639xz当x=28oC时,y≈44,指数回归模型中温度解释了98.5%的产卵数的变化由计算器得:z关于x的线性回归方程为0.272x-3.849ˆ.ye22111221lnln()lnlnlnlnlncxcxycececcxecxc对数变换:在中两边取常用对数得21cxyce令,则就转换为z=bx+a.12ln,ln,zyacbc21cxyceˆz=0.272x-3.849,相关指数R2=0.98最好的模型是哪个?-200-1000100200300400-40-30-20-10010203040产卵数气温-50050100150200250300350400450-10-50510152025303540产卵数气温-10001002003004000510152025303540产卵数线性模型二次函数模型指数函数模型比一比函数模型相关指数R2线性回归模型0.7464二次函数模型0.80指数函数模型0.98最好的模型是哪个?回归分析(二)(1)0.2723.849(2)2ˆˆy,y0.367202.543.xex则回归方程的残差计算公式分别为:由计算可得:(1)(1)0.2723.849(2)(2)2ˆˆ,1,2,...,7;ˆˆ0.367202.543,1,2,...,7.xiiiiiiiieyyyeieyyyxix21232527293235y7112124661153250.557-0.1011.875-8.9509.230-13.38134.67547.69619.400-5.832-41.00-40.104-58.26577.968(1)ˆe(2)ˆe(1)(2)ˆˆ1550.538,15448.431.QQ因此模型(1)的拟合效果远远优于模型(2)。2020/3/22用身高预报体重时,需要注意下列问题:1、回归方程只适用于我们所研究的样本的总体;2、我们所建立的回归方程一般都有时间性;3、样本采集的