31回归分析的基本思想及其初步应用(优质课)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2020/1/18郑平正制作3.1回归分析的基本思想及其初步应用(一)高二数学选修2-3城阳一中毛世勤2020/1/18郑平正制作问题1:正方形的面积y与正方形的边长x之间的函数关系是y=x2确定性关系问题2:某水田水稻产量y与施肥量x之间是否-------有一个确定性的关系?例如:在7块并排、形状大小相同的试验田上进行施肥量对水稻产量影响的试验,得到如下所示的一组数据:施化肥量x15202530354045水稻产量y330345365405445450455复习、变量之间的两种关系2020/1/18郑平正制作自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.1、定义:1):相关关系是一种不确定性关系;注对具有相关关系的两个变量进行统计分析的方法叫回归分析.2):新课2020/1/18郑平正制作2、现实生活中存在着大量的相关关系.如:人的身高与年龄;产品的成本与生产数量;商品的销售额与广告费;家庭的支出与收入.等等2020/1/18郑平正制作回归直线方程::ˆˆˆybxa,xy称为样本点的中心.ˆˆˆ()()()其中nx-xy-yiii=1b=n2x-xii=1a=y-bx.nn11x=x,y=y.iinni=1i=1niii=1n22ii=1xy-nxy=,x-nx对两个变量进行的线性分析叫做线性回归分析.2020/1/18郑平正制作相关系数1.计算公式2.相关系数的性质(1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.()()()()niii=1nn22iii=1i=1x-xy-yr=x-xy-y2020/1/18郑平正制作负相关正相关(一)回顾:数学3——线性回归分析的步骤:温故知新1、画散点图4、用回归直线方程进行预报3、求回归直线方程ˆˆˆybxa2、求ˆˆ,ba课前检测:假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料。使用年限x23456维修费用y2.23.85.56.57.0(1)画散点图并求回归方程;(2)估计使用年限为10年时,维修费用是多少?ˆˆˆybxaˆˆ1.23,0.08.baˆ1.230.08.yx使用年限为10年时,维修费用是:12.38万元2008年5月,中共中央国务院关于加强青少年体育、增强青少年体质的意见指出城市超重和肥胖青少年的比例明显增加.“身高标准体重”该指标对于学生形成正确的身体形态观具有非常直观的教育作用.“身高标准体重”从何而来?我们怎样去研究?创设情境:例1从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。问题呈现:女大学生的身高与体重ˆ0.84985.712yx解;1.由于问题中要求根据身高预报体重,因此选取身高为解释变量x,体重为预报变量y.ˆ约为身高172cm女大生体重y=0.849×172-85.712=60.316(kg)学3.回归方程:2.散点图;81iiixy821iixxy72315218774165.2554.5探究:身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?答:身高为172cm的女大学生的体重不一定是60.316kg,但一般可以认为她的体重接近于60.316kg。例1从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359女大学生的身高与体重ˆ0.84985.712yx解;1.由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y.ˆ约身高172cm女大生体重y=0.849×172-85.712=60.316(kg)学3.回归方程:2.散点图;81iiixy821iixxy72315218774165.2554.5ˆ0.84985.712yx2020/1/18郑平正制作从散点图中还看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系.这时我们把身高和体重的关系用下面的线性回归模型y=bx+a+e(3),来表示2这里a和b为模型的未知参数,e是y与bx+a之间的误差.通常e为随机变量,称为随机误差,它的均值Ee=0,方差De=σ0.这样线性回归模型的完整表达式为:2020/1/18郑平正制作2ybxae,Ee0,De.(4)预报随机误差是引起的精度越高预报真实值用越小的方差随机误差中在线性回归模型.,,42yabxeˆyy,.值与真实值之间存在误差的原因之一其大小取决于随机误差的方差ˆˆ,12ab,ab,ˆyy.另一方面由于公式和中和为截距和斜率的估计值它们与真实值和之间也存在误差这种误差是引起预报值与真实值之间存在误差的另一个原因2020/1/18郑平正制作产生随机误差项e的原思考:因是什么?实际上,一个人的体重值除了受身高的影响外,还受其他许多因素的影响.例如饮食习惯、是否喜欢运动、度量误差等.另外,我们选用的线性模型往往只是一种近似的模型.所有这些因素都会导致随机误差e的产生.2020/1/18郑平正制作,ey,,??x在线性回归模型中是用b+a预报真实值的随机误差它是一个不可观测的量那么应该怎样研究随机误差如何衡量探预报的精度究ˆˆˆybxa在实际应用中,我们用回归方程ˆybxa.ey(bxa),ˆˆeyye.中的估计(4)中的由于随机误差所以是的估计量1122nniiix,y,x,y,,x,y,eybxa,i1,2,,n.对于样本点而言相应它们的随机误差为2020/1/18郑平正制作其估计值为iiiiiiiiˆˆˆˆeyyybxa,i1,2,n,ˆex,y.,称为相应于点(的残)差2020/1/18郑平正制作思考:如何发现数据中的错误?如何衡量模型的拟合效果?可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果.表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据.382.0883.2627.6137.1618.4419.2627.2373.6eˆ5943616454505748kg/170155165175170157165165cm/87654321残差体重身高编号表3-22020/1/18郑平正制作3.1-3我们可以利用图形来分析残差特性作图时纵坐标为残差横坐标可以选为样本编号或身高数据或体重估计值等这样作出的图形称为残差图图是以样本编号为横坐标的残差图.,,,,..2020/1/18郑平正制作从图3.1-3中可以看出,第1个样本点和第6个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.我们可以用相关指数R2来刻画回归的效果,其计算公式是22121()11()niiiniiyyRyy残差平方和。总偏差平方和如何衡量预报的精度?显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。2020/1/18郑平正制作222在例1中,R≈0.64,表明女大学生的身高解释了64%的体重变化,或者说女大学生的体重差异有64%是由身高引起的.R是常用的选择模型的指标之一,在实际应用中应该尽量选择R大的回归模型.“”“”2020/1/18郑平正制作一般地,建立回归模型的基本步骤为:.(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等.(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).2020/1/18郑平正制作(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等.(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).学以致用:1、在对两个变量X,Y进行线性回归分析时有下列步骤:①对所求出的回归方程作出解释,②收集数据(,)③求线性回归方程,④求相关系数,⑤根据所搜集的数据绘制散点图.如果根据可靠性要求能够作出变量X,Y具有线性相关结论,则在下列操作顺序中正确的是()A.①②⑤③④B.③②④⑤①C.②④③①⑤D.②⑤④③①ixiy2020/1/18郑平正制作2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较相关系数的大小,相关系数越大的模型,拟合效果越好.其中正确命题的个数是()A.0B.1C.2D.3C学以致用:3、对于相关指数,下列说法正确的是()2R2R2RA、的取植越小,模型拟合效果越好B、的取值可以是任意大,且取值越大拟合效果越好C、的取值越接近1,模型拟合效果越好D、以上答案都不对2R2R2R学以致用:4、甲、乙、丙,丁四位同学各自对A,B两变量的线性相关性做实验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的实验结果体现A,B两变量有更强的线性相关性A.甲B.乙C.丙D.丁2020/1/18郑平正制作2.(2014·汕头市高二检测)已知x与y之间的一组数据:已求得关于y与x的线性回归方程y∧=2.1x+0.85,则m的值为()A.0.85B.0.75C.0.6D.0.5x0123ym35.57D2020/1/18郑平正制作6.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是()A.身高一定是145.83cmB.身高在145.83cm以上C.身高在145.83cm以下D.身高在145.83cm左右D2020/1/18郑平正制作7.在研究身高和体重的关系时,求得相关指数_______,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.2R64.0学以致用:8、已知两个变量x和y之间有线性相关性,4次实验得到样本如下:6.13.920y3210x(1)则y对x的线性回归方程是___________(2)相应于各样本点的残差(i=1,2,3,4)分别是__,___,___,___.残差平方和是___________ie课堂总结:1、线性回归分析的步骤2、回归模型的建立3、随机误差的研究知识小节:数学思想小结:1、最小二乘法思想2、函数与方程的思想3、数形结合

1 / 36
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功