《回归分析的基本思想及其初步应用》课件1.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

复习回顾1、线性回归模型:y=bx+a+e,其中a和b为模型的未知参数,e称为随机误差。2、数据点和它在回归直线上相应位置的差异是随机误差的效应,称为残差。)iiyy(iiieyy=3、对每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号表示为:称为残差平方和,它代表了随机误差的效应。21()niiiyy刻画模型拟合的精度相关指数:22121ˆ()1()niiiniiyyRyyR2取值越大,则残差平方和越小,即模型的拟合效果越好.1)确定解释变量和预报变量;2)画出散点图;3)确定回归方程类型;4)求出回归方程;5)利用相关指数或残差进行分析.建立回归模型的基本步骤回归分析1.从一组样本数据出发,确定变量之间的数学关系式2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归分析与相关分析的区别1.相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化2.相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量3.相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制问题:一只红铃虫的产卵数y与温度x有关,现收集了7组观测数据,试建立y与x之间的回归方程温度x21232527293235产卵数y711212466115325解:1)作散点图;050100150200250300350202224262830323436温度产卵数从散点图中可以看出产卵数和温度之间的关系并不能用线性回归模型来很好地近似。这些散点更像是集中在一条指数曲线或二次曲线的附近。选变量解:选取气温为解释变量x,产卵数为预报变量y。画散点图假设线性回归方程为:ŷ=bx+a选模型分析和预测当x=28时,y=19.87×28-463.73≈93估计参数由计算器得:线性回归方程为y=19.87x-463.73相关指数R2=r2≈0.8642=0.7464所以,一次函数模型中温度解释了74.64%的产卵数变化。探索新知050100150200250300350036912151821242730333639方案1当x=28时,y=19.87×28-463.73≈93一元线性模型奇怪?9366?模型不好?y=bx2+a变换y=bt+a非线性关系线性关系方案2问题1选用y=bx2+a,还是y=bx2+cx+a?问题3-200-1000100200300400-40-30-20-10010203040产卵数气温问题2如何求a、b?合作探究t=x2二次函数模型方案2解答平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a温度21232527293235温度的平方t44152962572984110241225产卵数y/个711212466115325作散点图,并由计算器得:y和t之间的线性回归方程为y=0.367t-202.54,相关指数R2=r2≈0.8962=0.802将t=x2代入线性回归方程得:y=0.367x2-202.54当x=28时,y=0.367×282-202.54≈85,且R2=0.802,所以,二次函数模型中温度解释了80.2%的产卵数变化。产卵数y/个0501001502002503003500150300450600750900105012001350t问题2变换y=bx+a非线性关系线性关系2110cxyc问题1如何选取指数函数的底?-50050100150200250300350400450-10-50510152025303540产卵数气温指数函数模型方案3合作探究对数xcecy21方案3解答温度xoC21232527293235z=lgy0.851.041.321.381.822.062.51产卵数y/个71121246611532500.40.81.21.622.42.8036912151821242730333639xz当x=28oC时,y≈44,指数回归模型中温度解释了98.5%的产卵数的变化由计算器得:z关于x的线性回归方程为z=0.118x-1.665,相关指数R2=r2≈0.99252=0.9850.118x-1.66510y对数变换:在中两边取常用对数得令,则就转换为z=bx+a22111221lglg(10)lglg10lglg10lgcxcxyccccxcxc2110cxyc12lg,lg,zyacbc2110cxyc最好的模型是哪个?-200-1000100200300400-40-30-20-10010203040产卵数气温-50050100150200250300350400450-10-50510152025303540产卵数气温-10001002003004000510152025303540产卵数线性模型二次函数模型指数函数模型比一比函数模型相关指数R2线性回归模型0.7464二次函数模型0.802指数函数模型0.985最好的模型是哪个?解:令则z=bx+a,(a=lnc1,b=c2),列出变换后数据表并画出x与z的散点图z=lnyx和z之间的关系可以用线性回归模型来拟合z=ax+b+e2cx1用y=ce模型;1)x21232527293235z1.9462.3983.0453.1784.194.7455.784z01234567010203040z应用统计方法解决实际问题需要注意的问题:对于同样的数据,有不同的统计方法进行分析,我们要用最有效的方法分析数据。现在有三个不同的回归模型可供选择来拟合红铃虫的产卵数与温度数据,他们分别是:.,,212exyecyebaxyexc可以利用直观(散点图和残差图)、相关指数来确定哪一个模型的拟合效果更好。ebxcz2etyˆˆ(1)0.272x-3.843(2)2y=e,y=0.367x-202.54ˆˆˆˆ(1)(1)0.272x-3.843iii(2)(2)2iiie=y-y=y-e,(i=1,2...7)e=y-y=y-0.367x+202.54,残差表编号1234567x21232527293235y711212466115325e(1)0.52-0.1671.76-9.1498.889-14.15332.928e(2)47.719.397-5.835-41.003-40.107-58.26877.965非线性回归方程二次回归方程残差公式(1)y=f(bx+a+e))(yfeabx1)(yfz1Z=bx+a+e(2)y=bg(x)+a+et=g(x)y=bt+a+e(3)y=f(bg(x)+a+e))(yfz1)(xgtZ=bt+a+e用线性回归模型解决非线性相关问题小结实际问题y=f(x)样本分析y=f(x)回归模型y=f(x)抽样用身高预报体重时,需要注意下列问题:1、回归方程只适用于我们所研究的样本的总体;2、我们所建立的回归方程一般都有时间性;3、样本采集的范围会影响回归方程的适用范围;4、不能期望回归方程得到的预报值就是预报变量的精确值。事实上,它是预报变量的可能取值的平均值。——这些问题也使用于其他问题。涉及到统计的一些思想:模型适用的总体;模型的时间性;样本的取值范围对模型的影响;模型预报结果的正确理解。小结

1 / 21
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功