3.1-回归分析的基本思想及其初步应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

边城高级中学张秀洲1、通过对典型、案例的探究,了解回归分析的基本思想、方法及其初步应用.2、会求回归直线方程,并用回归直线方程进行预报.3、了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.自学教材P80—P88解决下列问题一、会求回归直线方程,并用回归直线方程进行预报.二、《基础训练》例题.回归直线方程假设我们已经得到了具有线性相关关系的两个变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),则所求的回归直线方程是ˆˆˆybxa1122211()()ˆ()nniiiiiinniiiixxyyxynxybxxxnxˆˆaybxˆˆˆybxa111,.,.nniiiixxyyxyn其中称样本点的中心为1.线性回归模型(1)表达式y=Ee=,De=.(2)基本概念:①a和b为模型的未知参数.②e是y与bx+a之间的误差.通常e为随机变量,称为.③x称为,y称为.随机误差解释变量预报变量bxae022.衡量回归方程的预报精度的方法(1)残差平方和法①ˆie称为相应于点(xi,yi)的残差.②残差平方和,残差平方和,模型拟合效果越好.(2)残差图法残差点地落在水平的带状区域内,说明选用的模型比较合适.这样的带状区域的宽度,说明模型的拟合精度越高.越小21ˆ()niiiyy比较均匀越窄(3)利用相关指数R2刻画回归效果其计算公式为:R2=;其几何意义:,表示回归的效果越好.R2越接近于12121ˆ()1()niiiniiyyyy3、建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是,哪个变量是.(2)画出和的,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程.解释变量预报变量解释变量预报变量散点图(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析是否有异常(如个别数据对应残差,残差呈现等).若存在异常,则检查数据是否有误,或模型是否合适等.残差图过大不随机的规律性类型1:求线性回归方程【例】某班5名学生的数学和物理成绩如表:学生学科ABCDE数学成绩(x)8876736663物理成绩(y)7865716461(1)画出散点图;(2)求物理成绩y对数学成绩x的线性回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩.【解答】(1)散点图如图:(2)x=15×(88+76+73+66+63)=73.2.y=15×(78+65+71+64+61)=67.8.i=15xiyi=88×78+76×65+73×71+66×64+63×61=25054.i=15x2i=882+762+732+662+632=27174.∴ˆb=i=15xiyi-5x·yi=15x2i-5x2≈0.625.∴ˆa=y-ˆbx=67.8-0.625×73.2=22.05.∴y对x的线性回归方程是ˆy=0.625x+22.05.(3)当x=96时,y=0.625×96+22.05≈82.可以预测其物理成绩为82分.1.求线性回归方程的基本步骤:(1)列出散点图,从直观上分析数据间是否存在线性相关关系.(2)计算x,y,i=1nx2i,i=1nxiyi.(3)代入公式求出ˆy=ˆbx+ˆa中参数ˆb,ˆa的值.(4)写出线性回归方程并对实际问题作出估计.2、需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.将本题(2)改为“求数学成绩y对物理成绩x的线性回归方程”,又如何?【解】y=15×(88+76+73+66+63)=73.2.x=15×(78+65+71+64+61)=67.8.i=15xiyi=25054.i=15x2i=782+652+712+642+612=23167.∴ˆb=i=15xiyi-5x·yi=15x2i-5x2=25054-5×67.8×73.223167-22984.2=239.2182.8≈1.31,∴ˆa=y-ˆbx≈73.2-88.8=-15.6.∴y对x的线性回归方程为ˆy=1.31x-15.6.类型2:线性回归分析【例】某运动员训练次数与成绩之间的数据关系如下:次数(x)3033353739444650成绩(y)3034373942464851(1)作出散点图;(2)求出回归方程;(3)作出残差图;(4)计算相关指数R2.【解答】(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)x=39.25,y=40.875,821iix=12656,821iiy=13731,81iiixy=13180,∴8182218ˆ8iiiiixyxybxx≈1.0415,ˆˆaybx=-0.003875,∴回归方程为ˆy=1.0415x-0.003875.(3)残差分析某运动员训练次数与成绩之间的数据及相应的残差数据x3033353739444650y3034373942464851ˆˆeyy-1.2411-0.36560.55140.46841.38540.17790.0949-1.0711作残差图如图所示:由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)计算相关指数R2计算得相关指数R2=0.9855.说明了该运动员成绩的差异有98.55%是由训练次数引起的.刻画回归效果的三个方式(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.(2)残差平方和法:残差平方和21ˆ()niiiyy越小,模型的拟合效果越好,(3)相关指数法:22121ˆ()1()niiiniiiyyRyy越接近1,表明回归的效果越好.在10年期间,一城市居民的年收入与某种商品的销售额之间的关系有如下数据:第几年12345城市居民年收入x(亿元)32.231.132.935.837.1某商品销售额y(万元)25.030.034.037.039.0第几年678910城市居民年收入x(亿元)38.039.043.044.646.0某商品销售额y(万元)41.042.044.048.051.0(1)画出散点图;(2)如果散点图中的各点大致分布在一条直线的附近,求y与x之间的回归直线方程.【解】(1)散点图如下图.(2)由散点图知各点大致分布在一条直线的附近,y与x之间具有线性相关关系.1011022110ˆ10iiiiixyxybxx=15202.9-10×37.97×39.114663.67-10×37.972=356.63246.461≈1.447,ˆˆaybx=39.1-1.447×37.97≈-15.843,因此所求的回归直线方程是ˆy=bx+a=1.447x-15.843.类型3:非线性回归分析【例】下表为收集到的一组数据:x21232527293235y711212466115325(1)作出x与y的散点图,并猜测x与y之间的关系;(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.【解答】(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y=21cxce的周围,其中c1、c2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z=lny,则有变换后的样本点应分布在直线z=bx+a,a=lnc1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:x21232527293235z1.9462.3983.0453.1784.1904.7455.784求得回归直线方程为ˆz=0.272x-3.849,∴ˆy=e0.272x-3.849.残差列表如下:yi711212466115325ˆiy6.44311.10119.12532.95056.770128.381290.325ˆie0.557-0.1011.875-8.9509.23-13.38134.675(3)当x=40时,y=e0.272x-3.849≈1131.非线性回归问题的处理方法(1)指数函数型y=ebx+a①函数y=ebx+a的图象:②处理方法:两边取对数得lny=lnebx+a,即lny=bx+a.令z=lny,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.(2)对数函数型y=blnx+a①函数y=blnx+a的图像:②处理方法:设x′=lnx,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.(3)y=bx2+a型处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.为了研究某种细菌随时间x的变化繁殖个数y的变化,收集数据如下:时间x/天123456繁殖个数y612254995190(1)用时间作解释变量、繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程;(3)计算残差、相关指数R2.【解】(1)散点图如图所示:(2)由散点图可看出,样本点分布在一条指数函数y=21cxce的周围,于是令z=lny,则x123456z1.792.483.223.894.555.25由计算器算得ˆz=0.69x+1.112,则有ˆy=e0.69x+1.112.(3)残差分析列表如下:xi123456yi612254995190ˆiz-0.06176-0.085420.9051050.961633-0.77484-0.94778经计算,相关指数R2≈0.9999.2020年4月14日星期二你学会了吗?※对自己说,你有什么收获?※对同学说,你有什么提示?※对老师说,你有什么疑惑?2020年4月14日【预习】课本P91-P96《独立性检验的基本思想及其应用》1次必做题:《基础训练》变式训练1、2选做题:《基础训练》变式训练3

1 / 39
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功