回归分析北师大版

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

3.1.1回归分析回归分析的基本思想及其初步应用1、两个变量的关系不相关相关关系函数关系线性相关非线性相关问题1:现实生活中两个变量间的关系有哪些呢?相关关系:对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。回顾复习思考:相关关系与函数关系有怎样的不同?函数关系中的两个变量间是一种确定性关系相关关系是一种非确定性关系函数关系是一种理想的关系模型相关关系在现实生活中大量存在,是更一般的情况问题2:对于线性相关的两个变量用什么方法来刻划之间的关系呢?2、最小二乘估计最小二乘估计下的线性回归方程:y=bx+a1122211()()()()nniiiiiinniiiixxyyxynxybxxxnxaybx11niixxn11niiyyn其中,y=bx+a最小二乘估计下的线性回归方程:回归直线必过样本点的中心),(yx3、解线性相关问题的基本步骤:画散点图求线性相关方程预报、决策例.某医院用光电比色计检验尿汞时,得尿汞含量(毫克/升)与消光系数如下表:汞含量x246810消光系数y64138205285360(1)作散点图;(2)如果y与x之间具有线性相关关系,求线性回归方程.解:(1)散点图如图.(2)由散点图可知,y与x呈相关关系,设线性回归方程为y=bx+a.经计算,得x-=6,y-=210.4,i=15x2i=220,i=15xiyi=7790.∴b=7790-5×6×210.4220-5×62=36.95,a=210.4-36.95×6=-11.3.∴线性回归方程为y=36.95x-11.3.1.(2011·辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的线性回归方程:y=0.254x+0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:以x+1代x,得y=0.254(x+1)+0.321,与y=0.254x+0.321相减可得,年饮食支出平均增加0.254万元.答案:0.2542.(2011·江西高考)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177则y对x的线性回归方程为()A.y=-1+xB.y=1+xC.y=88+12xD.y=176解析:设y对x的线性回归方程为y=a+bx,因为∴b=-2×-1+0×-1+0×0+0×1+2×1-22+22=12,∴a=176-12×176=88,所以y对x的线性回归方程为y=12x+88.答案:C,176x176y复习回顾*用线性回归方程进行回归分析:(1)画散点图;(2)求回归系数:ba,(3)写回归直线方程,并用方程进行预测说明.bxayxbyaxnxyxnyxxxyyxxbniiniiiniiniii1221121)())((任何数据,不管它们的线性相关关系如何,都可以用最小二乘法求出线性回归方程,为使建立的线性回归方程有意义,在利用最小二乘法求线性回归方程之前,先要对变量间的线性相关关系作个判断,通常可以作散点图。但在某些情况下,从散点图中不容易判断变量间的线性关系,另外,如果数据量较大时,画散点图比较麻烦,此时我们有没有其他方法来刻画变量之间的线性相关关系呢?新课探究为解决这个问题,我们可通过计算线性相关系数r,来判断变量间相关程度的大小,计算公式为:112222221111()()()()nniiiixyiinnnnxxyyiiiiiiiixxyyxynxylrllxxyyxnxyny新课探究21222(,)()()()niiixyxyyyxxxxxxQabyabxlllnyabxlbll(参看课本P74)的最小值为:222(,)(1)(1)xyxyyyyyyyxxxxyyllQablllrlll据前面的分析,回归系数使得误差ba,由知,即,则0Q12r11r新课探究值越大,误差越小,则变量的线性相关程度就越高;值越接近于0,越大,线性相关程度就越低。rrQQ当时,,两变量的值总体上呈现同时增加的趋势,则称两变量正相关;当时,,一变量增加,另一变量有减小的趋势,则称两变量负相关;当时,则称两变量线性不相关。0r0b0r0b0r相关系数r的性质新课探究相关系数1.计算公式2.相关系数的性质(1)|r|≤1;(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.问题:达到怎样程度,x、y线性相关呢?它们的相关程度怎样呢?1222211niiinniiiixynxyxnxynyniii=1nn22iii=1i=1(x-x)(y-y)r=(x-x)(y-y)负相关正相关思考交流对于课本P73给出的例题,变量的线性相关系数r如何求?我们知道,相关系数的计算公式为:要求r,只需求出相关的量:niiiyx1,,,niix12niiy12和。xyniiniiniiiynyxnxyxnyxr1221221,,可得,,,20040niiiyx117633niix1222790niiy122585291.x665330y由数据表,经过计算,可知(P77):9941.0665227902.58517633662.5852004022r这能说明什么??这说明肱骨和股骨有较强的线性相关程度。yx计算下表变量的线性相关系数r。并观察,通过计算可以发现什么?根据数据列表计算如下:解析(P78):1-5025002-43169-123-34916-12405025053491612643169127502500019100750iixiy2ix2iyiiyx由表可知:,,则可得0x71.2y00121niix5127niiy0niiiyx1,,,071.27750710071.207022r你发现什么了??r=0,则变量间并不存在线性相关关系。即此时建立线性回归方程是没有意义的。实际上,从散点图上我们也可以验证这一点:易看出,几个样本点都落在同一个半圆上,而不是条状分布,此时建立线性回归方程无任何意义,这与相关系数r的计算结果相一致。许多先进国家对驾驶员的培训,大多采用室内模拟教学和训练,而后再进行实地训练并考试,这种方法可以大大节约训练的费用。问题是这种方法有效吗?下表是12名学员的模拟驾驶成绩x与实际考试成绩y的记录(单位:分):试问:两者的相关性如何?请画出散点图,并求出y与x间的线性相关系数.动手做一做x985550877789y956045857587x799894837473y759792807172解答:可求出r=0.9871,说明实际考试成绩y与模拟驾驶成绩x有较强的线性相关程度.拓展思考相关系数r越大,变量间的线性关系就越强,那么r的值究竟大到什么程度就认为线性关系较强??n(x-x)(y-y)iii=1r=nn22(x-x)×(y-y)iii=1i=1相关系数r>0正相关;r<0负相关.通常,r∈[-1,-0.75]——负相关很强;r∈[0.75,1]——正相关很强;r∈[-0.75,-0.3]——负相关一般;r∈[0.3,0.75]——正相关一般;r∈[-0.25,0.25]——相关性较弱;相关关系的测度(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加小结*线性相关系数r:值越大,误差越小,则变量的线性相关程度就越高;值越接近于0,越大,线性相关程度就越低。rrQQ*,其中。niiniiniiiynyxnxyxnyxr122122111r当时,两变量正相关;当时,两变量负相关;当时,两变量线性不相关。0r0r0r*4.对四对变量y和x进行线性相关检验,已知n是观测值组数,r是相关系数,且已知:①n=7,r=0.9533;②n=15,r=0.3012;③n=17,r=0.4991;④n=3,r=0.9950.则变量y和x线性相关程度最高的两组是()A.①和②B.①和④C.②和④D.③和④解析:相关系数r的绝对值越大,变量x,y的线性相关程度越高,故选B.答案:B5.某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:()x2468y30405070判断x与y之间是否存在线性相关关系.解:画出(x,y)的散点图,如图所示,由图可知x,y呈现线性相关关系.x-=5,y-=47.5,i=14x2i=120,i=14y2i=9900,i=14xiyi=1080,r=i=14xiyi-4x-y-i=14x2i-4x-2i=14y2i-4y-2=1080-4×5×47.5120-4×529900-4×47.52≈0.9827.故x与y之间存在线性相关关系.复习回顾*线性相关系数r及性质:值越大,变量的线性相关程度就越高;值越接近于0,线性相关程度就越低。rr*,其中。niiniiniiiynyxnxyxnyxr122122111r当时,两变量正相关;当时,两变量负相关;当时,两变量线性不相关。0r0r0r*新课讲解下表按年份给出了1981~2001年我国出口贸易量(亿美元)的数据,根据此表你能预测2008年我国的出口贸易量么?从散点图中观察,数据与直线的拟合性不好,若用直线来预测,误差将会很大。而图像近似指数函数,呈现出非线性相关性。分析:考虑函数来拟合数据的变化关系,将其转化成线性函数,两边取对数:bxaeybxaylnln即线性回归方程,记1981年为x=1,1982年为x=2,‥变换后的数据如下表:设,则上式变为,acyuln,lnbxcu对上表数据求线性回归方程得:即:,138.0,056.5bcxu138.0056.5xueeey138.0056.5由此可得:,曲线如图:xueeey138.0056.5这样一来,预测2008年的出口贸易量就容易多了。将下列常见的非线性回归模型转化为线性回归模型。作变换,ln,ln,lnacxvyu得线形函数。bvcu)0,1(ba)0,1(ba1.幂函数:baxy2.指数曲线:bxaey作变换,ln,lnacyu得线形函数。bxcu)0,(ba0)0,(ba0)0,(ba0)0,(ba0作怎样的变换,得到线形函数的方程如何??思考交流3.倒指数曲线:xbaey4.对数曲线:xbayln0b0b作怎样的变换,得到线形函数的方程如何??小结*非线性回归方程:对某些特殊的非线性关系,可以通过变换,将非线性回归转化为线性回归,然后用线性回归的方法进行研究,最后再转换为非线性回归方程。*常见非线性回归模型:1.幂函数:baxy2.指数曲线:bxaey3.倒指数曲线:xbaxy4.对数曲线:xbayln[例3](12分)为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下:时间x/天123456繁殖个数y612254995190(1)作出这些数据的散点图;(2)求y与x之间的回归方程.[思路点拨]作出数据的散点图,选择合适的函数模型转化为线性模型.[精解详析](1)散点图如图所示:(4分)(2)由散点图看出样本点分布在一条指数函数y=c1ec2x图像的周围,于是令z=lny,则(6分)x123456z1.792.483.223.894.555.2

1 / 59
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功