相关性和最小二乘法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

相关性最小二乘法生活中,不是一一对应关系的现象有哪些?函数关系Y=2x+1Y=In3Y=x2+4确定关系相关关系年龄与身高网速与下载文件时间气候与收成非确定关系学生成绩与教师水平之间存在着某种联系,但又不是必然联系,对于学生成绩与教师水平之间的这种不确定关系,我们称之为相关关系。函数关系与相关关系函数关系相关关系确定性确定性非确定性但总体而言有联系因果性因果关系可以是因果关系也可以是伴随关系身高160cm的同学体重不一定在46kg,但全体学生会呈身高越高,体重越大的趋势儿童脚的大小与阅读能力呈现强的相关性,但学会新词并不能使脚变大,是伴随关系相关关系表示方法列表画图像求解析式函数表示方法散点图最小二乘法在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:根据上述数据,人体的脂肪含量与年龄之间有怎样的关系?年龄2327394145495053545657586061脂肪9.517.821.225.927.526.328.229.630.231.430.833.535.234.6随着年龄的增加,脂肪含量也在增加还有更直观的表示方法吗?051015202530354005101520253035404550556065年龄脂肪含量曲线拟合线性相关:数据在一条直线附近波动,则变量间是线性相关非线性相关:数据在一条曲线附近波动,则变量间是非线性相关不相关:数据在图中没有显示任何关系,则是不相关线性相关非线性相关非线性相关不相关就像函数中的增函数和减函数。即一个变量从小到大,另一个变量也从小到大,或从大到小。对于图1中的两个变量的相关关系,我们称它为正相关。图2中的两个变量的相关关系,称为负相关。正相关负相关【1】(2009·海南)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v,有观测数据(ui,vi)(i=1,2,…,10),得散点图(2),由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关C走进高考题型一利用散点图判断两个变量的相关关系【例1】山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg).(1)画出散点图;(2)判断是否具有相关关系.施化肥量x15202530354045棉花产量y330345365405445450455探究提高解:(1)散点图如图所示散点图是由大量数据点分布构成的,是定义在具有相关关系的两个变量基础之上的,对于性质不明确的两组数据可先作散点图,直观地分析它们有无关系及关系的密切程度.(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如下表:根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.变式训练1身高(cm)143156159172165171177161164160体重(kg)41496179686974696854解:以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系.对具有相关关系的两个变量进行统计分析的方法叫回归分析从数学的角度来解释:上图中点的分布从整体上看大致在一条直线附近。我们称图1、2中的两个变量具有线性相关关系。这条直线叫做回归直线。对两个变量进行的线性分析叫做线性回归分析051015202530354005101520253035404550556065年龄脂肪含量在这些点附近可画直线不止一条,哪条直线最能代表x与y之间的关系呢?051015202530354005101520253035404550556065年龄脂肪含量051015202530354005101520253035404550556065年龄脂肪含量051015202530354005101520253035404550556065年龄脂肪含量一个好的线性关系要保证这条直线与所有点都近即:从整体上看,各点与此直线的距离和最小最小二乘法在线性相关中,保证各点与此直线的接近程度最高,即距离和最小。222221122331ˆ()()()()()niinniQyyybxaybxaybxaybxa令回归方程为y=a+bx,则要使得距离和最小,相当于求当a,b取什么值时Q最小销售表7.67.888.28.48.60123456月份销售额/万元a,b取下值时Q最小1122211()()()nniiiiiinniiiixxyyxynxybxxxnxaybx11niixxn11niiyyn其中,)推导过程见参考书【例2】某地10户家庭的年收入和年饮食支出的统计资料如下:(1)根据表中数据,确定家庭的年收入和年饮食支出是否具有相关关系;(2)若(1)具有线性相关关系,求出y关于x的线性回归方程.题型二求线性回归方程年收入x(万元)24466677810年饮食支出y(万元)0.91.41.62.02.11.91.82.12.22.3解:(1)由题意知,年收入x为解释变量,年饮食支出y为预报变量,作散点图如图所示.从图中可以看出,样本点呈条状分布,年收入和年饮食支出具有线性相关关系,因此可以用线性回归方程刻画它们之间的关系.从本题可以看出,求线性回归方程,关键在于正确求出系数a,b,由于计算量较大,所以计算时要仔细谨慎,分层进行,避免因计算产生失误,特别注意,只有在散点图大体呈线性时,求出的线性回归方程才有意义.(2)∵x=6,y=1.83,∑10i=1x2i=406,∑10i=1xiyi=117.7,∴ˆb=∑10i=1xiyi-10xy∑10i=1x2i-10x2≈0.172,ˆa=y-ˆbx=1.83-0.172×6=0.798.从而得到线性回归方程为ˆy=0.172x+0.798.(2)∵x=6,y=1.83,∑10i=1x2i=406,∑10i=1xiyi=117.7,∴ˆb=∑10i=1xiyi-10xy∑10i=1x2i-10x2≈0.172,ˆa=y-ˆbx=1.83-0.172×6=0.798.从而得到线性回归方程为y=0.172x+0.798.探究提高∴b=∑10i=1xiyi-10xy∑10i=1x2i-10x2≈0.172,a=y-bx=1.83-0.172×6=0.798.变式训练2在2011年春节期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:通过分析,发现销售量y与商品的价格x具有线性相关关系,则销售量y关于商品的价格x的线性回归方程为______________.价格x99.51010.511销售量y1110865∑5i=1xiyi=392,x=10,y=8,∑5i=1x2i=502.5,代入公式,得ˆb=-3.2,所以,ˆa=ˆybx=40,故线性回归方程为ˆy=-3.2x+40.y=-3.2x+40代入公式,得b=-3.2,所以,a=y-bx=40,故线性回归方程为y=-3.2x+40.【例3】某种产品的宣传费支出x与销售额y(单位:万元)之间有如下对应数据:(1)画出散点图;(2)求线性回归方程;(3)试预测宣传费支出为10万元时,销售额多大?题型三利用线性回归方程对总体进行估计x24568y3040605070解:(1)根据表中所列数据可得散点图如图所示:(2)计算得:x=255=5,y=2505=50,∑5i=1x2i=145,∑5i=1xiyi=1380.于是可得ˆb=∑5i=1xiyi-5xy∑5i=1x2i-5x2=1380-5×5×50145-5×52=6.5,ˆa=y-ˆbx=50-6.5×5=17.5,因此,所求线性回归方程是ˆy=6.5x+17.5.(3)由上面求得的线性回归方程可知,当宣传费支出为10万元时,ˆy=6.5×10+17.5=82.5(万元),即这种产品的销售额大约为82.5万元.于是可得b=∑5i=1xiyi-5xy∑5i=1-5x2=1380-5×5×50145-5×52=6.5,因此,所求线性回归方程是y=6.5x+17.5.(3)由上面求得的线性回归方程可知,当宣传费支出为10万元时,y=6.5×10+17.5=82.5(万元),即这种产品的销售额大约为82.5万元.a=y-bx=50-6.5×5=17.5,2ix138014551512yxxiiiii下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据x3456y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)变式训练3解:(1)散点图如图变式训练3∴b=∑4i=1xiyi-4x·y∑4i=1x2i-4x2=66.5-4×4.5×3.586-4×4.52=0.7,变式训练3(2)∵1niiixy=32.5+43+54+64.5=66.5,x=46543=4.5,y=45.4435.2=3.5,222221345686.niix266.544.53.566.563ˆ0.7,86818644.5b,ˆ3.50.74.50.35,aybx故线性回归方程为ˆ0.70.35.yx(2)∵1niiixy=32.5+43+54+64.5=66.5,x=46543=4.5,y=45.4435.2=3.5,222221345686.niix266.544.53.566.563ˆ0.7,86818644.5b,ˆ3.50.74.50.35,aybx故线性回归方程为ˆ0.70.35.yx(2)∵1niiixy=32.5+43+54+64.5=66.5,x=46543=4.5,y=45.4435.2=3.5,222221345686.niix266.544.53.566.563ˆ0.7,86818644.5b,ˆ3.50.74.50.35,aybx故线性回归方程为ˆ0.70.35.yxa=y-bx=3.5-0.7×4.5=0.35.∴所求的线性回归方程为y=0.7x+0.35.(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35.故耗能减少了90-70.35=19.65(吨).y=0.7x+0.3501234501234567产量能耗变式训练3【2】(2010湖南)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是()A.y^=-10x+200B.y^=10x+200C.y^=-10x-200D.y^=10x-200解析:选A.由负相关定义得斜率小于0,排除B、D,又因x,y均大于0,排除C.故选A.A走进高考方法与技巧感悟提高1.求回归方程,关键在于正确求出系数_____,由于____的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为___,常数项为___,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一

1 / 31
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功