§8最小二乘估计问题引航1.什么是最小二乘法?如何理解最小二乘法的基本思想?2.怎样刻画多个点与直线的接近程度?什么是线性回归方程?如何求线性回归方程?求解步骤是怎样的?1.最小二乘法的定义与应用(1)定义:如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:___________________________________________.使得上式达到_______的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2最小值(2)应用:利用最小二乘法估计时,要先作出数据的_____图.如果_______呈现出线性关系,可以用最小二乘法估计出线性回归方程;如果_______呈现出其他的曲线关系,则要利用其他的工具进行拟合.散点散点图散点图2.线性回归方程(1)回归:一种统计方法,它通过计算变量之间的_________进而估计它们之间的联系公式.(2)用表示用表示由最小二乘法可以求得b=_________________________,a=________,这样得到的直线方程y=a+bx称为线性回归方程,a,b是线性回归方程的_____.相关系数xy12nxxx,n12nyyy,n1122nn222212nxyxyxynxyxxxnxybx系数1.判一判(正确的打“√”,错误的打“×”)(1)线性回归方程能代表线性相关的两个变量之间的关系.()(2)任一组数据都有线性回归方程.()(3)线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法.()【解析】(1)正确,由线性回归方程的概念可知正确.(2)错误,当样本点的分布不是在直线附近时,没有线性回归方程.(3)正确,由线性回归的定义知正确.答案:(1)√(2)×(3)√2.做一做(请把正确的答案写在横线上)(1)对于线性回归方程y=2.75x+9,当x=4时,y的估计值是__________.(2)散点图中n个点的中心是__________.【解析】(1)将x=4代入y=2.75x+9得y的估计值为20.答案:20(2)因为所以n个点的中心是答案:12nxxxx,n12nyyyy,nx,y.x,y【要点探究】知识点对最小二乘法和线性回归方程的理解1.最小二乘法中“二乘”的含义“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”).2.关于线性回归方程的四点说明(1)求线性回归方程的前提条件:当两变量线性相关时,求出的线性回归方程才有实际意义.(2)数据越多,拟合效果越好,相关程度越高,估计越精确.(3)选择的数据不同,得到的回归方程也可能不同,这是由样本的随机性造成的.(4)线性回归方程过定点x,y.3.最小二乘法的数据拟合用最小二乘法进行数据拟合时给出逼近直线,其特点是:所求的逼近直线不一定经过这些离散点,但要保证这条直线与所有点的贴近程度最大.【知识拓展】利用线性回归方程对总体进行估计根据所求的线性回归方程,我们可以进行预测,并对总体进行估计.若已知线性回归方程y=a+bx,则在x=x0处的估计值为y0=a+bx0,这个值是一个预测值,不是精确值.虽然这是一个预测值且具有随机性,但由于是根据统计规律得到的,因而所得结论正确的可能性很大,所以我们可以利用线性回归方程进行预测.【微思考】(1)最小二乘法概念中的“最小”指的是什么?提示:“最小”是指样本数据的点与直线y=a+bx的接近程度[yi-(a+bxi)]2达到最小.ni1(2)用什么样的方法刻画点与直线的“距离”会方便有效?提示:设直线方程为y=a+bx,样本点为(xi,yi).方法一:点到直线的距离公式方法二:[yi-(a+bxi)]2.显然方法二能有效地表示点(xi,yi)与直线y=a+bx的“距离”,而且比方法一更方便计算,所以我们用它来表示二者之间的接近程度.ii2bxyad.b1【即时练】1.变量y与x之间的线性回归方程()A.表示y与x之间的函数关系B.表示y和x之间的不确定关系C.反映y和x之间真实关系的形式D.反映y与x之间的真实关系达到最大限度的吻合【解析】选D.线性回归方程反映y与x之间的真实关系达到最大限度的吻合.2.设有一个线性回归方程为y=2-1.5x,则变量x增加一个单位时()A.y平均增加1.5个单位B.y平均增加2个单位C.y平均减少1.5个单位D.y平均减少2个单位【解析】选C.y2-y1=2-1.5(x+1)-2+1.5x=-1.5.3.某产品的广告费用x与销售额y的统计数据如表根据上表可得线性回归方程y=bx+a中的b为9.4,据此模型预测广告费用为6万元时的销售额为__________万元.广告费用x(万元)4235销售额y(万元)49263954【解析】由表可计算因为点在回归直线y=bx+a上,且b为9.4,所以42=9.4×+a,解得a=9.1,故线性回归方程为y=9.4x+9.1,令x=6得y=65.5(万元).答案:65.542357x,4249263954y42,47,422()72【题型示范】类型一求线性回归方程【典例1】(1)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y对x的线性回归方程为()A.y=x-1B.y=x+1C.y=88+xD.y=176父亲身高x(cm)174176176176178儿子身高y(cm)17517517617717712(2)从某一行业随机抽取12家企业,它们的生产量与生产费用的数据如表所示:企业编号123456789101112生产量x(台)40425055657884100116125130140生产费用y(万元)130150155140150154165170167180175185①绘制生产量x和生产费用y相应数据对应的散点图.②如果两个变量之间是线性相关关系,请用最小二乘法求出其线性回归方程.③如果一个企业的生产量是120台,请预测它的生产费用.【解题探究】1.题(1)中五个样本点的回归中心是什么?2.解答题(2)的关键是什么?什么地方易出现错误?【探究提示】1.回归中心为即(176,176).2.(1)解答题(2)的关键在于正确地理解求线性回归方程的步骤,正确地套用有关公式.(2)解答题(2)易出现的错误是计算出错,应注意准确地使用数据及计算公式,仔细认真地进行计算.x,y【自主解答】(1)选C.因为又y对x的线性回归方程表示的直线恒过点所以将(176,176)代入A,B,C,D中检验知选C.175175176177177y176,5174176176176178x176,5x,y,(2)①散点图如图所示:②根据散点图可知,两个变量x和y之间的关系是线性相关关系.下面用最小二乘法求线性回归方程:设所求的线性回归方程是y=a+bx,则b≈≈0.42,a=≈160.1-0.42×85.42≈124.22,所求的线性回归方程是y=0.42x+124.22.ybx170094164108.90410183587558.9168③在线性回归方程y=0.42x+124.22中,常数项124.22可以认为是固定费用,它不随生产量的变化而变化;0.42可以认为是可变费用的增长系数,即每增加一个单位的生产量就增加0.42个单位的费用.将x=120代入线性回归方程得y=0.42×120+124.22=174.62,即如果一个企业的生产量是120台,它的生产费用约为174.62万元.【延伸探究】若题(2)题干不变,根据所求的线性回归方程,计算当x=130时的生产费用,并与实际生产费用比较大小.【解析】当x=130时,y=0.42×130+124.22=178.82175,即当x=130时,预测生产费用约是178.82万元,比实际生产费用175万元多3.82万元.【方法技巧】用线性回归方程进行数据拟合的一般步骤(1)把数据列成表格.(2)作散点图.(3)判断是否线性相关.(4)若线性相关,求出系数b,a的值(一般也列成表格的形式,用计算器或计算机计算).(5)写出线性回归方程y=a+bx.【变式训练】某连锁经营公司所属5个零售店某月的销售额和利润额资料如表(1)用最小二乘法计算利润额y对销售额x的线性回归方程.(2)当销售额为4千万元时,估计利润额的大小.商店名称ABCDE销售额x(千万元)35679利润额y(百万元)23345【解析】(1)根据题干中表格可计算出其他数据如表ixiyixiyi132962532515363361847449285958145合计3017200112x6y3.4,,2ix进而可求得b=a=3.4-×6=0.4,所以利润额y对销售额x的线性回归方程为:y=0.5x+0.4.(2)当销售额为4千万元时,利润额为:y=0.5×4+0.4=2.4(百万元).12112563.4101.200566202【误区警示】求线性回归方程的关键是计算直线的斜率和截距的估计值,往往因计算不准导致错误.【补偿训练】某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:(1)在给定的坐标系中画出表中数据的散点图.(2)求出y关于x的线性回归方程y=bx+a,并在坐标系中画出回归直线.(3)试预测加工10个零件需要多少小时?零件的个数x(个)2345加工的时间y(小时)2.5344.5【解析】(1)散点图如图.(2)由表中数据得:其他数据如表x3.5,y3.5,ixiyixiyi122.545233993441616454.52522.5合计14145452.52ix进而可求得b==0.7,所以a=1.05,所以y=0.7x+1.05,回归直线如图所示.52.543.53.55443.53.5(3)将x=10代入回归直线方程,得y=0.7×10+1.05=8.05,所以预测加工10个零件需要8.05小时.类型二线性回归方程的应用【典例2】(1)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:小李这5天的平均投篮命中率为______;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.时间x12345命中率y0.40.50.60.60.4(2)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:①求线性回归方程y=bx+a,其中,b=-20,②预计在今后的销售中,销量与单价仍然服从①中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)单价x(元)88.28.48.68.89销量y(件)908483807568aybx.【解题探究】1.题(1)中从表中数据可以判断变量x,y有怎样的关系?2.题(2)中,线性回归方程y=a+bx中的系数b的含义是什么?【探究提示】1.由表中的数据画散点图知,两变量具有线性相关关系.2.在线性回归方程y=a+bx中b的含义容易理解成y增加的单位数,而实际上,它代表x每增加一个单位,y的增加数的平均数为b个单位,而不是y增加b个单位.【自主解答】(1)由表中数据得其他数据如表ixiyixiyi110.410.4220.541330.691.8440.6162.4550.4252合计152.5557.62ixy0.5,x3,进而可求得所以线性回归方程为y=0.01x+0.47,则当x=6时,y=0.53.所以预测小李该月6号打6小时篮球的投篮命中率为0.53.答案:0.50.537.6530.5b0.01,55533aybx0.47,