12.4线性回归方程一、知识导学1.变量之间的常见关系有如下两类:一类是确定性函数关系,变量之间的关系可以用函数表示;一类是相关关系,变量之间有一定的联系,但不能完全用函数来表达2.能用直线方程abxy^近似表示的相关关系叫做线性相关关系3.一般地,设有(x,y)的n对观察数据如下:x1x2x3x……nxy1y2y3y……ny当a,b使2222211)(......)()(abxyabxyabxyQnn取得最小值时,就称abxy为拟合这n对数据的线性回归方程,将该方程所表示的直线称为回归直线.4.线性回归方程abxy中的系数ba,满足:niiniiniiiniiniiynabxyxaxbx111112由此二元一次方程组便可依次求出ab,的值:xbyaxxnyxyxnbniiniiniiniiniii2112111(*)5.一般地,用回归直线进行拟合的一般步骤为:(1)作出散点图,判断散点是否在一条直线附近;(2)如果散点在一条直线附近,用公式(*)求出ba,,并写出线性回归方程.二、疑难知识导析1.现实世界中两个变量的关系中更多的是相关关系而不是确定性关系,许多物理学中公式看起来是确定性关系,实际上由于公式的使用范围,测量误差等的影响,试验得到的数据之间是相关关系.2.用最小二乘估计方法计算得到的ba,使函数baQ,达到最小3.还有其他寻找较好的回归直线的原则(如使y方向的偏差和最小,使各点到回归直线的距离之和最小等)4.比较相关关系绝对值的大小可以比较一组变量之间哪两个变量有更强的(线性)相关关系.5.“最好的”直线方程中“最好”可以有多种解释,也就有不同的求解方法,现在广泛采用的最小二乘法所用的思想是找到使散点到直线abxy在垂直方向上的距离的平方和最小的直线abxy,用这个方法,ba,的求解最简单三、经典例题导讲[例1]有如下一组y与x的数据x-3-2-10123y9410149问y与x的(样本)相关系数r是多少?这是否说明y与x没有关系?错解:040707))((7171xyyxyyxxiiiiii所以相关系数r=0,即y与x没有关系.错因:相关系数r=0并不是说明y与x没有关系,而是说明y与x没有线性相关关系,但有可能有非线性相关关系.正解:040707))((7171xyyxyyxxiiiiii所以相关系数r=0,即y与x没有线性相关关系,但有可能有非线性相关关系.此题中y与x之间存在着2xy的二次相关关系的.[例2]某工厂在2004年的各月中,一产品的月总成本y(万元)与月产量x(吨)之间有如下数据:x4.164.244.384.564.724.965.185.365.65.745.966.14y4.384.564.64.834.965.135.385.555.715.896.046.25若2005年1月份该产品的计划产量是6吨,试估计该产品1月份的总成本.分析:可将此问题转化为下面三个问题:(1)画出散点图,根据散点图,大致判断月总成本y与月产量之间是否有线性相关关系;(2)求出月总成本y与月产量x之间的线性回归方程;(4)若2005年1月份该产品的计划产量是6吨,试估计该产品1月份的总成本.错解:省去第一步,即把判断判断月总成本y与月产量之间是否有线性相关关系的过程舍去,想当然其具有线性相关关系,直接代入公式,求出线性回归方程.错因:此题的月总成本y与月产量x之间确实是有线性相关关系,若不具有则会导致错误.因此判断的过程不可少.正解:(1)散点图见下面,从图中可以看到,各点大致在一条直线附近,说明x与y有较强的线性相关关系.(2)代入公式(*)得:a=0.9100,b=0.6477,线性回归方程是:y=0.9100x+0.6477.(3)当x=6.0时,y=0.910011.66477.00.6(万元),即该产品1月份的总成本的估计值为6.11万元.[例3]变量y与x有线性回归方程abxy,现在将y的单位由cm变为xm,的单位由ms变为s,则在新的回归方程**axby中.*a.错解:0.1a错因:由xbyaxxnyxyxnbniiniiniiniiniii2112111且y的值变为原来的210,x的值变为原来的310可得*a的值应为原来的210.正解:0.01a[例4]假定一个物体由不同的高度落下,并测量它落下的时间,几个测量结果如下表所示:高度s(cm)4060100130150180200220240时间t(ms)353387505552579648659700725高度(距离)与时间之间的关系由公式221gts给出,这里g是重力加速度的值.(1)画出s关于t的散点图,这些点在一条直线附近吗?(2)设2tx,画出s关于x的散点图,这些点在一条直线附近吗?(3)求出s关于x的线性回归方程.解:(1)高度s关于时间t的散点图见下面,从图中可以看到这些点似乎在一条直线附近,也好像在一条抛物线附近(2)高度s关于x的散点图见下面,从图中可以看到这些散点大致在一条直线附近(3)可以求得s关于x的线性回归方程是s=0.0004901x-18.8458[例5]测得某国10对父子身高(单位:英寸)如下:父亲身高(x)60626465666768707274儿子身高(y)63.565.26665.566.967.167.468.370.170(1)画出散点图;(2)求出y与x之间的线性回归方程;(3)如果父亲的身高为73英寸,估计儿子的身高.解:(1)散点图见下面:(2)从散点图可以看出,这些点都分布在一条直线附近,可求得线性回归方程为98.354645.0xy(3)当73x时,9.6998.35734645.0y所以当父亲的身高为73英寸时,估计儿子的身高约为69.9英寸.四、典型习题导练1.回归直线方程的系数a,b的最小二乘估计使函数),(baQ最小,Q函数指().A.21)(niiibxayB.niiibxay1C.2)(iibxayD.iibxay2.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论在儿子的身高y与父亲的身高x的线性回归方程bxay中,b().A.在(-1,0)内B.等于0C.在(0,1)内D.在[1,+∞]内3.在研究硝酸钠的可溶性程度时,对不同的温度观测它在水中的溶解度,得到观测结果如下:温度x010205070溶解度y66.776.085.0112.3128.0则由此得到的回归直线的斜率是(保留4位有效数字)4.下面的数据是年龄在40至60岁的男子中随机抽取的6个样本,分别测定了心脏功能水平y(满分100),以及每天画在看电视上的平均时间x(小时)看电视平均时间x4.44.62.75.80.24.6心脏功能水平y525369578965则x与y的样本相关系数为.5.某地区近年来冬季的降雨量x(cm)与次年夏季空气中碳氢化合物的最高平均浓度y(ppm),的观测数据如下表:年份n1988198919901991199219931994199519961997199819992000x28223123583321204531231614y4.54.14.84.24.63.63.12.83.42.62.32.22.0你认为y与x是什么关系?y与n是什么关系?6.每立方米混凝土的水泥用量x(单位:kg)与28天后混凝土的托压强度(单位:kg/cm2)的关系有如下数据:x150160170180190200210220230240250260Y56.958.361.664.668.171.374.177.480.282.686.489.7(1)y与x是否具有线性相关关系?(2)如果y与x具有线性相关关系,求线性回归方程.