中国教育领军品牌1一切为了孩子环球雅思学科教师辅导讲义讲义编号:组长签字:签字日期:学员编号:年级:高二课时数:3学员姓名:辅导科目:数学学科教师:闫建斌课题线性回归方程授课日期及时段2014-2-1118:00-20:00教学目标线性回归方程基础重点、难点教学内容1、本周错题讲解2、知识点梳理1.线性回归方程①变量之间的两类关系:函数关系与相关关系②制作散点图,判断线性相关关系③线性回归方程:abxy(最小二乘法)最小二乘法:求回归直线,使得样本数据的点到它的距离的平方最小的方法1221niiiniixynxybxnxaybx注意:线性回归直线经过定点),(yx2.相关系数(判定两个变量线性相关性):niniiiniiiyyxxyyxxr11221)()())((注:⑴r0时,变量yx,正相关;r0时,变量yx,负相关;中国教育领军品牌2一切为了孩子⑵①||r越接近于1,两个变量的线性相关性越强;②||r接近于0时,两个变量之间几乎不存在线性相关关系。3.线形回归模型:⑴随机误差e:我们把线性回归模型eabxy,其中ba,为模型的未知参数,e称为随机误差。随机误差abxyeiii⑵残差eˆ:我们用回归方程axbyˆˆˆ中的yˆ估计abx,随机误差)(abxye,所以yyeˆˆ是e的估计量,故axbyyyeiiiiiˆˆˆˆ,eˆ称为相应于点),(iiyx的残差。⑶回归效果判定-----相关指数(解释变量对于预报变量的贡献率)22121ˆ()1()niiiniiiyyRyy(2R的表达式中21)(niiyy确定)注:①2R得知越大,说明残差平方和越小,则模型拟合效果越好;②2R越接近于1,,则回归效果越好。4.独立性检验(分类变量关系):(1)分类变量:这种变量的不同“值”表示个体所属的不同类别的变量。(2)列联表:列出两个分类变量的频数表,称为列联表。(3)对于22列联表:2K的观测值))()()(()(2dbcadcbabcadnk。(4)临界值0k表:)(02kkP0.500.400.250.150.100.050.0250.0100.0050.0010k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828如果0kk,就推断“YX,有关系”,这种推断犯错误的概率不超过;否则,在样本数据中没有发现足够证据支持结论“YX,有关系”。(5)反证法与独立性检验原理的比较:中国教育领军品牌3下,如果推出矛盾,就证明了0H不成立。独立性检验原理在假设0H下,如果出现一个与0H相矛盾的小概率事件,就推断0H不成立,且该推断犯错误的概率不超过这个小概率。典型例题1.(2011·山东)某产品的广告费用x与销售额y的统计数据如下表:广告费用x/万元4235销售额y/万元49263954根据上表可得回归方程y^=b^x+a^中的b^为9.4,据此模型预报广告费用为6万元时销售额为().A.63.6万元B.65.5万元C.67.7万元D.72.0万元解析∵x-=4+2+3+54=72,y-=49+26+39+544=42,又y^=b^x+a^必过(x-,y-),∴42=72×9.4+a^,∴a^=9.1.∴线性回归方程为y^=9.4x+9.1.∴当x=6时,y^=9.4×6+9.1=65.5(万元).答案B2.(2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x/cm174176176176178儿子身高y/cm175175176177177则y对x的线性回归方程为().A.y^=x-1B.y^=x+1C.y^=88+12xD.y^=176解析因为x-=174+176+176+176+1785=176,y-=175+175+176+177+1775=176,中国教育领军品牌4的线性回归方程表示的直线恒过点(x-,y-),所以将(176,176)代入A、B、C、D中检验知选C.答案C3.(2011·陕西)设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是().A.x和y的相关系数为直线l的斜率B.x和y的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同D.直线l过点(x-,y-)解析因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以A、B错误.C中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以C错误.根据回归直线方程一定经过样本中心点可知D正确,所以选D.答案D4.(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:时间x12345命中率y0.40.50.60.60.4小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.解析小李这5天的平均投篮命中率y-=0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x-=3.根据表中数据可求得b^=0.01,a^=0.47,故回归直线方程为y^=0.47+0.01x,将x=6代入得6号打6小时篮球的投篮命中率约为0.53.答案0.50.535.(2011·辽宁)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析由题意知[0.254(x+1)+0.321]-(0.254x+0.321)=0.254.答案0.254中国教育领军品牌5.(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20022004200620082010需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y^=b^x+a^;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解(1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求回归直线方程.为此对数据预处理如下:年份-2006-4-2024需求量-257-21-1101929对预处理后的数据,容易算得x-=0,y-=3.2.b^=-4×-21+-2×-11+2×19+4×29-5×0×3.2-42+-22+22+42-5×02=26040=6.5,a^=y--bx-=3.由上述计算结果,知所求回归直线方程为y^-257=b^(x-2006)+a^=6.5(x-2006)+3.2,即y^=6.5(x-2006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5×(2012-2006)+260.2=6.5×6+260.2=299.2(万吨).课堂练习1.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为()A.y^=x+1B.y^=x+2C.y^=2x+1D.y^=x-12.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R2的值分别约为0.96和0.85,则拟合效果好的模型是()A.甲B.乙C.甲、乙相同D.不确定3.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算,得∑8i=1xi=52,∑8i=1yi=228,∑8i=1x2i=478,∑8i=1xiyi=1849,则其线性回归方程为()A.y^=11.47+2.62xB.y^=-11.47+2.62xC.y^=2.62+11.47xD.y^=11.47-2.62x中国教育领军品牌6.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1234用水量y4.5432.5由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是y^=-0.7x+a,则a等于______.5.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程y^=bx+a,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少小时?课后练习一、选择题1.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为()A.y^=x+1B.y^=x+2C.y^=2x+1D.y^=x-1答案A解析画出散点图,四点都在直线y^=x+1.2.下列有关样本相关系数的说法不正确的是()A.相关系数用来衡量变量x与y之间的线性相关程度B.|r|≤1,且|r|越接近于1,相关程度越大C.|r|≤1,且|r|越接近0,相关程度越小D.|r|≥1,且|r|越接近1,相关程度越小答案D3.由一组样本(x1,y1),(x2,y2),…,(xn,yn)得到的回归直线方程y^=a+bx,下面有四种关于回归直线方程的论述:(1)直线y^=a+bx至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点;中国教育领军品牌7一切为了孩子(2)直线y^=a+bx的斜率是∑ni=1xiyi-nxy∑ni=1x2i-nx2;(3)直线y^=a+bx必过(x,y)点;(4)直线y^=a+bx和各点(x1,y1),(x2,y2),…,(xn,yn)的偏差∑ni=1(yi-a-bxi)2是该坐标平面上所有的直线与这些点的偏差中最小的直线.其中正确的论述有()A.0个B.1个C.2个D.3个答案D解析线性回归直线不一定过点(x1,y1),(x2,y2),…,(xn,yn)中的任何一点;b=∑ni=1xiyi-nxy∑ni=1x2i-nx2就是线性回归直线的斜率,也就是回归系数;线性回归直线过点(x,y);线性回归直线是平面上所有直线中偏差∑ni=1(yi-a-bxi)2取得最小的那一条.故有三种论述是正确的,选D.4.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵截距是a,那么必有()A.b与r的符号相同B.a与r的符号相同C.b与r的符号相反D.a与r的符号相反答案A5.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R2的值分别约为0.96和0.85,则拟合效果好的模型是()A.甲B.乙C.甲、乙相同D.不确定答案A6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算,得∑8i=1xi=52,∑8i=1yi=228,∑8i=1x2i=478,∑8i=1xiyi=1849,则其线性回归方程为()A.y^=11.47+2.62xB.y^=-11.47+2.62xC.y^=2.62+11.47xD.y^=11.47-2.62x答案A解析利用回归系数公式计算可得a=11.47,b=2.62,故y^=11.47+2.62x.二、填空题7.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1234用水量y4.5432.5由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是y^=