-1-第一章统计案例1.1回归分析的基本思想及其初步应用(一)课时作业新人教A版选修1-2明目标、知重点1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤.1.线性回归模型(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系.(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线y=bx+a的斜率和截距的最小二乘估计公式分别为b^=∑ni=1xi-xyi-y∑ni=1xi-x2=∑ni=1xiyi-nxy∑ni=1x2i-nx2,a^=y-b^x,其中(x,y)称为样本点的中心.(4)线性回归模型y=bx+a+e,其中a和b是模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.2.残差的概念对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为e^i=yi-y^i=yi-b^xi-a^,i=1,2,…,n,e^i称为相应于点(xi,yi)的残差.3.刻画回归效果的方式(1)残差图法作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差平方和法残差平方和∑ni=1(yi-y^i)2越小,模型拟合效果越好.(3)利用R2刻画回归效果R2=1-∑ni=1yi-y^i2∑ni=1yi-y2,R2表示解释变量对于预报变量变化的贡献率.R2越接近于1,表示回归-2-的效果越好.[情境导学]“名师出高徒”这句谚语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?探究点一线性回归方程思考1两个变量之间的关系分几类?答分两类:①函数关系,②相关关系.函数关系是一种确定性关系,而相关关系是一种非确定性关系.上面所提的“名师”与“高徒”之间的关系就是相关关系.思考2什么叫回归分析?答回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.思考3对具有线性相关关系的两个变量进行回归分析有哪几个步骤?答基本步骤为画散点图,求线性回归方程,用线性回归方程进行预报.例1若从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.解(1)画散点图选取身高为自变量x,体重为因变量y,画出散点图,展示两个变量之间的关系,并判断二者是否具有线性关系.由散点图可以发现,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用回归直线y=bx+a来近似刻画它们之间的关系.(2)建立回归方程由计算器可得b^=0.849,a^=-85.712.于是得到回归方程为y^=0.849x-85.712.-3-(3)预报和决策当x=172时,y^=0.849×172-85.712=60.316(kg).即一名身高为172cm的女大学生的体重预报值为60.316kg.反思与感悟在使用回归方程进行预报时要注意:(1)回归方程只适用于我们所研究的样本的总体;(2)我们所建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.跟踪训练1某班5名学生的数学和物理成绩如表:学生学科ABCDE数学成绩(x)8876736663物理成绩(y)7865716461(1)画出散点图;(2)求物理成绩y对数学成绩x的回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩.解(1)散点图如图.(2)x=15×(88+76+73+66+63)=73.2.y=15×(78+65+71+64+61)=67.8.∑5i=1xiyi=88×78+76×65+73×71+66×64+63×61=25054.∑5i=1x2i=882+762+732+662+632=27174.∴b^=∑5i=1xiyi-5x·y∑5i=1x2i-5x2≈0.625.∴a^=y-b^x=67.8-0.625×73.2=22.05.-4-∴y对x的回归方程是y^=0.625x+22.05.(3)当x=96时,y^=0.625×96+22.05≈82.所以,可以预测他的物理成绩是82.探究点二线性回归分析思考1利用求得的回归方程进行预报,为什么得到的预报值和实际值并不相同?答解释变量和预报变量之间的关系是相关关系而非函数关系,由回归方程得到的是预报值而非实际值.思考2给出两个变量的回归方程,怎样判断拟合效果的好坏?答一般有三种方法来判断拟合效果:①残差平方和法:残差平方和越小,拟合效果越好;②残差图中的点分布的带形区域宽度越窄,拟合精度越高;③相关指数法:相关指数R2越接近于1,模型的拟合效果越好.思考3如果R2≈0.64,表示什么意义?答表示“解释变量对于预报变量的贡献率为64%.”思考4回归分析中,利用线性回归方程求出的函数值一定是真实值吗?答不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食习惯,是否喜欢运动等.例2某运动员训练次数与成绩之间的数据关系如下:次数(x)3033353739444650成绩(y)3034373942464851(1)作出散点图;(2)求出回归方程;(3)作出残差图;(4)计算相关指数R2;(5)试预测该运动员训练47次及55次的成绩.解(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如下图所示,由散点图可知,它们之间具有线性相关关系.(2)列表计算:-5-次数xi成绩yix2iy2ixiyi30309009009003334108911561122353712251369129537391369152114433942152117641638444619362116202446482116230422085051250026012550由上表可求得x=39.25,y=40.875,∑8i=1x2i=12656,∑8i=1y2i=13731,∑8i=1xiyi=13180,∴b^=∑8i=1xiyi-8xy∑8i=1x2i-8x2≈1.0415,a^=y-b^x≈-0.00388,∴回归方程为y^=1.0415x-0.00388.(3)残差分析作残差图如下图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)计算相关指数R2计算相关指数R2≈0.9855.说明了该运动员的成绩的差异有98.55%是由训练次数引起的.(5)做出预报由上述分析可知,我们可用回归方程y^=1.0415x-0.00388作为该运动员成绩的预报值.将x=47和x=55分别代入该方程可得y=49和y=57.故预测该运动员训练47次和55次的成绩分别为49和57.反思与感悟解答本类题目应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,-6-在此基础上,借助回归方程对实际问题进行分析.跟踪训练2假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;(3)计算各组残差,并计算残差平方和;(4)求相关指数R2,并说明残差变量对有效穗的影响占百分之几?解(1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.设回归方程为y^=b^x+a^,x=30.36,y=43.5,∑5i=1x2i=5101.56,∑5i=1y2i=9511.43.xy=1320.66,y2=1892.25,x2=921.7296,∑5i=1xiyi=6746.76.由b^=∑5i=1xiyi-5xy∑5i=1x2i-5x2≈0.29,a^=y-b^x=43.5-0.29×30.36≈34.70.故所求的线性回归方程为y^=34.70+0.29x.当x=56.7时,y^=34.70+0.29×56.7=51.143.估计成熟期有效穗为51.143.(3)由于y=bx+a+e,可以算得e^i=yi-y^i分别为e^1=0.35,e^2=0.718,e^3=-0.5,e^4=-2.214,e^5=1.624,残差平方和:∑5i=1e^2i≈8.43.-7-(4)可得:∑5i=1(yi-y)2=50.18,∴R2=1-8.4350.18≈0.832.所以解释变量小麦基本苗数对有效穗约贡献了83.2%.残差变量贡献了约1-83.2%=16.8%.1.下列各组变量之间具有线性相关关系的是()A.出租车费与行驶的里程B.学习成绩与学生身高C.身高与体重D.铁的体积与质量答案C2.若劳动生产率x(千元)与月工资y(元)之间的线性回归方程为y^=50+80x,则下列判断正确的是()A.劳动生产率为1000元时,月工资为130元B.劳动生产率提高1000元时,月工资平均提高80元C.劳动生产率提高1000元时,月工资平均提高130元D.月工资为210元时,劳动生产率为2000元答案B3.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是()A.y^=-10x+200B.y^=10x+200C.y^=-10x-200D.y^=10x-200答案A解析由于销售量y与销售价格x成负相关,故排除B、D.又当x=10时,A中y=100,而C中y=-300,C不符合题意,故选A.4.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的线性回归方程:y^=0.254x+0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加______万元.答案0.254解析由题意知[]0.254x+1+0.321-(0.254x+0.321)=0.254.[呈重点、现规律]回归分析的步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;-8-(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y^=b^x+a^);(4)按一定规则估计回归方程中的参数;(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.一、基础过关1.在下列各量之间,存在相关关系的是()①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系;⑤某户家庭用电量与电价之间的关系.A.②③B.③④C.④⑤D.②③④答案D2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg