1※高二文科班数学课堂学习单53※班级姓名小组1.1回归分析的基本思想及其初步应用一,学习目标:1、理解回归分析的基本思想2、能用线性回归思想分析简单的问题二,自学导航:p2-p8问题一:2.某运动员训练次数与运动成绩之间的数据关系如下:次数(x)3033353739444650成绩(y)3034373942464851(1)作出散点图;(2)求出线性回归方程;(3)作出残差图;(4)计算R2;并说明训练的次数对成绩的影响占百分之几?(5)试预测该运动员训练47次及55次的成绩.解:(1)作出该运动员训练次数x与成绩y之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.∴b^=≈1.0415,∴a^=y-b^x=-0.003875,∴线性回归方程为y^=1.0415x-0.003875.(3)残差分析作残差图如图所示,由图可知,,说明选用的模型比较合适.(4)计算相关指数R2;并说明残差变量对成绩的影响占百分之几?计算相关指数R2≈0.9855.说明了.(5)做出预报由上述分析可知,我们可用回归方程y^=1.0415x-0.003875作为该运动员成绩的预报值.故预测运动员训练47次和55次的成绩分别为小结:建立回归模型的基本步骤:2问题二:在一次抽样调查中测得样本的5个样本点,数值如下表:x0.250.5124y1612521试建立y与x之间的回归方程.解:由数值表可作散点图如下图.根据散点图可知y与x近似地呈函数关系,设y=kx,令t=1x,则y=kt,原数据变为:ty1612521由置换后的数值表作散点图如下:由散点图可以看出y与t呈近似的关系.列表如下:itiyitiyit2iy2i141664162562212244144315512540.5210.25450.2510.250.6251∑7.753694.2521.3125430所以t=1.55,y=7.2.所以b^=≈4.1344,a^=所以y=所以y与x之间的回归方程是y^=。4,我生成的问题:三,我的收获:本节课的知识结构、学到的方法、易错点3四,课堂检测:1.(陕西高考)设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()A.x和y的相关系数为直线l的斜率B.x和y的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同D.直线l过点(x-,y-)2.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的相关指数R2分别为:模型1的相关指数R2为0.98,模型2的相关指数R2为0.80,模型3的相关指数R2为0.50,模型4的相关指数R2为0.25.其中拟合效果最好的模型是()A.模型1B.模型2C.模型3D.模型43.(江西高考)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177则y对x的线性回归方程为()A.y^=x-1B.y^=x+1C.y^=88+12xD.y^=1764.在关于两个变量的回归分析中,作散点图的目的是________.5.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n),且ei恒为0,则R2为________.6.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的能耗y(吨标准煤)的几组对照数据.x3456y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)已知该厂技术改造前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?(参考值:3×2.5+4×3+5×4+6×4.5=66.5),五,作业一、选择题1.在画两个变量的散点图时,下面哪个叙述是正确的()A.预报变量在x轴上,解释变量在y轴上B.解释变量在x轴上,预报变量在y轴上C.可以选择两个变量中任意一个变量在x轴上D.可以选择两个变量中任意一个变量在y轴上2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有()A.b与r的符号相同B.a与r的符号相同4C.b与r的符号相反D.a与r的符号相反3.(山东高考)某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程y^=b^x+a^中的b^为9.4,据此模型预报广告费用为6万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元4.甲、乙、丙、丁4位同学各自对A、B两变量做回归分析,分别得到散点图与残差平方和(yi-y^i)2如表所示:甲乙丙丁散点图残差平方和115106124103哪位同学的试验结果体现拟合A、B两变量关系的模型拟合精度高?()A.甲B.乙C.丙D.丁二、填空题5.(辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.6.在研究身高与体重的关系时,求得相关指数R2≈________,可以叙述为“身高贡献了84%的体重变化”,而随机误差贡献了剩余的16%,身高对体重的效应比随机误差的效应大得多.7.已知回归直线的斜率的估计值为1.23.样本点的中心为(4,5),则线性回归方程是________________.8.关于x与y有如下数据:x24568y3040605070为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲:y^=6.5x+17.5,乙:y^=7x+17,则模型________(填“甲”或“乙”)拟合的效果更好.解析:设甲模型的相关指数为R21,则R21=1-=1-1551000=0.845;设乙模型的相关指数为R22,则R22=1-1801000=0.82.5三、解答题9.假设关于某设备的使用年限x和所支出的维修费用y(万元)有如下的统计资料:使用年限x23456维修费用y2.23.85.56.57.0若由资料知,y对x呈线性相关关系.试求:(1)线性回归方程y^=b^x+a^;(2)求残差平方和;(3)求相关指数R2;(4)估计使用年限为10年时,维修费用是多少?解:(1)由已知数据制成下表:i12345合计xi2345620yi2.23.85.56.57.025xiyi4.411.42232.542112.3x2i4916253690x=4,y=5,x2i=90,xiyi=112.3于是有b^=112.3-5×4×590-5×4×4=1.23,a^=y-b^x=5-1.23×4=0.08,∴y^=1.23x+0.08.(2)由(1)得y^1=1.23×2+0.08=2.54,y^2=1.23×3+0.08=3.77,y^3=1.23×4+0.08=5,y^4=1.23×5+0.08=6.23,y^5=1.23×6+0.08=7.46,e^1=2.2-2.54=-0.34,e^2=3.8-3.77=0.03,e^3=5.5-5=0.5,e^4=6.5-6.23=0.27,6e^5=7.0-7.46=-0.46.∴残差平方和为:(-0.34)2+0.032+0.52+0.272+(-0.46)2=0.651.(3)R2=1-0.651-2.82+-1.22+0.52+1.52+22≈0.9587.(4)回归方程y^=1.23x+0.08,当x=10年时,y^=1.23×10+0.08=12.38(万元),即估计使用10年时,维修费用是12.38万元.10.有一个测量水流量的实验装置,测得试验数据如下表:i1234567水高h(厘米)0.71.12.54.98.110.213.5流量Q(升/分钟)0.0820.251.811.237.566.5134根据表中数据,建立Q与h之间的回归方程.解:由表中测得的数据可以作出散点图,如图观察散点图中样本点的分布规律,可以判断出样本点分布在某一条曲线上,表示该曲线的函数模型是Q=m·hn(m,n是正的常数)两边取常用对数,则lgQ=lgm+n·lgh.令y=lgQ,x=lgh,那么y=nx+lgm.即为线性函数模型y=bx+a的形式(其中b=n,a=lgm).由下面的数据表,用最小二乘法可求得b^≈2.5097,a^=-0.7077,所以n≈2.51,m≈0.196.ihiQixi=lghiyi=lgQix2ixiyi10.70.082-0.1549-1.08620.0240.168321.10.250.0414-0.60210.0017-0.024932.51.80.39790.25530.15830.101644.911.20.69021.04920.47640.724258.137.50.90851.57400.82541.4300610.266.51.00861.82281.01731.8385713.51341.13032.12711.27762.4043∑4.0225.14013.78076.642于是所求得的回归方程为Q=0.196·h2.51.71.线性回归模型(1)线性回归模型y=bx+a+e,其中a和b是模型的未知参数,e称为随机误差.自变量x又称为解释变量,因变量y又称为预报变量.(2)在线性回归方程y^=b^x+a^中b^==,a^=y-b^x-.其中x-=1n,y-=1n,(x-,y-)称为样本点的中心.2.刻画回归效果的方式残差数据点和它在回归直线上相应位置的差异yi-y^i是随机误差的效应,称e^i=yi-y^i为残差残差图作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度越窄,说明模型拟合精度越高残差平方和残差平方和为(yi-y^i)2,残差平方和越小,模型拟合效果越好相关指数R2R2=1-,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好1.在线性回归模型中,预报变量y由解释变量x唯一确定吗?提示:不唯一.y值由x和随机误差e共同确定,即自变量x只能解释部分y的变化.2.回归分析中,利用线性回归方程求出的函数值一定是真实值吗?为什么?提示:不一定是真实值,利用线性回归方程求出的值,只是个预报值,例如人的体重与身高存在一定的线性关系,但体重除了受身高影响外,还受其他因素的影响,如饮食,是否运动等.3.在回归分析中,相关指数R2的值越大,则残差平方和越大还是越小?提示:相关指数R2的值越大,说明回归模型拟合的效果越好,残差平方和越小,反之,相关指数R2的值越小,残差平方和越大.8考点一线性回归分析炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时,钢水的含碳量x与冶炼时间y(从炼料熔化完毕到出钢的时间)的一列数据,如下表所示:x(0.01%)104180190177147134150191204121y(min)100200210185155135170205235125(1)作出散点图,你能从散点图中发现含碳量与冶炼时间的一般规律吗?(2)求y与x之间的回归方程;(3)预测当钢水含碳量为160时,应冶炼多少分钟?[自主解答](1)以x轴表示含碳量,y轴表示冶炼时间,可作散点图如下所示.从图中可以看出,各点散布在一条直线附近,即它们线性相关.(2)列出下表,并用科学计算器