回归分析的基本知识点及习题本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。这种由于模型近似所引起的误差包含在中。(2)忽略了某些因素的影响。影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。(3)观测误差。由于测量工具等原因,得到的的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在中。上面三项误差越小,说明我们的回归模型的拟合效果越好。二、例题选讲1为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:家庭编号12345678910xi(收入)千元0.81.11.31.51.51.82.02.22.42.8yi(支出)千元0.71.01.21.01.31.51.31.72.02.5(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程.解(1)作出散点图:观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系.(2)=(0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,=(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,=≈0.8136,=1.42-1.74×0.8136≈0.0043,∴回归方程=0.8136x+0.0043.2下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨)标准煤的几组对照数据.x3456y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?解(1)散点图如下图:(2)==4.5,==3.5=3×2.5+4×3+4×5+6×4.5=66.5.=32+42+52+62=86∴===0.7=-=3.5-0.7×4.5=0.35.∴所求的线性回归方程为=0.7x+0.35.(3)现在生产100吨甲产品用煤y=0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.3科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.年平均气温12.5112.8412.8413.6913.3312.7413.05年降雨量748542507813574701432(1)试画出散点图;(2)判断两个变量是否具有相关关系.解(1)作出散点图如图所示,x101y101bˆniiniiixnxyxnyx1221aˆyˆyˆbˆaˆx46543y45.4435.241iiiyx412iixbˆ24124144xxyxyxiiiii25.44865.45.345.66aˆybˆxyˆ(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.4在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:温度(x)010205070溶解度(y)66.776.085.0112.3128.0由资料看y与x呈线性相关,试求回归方程.解=30,==93.6.=≈0.8809.=-=93.6-0.8809×30=67.173.∴回归方程为=0.8809x+67.173.5.某企业上半年产品产量与单位成本资料如下:月份产量(千件)单位成本(元)127323723471437354696568(1)求出线性回归方程;(2)指出产量每增加1000件时,单位成本平均变动多少?(3)假定产量为6000件时,单位成本为多少元?解(1)n=6,=21,=426,=3.5,=71,=79,=1481,===-1.82.=-=71+1.82×3.5=77.37.回归方程为=+x=77.37-1.82x.(2)因为单位成本平均变动=-1.82<0,且产量x的计量单位是千件,所以根据回归系数b的意义有:产量每增加一个单位即1000件时,单位成本平均减少1.82元.(3)当产量为6000件时,即x=6,代入回归方程:=77.37-1.82×6=66.45(元)当产量为6000件时,单位成本为66.45元.1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是.xy50.1283.1120.850.767.66bˆ25125155xxyxyxiiiiiaˆybˆxyˆ61iix61iiyxy612iix61iiiyxbˆ26126166xxyxyxiiiii25.3679715.364811aˆybˆxyˆaˆbˆbˆyˆ答案a,c,b2.回归方程=1.5x-15,则下列说法正确的有个.①=1.5-15②15是回归系数a③1.5是回归系数a④x=10时,y=0答案13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为=8.25x+60.13,下列叙述正确的是.①该地区一个10岁儿童的身高为142.63cm②该地区2~9岁的儿童每年身高约增加8.25cm③该地区9岁儿童的平均身高是134.38cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高答案②4.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,y与x有相关关系,得到回归直线方程=0.66x+1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为.答案83%5.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算,得=52,=228,=478,=1849,则其线性回归方程为.答案=11.47+2.62x6.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是.答案①③④7.已知关于某设备的使用年限x与所支出的维修费用y(万元),有如下统计资料:使用年限x23456维修费用y2.23.85.56.57.0若y对x呈线性相关关系,则回归直线方程=x+表示的直线一定过定点.答案(4,5)二、解答题8.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:学生学科ABCDE数学8075706560物理7066686462(1)数学成绩和物理成绩具有相关关系吗?(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点.解(1)数学成绩和物理成绩具有相关关系.(2)以x轴表示数学成绩,y轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近.9.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:房屋面积x(m2)11511080135105销售价格y(万元)24.821.618.429.222yˆyxyˆyˆ81iix81iiy812iix81iiiyxyˆyˆbˆaˆ(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线.解(1)数据对应的散点图如图所示:(2)=109,=23.2,=60975,=12952,=≈0.1962=-≈1.8142∴=0.1962x+1.8142.10.某公司利润y与销售总额x(单位:千万元)之间有如下对应数据:x10151720252832y11.31.822.62.73.3(1)画出散点图;(2)求回归直线方程;(3)估计销售总额为24千万元时的利润.解(1)散点图如图所示:(2)=(10+15+17+20+25+28+32)=21,=(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,=102+152+172+202+252+282+322=3447,=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,==≈0.104,=-=2.1-0.104×21=-0.084,∴=0.104x-0.084.(3)把x=24(千万元)代入方程得,=2.412(千万元).∴估计销售总额为24千万元时,利润为2.412千万元.11某种产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:x24568y3040605070(1)画出散点图;xy512iix51iiiyxbˆ25125155xxyxyxiiiiiaˆybˆxyˆx71y71712iix71iiiyxbˆ27127177xxyxyxiiiii221744731.22173.346aˆybˆxyˆyˆ(2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大?解(1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:i12345xi24568yi3040605070xiyi60160300300560因此,==5,==50,=145,=13500,=1380.于是可得:===6.5;=-=50-6.5×5=17.5.因此,所求回归直线方程为:=6.5x+17.5.(3)根据上面求得的回归直线方程,当广告费支出为10百万元时,=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.独立性检验的基本知识点及习题本周内容:一、基础知识梳理1.独立性检验利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。2.判断结论成立的可能性的步骤:x525y5250512iix512iiy51iiiyxbˆ25125155xxyxyxiiiii55514550553801aˆybˆxyˆyˆ(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。二、例题选讲例1.为了探究患慢性气管炎是否与吸烟有关,