2.3变量之间的相关关系学习目标1.会根据两个变量的数据作出散点图,并根据散点图直观认识变量间的相关关系;2.经历用不同估算方法描述两个变量线性相关的过程;3.知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程新课引入1.函数是研究两个变量之间的依存关系的一种数量形式.对于两个变量,如果当一个变量的取值一定时,另一个变量的取值被唯一确定,则这两个变量之间的关系就是一个函数关系.2.在中学校园里,有这样一种说法:“如果你的数学成绩好,那么你的物理学习就不会有什么大问题.”按照这种说法,似乎学生的物理成绩与数学成绩之间存在着某种关系,我们把数学成绩和物理成绩看成是两个变量,那么这两个变量之间的关系是函数关系吗?数学成绩物理成绩学习兴趣学习时间其他因素我们不能通过一个人的数学成绩是多少就准确地断定其物理成绩能达到多少,学习兴趣、学习时间、教学水平等,也是影响物理成绩的一些因素,但这两个变量是有一定关系的,它们之间是一种不确定性的关系.类似于这样的两个变量之间的关系,有必要从理论上作些探讨,如果能通过数学成绩对物理成绩进行合理估计,将有着非常重要的现实意义.课程讲授——变量间的相关关系思考1:考察下列问题中两个变量之间的关系:(1)商品销售收入与广告支出经费;(2)粮食产量与施肥量;(3)人体内的脂肪含量与年龄.这些问题中两个变量之间的关系是函数关系吗?思考2:“名师出高徒”可以解释为教师的水平越高,学生的水平就越高,那么学生的学业成绩与教师的教学水平之间的关系是函数关系吗?上述两个变量之间的关系是一种非确定性关系,称之为相关关系.两个变量的相关关系:(1)定义:当自变量取值一定,因变量的取值带有一定的随机性时,两个变量之间的关系称为相关关系。相关关系是一种非确定性关系。(2)相关关系与函数关系的异同点:不同点:①函数关系是一种确定性关系;相关关系是一种非确定性关系。②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。如:在校儿童脚的大小与阅读能力有很强的相关关系,但不是因果关系。联系:两者均是指两个变量的关系;在一定条件下可以相互转化。下列关系是相关关系的是A人的年龄与他拥有的财富之间的关系B曲线上的点与该点的坐标之间的关系C苹果的产量与气候之间的关系D森林中的同一种树木,其断面直径与高度之间的关系E学生与其学号之间的关系由于相关关系的不确定性,在寻找变量间的相关关系的过程中,统计发挥着重要作用。【问题】在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数.年龄23273941454950脂肪9.517.821.225.927.526.328.2年龄53545657586061脂肪29.630.231.430.833.535.234.6课程讲授——散点图051015202530354020253035404550556065年龄脂肪含量思考:上图叫做散点图,你能描述一下散点图的含义吗?在平面直角坐标系中,表示具有相关关系的两个变量的一组数据图形,称为散点图.思考:观察散点图,两个变量的相关关系有正相关和负相关,它们在散点图上各有什么特点?050100150200-2002040温度热饮杯数散点图0510152025303540020406080散点图在上面的散点图中,右图中点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.一般地,如果两个变量成正相关,那么这两个变量的变化趋势如何?左图中两个变量成负相关,从整体上看这两个变量的变化趋势如何?其散点图有什么特点?注意!(1)若所有样本点都落在某函数曲线上,则两变量之间是一种确定性关系,用函数关系表示。(2)若所有样本点都落在某一函数曲线附近,则变量之间具有相关关系。(3)若所有样本点都落在某一直线附近,变量之间就具有线性相关关系。该直线称为回归直线。课程讲授——回归直线思考1:一组样本数据的平均数是样本数据的中心,那么散点图中样本点的中心如何确定?它一定是散点图中的点吗?051015202530354020253035404550556065年龄脂肪含量(,)xy1111,,,nniiiixyyxynn记x则为样本点的中心,思考2:在各种各样的散点图中,有些散点图中的点是杂乱分布的,有些散点图中的点的分布有一定的规律性,年龄和人体脂肪含量的样本数据的散点图中的点的分布有什么特点?051015202530354020253035404550556065年龄脂肪含量这些点大致分布在一条直线附近.思考3:如果散点图中的点的分布,从整体上看大致在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.对具有线性相关关系的两个变量,其回归直线一定通过样本点的中心吗?051015202530354020253035404550556065年龄脂肪含量回归直线一定过样本点的中心:(,)xy(,)xy课程讲授——回归方程在直角坐标系中,任何一条直线都有相应的方程,回归直线的方程称为回归方程.对一组具有线性相关关系的样本数据,如果能够求出它的回归方程,那么我们就可以比较具体、清楚地了解两个相关变量的内在联系,并根据回归方程对总体进行估计.思考1:回归直线与散点图中各点的位置应具有怎样的关系?整体上最接近思考2:对于求回归直线方程,你有哪些想法?设已经得到具有线性相关关系的变量的一组数据:1122,,,,,nnxyxyxy……,设所求回归方程是:ybxa$(1,2)(1,2)iiinbxain$i其中a,b是待定参数,当变量x取x,……,时,可以得到:y,……,由探究可知,求回归方程的关键是如何用数学的方法刻画“从整体上看,各点与此直线的距离最小”?xy11,xy,iixy22,xyiiyy它与实际收集到的之间的偏差是:iy1,2,,iiiiyyybxain$……这样,用这n个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的。接下来的步骤为:1niiiyy$求的最小值1niiiyy$求的最小值21()niiiyy$求的最小值2221122,nnQybxaybxaybxaabQ……当取什么值时,的值最小,即总体偏差最小?利用二次函数求最值的方法可得:1122211(),()nniiiiiinniiiixxyyxynxybxxxnxaybx最小二乘法89P其中,b是回归方程的斜率,表示x每增加一个单位,增加b个单位;a是截距,表示方程中不受x影响的部分。y$例某公司的广告费支出x(单位:万元)与销售额y(单位:万元)之间有下列对应数据:课程讲授——数学运用(1)画出散点图;(2)从散点图中发现广告支出与销售额之间关系的一般规律;(3)求回归方程;(4)如果销售额为115万元时,约需多少广告费?x24568y30406050701.515,1.515;151.5100xAyxBaCaDxy1.已知回归方程y则 是回归系数;是回归系数; 时,$A2、课堂练习2、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.题型三求回归直线方程并对总体进行估计【例3】x3456y2.5344.5(1)请画出上表数据的散点图.(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=bx+a;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)[规范解答](1)散点图如图所示:审题指导建立直角坐标系――→描点画散点图――→判断相关关系―→求回归系数―→写回归方程(2)由散点图可以看出,这些点大致分布在一条直线的附近,可求回归方程.由表中数据,用计算器计算得x=3+4+5+64=4.5(吨),y=2.5+3+4+4.54=3.5(吨),i=14xiyi=3×2.5+4×3+4×5+6×4.5=66.5(吨2),i=14xi2=32+42+52+62=86(吨2),∴b^=i=14xiyi-4x·yi=14xi2-4x2=66.5-4×3.5×4.586-4×4.52=0.7,a^=y-b^x=3.5-0.7×4.5=0.35,∴y^=0.7x+0.35.(9分)(3)现在生产100吨甲产品用煤y=0.7×100+0.35=70.35(吨),∴90-70.35=19.65,∴降低19.65吨标准煤.(12分)【题后反思】(1)求线性回归方程的步骤:①列表:xi,yi,xiyi.②计算x,y,i=1nxi2,i=1nyi2,i=1nxiyi.③代入公式计算b^,a^的值.④写出回归方程y^=b^x+a^.(2)求回归方程法的适用条件:两个变量具有线性相关性.例如,本例告诉我们x,y具有相关性.若题目没有说明相关性,则必须对两个变量进行相关性判断.假设关于某设备的使用年限x(年)和所支出的维修费用y(万元),有如下的统计资料:【变式3】使用年限x23456维修费用y2.23.85.56.57.0由资料可知y与x具有相关关系.(1)求线性回归方程y^=b^x+a^的回归系数a^,b^;(2)估计使用年限为10年时维修费用是多少?解(1)先把数据列成表.序号12345xi2345620yi2.23.85.56.57.025xiyi4.411.422.032.542.0112.3xi24916253690由表可知x=4,y=5,由公式可得:b^=112.3-5×4×590-5×42=12.310=1.23,a^=y-b^x=5-1.23×4=0.08.(2)由(1)可知回归直线方程是y^=1.23x+0.08,∴当x=10时,y^=1.23×10+0.08=12.3+0.08=12.38(万元).故估计使用年限为10年时,维修费用是12.38万元.3.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)据(2)的结果估计当房屋面积为2150m时的销售价格.4.下表是某小卖部6天卖出热茶的杯数与当天气温的对比表:气温/℃261813104-1杯数202434385064(1)画散点图;(2)从散点图中发现温度与热饮销售杯数之间关系的一般规律;(3)求回归方程;(4)按照回归方程,计算温度为10度时销售杯数。为什么与表中不同?如果某天的气温是-5℃时,预测这天小卖部卖出热茶的杯数.课堂小结1.对于两个变量之间的关系,有函数关系和相关关系两种,其中函数关系是一种确定性关系,相关关系是一种非确定性关系.2.一般情况下两个变量之间的相关关系成正相关或负相关,类似于函数的单调性.3.求样本数据的线性回归方程,可按下列步骤进行:第一步,计算平均数,xy1niiixy21niix第二步,求和,1122211()(),()nniiiiiinniiiixxyyxynxybaybxxxxnx第三步,计算ybxa第四步,写出回归方程