2.3变量间的相关关系2.3.1变量之间的相关关系2.3.2两个变量的线性相关第二课时复习回顾1、相关关系自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系.正相关的散点图中的点散布在从左下角到右上角的区域,负相关的散点图中的点散布在从左上角到右下角的区域2、正相关和负相关的两个相关变量的散点图的特点3.观察人体的脂肪含量百分比和年龄的样本数据的散点图,这两个相关变量成正相关.051015202530354020253035404550556065年龄脂肪含量我们需要进一步考虑的问题是,当人的年龄增加时,体内脂肪含量到底是以什么方式增加呢?对此,我们从理论上作些研究.思考1:在各种各样的散点图中,有些散点图中的点是杂乱分布的,有些散点图中的点的分布有一定的规律性,年龄和人体脂肪含量的样本数据的散点图中的点的分布有什么特点?051015202530354020253035404550556065年龄脂肪含量这些点大致分布在一条直线附近.知识探究(一):回归直线如果散点图中的点的分布,从整体上看大致在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.该直线叫回归方程。051015202530354020253035404550556065年龄脂肪含量注:如果关于两个变量统计数据的散点图呈现发散状,则这两个变量之间不具有相关关系...方案1、先画出一条直线,测量出各点与它的距离,再移动直线,到达一个使距离的和最小位置时,测出它的斜率和截距,得回归方程。20253035404550556065年龄脂肪含量0510152025303540如图:思考2:那么,我们该怎样来求出这个回归方程?我们有这样几种方案?对一组具有线性相关关系的样本数据,如果能够求出它的回归方程,那么我们就可以比较具体、清楚地了解两个相关变量的内在联系,并根据回归方程对总体进行估计..方案2、在图中选两点作直线,使直线两侧的点的个数基本相同。20253035404550556065年龄脂肪含量0510152025303540方案3、如果多取几对点,确定多条直线,再求出这些直线的斜率和截距的平均值作为回归直线的斜率和截距。而得回归方程。如图:我们还可以找到更多的方法,但这些方法都可行吗?科学吗?20253035404550556065年龄脂肪含量0510152025303540我们把由一个变量的变化去推测另一个变量的方法称为回归方法。实际上,求回归方程的关键是如何用数学的方法来刻画“从整体上看,各点与此直线的距离最小。整体上最接近思考:回归直线与散点图中各点的位置应具有怎样的关系?(x1,y1)(x2,y2)(xi,yi)(xn,yn)(x1,y1)(x2,y2)(xi,yi)(xn,yn)假设两个具有线性相关关系的变量的一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),设其回归方程为ybxa我们可用点与这条直线上横标为的点之间的距离来刻画点到直线距离的远近,即(,)iixyix(,)iixy()(1,2,3,,)iiybxain用这n个距离之和来刻画各点到直线的”整体距离”1()niiiybxa21ˆ()niiQyy2221122()()(a)nnybxaybxaybx(x1,y1)(x2,y2)(xi,yi)(xn,yn)由于绝对值使得计算不方便,实际应用中采用根据有关数学原理分析,当时,1122211()(),()nniiiiiinniiiixxyyxynxybxxxnxaybx总体偏差为最小,这样就得到了回归方程,这种求回归方程的方法叫做最小二乘法.回归方程21ˆ()niiiQyy^^ybxa注:对具有线性相关关系的两个变量,其回归直线一定通过样本点的中心,yx(其中回归方程的斜率为截距为)^b^a1.回归方程被样本数据惟一确定,各样本点大致分布在回归直线附近.对同一个总体,不同的样本数据对应不同的回归直线,所以回归直线也具有随机性.2.对于任意一组样本数据,利用上述公式都可以求得“回归方程”,如果这组数据不具有线性相关关系,即不存在回归直线,那么所得的“回归方程”是没有实际意义的.因此,对一组样本数据,应先作散点图,在具有线性相关关系的前提下再求回归方程.解:散点图如图所示051015202530354020253035404550556065年龄脂肪含量由散点图可知:在平面直角坐标系中,各点散布在左下角到右上角的区域,这些点大致分布在一条直线附近,因此x、y具有线性相关关系141421148.0727.2619403.234181iiiiixyxyx14114221140.578140.524iiiiixyxybxxaybx故可得:所求回归直线方程为^0.5770.448xy在上例中:若某人37岁,则其体内脂肪含量的百分比约为多少?^0.5770.448xy051015202530354020253035404550556065年龄脂肪含量由此可以估计年龄为37岁的人其体内脂肪含量的百分比约为20.901%0.577370.44820.901求样本数据的线性回归方程步骤第一步,作散点图,确定x,y具有线性相关关系;1122211()(),()nniiiiiinniiiixxyyxynxybaybxxxxnx第三步,计算^ybxa第四步,写出回归方程第二步,求1niiixy21niixxy例1:有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的饮料杯数与当天气温的对比表:温度-504712杯数15615013212813015192327313611610489937654(1)画出散点图;(2)从散点图中发现气温与热饮杯数之间关系的一般规律;(3)求回归方程;(4)如果某天的气温是2℃,预测这天卖出的热饮杯数.y=-2.3517x+147.77020406080100120140160180-10010203040温度热饮杯数当x=2时,y=143.063.例2:假设某设备的使用年限x(年)和所支出的维修费用y(万元)有如下统计资料:使用年限x(年)23456维修费用y(万元)2.23.85.56.57.0由资料知y对x呈线性关系,试求:;,ˆ)1(的值中的回归直线方程ababxy(2)估计使用年限是10年时,维修费用估计是多少?解:(1)制表:i12345合计xi2345620yi2.23.85.56.57.025xi24916253690xiyi4.411.422.032.542.0112.3.3.112,90,5,4:51512iiiiiyxxyx于是有23.1103.1245905453.1122b08.0423.15xbya(2)回归直线方程是.08.023.1ˆxy(2)估计使用年限是10年时,维修费用估计是多少?)(4.1238.1208.01023.1ˆ,10万元时当yx答:估计使用10年时,维修费用估计是12.4万元。练习某种产品是的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据x24568y3040605070(1)画出散点图;(2)如果x与y具有相关关系,求回归直线方程,并说明b的意义解(1)散点图如图所示:1735910305080销售额(百万元)广告费(百万元)(2)由散点图可知:X与Y具有相关关系515215501380145iiiiixyxyx51522156.517.55iiiiixyxybaybxxx故可得:所求回归直线方程为^6.517.5yxb表示广告每增加100万元,销售量平均增加650元课堂总结1、两种相关关系:正相关、负相关2、线性回归方程:回归直线所在方程的斜率与截距的一般公式:1122211()()ˆ,()ˆˆ.nniiiiiinniiiixxyyxynxybxxxnxaybxybxaˆˆˆybxa则b=,a=,1.由一组5个数据(xi,yi)算得4,5,xy211112.3,90,nniiiiixyx回归方程为.1.230.08ˆ1.230.08yx巩固练习:;)())((1221121xbyaxnxyxnyxxxyyxxbniiniiiniiniii,4.75257yx2.对于回归方程当x=28时,y的估计值是390(00),(0)x,(0)y,()xy,3.线性回归方程表示的直线必定过()A.B.C.D.22.5yx4.设有一个回归方程,变量x增加1个单位长度时,变量y()A.平均增加2.5个单位长度B.平均增加0.5个单位长度C.平均减少2.5个单位长度D.平均减少0.5个单位长度yabxDC思考:根据最小二乘法的知识,我们对于任何数据都可以利用最小二乘计算出其回归方程,问:是否所有的问题,我们都可以利用最小二乘来估计?下面的数据给定了两个变量之间的关系X12345678Y1491625364964请利用最小二乘法求出这两个变量之间的线性回归方程解根据数据显示:5.25,5.4yx其他数据如表1296512343216125642781204644936251694120464493625169413687654321合计iiyxiy2ixix进而可以求得b=9a=-15于是,线性回归方程为:Y=-15+9x事实上,从表中的数据可以看出:2xy从而我们利用最小二乘估计时,已经失去了意义,你认为问题出在哪里呢?对于最小二乘法本身,无论数据之间存在什么样的关系,都可以估计出方程来,整个过程非常机械的,因此在整个模拟过程中,重要的不是曲计算一个线性方程,而是理解最小二乘法的思想,为什么这样做比较合理P94习题2.3A组:3.课后作业:练习:p921,2