1/7变量间的相关关系一、教材分析学生情况分析:学生已经具备了对样本数据进行初步分析的能力,且掌握了一定的计算基础。教材地位和作用:变量间的相关关系是高中新教材人教A版必修3第二章2.3节的内容,本节课主要探讨如何利用线性回归思想对实际问题进行分析与预测。为以后更好地研究选修2-3第三章3.2节回归分析思想的应用奠定基础。二、教学目标1、知识与技能:利用散点图判断线性相关关系,了解最小二乘法的思想及线性回归方程系数公式的推导过程,求出回归直线的方程并对实际问题进行分析和预测,通过实例加强对回归直线方程含义的理解。2、过程与方法:①通过自主探究体会数形结合、类比、及最小二乘法的数学思想方法。②通过动手操作培养学生观察、分析、比较和归纳能力。3、情感、态度与价值观:类比函数的表示方法,使学生理解变量间的相关关系,增强应用回归直线方程对实际问题进行分析和预测的意识。三、教学重点、难点重点:利用散点图直观认识两个变量之间的线性相关关系,了解最小二乘法的思想并利用此思想求出回归方程。难点:对最小二乘法的数学思想和回归方程的理解,教学实施过程中的难点是根据给出的线性回归方程的系数公式建立线性回归方程。四、教学设计)(一)、创设情境导入新课1、相关关系的理解我们曾经研究过两个变量之间的函数关系:一个自变量对应着唯一的一个函数值,这两者之间是一种确定关系。生活中的任何两个变量之间是不是只有确定关系呢?如:学生成绩与教师水平之间存在着某种联系,但又不是必然联系,对于学生成绩与教师水平之间的这种不确定关系,我们称之为相关关系。这就是我们这节课要共同探讨的内容————变量间的相关关系。生活中还有很多描述相关关系的成语,如:“虎父无犬子”,“瑞雪兆丰年”。通过学生熟悉的函数关系,引导学生关注生活中两个变量之间还存在的相关关系。让学生体会研究变量之间相关关系的重要性。感受数学来源于生活。(二)、初步探索,直观感知1、根据样本数据作出散点图,直观感知变量之间的相关关系。在研究相关关系前,先回忆一下函数的表示方法有哪些——列表,画图象,求解析式。下面我们就用这些方法来研究相关关系。看这样一组数据:在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,根据样本数据,人体的脂肪含量与年龄之间有怎样的关系?结论:随着年龄增长,脂肪含量在增加。用x轴表示年龄,y轴表示脂肪。一组样本数据就对应着一个点。年龄2327394145495053545657586061脂肪9.517.821.225.927.526.328.229.630.231.430.833.535.234.62/7051015202530354005101520253035404550556065年龄脂肪含量051015202530354005101520253035404550556065年龄脂肪含量散点图这个图跟我们所学过的函数图象有区别,它叫作散点图。2、判断正、负相关、线性相关:请观察这4幅图,看有什么特点?图1呈上升趋势,图2呈下降趋势。这就像函数中的增函数和减函数。即一个变量从小到大,另一个变量也从小到大,或从大到小。对于图1中的两个变量的相关关系,我们称它为正相关。图2中的两个变量的相关关系,称为负相关。后面两个图很乱,前面两个图中点的分布呈条状。从数学的角度来解释:即图1、2中的点的分布从整体上看大致在一条直线附近。我们称图1、2中的两个变量具有线性相关关系。这条直线叫做回归直线。图3、4中的两个变量是非线性相关关系(三)、循序渐进、延伸拓展1、找回归直线师:下面我们再来看一下年龄与脂肪的散点图,从整体上看,它们是线性相关的。如果可以求出回归直线的方程,我们就可以清楚地了解年龄与体内脂肪含量的相关性。这条直线可以作为两个变量具有线性相关关系的代表。能否画出这条直线?数学实验1:画出回归直线学生方案一学生方案二第一种第二种多种方法展示总结:第二种方法好,因为所有的点离这条直线最近。从整体上看,各点与此直线的距离和最小。2、利用最小二乘法推导回归系数公式年龄脂肪239.52717.83921.24125.94527.54926.35028.25329.65430.25631.45730.85833.56035.26134.6051015202530354005101520253035404550556065年龄脂肪含量051015202530354005101520253035404550556065年龄脂肪含量051015202530354005101520253035404550556065年龄脂肪含量20.84r图图1051015202530354005101520253035404550556065年龄脂肪含量02004006008001000050100150010203040506070809010040506070809011000.20.40.60.811.2-0.200.20.40.60.811.22图图3图43/7假设我们已经得到两个具有线性相关关系的变量的一组数据:11(,)xy22(,)xy……(,)nnxy。当自变量x取ix(i=1,2,……,n)时,可以得到ˆiybxa(i=1,2,……,n),它与实际收集到的iy之间的偏差是ˆ()iiiiyyybxa(i=1,2,……,n),这样用n个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的。总的偏差为1ˆ()niiiyy,偏差有正有负,易抵消,所以采用绝对值1ˆniiiyy,由于带绝对值计算不方便所以换成平方,222221122331ˆ()()()()()niinniQyyybxaybxaybxaybxa现在的问题就归结为:当a,b取什么值时Q最小。将上式展开、再合并,就可以得到可以求出Q取最小值时1122211()()()nniiiiiinniiiixxyyxynxybxxxnxaybx(其中11niixxn,11niiyyn)推导过程用到偏差的平方,由于平方又叫二乘方,所以这种使“偏差的和”最小的方法叫“最小二乘法”。3、求出回归直线方程,并分析它的意义利用最小二乘法就可以求出回归系数,进一步求出回归方程。下面我们具体操作一下。我们先明确几个符号的含义:ix表示年龄,1x是23,2x是27,直到14x是61。i从1到14,iy表示脂肪,1y是9.5,2y是17.8。iixy表示年龄与脂肪的成绩,2ix表示年龄的平方年龄脂肪239.5218.55292717.8480.67293921.2826.815214125.91061.916814527.51237.520252221221221111()()()()()()()()()nniiiinniiiinniiiiiixxyyxxyyQnaybxxxbyyxxxx2xixiyixyii4/711niixxn表示自变量年龄的平均数,11niiyyn表示因变量脂肪的平均数,21niix表示自变量的平方和,1niiixy表示自变量与因变量乘积的和。要求出a,b,必须先求出这些量。数学实验2:求出下列各式的值(n=14)11niixxn=11niiyyn=1niiixy=21niix=1221niiiniixynxybxnxaybx=ˆybxa通过计算,求出了0.448,0.5765abˆ0.57650.448yx求出回归直线方程有什么用呢?表格中选取年龄x的一个值代入上述回归直线的方程,看看得出的数据与真实数值之间的关系。ˆ0.5765500.44829.272y估计值是29.272,与实际值28.2有偏差,为什么会出现这样的结果?回归直线是估计出的,把a带入肯定有误差。试预测某人37岁时,他体内的脂肪含量。并说明结果的含义。代入计算ˆ0.5765370.44820.882y我们不能说他的体内脂肪含量的百分比一定是20.882%?只能说他体内的脂肪含量在20.90%,附近的可能性比较大。(四)、线性回归分析思想在实际中的应用总结:我们利用回归直线对年龄与脂肪的关系做了上述分析,这种分析方法叫做线性回归分析。利用这种分析方法可以对生活中的很多问题进行分析与预测。例2有一个同学家开了一个小卖部,他为了研究气温对销售热饮的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:4926.31288.724015028.2141025005329.61568.828095430.21630.829165631.41758.431365730.81755.632495833.5194333646035.2211236006134.62110.6372148.07127.26428619403.2341815/7(1)画出散点图(2)从散点图中发现气温与热饮销售杯数之间关系的一般规律(3)求回归方程(4)如果某天的气温是2℃,预测这天卖出的热饮杯数数学实验3:求出下列各式的值(n=11)11niixxn=11niiyyn=1niiixy=21niix=1221niiiniixynxybxnxaybx=ˆybxa(五)利用相关系数判断线性相关程度利用最小二乘法求出回归直线的方程后,可以对上面两个变量的关系进行分析与预测。是不是所有的相关关系都可以求出回归直线的方程?请大家观察这4幅图结论:前两个是线性相关,可以求回归方程,后两个是非线性相关,直线不能很好地反映图中两个变量之间的关系。显然求回归直线的方程是没有意义的。有些变量线性相关,有些非线性相关,怎样衡量变量的线性相关程度呢?这时我们引入一个量:相关系数12211()()()()niiinniiijxxyyrxxyy注意它的符号:当0r时,x,y正相关,当0r时,x,y负相关,统计学认为:对于r,若1,0.75r,那么负相关很强,若0.75,1r,那么正相关很强,若0.75,0.30r或r0.30,0.75,那么相关性一般,若0.25,0.25r,那么相关性较弱,不同的相关性可以从散点图上直观地反应出来,观察这几幅散点图,判断图中的两个变----量的相关关系的强弱。图1、2正线性相关,图1中的点密集,相关性比图2好。利用相关系数也摄氏温度/℃-504712151923273136热饮杯数1561501321281301161048993765420.84r图0.97r图1051015202530354005101520253035404550556065年龄脂肪含量02004006008001000050100150010203040506070809010040506070809011000.20.40.60.811.2-0.200.20.40.60.811.220.84r图0.27r图30.05r图46/7可以看出相关性,图1中r=0.97接近1,图2中r=-0.85,所以可以总结出相关系数的绝对值越大,线性相关关系就越强。(五)、归纳总结,内化知识回归直线方程的求法:①先判断变量是否线性相关②若线性相关,利用公式计算出a、b③利用回归方程对生活实际问题进行分析与预测高考统计部分线性回归方程具体如何应用线性回归方程为ˆˆˆybxa的求法:(1)先求变量x的平均值,既1231()nxxxxxn(2)求变量y的平均值,既1231()nyyyyyn(3)求变量x的系数ˆb,有两个方法法1121()()ˆ()niiiniixxyybxx(题目给出不用记忆)112222212()()()()...()()()()...()n