第3讲变量间的相关关系、统计案例[最新考纲]1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.(2)回归方程方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定参数.b^=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x.3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中(x,y)称为样本点的中心.(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.辨析感悟1.对变量间的相关关系的认识(1)(2014·武汉调研改编)①A项:正方体的棱长与体积是相关关系.(×)②B项:日照时间与水稻的亩产量是相关关系.(√)(2)(教材思考问题改编)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)(3)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.(√)2.对回归直线方程的理解(4)通过回归方程y^=b^x+a^可以估计和观测变量的取值和变化趋势.(√)(5)任何一组数据都对应着一个回归直线方程.(×)(6)(2012·湖南卷改编)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,判断下列命题的正误:①y与x具有正的线性相关关系.(√)②回归直线过样本点的中心(x,y).(√)③若该大学某女生身高增加1cm,则其体重约增加0.85kg.(√)④若该大学某女生身高为170cm,则可断定其体重必为58.79kg.(×)3.对独立性检验的认识(7)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.(√)(8)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)[感悟·提升]1.“相关关系与函数关系”的区别函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.如(2).2.三点提醒一是回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.如(5).二是根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.如(6)中的④.三是独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.如(8).考点一两个变量间的相关关系【例1】(2013·湖北卷)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.其中一定不正确的结论的序号是().A.①②B.②③C.③④D.①④解析①中,回归方程中x的系数为正,不是负相关;④方程中的x的系数为负,不是正相关,∴①④一定不正确.答案D规律方法在回归直线方程y^=b^x+a^中,b^代表x每增加一个单位,y平均增加的单位数,一般来说,当回归系数b^>0时,说明两个变量呈正相关关系;当回归系数b^<0时,说明两个变量呈负相关关系.【训练1】对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断().A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.答案C考点二线性回归方程及其应用【例2】(2013·重庆卷)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=110xi=80,i=110yi=20,i=110xiyi=184,i=110x2i=720.(1)求家庭的月储蓄y对月收入x的线性回归方程y^=b^x+a^;(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y^=b^x+a^中,b^=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x,其中x,y为样本平均值.审题路线先确定x=1ni=1nxi,y=1ni=1nyi⇒计算i=1nx2i-nx2⇒计算b^⇒计算a^⇒得到线性回归方程⇒由b^的符号判断相关⇒把x=7代入线性回归方程求y^.解(1)由题意知n=10,x=1ni=1nxi=8010=8,y=1ni=1nyi=2010=2,又i=1nx2i-nx2=720-10×82=80.i=1nxiyi-nxy=184-10×8×2=24.由此得b^=i=110xiyi-10xyi=110x2i-10x2=2480=0.3,a^=y-b^x=2-0.3×8=-0.4,故所求回归方程为y^=0.3x-0.4.(2)由于变量y的值随x值的增加而增加(b^=0.30),故x与y之间是正相关.(3)将x=7代入回归方程可以预测该家庭的月储蓄为y^=0.3×7-0.4=1.7(千元).规律方法(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.【训练2】(2014·南昌模拟)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据.房屋面积x/m211511080135105销售价格y/万元24.821.618.429.222(1)求线性回归方程;(2)据(1)的结果估计当房屋面积为150m2时的销售价格.解(1)x=15×(115+110+80+135+105)=109,y=15×(24.8+21.6+18.4+29.2+22)=23.2.设所求回归直线方程为y^=b^x+a^,则b^=i=15xi-xyi-yi=15xi-x2=3081570≈0.1962,∴a^=y-b^x=23.2-109×3081570≈1.8166.∴所求回归直线方程为y^=0.1962x+1.8166.(2)由第(1)问可知,当x=150m2时,销售价格的估计值为y^=0.1962×150+1.8166=31.2466(万元).考点三独立性检验【例3】通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2=nad-bc2a+bc+da+cb+d算得,K2=110×40×30-20×20260×50×60×50≈7.8.附表:P(K2≥k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是().A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析由7.8>6.635知,有1-0.010即99%以上的把握认为“爱好该项运动与性别有关”.答案A规律方法利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测.独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式K2=nad-bc2a+bc+da+cb+d,计算随机变量的观测值k,k值越大,说明“两个变量有关系”的可能性越大.【训练3】(2014·东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计50岁以下50岁以上合计(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.解(1)2×2列联表如下:主食蔬菜主食肉类合计50岁以下481250岁以上16218合计201030(2)因为K2=30×8-128212×18×20×10=106.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.1.求回归方程,关键在于正确求出系数a^,b^,由于a^,b^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求线性回归方程.3.根据K2的值可以判断两个分类变量有关的可信程度.方法优化8——求回归直线方程的方法技巧【典例】(2011·安徽卷)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20022004200620082010需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y^=b^x+a^;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.[优美解法](1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据处理如下:年份-2006-4-2024需求量-257-21-1101