第4讲变量间的相关关系、统计案例1.两个变量的线性相关(1)正相关在散点图中,点散布在从__________到________的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从_________到_________的区域,两个变量的这种相关关系称为负相关.左下角右上角左上角右下角(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在__________________,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的__________________的方法叫做最小二乘法.一条直线附近距离的平方和最小(2)回归方程方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定参数.3.回归分析(1)定义:对具有________________的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(x,y)称为样本点的中心.相关关系(3)相关系数当r>0时,表明两个变量_________________;当r<0时,表明两个变量_____________.r的绝对值越接近于1,表明两个变量的线性相关性_______.r的绝对值越接近于0,表明两个变量之间_______________________.通常|r|大于________时,认为两个变量有很强的线性相关性.正相关负相关越强几乎不存在线性相关关系0.754.独立性检验(1)分类变量:变量的不同“值”表示个体所属的___________,像这类变量称为分类变量.(2)列联表:列出两个分类变量的__________,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为不同类别频数表2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d(3)独立性检验利用随机变量_______来判断“两个分类变量_______”的方法称为独立性检验.K2有关系题组一常识题1.(教材改编)已知具有线性相关关系的两个变量x,y之间的一组数据如下:x01234y2.24.34.54.8t【答案】6.7若回归方程是y^=0.95x+2.6,则t=________.【解析】∵x=0+1+2+3+45=2,y=2.2+4.3+4.5+4.8+t5=15.8+t5,∴15.8+t5=0.95×2+2.6,得t=6.7.2.(教材改编)利用独立性检验来判断两个分类变量X和Y是否有关系,通过查阅下表来确定“X和Y有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地居民中抽取100位居民进行调查.经过计算得K2≈3.855,那么就有__________%的把握认为用电脑时间与视力下降有关系.P(K2≥k0)0.050.0250.0100.0050.001k03.8415.0246.6357.87910.828【解析】根据表格发现3.8553.841,3.841对应的是0.05,所以根据独立性检验原理可知有95%的把握认为用电脑时间与视力下降有关系.【答案】95题组二常错题◆索引:易混淆相关关系与函数关系;误认为样本点必在回归直线上;利用回归方程分析问题时,误认为所得的数据是准确值;在独立性检验中,有关系并不等于绝对发生.3.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄关系的散点图,下列结论中正确的是____________.(填序号)①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%;②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%;④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%.【解析】散点图呈现上升趋势,故人体脂肪含量与年龄正相关.因为中间两个数据介于15%到20%之间,所以脂肪含量的中位数小于20%.【答案】②4.设某大学女生的体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n)用最小二乘法得到的线性回归方程为y^=0.85x-85.71,则下列结论中不正确的是________.(填序号)①y与x呈正相关;②回归直线过样本点的中心(x,y);③若该大学某女生的身高增加1cm,则其体重约增加0.85kg;④若该大学某女生身高为170cm,则可断定其体重必为58.79kg.【解析】由于线性回归方程中x的系数为0.85,因此y与x呈正相关,故①中结论正确.回归直线必过样本点的中心(x-,y-),因此②中结论正确.由线性回归方程中系数的意义知,身高每增加1cm,体重约增加0.85kg,故③中结论正确.当某女生的身高为170cm时,其体重的估计值是58.79kg,58.79kg不是具体值,因此④中结论不正确.【答案】④5.对长期吸烟与患肺癌这两个分类变量的计算中,得出K2的值大于3.841,且查表可知P(K2≥3.841)≈0.05,则下列说法正确的是________.(填序号)①我们有95%的把握认为“长期吸烟与患肺癌有关系”,那么在100个长期吸烟的人中必有95人患肺癌;②从独立性检验的原理可知有95%的把握认为“长期吸烟与患肺癌有关系”,即某一个人如果长期吸烟,那么他有95%的可能患肺癌;③从独立性检验的原理可知有超过95%的把握认为“长期吸烟与患肺癌有关系”,是指有不超过5%的可能性使得推断出现错误;④以上三种说法都不正确.【解析】对于①,我们有95%的把握认为“长期吸烟与患肺癌有关系”,不能代表在100个长期吸烟的人中必有95人患肺癌,①错误;对于②,不能确定某一个人如果长期吸烟,那么他有95%的可能患肺癌,②错误;对于③,我们有95%的把握认为“长期吸烟与患肺癌有关系”,即指有不超过5%的可能性使得推断出现错误,③正确;易知④错误.【答案】③考点一相关关系的判断【例1】(1)已知变量x和y满足关系y^=-0.1x+1,变量y与z正相关,下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3【解析】(1)因为y^=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z^=b^y+a^,b^0,则z^=b^y+a^=-0.1b^x+b^+a^,故x与z负相关.(2)易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.【答案】(1)C(2)A【反思归纳】跟踪训练1下列四个散点图中,变量x与y之间具有负的线性相关关系的是()【解析】观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.【答案】D跟踪训练24名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④【解析】由线性回归方程y^=b^x+a^知当b^>0时,y与x正相关,当b^<0时,y与x负相关,∴①④一定错误.【答案】D考点二回归分析【例2】如图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2012~2018.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明.(2)建立y关于t的回归方程(系数精确到0.01),预测2020年我国生活垃圾无害化处理量.【解析】【反思归纳】跟踪训练3(2019·唐山模拟)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得如下实验数据,计算得回归直线方程为y^=0.85x-0.25.由以上信息,得到下表中c的值为________.天数x/天34567繁殖个数y/千个2.5344.5c【解析】x=3+4+5+6+75=5,y=2.5+3+4+4.5+c5=14+c5,代入回归直线方程中得14+c5=0.85×5-0.25,解得c=6.【答案】6跟踪训练4(2019·邯郸质检)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的平均利润最高?(2)通过计算判断这3年的前7个月的总利润的发展趋势.(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估测第3年8月份的利润.月份x1234利润y(单位:百万元)4466【解析】(1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元),第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元),∴这3年的前7个月的总利润呈上升趋势.(3)∵x=2.5,y=5,12+22+32+42=30,1×4+2×4+3×6+4×6=54,∴b^=54-4×2.5×530-4×2.52=0.8,∴a^=5-2.5×0.8=3,∴y^=0.8x+3,当x=8时,y^=0.8×8+3=9.4(百万元),∴估计第3年8月份的利润为940万元.考点三独立性检验【例3】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件:“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率.(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:P(K2≥k)0.0500.0100.001k3.8416.63510.828【解析】(1)记B表示事件“旧养殖法的箱产量低于50kg”,C表示事件“新养殖法的箱产量不低于50kg”,由题意知P(A)=P(BC)=P(B)P(C),旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66,因此,事件A的概率估计值为0.62×0.66=0.4092.(2)根据箱产量的频率分布直方图得列联表箱产量<50kg箱产量≥50kg旧养殖法6238新养殖法3466K2=200×(62×66-34×38)2100×100×96×104≈15.705由于15.7056.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg的直方图面积为(0.004+0.020+0.044)×5=0.340.5,箱产量低于55kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.680.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg).【反思归