高考总复习第(1)轮理科数学第十单元计数原理、概率与统计第79讲变量的相关性、回归分析、独立性检验1.会作两个有关联变量的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用.随机性不确定正相关负相关1.变量的相关关系(1)相关关系:当自变量的取值一定时,因变量的取值带有一定的两个变量之间的关系,叫相关关系,与函数关系不同,相关关系是一种关系.(2)散点图:在平面直角坐标系中描点,得到关于两个变量的一组数据的图形,这样的图形叫作散点图.它可直观地判断两个变量关系是否是可以用线性关系表示.若这些点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为,若这些点分布在左上角到右下角的区域内,两个变量的相关关系为.(3)回归分析:对具有的两个变量进行统计分析的方法叫作回归分析.通俗地讲,回归分析是寻找相关关系中非确定关系的某种确定性.在线性回归模型y=bx+a+e中,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化,在统计中,我们把自变量x叫作变量,因变量y称为变量.相关关系解释预报(4)回归直线的方程为y=bx+a,其中b=i=1nxi-x-yi-y-i=1nxi-x-2=i=1nxiyi-nx-·y-i=1nx2i-nx-2,a=.通过求Q=i=1n[yi-(bxi+a)]2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫作最小二乘法.(5)相关系数:r=i=1nxiyi-nx-·y-i=1nx2i-nx-2i=1ny2i-ny-2,它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r0时,表示两个变量正相关;当r0时,表示两个变量负相关;|r|越接近1,表明两个变量的线性相关性越强;当|r|接近0时,表明两个变量间几乎不存在线性相关关系.(6)残差及残差平方和:残差ei=,残差平方和为.(7)用相关指数来刻画回归的效果,其计算公式是R2=,R2的值越大,说明残差平方和越,说明回归模型的拟合效果越.小好1—(8)残差分析:在研究两个变量的关系时,首先要根据散点图来粗略地判断它们是否线性相关,是否可用线性回归模型来拟合数据.然后可以通过残差^e1,^e2,…,^en来判断模型的拟合效果,判断原始数据中是否存在可疑数据,这方面的工作称为残差分析.2.独立性检验(1)分类变量:如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为.分类变量(2)列联表:列出的两个分类变量的,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2},{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1abx2cd总计构造随机变量K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d为样本容量.频数表a+bc+da+cb+da+b+c+d(3)独立性检验利用随机变量K2来确定在多大程度上可以认为“两个分类变量”的方法,称为两个分类变量的独立性检验.先假设两个分类变量x与y无关系,计算K2的值,则K2的值应该很小,若K2值较大,就拒绝假设,只要K22.706,就认为x与y有关系.(4)两个分类变量x和y是否有关系的判断方法:①当K2≤2.706时,没有充分的证据判断变量x,y有关系,可以认为变量x,y没有关系;有关系②当K22.706时,有90%的把握认为变量x,y有关系;③当K23.841时,有95%的把握认为变量x,y有关系;④当K26.635时,有99%的把握认为变量x,y有关系;⑤当K210.828时,有99.9%的把握认为变量x,y有关系.1.下列说法中不正确的是()A.变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫作相关关系B.在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫作散点图C.若两个变量具有线性相关关系,则线性回归方程最能代表观测值x、y之间的关系D.任何一组观测值都能得到具有代表意义的回归直线方程答案:D2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(a);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(b).由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解:x→大,y→小,所以负相关;u→大,v→大,所以正相关,故选C.答案:C3.已知变量x与y正相关,且由观测数据算得样本平均数x-=3,y-=3.5,则由该观测数据算得的线性回归方程可以是()A.y=0.4x+2.3B.y=2x-2.4C.y=-2x+9.5D.y=-0.3x+4.4解:因为变量x,y正相关,所以回归直线的斜率为正,故可排除C和D.因为相本点的中心在回归直线上,所以把(3,3.5)的坐标代入选项A和B中的直线方程进行检验,可以排除B,故选A.答案:A4.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A、B两变量更强的线性相关性?()A.甲B.乙C.丙D.丁解:可用相关系数r描述线性相关关系的强弱,|r|越接近1,表示两个变量有更强的相关关系;可用残差平方和描述回归模型的拟合效果,残差平方和越小,其相关指数R2越大,表明回归模型的拟合效果越好.因此,丁同学的试验结果体现A,B两变量有更强的相关性.选D.答案:D5.在一个2×2的列联表中,由其数据计算得K2=13.097,则其两个变量有关系的可能性为()A.99%B.95%C.90%D.无关系解:如果K2的估计值K26.635,就有99%的把握认为“x与y有关系”,故选A.答案:A线性回归方程的求解与运用独立性检验考点1·线性回归方程的求解与运用【例1】(2019·南宁模拟)下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2011-2017.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量.附注:参考数据:i=17yi=9.32,i=17tiyi=40.17,712(iiyy)=0.55,7≈2.646.参考公式:相关系数r=i=1nti-tyi-y-i=1nti-t2i=1nyi-y-2,回归方程ˆy=a+ˆbt中斜率和截距的最小二乘估计公式分别为:ˆb=i=1nti-tyi-y-i=1nti-t2,ˆa=y--ˆbt.解:(1)由折线图中的数据和附注中的参考数据得,t=4,i=17(ti-t)2=28,i=17yi-y-2=0.55,i=17(ti-t)(yi-y-)=i=17tiyi-ti=17yi=40.17-4×9.32=2.89,所以r≈2.890.55×2×2.646≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.(2)由y-=9.327≈1.331及(1)得b=i=17ti-tyi-y-i=17ti-t2=2.8928≈0.103.a=y--bt≈1.331-0.103×4≈0.92.所以y关于t的回归方程为y=0.92+0.10t.将2019年对应的t=9代入回归方程得y=0.92+0.10×9=1.82.所以预测2019年我国生活垃圾无害化处理量约为1.82亿吨.【变式探究】1.(经典真题)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x-y-w-i=18(xi-x-)2i=18(wi-w)2i=18(xi-x-)(yi-y-)i=18(wi-w)(yi-y-)46.65636.8289.81.61469108.8表中wi=xi,w-=18i=18wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β=i=1nui-u-vi-v-i=1nui-u-2,α=v--βu-.解:(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.由于d=i=18wi-w-yi-y-i=18wi-w-2=108.81.6=68,c=y--dw-=563-68×6.8=100.6,所以y关于w的线性回归方程为y=100.6+68w,因此y关于x的回归方程为y=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y=100.6+6849=576.6,年利润z的预报值z=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.点评:(1)本题考查线性相关与线性回归方程的求法与应用,考查从图中获取相关数据信息及分析问题解决问题的能力、运算求解能力、识图能力.(2)判断两个变量是否线性相关及相关程度通常有两种方法:①利用散点图直观判断;②将相关数据代入相关系数公式求出r,然后根据r的大小进行判断.(3)利用回归方程进行预测的一般步骤:①判断两个变量是否线性相关;②如果是,则用公式求出a,b,写出回归直线方程;③根据方程进行预测.注意:(1)计算b的值时,需要根据题目条件选择计算公式:b=i=1nxi-x-yi-y-i=1nxi-x-2,或b=i=1nxiyi-nx-·y-i=1nx2i-nx-2,而计算a时,要利用回归直线过样本点的中心(x-,y-)的特点.(3)在严格按照公式求解时,一定要注意题目中提供的数据,注意计算的准确性.考点2·独立性检验【例2】(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P(K2≥k0)0.0500.0100.001k03.8416.63510.828K2=nad-bc2a+bc+da+cb+d.解:(1