高考总复习艺考生山东版数学第3节变量间的相关关系与统计案例第八章统计与统计案例最新考纲核心素养考情聚焦1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用1.相关关系的判断,达成直观想象和数据分析的素养.2.回归方程的求法及回归分析,增强逻辑推理、数据分析和数学运算的素养.3.独立性检验,增强逻辑推理、数据分析和数学运算的素养预计2020年的高考将以选择题、填空题的形式考查线性回归系数或利用线性回归方程进行预测;在给出临界值的情况下判断两个变量是否相关;在解答题中与频率分布相结合,考察线性回归方程的建立及应用和独立性检验的应用,难度中等1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.3.残差分析(1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为e^i=yi-y^i=yi-b^xi-a^,i=1,2,…,n.e^i称为相应于点(xi,yi)的残差.4.独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d则随机变量K2=nad-bc2a+ba+cb+dc+d,其中n=a+b+c+d为样本容量.(3)步骤如下①计算随机变量K2的观测值k,查表确定临界值k0:P(K2≥k0)0.50.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”。1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.2.相关系数:,当r>0时,两变量正相关,当r<0时,两变量负相关,当|r|≤1且|r|越接近于1,相关程度越高,当|r|≤1且|r|越接近于0,相关程度越低.[思考辨析]判断下列说法是否正确,正确的在它后面的括号里打“√”,错误的打“×”.(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.()(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()(5)任何一组数据都对应着一个回归直线方程.()(6)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()答案:(1)×(2)√(3)√(4)√(5)×(6)×[小题查验]1.(2019·泉州市模拟)下列四个图象中,两个变量具有正相关关系的是()解析:D[A中两个变量之间是函数关系,不是相关关系;在两个变量的散点图中,若样本点呈直线形带状分布,则两个变量具有相关关系,对照图形:B,D样本点呈直线形带状分布,B是负相关,D是正相关,C样本点不呈直线形带状分布.所以两个变量具有正相关关系的图是D.故选D.]2.为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力()A.回归分析B.期望与方差C.独立性检验D.概率解析:C[“近视”与“性别”是两类变量,其是否有关,应该用独立性检验判断.故选C.]3.下面是2×2列联表:y1y2总计x1a2173x2222547总计b46120则表中a,b的值分别为()A.94,72B.52,50C.52,74D.74,52解析:C[∵a+21=73,∴a=52,又a+22=b,∴b=74.故选C.]4.在性别与吃零食这两个分类变量的计算中,下列说法正确的是________.①若K2的观测值为k=6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.解析:由独立性检验的基本思想可得,只有③正确.答案:③5.(2019·西安市模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y^=0.67x+54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________.解析:由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案:68考点一相关关系的判断(自主练透)[题组集训]1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:A[易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.]2.(2019·洛阳市模拟)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程y^=bx+a近似地刻画其相关关系,根据图形,以下结论最有可能成立的是()A.线性相关关系较强,b的值为1.25B.线性相关关系较强,b的值为0.83C.线性相关关系较强,b的值为-0.87D.线性相关关系较弱,无研究价值解析:B[由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些.故选B.]3.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y负相关,x与z负相关B.x与y正相关,x与z正相关C.x与y正相关,x与z负相关D.x与y负相关,x与z正相关解析:A[由题意不妨设,z=ky+b(k0),∵y=-0.1x+1,∴z=-0.1kx+(k+b),∵-0.10,-0.1k0,∴x与y负相关,x与z负相关.](1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r0时,正相关;r0时,负相关.(3)线性回归方程中:b^0时,正相关;b^0时,负相关.考点二回归方程的求法及回归分析(师生共研)[典例](2016·全国Ⅲ卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:数学建模、数据分析、数学运算——回归分析问题中的核心素养先在实际问题中收集数据,画散点图确定相关关系,再用最小二乘法求回归方程,进而用回归模型对实际问题进行预测.(1)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2)正确运用计算b^,a^的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线y^=b^x+a^必过样本点的中心(x,y)进行求值.[跟踪训练](2019·邯郸市质检)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的平均利润最高?(2)通过计算判断这3年的前7个月的总利润的发展趋势.(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估测第3年8月份的利润.月份x1234利润y(单位:百万元)4466解:(1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元),第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元),∴这3年的前7个月的总利润呈上升趋势.(3)∵x=2.5,y=5,12+22+32+42=30,1×4+2×4+3×6+4×6=54,∴b^=54-4×2.5×530-4×2.52=0.8,∴a^=5-2.5×0.8=3,∴y^=0.8x+3,当x=8时,y^=0.8×8+3=9.4(百万元),∴估计第3年8月份的利润为940万元.考点三独立性检验(师生共研)[典例](2019·全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K2=nad-bc2a+bc+da+cb+d.P(K2≥k)0.0500.0100.001k3.8416.63510.828[解](1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K2=100×40×20-30×10250×50×70×30≈4.762,由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.(1)在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:①根据样本数据制成2×2列联表;②根据公式K2=nad-bc2a+ba+cb+dc+d计算K2的观测值k0;③比较k0与临界值的大小关系,作统计推断.提醒:准确计算K2的值是正确判断的前提.[跟踪训练](2018·全国Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式,为比较两种生产方式的效率,选取40名工