考点测试67变量间的相关关系与统计案例高考概览高考在本考点的常考题型为选择、填空与解答题,分值为5分,12分,中、低等难度考纲研读1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程3.了解独立性检验的基本思想、方法及其简单应用4.了解回归分析的基本思想、方法及其简单应用一、基础小题1.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是()A.y^=1.23x+4B.y^=1.23x+5C.y^=1.23x+0.08D.y^=0.08x+1.23答案C解析选项D显然错误.因为回归方程必过样本中心点,把点(4,5)代入选项A,B,C检验,满足的只有选项C.故选C.2.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=12x+1上,则这组样本数据的样本相关系数为()A.-1B.0C.12D.1答案D解析由题设知,这组样本数据完全正相关,故其相关系数为1.故选D.3.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:甲乙丙丁r0.820.780.690.85m106115124103则试验结果体现A,B两变量有更强的线性相关性的是()A.甲B.乙C.丙D.丁答案D解析r越大,m越小,线性相关性越强,丁同学的试验结果体现A,B两变量有更强的线性相关性.故选D.4.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是()A.100个吸烟者中至少有99人患肺癌B.1个人吸烟,那么这人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有答案D解析统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.故选D.5.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x-,y-)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg答案D解析由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本点的中心(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1cm,其体重约增加0.85kg,故C正确.当某女生的身高为170cm时,其体重估计值是58.79kg,而不是具体值,因此D不正确.6.以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=lny,其变换后得到线性回归方程z=0.3x+4,则c=________.答案e4解析因为y=cekx,所以两边取对数,可得lny=ln(cekx)=lnc+lnekx=lnc+kx,令z=lny,可得z=lnc+kx.因为z=0.3x+4,所以lnc=4,所以c=e4.二、高考小题7.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为y^=b^x+a^.已知i=110xi=225,i=110yi=1600,b^=4.该班某学生的脚长为24,据此估计其身高为()A.160B.163C.166D.170答案C解析∵i=110xi=225,∴x=110i=110xi=22.5.∵i=110yi=1600,∴y=110i=110yi=160.又b^=4,∴a^=y-b^x=160-4×22.5=70.∴回归直线方程为y^=4x+70.将x=24代入上式得y^=4×24+70=166.故选C.8.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳答案A解析对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.三、模拟小题9.(2018·合肥质检)某公司一种型号的产品近期销售情况如下表:月份(x)23456销售额y/万元15.116.317.017.218.4根据上表可得到回归直线方程y^=0.75x+a^,据此估计,该公司7月份这种型号产品的销售额约为()A.19.5万元B.19.25万元C.19.15万元D.19.05万元答案D解析由表可知x=15×(2+3+4+5+6)=4,y=15×(15.1+16.3+17+17.2+18.4)=16.8,则样本中心点(4,16.8)在线性回归直线上,故16.8=0.75×4+a^,得a^=13.8.故当x=7时,y^=0.75×7+13.8=19.05.故选D.10.(2019·衡阳模拟)某城市收集并整理了该市2018年1月份至10月份每月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该市每月的最低气温与当月的最高气温两变量具有较好的线性关系,则根据该折线图,下列结论错误的是()A.每月的最低气温与当月的最高气温两变量为正相关B.10月份的最高气温不低于5月份的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月份D.最低气温低于0℃的月份有4个答案D解析由图观察可得,当最低气温较大时,最高气温也较大,故A正确;10月份的最高气温大于20℃,而5月份的最高气温不超过20℃,故B正确;从各月的温差看,1月份的温差最大,故C正确;而最低气温低于0℃的月份是1,2,4三个月份.故选D.11.(2018·河北邯郸二模)观察下面频率等高条形图,其中两个分类变量x,y之间关系最强的是()答案D解析在频率等高条形图中,aa+b与cc+d相差很大时,我们认为两个分类变量有关系,在四个选项中(等高的条形图)中,若x1,x2所占比例相差越大,则分类变量x,y的相关性越强.故选D.12.(2018·河北武邑中学调研)为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合答案A解析由题意知(s,t)是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心.故选A.13.(2018·大连双基测试)已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归直线方程为y^=b^x+a^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是()A.b^b′,a^a′B.b^b′,a^a′C.b^b′,a^a′D.b^b′,a^a′答案C解析解法一:由两组数据(1,0)和(2,2)可求得直线方程为y=2x-2,从而b′=2,a′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b^=i=16xiyi-6xyi=16x2i-6x2=58-6×72×13691-6×722=57,a^=y-b^x=136-57×72=-13,所以b^b′,a^a′.选C.解法二:根据所给数据画出散点图,如图所示,可直接判断:从l2旋转到l1,斜率变大,纵截距变小,即b^b′,a^a′.选C.一、高考大题1.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=nad-bc2a+bc+da+cb+d,P(K2≥k0)0.0500.0100.001k03.8416.63510.828解(1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈