第九章统计与统计案例第3节变量间的相关关系与统计案例课程标准考情索引核心素养1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.针对实际问题,会用一元线性回归模型进行预测.3.通过实例,理解2×2列联表的统计意义.通过实例,了解2×2列联表独立性检验及其应用.2019·全国卷Ⅰ,T172018·全国卷Ⅱ,T182018·全国卷Ⅲ,T182017·全国卷Ⅱ,T181.数学建模2.数据分析3.数学运算1.两个变量的线性相关(1)正相关.在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关.在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线.如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法.求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.(2)回归方程.方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定参数.3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(x-,y-)称为样本点的中心.(3)相关系数.当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R2=其中i=0n(yi-y^i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:2×2列联表项目y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验.利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.1.求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本中心点(x-,y-).2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.[概念思辨]1.判断下列结论的正误(正确的打“√”,错误的打“×”).(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.()答案:(1)√(2)√(3)×(4)×[教材衍化]2.(人A必修3·习题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如下表:x681012y2356则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析:易求x-=9,y-=4,将样本点中心(9,4)代入选项中验证,满足y^=0.7x-2.3,故选C.答案:C3.(人A选修2-3·习题改编)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:分类理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K2的观测值k≈4.8443.841.根据假设检验的基本原理,应该断定“选择文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%[典题体验]4.(2020·日照一中检测)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析:在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案:A5.(2020·广东深圳模拟)已知某产品的销售额y(万元)与广告费用x(万元)之间的关系如下表:x/万元01234y/万元1015203035若求得其线性回归方程y^=6.5x+a^,则预计当广告费用为6万元时的销售额为()A.42万元B.45万元C.48万元D.51万元解析:由题意得x-=0+1+2+3+45=2,y-=10+15+20+30+355=22,因为y^=6.5x+a^,所以a^=22-6.5×2=9,则y^=6.5x+9,当x=6时,y^=6.5×6+9=48.答案:C6.某医疗机构通过抽样调查(样本容量n=1000),利用2×2列联表和K2统计量研究患肺病是否与吸烟有关.计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是()A.在100个吸烟的人中约有95个人患肺病B.若某人吸烟,那么他有95%的可能性患肺病C.有95%的把握认为“患肺病与吸烟有关”D.只有5%的把握认为“患肺病与吸烟有关”解析:由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.答案:C考点1相关关系的判断(自主演练)1.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析:因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=b^y+a^,b^>0,则z=b^y+a^=-0.1b^x+b^+a^,故x与z负相关.答案:C2.(2020·合肥调研)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn互不相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-2x+100上,则这组样本数据的样本相关系数为()A.-1B.0C.12D.1解析:因为所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-2x+100上,所以这组样本数据呈负相关,且相关系数为-1.答案:A3.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表所示:项目甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析:相关系数的绝对值越接近于1,残差平方和越小,相关性越强.由图表知丁的残差平方和最小,且相关系数最大,所以丁的试验表明A,B两变量有更强的线性相关性.答案:D4.x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21R22;③x,y之间不能建立线性回归方程.解析:在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用y^=b^x+a^拟合效果要好,则R21R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案:①②1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则变量呈正相关关系.2.利用相关系数判定,当|r|越趋近于1,相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r0,则正相关;r0时,则负相关.3.线性回归直线方程中:b0时,正相关;b0时,负相关.考点2线性回归方程及应用(讲练互动)[典例](2020·福建联考协作体上学期期中)下图是某地区2012年至2018年生活垃圾无害化处理量(单位:万吨)的折线图.注:年份代码1~7分别表示对应年份2012~2018年.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数r(|r|0.75线性相关较强)加以说明;(2)建立y与t的回归方程(系数精确到0.01),预测2020年该地区生活垃圾无害化处理量.附注:参考数据:i=17yi=1yi=9.32,i=17tiyi=40.17,i=17(yi-y-)2=0.55,7≈2.646.参考公式:相关系数,回归方程y^=a^+b^t中斜率和截距最小二乘估计公式分别为:b^=,a^=y--b^t-解:(1)由折线图中数据和附注中参考数据得r≈2.890.55×2×2.646≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(2)由y-=9.327≈1.331及(1)得b^==2.8928≈0.10,a^=y--b^t-=1.331-0.10×4≈0.93.所以y关于t的回归方程为y^=0.93+0.10t.将2020年对应的t=9代入回归方程,得y^=0.93+0.10×9=1.83.所以预测2020年该地区生活垃圾无害化处理量约1.83万吨.1.(1)正确计算b^,a^的取值是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x-,y-).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.(2018·全国卷Ⅱ)下图是某地区2000年到2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值.(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势,2010年相对2