2021高考数学一轮复习第九章统计与统计案例第3节变量间的相关关系与统计案例课件

xiaogans
0 ℃
2021-04-30

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第九章统计与统计案例第3节变量间的相关关系与统计案例课程标准考情索引核心素养1.会作两个相关变量的数据的散点图，会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想，能根据给出的线性回归方程系数公式建立线性回归方程．针对实际问题，会用一元线性回归模型进行预测.3.通过实例，理解2×2列联表的统计意义．通过实例，了解2×2列联表独立性检验及其应用.2019·全国卷Ⅰ，T172018·全国卷Ⅱ，T182018·全国卷Ⅲ，T182017·全国卷Ⅱ，T181.数学建模2.数据分析3.数学运算1．两个变量的线性相关(1)正相关．在散点图中，点散布在从左下角到右上角的区域，对于两个变量的这种相关关系，我们将它称为正相关．(2)负相关．在散点图中，点散布在从左上角到右下角的区域，两个变量的这种相关关系称为负相关．(3)线性相关关系、回归直线．如果散点图中点的分布从整体上看大致在一条直线附近，就称这两个变量之间具有线性相关关系，这条直线叫做回归直线．2．回归方程(1)最小二乘法．求回归直线，使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法．(2)回归方程．方程y^＝b^x＋a^是两个具有线性相关关系的变量的一组数据(x1，y1)，(x2，y2)，…，(xn，yn)的回归方程，其中a^，b^是待定参数．3．回归分析(1)定义：对具有相关关系的两个变量进行统计分析的一种常用方法．(2)样本点的中心．对于一组具有线性相关关系的数据(x1，y1)，(x2，y2)，…，(xn，yn)，其中(x－，y－)称为样本点的中心．(3)相关系数．当r＞0时，表明两个变量正相关；当r＜0时，表明两个变量负相关．r的绝对值越接近于1，表明两个变量的线性相关性越强．r的绝对值越接近于0，表明两个变量之间几乎不存在线性相关关系．通常|r|大于0.75时，认为两个变量有很强的线性相关性．(4)相关指数：R2＝其中i＝0n(yi－y^i)2是残差平方和，其值越小，则R2越大(接近1)，模型的拟合效果越好．4．独立性检验(1)分类变量：变量的不同“值”表示个体所属的不同类别，像这类变量称为分类变量．(2)列联表：列出两个分类变量的频数表，称为列联表．假设有两个分类变量X和Y，它们的可能取值分别为{x1，x2}和{y1，y2}，其样本频数列联表(称为2×2列联表)为：2×2列联表项目y1y2总计x1aba＋bx2cdc＋d总计a＋cb＋da＋b＋c＋d构造一个随机变量K2＝n（ad－bc）2（a＋b）（c＋d）（a＋c）（b＋d），其中n＝a＋b＋c＋d为样本容量．(3)独立性检验．利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验．1．求解回归方程的关键是确定回归系数a^，b^，应充分利用回归直线过样本中心点(x－，y－)．2．根据K2的值可以判断两个分类变量有关的可信程度，若K2越大，则两分类变量有关的把握越大．3．根据回归方程计算的y^值，仅是一个预报值，不是真实发生的值．[概念思辨]1．判断下列结论的正误(正确的打“√”，错误的打“×”)．(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系．()(2)通过回归直线方程y^＝b^x＋a^可以估计预报变量的取值和变化趋势．()(3)因为由任何一组观测值都可以求得一个线性回归方程，所以没有必要进行相关性检验．()(4)事件X，Y关系越密切，则由观测数据计算得到的K2的观测值越小．()答案：(1)√(2)√(3)×(4)×[教材衍化]2．(人A必修3·习题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析，所得数据如下表：x681012y2356则y对x的线性回归直线方程为()A.y^＝2.3x－0.7B.y^＝2.3x＋0.7C.y^＝0.7x－2.3D.y^＝0.7x＋2.3解析：易求x－＝9，y－＝4，将样本点中心(9，4)代入选项中验证，满足y^＝0.7x－2.3，故选C.答案：C3．(人A选修2－3·习题改编)为了判断高中三年级学生是否选修文科与性别的关系，现随机抽取50名学生，得到如下2×2列联表：分类理科文科男1310女720已知P(K2≥3.841)≈0.05，P(K2≥5.024)≈0.025.根据表中数据，得到K2的观测值k＝50×（13×20－10×7）223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________．解析：K2的观测值k≈4.8443.841.根据假设检验的基本原理，应该断定“选择文科与性别之间有关系”成立，并且这种判断出错的可能性约为5%.答案：5%[典题体验]4．(2020·日照一中检测)两个变量y与x的回归模型中，分别选择了4个不同模型，它们的相关指数R2如下，其中拟合效果最好的模型是()A．模型1的相关指数R2为0.98B．模型2的相关指数R2为0.80C．模型3的相关指数R2为0.50D．模型4的相关指数R2为0.25解析：在两个变量y与x的回归模型中，它们的相关指数R2越近于1，模拟效果越好，在四个选项中A的相关指数最大，所以拟合效果最好的是模型1.答案：A5．(2020·广东深圳模拟)已知某产品的销售额y(万元)与广告费用x(万元)之间的关系如下表：x/万元01234y/万元1015203035若求得其线性回归方程y^＝6.5x＋a^，则预计当广告费用为6万元时的销售额为()A．42万元B．45万元C．48万元D．51万元解析：由题意得x－＝0＋1＋2＋3＋45＝2，y－＝10＋15＋20＋30＋355＝22，因为y^＝6.5x＋a^，所以a^＝22－6.5×2＝9，则y^＝6.5x＋9，当x＝6时，y^＝6.5×6＋9＝48.答案：C6．某医疗机构通过抽样调查(样本容量n＝1000)，利用2×2列联表和K2统计量研究患肺病是否与吸烟有关．计算得K2＝4.453，经查阅临界值表知P(K2≥3.841)≈0.05，现给出四个结论，其中正确的是()A．在100个吸烟的人中约有95个人患肺病B．若某人吸烟，那么他有95%的可能性患肺病C．有95%的把握认为“患肺病与吸烟有关”D．只有5%的把握认为“患肺病与吸烟有关”解析：由已知数据可得，有1－0.05＝95%的把握认为“患肺病与吸烟有关”．答案：C考点1相关关系的判断(自主演练)1．已知变量x和y满足关系y＝－0.1x＋1，变量y与z正相关．下列结论中正确的是()A．x与y正相关，x与z负相关B．x与y正相关，x与z正相关C．x与y负相关，x与z负相关D．x与y负相关，x与z正相关解析：因为y＝－0.1x＋1的斜率小于0，故x与y负相关．因为y与z正相关，可设z＝b^y＋a^，b^＞0，则z＝b^y＋a^＝－0.1b^x＋b^＋a^，故x与z负相关．答案：C2．(2020·合肥调研)在一组样本数据(x1，y1)，(x2，y2)，…，(xn，yn)(n≥2，x1，x2，…，xn互不相等)的散点图中，若所有样本点(xi，yi)(i＝1，2，…，n)都在直线y＝－2x＋100上，则这组样本数据的样本相关系数为()A．－1B．0C.12D．1解析：因为所有样本点(xi，yi)(i＝1，2，…，n)都在直线y＝－2x＋100上，所以这组样本数据呈负相关，且相关系数为－1.答案：A3．甲、乙、丙、丁四位同学各自对A，B两变量的线性相关性做试验，并用回归分析方法分别求得相关系数r与残差平方和m如下表所示：项目甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A，B两变量有更强的线性相关性()A．甲B．乙C．丙D．丁解析：相关系数的绝对值越接近于1，残差平方和越小，相关性越强．由图表知丁的残差平方和最小，且相关系数最大，所以丁的试验表明A，B两变量有更强的线性相关性．答案：D4．x和y的散点图如图所示，则下列说法中所有正确命题的序号为________．①x，y是负相关关系；②在该相关关系中，若用y＝c1ec2x拟合时的相关指数为R21，用y^＝b^x＋a^拟合时的相关指数为R22，则R21R22；③x，y之间不能建立线性回归方程．解析：在散点图中，点散布在从左上角到右下角的区域，因此x，y是负相关关系，故①正确；由散点图知用y＝c1ec2x拟合比用y^＝b^x＋a^拟合效果要好，则R21R22，故②正确；x，y之间可以建立线性回归方程，但拟合效果不好，故③错误．答案：①②1．散点图中如果所有的样本点都落在某一函数的曲线附近，变量之间就有相关关系．如果所有的样本点都落在某一直线附近，变量之间就有线性相关关系．若点散布在从左下角到右上角的区域，则变量呈正相关关系．2．利用相关系数判定，当|r|越趋近于1，相关性越强．当残差平方和越小，相关指数R2越大，相关性越强．若r0，则正相关；r0时，则负相关．3．线性回归直线方程中：b0时，正相关；b0时，负相关．考点2线性回归方程及应用(讲练互动)[典例](2020·福建联考协作体上学期期中)下图是某地区2012年至2018年生活垃圾无害化处理量(单位：万吨)的折线图．注：年份代码1～7分别表示对应年份2012～2018年．(1)由折线图看出，可用线性回归模型拟合y与t的关系，请用相关系数r(|r|0.75线性相关较强)加以说明；(2)建立y与t的回归方程(系数精确到0.01)，预测2020年该地区生活垃圾无害化处理量．附注：参考数据：i＝17yi＝1yi＝9.32，i＝17tiyi＝40.17,i＝17（yi－y－）2＝0.55，7≈2.646.参考公式：相关系数，回归方程y^＝a^＋b^t中斜率和截距最小二乘估计公式分别为：b^＝,a^＝y－－b^t－解：（1）由折线图中数据和附注中参考数据得r≈2.890.55×2×2.646≈0.99.因为y与t的相关系数近似为0.99，说明y与t的线性相关程度相当高，从而可以用线性回归模型拟合y与t的关系．(2)由y－＝9.327≈1.331及(1)得b^＝＝2.8928≈0.10，a^＝y－－b^t－＝1.331－0.10×4≈0.93.所以y关于t的回归方程为y^＝0.93＋0.10t.将2020年对应的t＝9代入回归方程，得y^＝0.93＋0.10×9＝1.83.所以预测2020年该地区生活垃圾无害化处理量约1.83万吨．1．(1)正确计算b^，a^的取值是求线性回归方程的关键．(2)回归直线方程y^＝b^x＋a^必过样本点中心(x－，y－)．2．(1)在分析两个变量的相关关系时，可根据样本数据作出散点图来确定两个变量之间是否具有相关关系，若具有线性相关关系，则可通过线性回归方程来估计和预测．(2)对于非线性回归分析问题，应先进行变量代换，求出代换后的回归直线方程，再求非线性回归方程．(2018·全国卷Ⅱ)下图是某地区2000年到2016年环境基础设施投资额y(单位：亿元)的折线图．为了预测该地区2018年的环境基础设施投资额，建立了y与时间变量t的两个线性回归模型．根据2000年至2016年的数据(时间变量t的值依次为1，2，…，17)建立模型①：y^＝－30.4＋13.5t；根据2010年至2016年的数据(时间变量t的值依次为1，2，…，7)建立模型②：y^＝99＋17.5t.(1)分别利用这两个模型，求该地区2018年的环境基础设施投资额的预测值．(2)你认为用哪个模型得到的预测值更可靠？并说明理由．解：(1)利用模型①，该地区2018年的环境基础设施投资额的预测值为y^＝－30.4＋13.5×19＝226.1(亿元)．利用模型②，该地区2018年的环境基础设施投资额的预测值为y^＝99＋17.5×9＝256.5(亿元)．(2)利用模型②得到的预测值更可靠．理由如下：(ⅰ)从折线图可以看出，2000年至2016年数据对应的点没有随机散布在直线y＝－30.4＋13.5t上下，这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势，2010年相对2

2021高考数学一轮复习 第九章 统计与统计案例 第3节 变量间的相关关系与统计案例课件

2021高考数学一轮复习第九章统计与统计案例第3节变量间的相关关系与统计案例课件