2020版高考数学一轮复习 第十章 统计、统计案例 第3讲 变量相关关系与统计案例课件 理 新人教A

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第3讲变量相关关系与统计案例基础知识整合1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为,点分布在左上角到右下角的区域内,两个变量的相关关系为.□01确定性□02正相关□03负相关2.回归方程与回归分析(1)线性相关关系与回归直线如果散点图中点的分布从整体上看大致在附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程①最小二乘法:求回归直线使得样本数据的点到回归直线的最小的方法叫做最小二乘法.□04一条直线□05距离的平方和②回归方程:方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定数.b^=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x.(3)回归分析①定义:对具有的两个变量进行统计分析的一种常用方法.②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,x=1n(x1+…+xn),y=1n(y1+…+yn),a^=y-b^x,(x,y)称为样本点的中心.□06相关关系③相关系数r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2,当r0时,两变量相关;当r0时,两变量相关;当|r|≤1且|r|越接近于1,相关程度;当|r|≤1且|r|越接近于0,相关程度.□07正□08负□09越强□10越弱3.独立性检验(1)独立性检验的有关概念①分类变量可用变量的不同“值”表示个体所属的的变量称为分类变量.②2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为□11不同类别(2)独立性检验利用随机变量K2=nad-bc2a+bc+da+cb+d(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:①计算随机变量K2的观测值k,查表确定临界值k0:②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.2.从散点图看相关性正相关:样本点分布在从左下角到右上角的区域内;负相关:样本点分布在从左上角到右下角的区域内.3.回归直线y^=b^x+a^必过样本点的中心.1.下面是一个2×2列联表其中a,b处填的值分别为()A.9472B.5250C.5274D.7452解析由a+21=73,得a=52,a+22=b,得b=74.故选C.解析答案C答案2.(2019·湖北模拟)已知相关变量x和y满足关系y=-0.1x+1,相关变量y与z负相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案D答案解析因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z负相关,可设z=b^y+a^,b^0,则z=b^y+a^=-0.1b^x+b^+a^,故x与z正相关.解析3.(2017·重庆高考)已知变量x与y正相关,且由观测数据算得样本平均数x-=3,y-=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4答案A答案解析依题意知,相应的回归直线的斜率应为正,排除C,D.且直线必过点(3,3.5),代入A,B得A正确.解析4.某校为了研究学生的性别与对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=6.669,则所得到的统计学结论是:有________的把握认为“学生性别与是否支持该活动有关系”.附:解析因为6.669与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与是否支持该活动有关系”.解析答案99%答案5.(2019·山西模拟)某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程y^=b^x+a^中的b^为9.4,据此模型预报广告费用为6万元时销售额约为________万元.答案65.5答案解析由表可计算x-=4+2+3+54=3.5,y-=49+26+39+544=42,因为点(3.5,42)在回归直线y^=b^x+a^上,且b^=9.4,所以42=9.4×72+a^,解得a^=9.1.故回归方程为y^=9.4x+9.1.令x=6,得y^=65.5.解析核心考向突破考向一线性回归分析例1(2019·河南洛阳模拟)某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东、西部各5个城市,得到观看该节目的人数的统计数据(单位:千人),并画出如下茎叶图,其中一个数字被污损.(1)求东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数的概率;(2)该节目的播出极大地激发了观众对成语知识学习积累的热情,现从观看节目的观众中随机统计了4位观众学习成语知识的周均时间(单位:小时)与年龄(单位:岁),并制作了如下对照表:根据表中数据,试求线性回归方程y^=b^x+a^,并预测年龄为50岁的观众周均学习成语知识的时间.参考公式:b^=i=1nxiyi-nx-y-i=1nx2i-nx2,a^=y-b^x.解(1)设被污损的数字为a,则a有10种情况.由88+89+90+91+9283+83+87+90+a+99,得a8,∴有8种情况使得东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数,所求概率为810=45.答案(2)由表中数据,计算得x=35,y=3.5,b^=i=14xiyi-4x-y-i=14x2i-4x2=525-4×35×3.55400-4×352=7100,a^=y-b^x=3.5-7100×35=2120.∴y^=7100x+2120.当x=50时,y^=4.55.即预测年龄为50岁的观众周均学习成语知识的时间为4.55小时.答案触类旁通1正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.2回归直线方程y^=b^x+a^必过样本点中心x,y.(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.即时训练1.PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5浓度的数据如下表:(1)根据上表数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(2)若周六同一时间段车流量是200万辆,试根据(1)求出的线性回归方程预测,此时PM2.5的浓度为多少?(参考公式:b^=∑ni=1xi-xyi-y∑ni=1xi-x2,a^=y-b^x;参考数据:∑5i=1xi=540,∑5i=1yi=420)解(1)由条件可知,x=15∑5i=1xi=5405=108,y=15∑5i=1yi=4205=84,∑5i=1(xi-x)(yi-y)=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144,∑5i=1(xi-x)2=(-8)2+(-6)2+02+62+82=200.b^=∑5i=1xi-xyi-y∑5i=1xi-x2=144200=0.72,答案a^=y-b^x=84-0.72×108=6.24,故y关于x的线性回归方程为y^=0.72x+6.24.(2)当x=200时,y^=0.72×200+6.24=150.24,所以可以预测此时PM2.5的浓度约为150.24微克/立方米.答案考向二两个变量的相关性角度1相关关系的判断例2为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程y^=b^x+a^近似地刻画其相关关系,根据图形,以下结论最有可能成立的是()A.线性相关关系较强,b的值为1.25B.线性相关关系较强,b的值为0.83C.线性相关关系较强,b的值为-0.87D.线性相关关系较弱,无研究价值答案B答案解析由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B.解析角度2相关系数的意义例3(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x=116i=116xi=9.97,s=116i=116xi-x2=116i=116x2i-16x2≈0.212,i=116i-8.52≈18.439,i=116(xi-x-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x--3s,x-+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(xi,yi)(i=1,2,…,n)的相关系数r=i=1nxi-x-yi-y-i=1nxi-x2i=1nyi-y-2.0.008≈0.09.解(1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数r=i=116xi-x-i-8.5i=116xi-x-2i=116i-8.52≈-2.780.212×16×18.439≈-0.18.由于|r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.答案(2)①由于x-=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x--3s,x-+3s)以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.i=116x2i≈16×0.2122+16×9.972≈1591.134,答案剔除第13个数据,剩下数据的样本方差为115×(1591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.答案触类旁通判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.2相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.即时训练2.(2019

1 / 67
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功