第九篇统计与统计案例返回导航第3节变量的相关性与统计案例返回导航最新考纲1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3.了解回归分析的思想、方法,并能初步应用回归分析的思想、方法解决一些简单的实际问题.4.了解独立性检验的思想、方法,并能初步应用独立性检验的思想、方法解决一些简单的实际问题.返回导航【教材导读】1.变量的相关关系与变量的函数关系有什么区别?提示:相关关系是一种不确定关系,函数关系是确定关系.2.如何判断两个变量间的线性相关关系?提示:散点图大致在一条直线附近,或者通过计算相关系数作出判断.返回导航3.独立性检验的基本步骤是什么?提示:列出2×2列联表,计算k值,根据临界值表作出结论.返回导航1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.返回导航2.回归方程与回归分析(1)线性相关关系与回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程①最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.返回导航②回归方程:方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定数.b^=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x.返回导航(3)回归分析①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,x=1n(x1+…+xn),y=1n(y1+…+yn),a^=y-b^x,(x,y)称为样本点的中心.返回导航③相关系数r=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2∑ni=1(yi-y)2,当r0时,两变量正相关,当r0时,两变量负相关,当|r|≤1且|r|越接近于1,相关程度越强,当|r|≤1且|r|越接近于0,相关程度越弱.返回导航3.独立性检验(1)独立性检验的有关概念①分类变量可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量.返回导航②2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d返回导航(2)独立性检验利用随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.返回导航步骤如下:①计算随机变量K2的观测值k,查表确定临界值k0:P(K2≥k0)0.50.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.返回导航【重要结论】1.线性回归直线方程的斜率为正(负)时,两个变量正(负)相关.2.线性回归直线一定经过样本点的中心.返回导航1.下列选项中,两个变量具有相关关系的是()(A)正方形的面积与周长(B)匀速行驶车辆的行驶路程与时间(C)人的身高与体重(D)人的身高与视力答案:C返回导航2.有关线性回归的说法,不正确的是()(A)相关关系的两个变量是非确定关系(B)散点图能直观地反映数据的相关程度(C)回归直线最能代表线性相关的两个变量之间的关系(D)散点图中的点越集中,两个变量的相关性越强答案:D返回导航3.(2017豫东、豫北十所名校联考)根据如下样本数据:x34567y4.0a-5.4-0.50.5b-0.6得到的回归直线方程为y^=bx+a.若样本点的中心为(5,0.9),则当x每增加1个单位时,y就()(A)增加1.4个单位(B)减少1.4个单位(C)增加7.9个单位(D)减少7.9个单位返回导航B解析:依题意得,a+b-25=0.9,故a+b=6.5①,又样本点的中心为(5,0.9),故0.9=5b+a②,联立①②,解得b=-1.4,a=7.9,则y^=-1.4x+7.9,可知当x每增加1个单位时,y就减少1.4个单位.返回导航4.当我们建立多个模型拟合某一数据组时,为了比较各个模型的拟合效果,我们可通过计算下列________量来确定()①残差平方和②回归平方和③相关指数R2④相关系数r(A)①(B)①③(C)①②③(D)③④B解析:残差平方和越小,相关指数R2越大,拟合的效果越好.返回导航5.已知相关变量x,y之间的一组数据如表所示,回归直线y^=b^x+a^所表示的直线经过的定点为(1.5,5),则mn=________.x01n3y8m24返回导航解析:依题意,x=0+1+n+34=1.5,y=8+m+2+44=5,解得n=2,m=6,则mn=12.答案:12返回导航考点一变量的相关性(1)如图所示,有A,B,C,D,E5组数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.返回导航(2)某公司一种型号的产品近期销售情况如下表月份23456销售额(万元)15.116.317.017.218.4根据上表可得到回归直线方程y^=0.75x+a^,据此估计,该公司7月份这种型号产品的销售额为()(A)19.5万元(B)19.25万元(C)19.15万元(D)19.05万元返回导航解析:(1)由散点图知呈带状区域时有较强的线性相关关系,故去掉D.故选D.(2)由题意可得:x-=2+3+4+5+65=4,y-=15.1+16.3+17.0+17.2+18.45=16.8,返回导航回归方程过样本中心点,则:16.8=0.75×4+a^,∴a^=13.8.回归方程为:y^=0.75x+13.8,该公司7月份这种型号产品的销售额为:y^=0.75×7+13.8=19.05万元.故选D.返回导航【反思归纳】(1)由于相关系数r和回归系数返回导航返回导航返回导航返回导航返回导航返回导航解析:(1)列表计算如下:返回导航这里n=5,t=1n∑nti=155=3,y=1n∑nyi=365=7.2.又ln=∑nt2i-nt2=55-5×32=10,lty=∑ntiyi-nty=120-5×3×7.2=12,从而b^=ltyln=1210=1.2,a^=y-b^t=7.2-1.2×3=3.6,故所求回归方程为y^=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2017年的人民币储蓄存款为y^=1.2×6+3.6=10.8(千亿元).返回导航【反思归纳】(1)回归直线一定经过样本中心点(x,y);(2)由回归直线方程得出的y值为估计值.返回导航【即时训练】假设关于某设备的使用年限x和所支出的维修费y(万元),有如下的统计资料使用年限x23456维修费用y2.23.85.56.57.0若由资料可知y和x呈相关关系,由表中数据算出线性回归方程y^=b^x+a^中的b^=1.23,据此估计,使用年限为10年时的维修费用是________万元.返回导航解析:x=4,y=5,故样本中心点是(4,5),故a^=y-b^x=5-1.23×4=0.08,所以y^=1.23x+0.08,所以使用年限为10年时的维修费用大约是1.23×10+0.08=12.38.答案:12.38返回导航考点三独立性检验某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06]的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表.返回导航甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,9.98)[(29.98,0.02)频数126386182分组[30.02,30.06)[30.06,30.10)[30.10,0.14)频数92614返回导航乙厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[(29.98,30.02)频数297185159分组[30.02,30.06)[30.06,30.10)[30.10,30.14)频数766218返回导航(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据完成下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?甲厂乙厂总计优质品非优质品总计返回导航解:(1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为360500×100%=72%;乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为320500×100%=64%.返回导航(2)完成的2×2列联表如下:甲厂乙厂总计优质品360320680非优质品140180320总计5005001000返回导航由表中数据计算得K2的观测值k=1000×(360×180-320×140)2500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.返回导航【反思归纳】独立性检验的一般步骤(1)根据样本数据制成2×2列联表,假设两个变量无关系;(2)根据公式k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算k的值;(3)比较k与临界值的大小关系作统计推断.返回导航【即时训练】2018年2月9-25日,第23届冬奥会在韩国平昌举行.4年后,第24届冬奥会将在中国北京和张家口举行.为了宣传冬奥会,某大学在平昌冬奥会开幕后的第二天,从全校学生中随机抽取了120名学生,对是否收看平昌冬奥会开幕式情况进行了问卷调查,统计数据如下:返回导航收看没收看男生6020女生2020(Ⅰ)根据上表说明,能否有99%的把握认为,收看开幕式与性别有关?(Ⅱ)现从参与问卷调查且收看了开幕式的学生中,采用按性别分层抽样的方法选取8人,参加2022年北京冬奥会志愿者宣传活动.返回导航(ⅰ)问男、女学生各选取多少人?(ⅱ)若从这8人中随机选取2人到校广播站开展冬奥会及冰雪项目宣传介绍,求恰好选到一名男生一名女生的概率P.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k0)0.100.050.0250.010.005k02.7063.8415.0246.6.357.879返回导航解析:(Ⅰ)因为K2=120×(60×20-20×20)280×40×80×40=7.5>6.635,所以有99%的把握认为,收看开幕式与性别有关.(Ⅱ)(ⅰ)根据分层抽样方法得,男生34×8=6人,女生14×8=2人,所以选取的8人中,男生有6人,女生有2人.返回导航(ⅱ)从8人中,选取2人的所有情况共有N=7+6+5+4+3+2+1=28种,其中恰有一名男生一名女生的情况共有M=6+6=12种,所以,所求概率P=1228=37.返回导航(2016高考全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.返回导航(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.0