第4节变量间的相关关系与统计案例考试要求1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为y^=b^x+a^__,则b^=,a^=y--b^x-.其中,b^是回归方程的斜率,a^是在y轴上的截距.回归直线一定过样本点的中心(x-,y-).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1)(x2,y2),…,(xn,yn),其中(x-,y-)称为样本点的中心.(3)相关系数当r0时,表明两个变量正相关;当r0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R2=.其中是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.4.独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d则随机变量K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d),其中n=a+b+c+d为样本容量.1.求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本点的中心(x-,y-).2.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.3.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)√(4)√2.(易错题)(2022·兰州模拟)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,n∈N*,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=12x+1上,则这组样本数据的样本相关系数为()A.-1B.0C.12D.1答案D解析由题设知,所有样本点(xi,yi)(i=1,2,…,n)都在直线y=12x+1上,可知这组样本数据完全正相关,故其相关系数为1,故选D.3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25答案A解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+bexD.y=a+blnx答案D解析由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D.5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案5%解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.6.(2022·银川模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x(个)1020304050加工时间y(min)62a758189若用最小二乘法求得回归直线方程为y^=0.67x+54.9,则a的值为________.答案68解析x-=10+20+30+40+505=30,y-=62+a+75+81+895=61+2+a5,所以61+2+a5=0.67×30+54.9,解得a=68.考点一相关关系的判断1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是()A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系答案A解析由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2r40r3r1B.r4r20r1r3C.r4r20r3r1D.r2r40r1r3答案A解析由散点图知图①与图③是正相关,故r10,r30,图②与图④是负相关,故r20,r40,且图①与图②的样本点集中在一条直线附近,因此r2r40r3r1,故选A.3.(2022·合肥模拟)根据如下样本数据,得到回归直线方程y^=b^x+a^,则()x345678y-3.0-2.00.5-0.52.54.0A.a^0,b^0B.a^0,b^0C.a^0,b^0D.a^0,b^0答案C解析作出散点图(图略),由散点图可知,a^0,b^0.感悟提升判断相关关系的两种方法:(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r|越趋近于1,相关性越强.考点二回归分析角度1线性回归方程及应用例1(2021·成都诊断)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:使用年限x(单位:年)1234567失效费y(单位:万元)2.903.303.604.404.805.205.90(1)由上表数据可知,可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(精确到0.01)(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.参考公式:相关系数r=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2∑ni=1(yi-y-)2.线性回归方程y^=b^x+a^中斜率和截距最小二乘估计计算公式:b^=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2,a^=y--b^x-.参考数据:∑7i=1(xi-x-)(yi-y-)=14.00,∑7i=1(yi-y-)2=7.08,198.24≈14.10.解(1)由题意,知x-=1+2+3+4+5+6+77=4,y-=2.90+3.30+3.60+4.40+4.80+5.20+5.907=4.30,∑7i=1(xi-x-)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28,∴r=14.0028×7.08=14.00198.24≈14.0014.10≈0.99.因为y与x的相关系数近似为0.99,所以y与x的线性相关程度相当大,从而可以用线性回归模型拟合y与x的关系.(2)∵b^=∑7i=1(xi-x-)(yi-y-)∑7i=1(xi-x-)2=1428=0.5,∴a^=y--b^x-=4.3-0.5×4=2.3.∴y关于x的线性回归方程为y^=0.5x+2.3.将x=10代入线性回归方程,得y^=0.5×10+2.3=7.3,∴估算该种机械设备使用10年的失效费为7.3万元.角度2非线性回归方程及应用例2(2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1TB=1024GB)级别跃升到PB(1PB=1024TB),EB(1EB=1024PB)乃至ZB(1ZB=1024EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数据量为0.49ZB,2009年数据量为0.8ZB,2010年增长到1.2ZB,2011年数据量更是高达1.82ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的数据量(单位:ZB)及相关统计量的值:年份201420152016201720182019序号x123456年数据量y6.68.616.121.633.041.0x-3.5y-21.15z-2.85∑6i=1(xi-x-)217.5∑6i=1(zi-z-)213.82∑6i=1(xi-x-)(yi-y-)125.35∑6i=1(xi-x-)(zi-z-)6.73表中zi=lnyi,z-=16∑6i=1zi.(1)根据上表数据信息判断,方程y=c1·ec2x(e是自然对数的底数)更适宜作为该公司统计的年数据量y关于年份序号x的回归方程类型,试求此回归方程(c2精确到0.01);(2)有人预计2022年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参数数据:e4.56≈95.58,e4.58≈97.51,回归方程y^=a^+b^x中,b^=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2=∑ni=1xiyi-nx-y-∑ni=1x2i-nx-2,a^=y--b^x-.解(1)由y=c1·ec2x得lny=c2x+lnc1,即z=c2x+lnc1,∴c2=∑6i=1(xi-x-)(zi-z-)∑6i=1(xi-x-)2=6.7317.5≈0.38.又∵z-=c2x-+lnc1,0.38×3.5+lnc1=2.85,lnc1=1.52.∴lny=0.38x+1.52,即y=e0.38x+1.52为所求的回归方程.(2)根据(1)知回归方程为y=e0.38x+1.52.当x=9时,y=e0.38×9+1.52=