基础诊断考点突破课堂总结•第3讲变量间的相关关系与统计案例基础诊断考点突破课堂总结最新考纲1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程;3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.基础诊断考点突破课堂总结知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:______;统计量有相关系数与相关指数.(1)在散点图中,点散布在从________到_______的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从_______到_______的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在________附近,称两个变量具有线性相关关系.散点图左下角右上角左上角右下角一条直线基础诊断考点突破课堂总结2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的_____________最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为_____________,则b^=1122211()()()nniiiiiinniiiixxyyxynxyxxxnx,a^=y^-b^x.其中,b^是回归方程的_____,a^是在y轴上的截距.回归直线一定过样本点的中心(x,y).距离的平方和y^=b^x+a^斜率基础诊断考点突破课堂总结3.残差分析(1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为e^i=yi-y^i=yi-b^xi-a^,i=1,2,…,n.e^i称为相应于点(xi,yi)的残差.(2)相关指数:R2=1-————————.其中21()niiiyy是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.2121()()iniiniiyyyy基础诊断考点突破课堂总结4.独立性检验(1)利用随机变量K2来判断“两个分类变量______”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为有关系y1y2总计x1ab___________x2cdc+d总计a+c_________a+b+c+da+bb+d基础诊断考点突破课堂总结则随机变量K2=__________________________________,其中n=____________为样本容量.n(ad-bc)2(a+b)(a+c)(b+d)(c+d)a+b+c+d基础诊断考点突破课堂总结诊断自测1.判断正误(在括号内打“√”或“×”)精彩PPT展示(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√基础诊断考点突破课堂总结2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④解析由正负相关性的定义知①④一定不正确.答案D基础诊断考点突破课堂总结3.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关基础诊断考点突破课堂总结解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案D基础诊断考点突破课堂总结4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是()A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C.有99%的把握认为该电视栏目是否优秀与改革有关系D.没有理由认为该电视栏目是否优秀与改革有关系基础诊断考点突破课堂总结解析只有K2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而既使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D正确.答案D基础诊断考点突破课堂总结5.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y^=0.67x+54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________.基础诊断考点突破课堂总结解析由x-=30,得y-=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案68基础诊断考点突破课堂总结考点一相关关系的判断【例1】(1)(2015·湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关基础诊断考点突破课堂总结(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁基础诊断考点突破课堂总结解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D基础诊断考点突破课堂总结规律方法(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.基础诊断考点突破课堂总结【训练1】x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21R22;③x,y之间不能建立线性回归方程.基础诊断考点突破课堂总结解析在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用y^=b^x+a^拟合效果要好,则R21R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案①②基础诊断考点突破课堂总结考点二线性回归方程及应用【例2】(2016·全国Ⅲ卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.基础诊断考点突破课堂总结附注:参考数据:∑7i=1yi=9.32,∑7i=1tiyi=40.17,∑7i=1(yi-y-)2=0.55,7≈2.646.参考公式:相关系数r=∑ni=1(ti-t-)(yi-y-)∑ni=1(ti-t-)2∑ni=1(yi-y-)2,回归方程y^=a^+b^t中斜率和截距的最小二乘估计公式分别为:b^=∑ni=1(ti-t-)(yi-y-)∑ni=1(ti-t-)2,a^=y--b^t-.基础诊断考点突破课堂总结解(1)由折线图中数据和附注中参考数据得t-=4,∑7i=1(ti-t-)2=28,∑7i=1(yi-y-)2=0.55.∑7i=1(ti-t-)(yi-y-)=∑7i=1tiyi-t-∑7i=1yi=40.17-4×9.32=2.89,r≈2.892×2.646×0.55≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.基础诊断考点突破课堂总结(2)由y-=9.327≈1.331及(1)得b^=∑7i=1(ti-t-)(yi-y-)∑7i=1(ti-t-)2=2.8928≈0.103,a^=y--b^t-≈1.331-0.103×4≈0.92.所以y关于t的回归方程为y^=0.92+0.10t.将2016年对应的t=9代入回归方程得y^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.基础诊断考点突破课堂总结规律方法(1)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2)正确运用计算b^,a^的公式和准确的计算,是求线性回归方程的关键,并充分利用回归直线y^=b^x+a^必过样本点的中心(x-,y-)进行求值.基础诊断考点突破课堂总结【训练2】(2017·重庆一中质检)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份20102011201220132014时间代号t12345储蓄存款y(千亿元)567810(1)求y关于t的回归方程y^=b^t+a^;(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.基础诊断考点突破课堂总结附:回归方程y^=b^t+a^中,b^=∑ni=1tiyi-nt-y-∑ni=1t2i-nt-2,a^=y--b^t-.itiyittiyi11515226412337921448163255102550∑153655120解(1)列表计算如下基础诊断考点突破课堂总结这里n=5,t-=1n∑ni=1ti=155=3,y-=1n∑ni=1yi=365=7.2.又∑ni=1t2i-nt-2=55-5×32=10,∑ni=1tiyi-nt-y-=120-5×3×7.2=12,从