§9.2变量间的相关关系、统计案例考试要求1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及其简单应用.1.相关关系与回归方程(1)相关关系的分类①正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.②负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(2)线性相关关系如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.②回归方程方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定参数.b^=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x.(4)回归分析①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(x,y)称为样本点的中心.③相关系数当r0时,表明两个变量正相关;当r0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d为样本容量.(3)独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.微思考1.变量的相关关系与变量的函数关系有什么区别?提示相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?提示(1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.题组一思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)散点图是判断两个变量相关关系的一种重要方法和手段.(√)(2)回归直线y^=b^x+a^至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.(×)(3)相关系数的绝对值越接近1,样本数据的线性相关程度越强.(√)(4)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.(×)题组二教材改编2.下列四个散点图中,变量x与y之间具有负的线性相关关系的是()答案D解析观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.3.下面是2×2列联表:y1y2总计x1a2173x2222547总计b46120则表中a,b的值分别为()A.94,72B.52,50C.52,74D.74,52答案C解析∵a+21=73,∴a=52.又a+22=b,∴b=74.4.已知x,y的对应取值如下表,从散点图可以看出y与x线性相关,且线性回归方程为y^=0.95x+a^,则a^等于()x0134y2.24.34.86.7A.3.25B.2.6C.2.2D.0答案B解析回归直线过点(2,4.5),∴4.5=0.95×2+a^,∴a^=2.6.题组三易错自纠5.在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的回归方程为y^=b^x+a^,那么下列说法不正确的是()A.相关系数r不可能等于1B.回归直线y^=b^x+a^必经过点(x,y)C.回归直线y^=b^x+a^表示最接近y与x之间真实关系的一条直线D.相关系数为r,且|r|越接近1,样本数据的线性相关程度越强;|r|越接近0,样本数据的线性相关程度越弱答案A解析相关系数的取值范围是|r|≤1,故A错;回归直线y^=b^x+a^必过样本点的中心,即点(x,y),故B正确;回归直线y^=b^x+a^是利用最小二乘法求解出的直线方程,接近真实关系,故C正确;相关系数r的绝对值越接近1,表示样本数据的线性相关程度越强,越接近0,样本数据的线性相关程度越弱,故D正确.6.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.非一线城市一线城市总计愿生452065不愿生132235总计5842100由K2=nad-bc2a+bc+da+cb+d,得K2=100×45×22-20×13258×42×35×65≈9.616.参照下表:P(K2≥k0)0.10.050.010.001k02.7063.8416.63510.828正确的结论是()A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案C题型一相关关系的判断1.(2021·昆明诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是()A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系答案A解析由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2r40r3r1B.r4r20r1r3C.r4r20r3r1D.r2r40r1r3答案A解析由散点图知图(1)与图(3)是正相关,故r10,r30,图(2)与图(4)是负相关,故r20,r40,且图(1)与图(2)的样本点集中在一条直线附近,因此r2r40r3r1,故选A.3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-12x+1上,则这组样本数据的样本相关系数为()A.-1B.0C.-12D.1答案A4.已知变量x和y满足关系y^=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案C解析因为y^=-0.1x+1,-0.10,所以x与y负相关.又y与z正相关,故可设z^=b^y+a^(b^0),所以z^=-0.1b^x+b^+a^,-0.1b^0,所以x与z负相关.故选C.思维升华判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:当r0时,两个变量正相关;当r0时,两个变量负相关.(3)线性回归方程:当b^0时,两个变量正相关;当b^0时,两个变量负相关.题型二回归分析命题点1线性回归分析例1(2020·福州模拟)随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:日期2日7日15日22日30日温度x/℃101113128产卵数y/个2325302616科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?解(1)由已知数据得x=12,y=27,i=13(xi-x)(yi-y)=5,i=13(xi-x)2=2,所以b^=i=13xi-xyi-yi=13xi-x2=52,a^=y-52x=27-52×12=-3.所以y关于x的线性回归方程为y^=52x-3.(2)由(1)知,y关于x的线性回归方程为y^=52x-3.当x=10时,y^=52×10-3=22,|22-23|2,当x=8时,y^=52×8-3=17,|17-16|2.所以(1)中所得的线性回归方程y^=52x-3是可靠的.命题点2非线性回归分析例2某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.xywi=18(xi-x)2i=18(wi-w)2i=18(xi-x)·(yi-y)i=18(wi-w)·(yi-y)46.65636.8289.81.61469108.8表中wi=xi,w=18i=18wi.(1)根据散点图判断y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v^=α^+β^u的斜率和截距的最小二乘估计分别为β^=i=1nui-uvi-vi=1nui-u2,α^=v-β^u.解(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于d^=i=18wi-w·yi-yi=18wi-w2=108.81.6=68,c^=y-d^w=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68