1122211()()()nniiiiiinniiiixxyyxynxybxxxnxaybx10.3变量间的相关关系与统计案例考情分析从近三年高考试题分析,高考对本部分的考察多以散点图和相关关系为主,另外对线性回归方程与独立性检验在实际应用中的考察。基础知识1.两个变量的线性相关:(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法.3.回归方程方程ˆybxa是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)nnxyxyxy的回归方程,其中4.回归分析的基本思想及其初步应用(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,其常用的研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n个样本数据(x1,y1)、(x2,y2)、…、(xn,yn),(,)xy称为样本点的中心.(3)除用散点图外,还可以用样本相关系数r来衡量两个变量x,y相关关系的强弱,1222211()()niiinniiiixynxyrxnxyny当r>0,表明两个变量正相关,当r<0,表明两个变量负相关,r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|0.75时,认为这两个变量具有很强的线性相关关系.5、用相关指数2R来刻画回归的效果,公式是22121()1()niiiniiyyRyy2R的值越大,说明残差平方和越小,也就是说模型拟合效果好5.独立性检验的基本思想及其初步应用(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量.(2)列出的两个分类变量的频数表,称为列联表.(3)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验独立性检验公式2K=2()()()()()nadbcabacbdcd注意事项1.(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.(2)当K2≥3.841时,则有95%的把握说事A与B有关;当K2≥6.635时,则有99%的把握说事件A与B有关;当K2≤2.706时,则认为事件A与B无关.2.(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是()A.r2r40r3r1B.r4r20r1r3C.r4r20r3r1D.r2r40r1r3答案:A解析:由相关系数的定义以及散点图所表达的含义可知r2r40r3r1.故选A.【变式1】根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).[来源:学科网]解析从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.答案否题型二独立性检验【例2】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男女总计走天桥402060走斑马线203050总计6050110由K2=nad-dc2a+bc+da+cb+d,算得K2=110×40×30-20×20260×50×60×50≈7.8.附表:P(K2≥k)0.0500.0100.001k3.8416.63510.828对照附表,得到的正确结论是()A.有99%以上的把握认为“选择过马路的方式与性别有关”B.有99%以上的把握认为“选择过马路的方式与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”答案:A解析:∵K2=110×40×30-20×20260×50×60×50≈7.86.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.【变式2】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数12638618292614乙厂:分组[29.86,29.90)[来源:学。科。网][29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数297185159766218(1)试分别估计两个分厂生产零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.甲厂乙厂合计优质品非优质品合计附K2=nad-bc2a+bc+da+cb+d,P(K2≥k)0.050.01k3.8416.635解(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500×100%=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500×100%=64%.(2)甲厂乙厂合计优质品360320680非优质品[来源:学&科&网Z&X&X&K]140180320合计5005001000K2=1000×360×180-320×1402500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.题型三线性回归方程【例3】9.[2013·金版原创]在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:价格x99.51010.511销售量y1110865通过分析,发现销售量y与商品的价格x具有线性相关关系,则销售量y关于商品的价格x的线性回归方程为________.(参考公式:b^=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x)答案:y^=-3.2x+40解析:i=15xiyi=392,x=10,y=8,i=15x2i=502.5,代入公式,得b^=-3.2,所以,a^=y-b^x=40,故线性回归方程为y^=-3.2x+40.【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x/cm174176176176178儿子身高y/cm175175176177177则y对x的线性回归方程为().A.y=x-1B.y=x+1C.y=88+12xD.y=176解析由题意得x=174+176+176+176+1785=176(cm),y=175+175+176+177+1775=176(cm),由于(x,y)一定满足线性回归方程,经验证知选C.答案C重难点突破【例4】某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20022004200620082010需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y^=bx+a;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解析(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:年份-2006-4-2024需求量-257-21-1101929对预处理后的数据,容易算得,x=0,y=3.2,b=-4×-21+-2×-11+2×19+4×29-5×0×3.2-42+-22+22+42-5×02=26040=6.5,a=y-bx=3.2.由上述计算结果,知所求回归直线方程为y-257=b(x-2006)+a=6.5(x-2006)+3.2,即y^=6.5(x-2006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5(2012-2006)+260.2=6.5×6+260.2=299.2(万吨).巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y^=3-5x,变量x增加一个单位时,y平均增加5个单位;③线性回归方程y^=b^x+a^必过(x,y);④在一个2×2列联表中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是()A.0B.1C.2D.3答案:C解析:①方差不变,对.②错.变量x增加一个单位时,y平均降低5个单位.③对.④错,应该有99.9%的把握确认这两个变量间有关系.2.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为()A.y^=1.23x+4B.y^=1.23x+5C.y^=1.23x+0.08D.y^=0.08x+1.23答案:C[来源:学*科*网]解析:回归直线必过点(4,5),故其方程为y^-5=1.23(x-4),即y^=1.23x+0.08.3.已知x、y取值如下表:x014568y1.31.85.66.17.49.3从所得的散点图分析可知:y与x线性相关,且y^=0.95x+a,则a=()A.1.30B.1.45C.1.65D.1.80答案:B解析:依题意,得x=16×(0+1+4+5+6+8)=4,y=16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y^=0.95x+a必过中心点(x,y),即点(4,5.25),于是有5.25=0.95×4+a,由此解得a=1.45,选B.4.从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:身高x(cm)160165170175180体重y(kg)6366707274根据上表可得回归直线方程:y^=0.56x+a^,据此模型预报身高为172cm的高三男生的体重为()A.70.09kgB.70.12kgC.70.55kgD.71.05kg答案:B解析:x=160+165+170+175+1805=170,y=63+66+70+72+745=69.∵回归直线过点(x,y),∴将点(170,69)代入回归直线方程得y^=0.56x-26.2,代入x=172cm,则其体重为70.12kg.5.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y^=0.254x+0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.答案:0.254解析:以x+1代x,得y^=0.254(x+1)+0.321,与y^=0.254x+0.321相减可得,年饮食支出平均增加0.254万