第3讲变量间的相关关系与统计案例一、选择题1.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析相关指数R2越大,拟合效果越好,因此模型1拟合效果最好.答案A2.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4解析因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标代入检验,A满足.答案A3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg解析∵0.850,∴y与x正相关,∴A正确;∵回归直线经过样本点的中心(x,y),∴B正确;∵Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85,∴C正确.答案D4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)算得,K2=110×(40×30-20×20)260×50×60×50≈7.8.附表:P(K2≥k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析根据独立性检验的定义,由K2≈7.86.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.答案A5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^=y-b^x,据此估计,该社区一户年收入为15万元家庭的年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元解析由题意知,x=8.2+8.6+10.0+11.3+11.95=10,y=6.2+7.5+8.0+8.5+9.85=8,∴a^=8-0.76×10=0.4,∴当x=15时,y^=0.76×15+0.4=11.8(万元).答案B二、填空题6.若8名学生的身高和体重数据如下表:编号12345678身高/cm165165157170175165155170体重/kg48575464614359第3名学生的体重漏填,但线性回归方程是y^=0.849x-85.712,则第3名学生的体重估计为________.解析设第3名学生的体重为a,则18(48+57+a+54+64+61+43+59)=0.849×18(165+165+157+170+175+165+155+170)-85.712.解之得a≈50.答案507.(2017·广州模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:理科文科总计男131023女72027总计203050已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2=50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.解析由K2=4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.答案5%8.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温(℃)181310-1用电量(度)24343864由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40,因为回归直线过样本点的中心,所以a^=40-(-2)×10=60,所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2017·郑州调研)某地区2009年至2015年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2009201020112012201320142015年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2017年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b^=∑ni=1(ti-t)(yi-y)∑ni=1(ti-t-)2,a^=y--b^t-.解(1)由所给数据计算得t-=17(1+2+3+4+5+6+7)=4,y-=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑7i=1(ti-t)2=9+4+1+0+1+4+9=28,∑7i=1(ti-t)(yi-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b^=∑7i=1(ti-t)(yi-y)∑7i=1(ti-t)2=1428=0.5,a^=y-b^t=4.3-0.5×4=2.3,所求回归方程为y^=0.5t+2.3.(2)由(1)知,b^=0.50,故2009至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年约增加0.5千元.将2017年的年份代号t=9代入(1)中的回归方程,得y^=0.5×9+2.3=6.8,故预测该地区2017年农村居民家庭人均纯收入为6.8千元.10.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:月收入(单位:百元)[15,25)[25,35)[35,45)[45,55)[55,65)[65,75]赞成定价者人数123534认为价格偏高者人数4812521(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者赞成定价者总计附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2≥k0)0.050.01k03.8416.635解(1)“赞成定价者”的月平均收入为x1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者32932赞成定价者71118总计104050K2=50×(3×11-7×29)210×40×18×32≈6.276.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.11.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x(单位:元)和销售量y(单位:件)之间的四组数据如下表:售价x44.55.56销售量y1211109为决策产品的市场指导价,用最小二乘法求得销售量y与售价x之间的线性回归方程为y^=-1.4x+a^,那么方程中的a^值为()A.17B.17.5C.18D.18.5解析x=4+4.5+5.5+64=5,y=12+11+10+94=10.5,∵回归直线过样本点的中心,∴a^=10.5+1.4×5=17.5.答案B12.根据如下样本数据x345678y4.02.5-0.50.5-2.0-3.0得到的回归方程为y^=b^x+a^,则()A.a^0,b^0B.a^0,b^0C.a^0,b^0D.a^0,b^0解析作出散点图如下:观察图象可知,回归直线y^=b^x+a^的斜率b^0,当x=0时,y^=a^0.故a^0,b^0.答案B13.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)几何题代数题总计男同学22830女同学81220总计302050根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:P(K2≥k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828解析由列联表计算K2的观测值k0=50(22×12-8×8)230×20×20×30≈5.5565.024.∴推断犯错误的概率不超过0.025.答案0.02514.(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中wi=xi,w=18∑8i=1wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:β^=∑ni=1(ui-u)(vi-v)∑ni=1(ui-u)2,α^=v-β^u解(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于d^=∑8i=1(wi-w)·(yi-y)∑8i=1(wi-w)2=108.81.6=68,c^=y-d^w=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6