章末综合测评(三)统计案例(时间120分钟,满分150分)一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.下列说法中错误的是()A.如果变量x与y之间存在着线性相关关系,则我们根据试验数据得到的点(xi,yi)(i=1,2,…,n)将散布在某一条直线的附近B.如果两个变量x与y之间不存在着线性关系,那么根据它们的一组数据(xi,yi)(i=1,2,…,n)不能写出一个线性方程C.设x,y是具有相关关系的两个变量,且y关于x的线性回归方程为y^=b^x+a^,b^叫做回归系数D.为使求出的线性回归方程有意义,可用统计检验的方法来判断变量y与x之间是否存在线性相关关系【解析】任何一组(xi,yi)(i=1,2,…,n)都能写出一个线性方程,只是有的不存在线性关系.【答案】B2.如图1所示,有5组数据,去掉哪组数据后(填字母代号),剩下的4组数据的线性相关性最大()图1A.EB.CC.DD.A【解析】由题图易知A,B,C,D四点大致在一条直线上,而E点偏离最远,故去掉E点后剩下的数据的线性相关性最大.【答案】A3.在一次试验中,当变量x的取值分别为1,12,13,14时,变量y的值分别为2,3,4,5,则y与1x的回归曲线方程为()【导学号:97270064】A.y^=1x+1B.y^=2x+3C.y^=2x+1D.y^=x-1【解析】由数据可得,四个点都在曲线y^=1x+1上.【答案】A4.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是()A.0B.1C.2D.3【解析】①选用的模型是否合适与残差点的分布有关;对于②③,R2的值越大,说明残差平方和越小,随机误差越小,则模型的拟合效果越好.【答案】D5.观察下列各图,其中两个分类变量x,y之间关系最强的是()ABCD【解析】在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.【答案】D6.在2×2列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大()A.aa+b与cc+dB.ac+d与ca+bC.aa+d与cb+cD.ab+d与ca+c【解析】当ad与bc相差越大,两个分类变量有关系的可能性越大,此时aa+b与cc+d相差越大.【答案】A7.如图2,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是()图2A.相关系数r变大B.残差平方和变大C.相关指数R2变大D.解释变量x与预报变量y的相关性变强【解析】由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.【答案】B8.(2016·安庆一中期中)在一次对性别与是否说谎有关的调查中,得到如下数据,根据表中数据判断如下结论中正确的是()说谎不说谎总计男6713女8917总计141630A.在此次调查中有95%的把握认为是否说谎与性别有关B.在此次调查中有99%的把握认为是否说谎与性别有关C.在此次调查中有99.5%的把握认为是否说谎与性别有关D.在此次调查中没有充分证据显示说谎与性别有关【解析】由表中数据得k=30×6×9-8×7214×16×13×17≈0.002423.841.因此没有充分证据认为说谎与性别有关,故选D.【答案】D9.某地财政收入x与支出y满足线性回归方程y^=b^x+a^+e(单位:亿元),其中b^=0.8,a^=2,|e|0.5,如果今年该地区财政收入10亿元,年支出预计不会超过()A.10亿B.9亿C.10.5亿D.9.5亿【解析】代入数据得y=10+e,∵|e|0.5,∴|y|10.5,故不会超过10.5亿.【答案】C10.(2016·合肥高二检测)废品率x%和每吨生铁成本y(元)之间的回归直线方程为y^=256+3x,表明()A.废品率每增加1%,生铁成本增加259元B.废品率每增加1%,生铁成本增加3元C.废品率每增加1%,生铁成本平均每吨增加3元D.废品率不变,生铁成本为256元【解析】回归方程的系数b^表示x每增加一个单位,y^平均增加b^个单位,当x为1时,废品率应为1%,故当废品率增加1%时,生铁成本平均每吨增加3元.【答案】C11.已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归直线方程为y^=b^x+a^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是()A.b^b′,a^a′B.b^b′,a^a′C.b^b′,a^a′D.b^b′,a^a′【解析】由两组数据(1,0)和(2,2)可求得直线方程为y=2x-2,b′=2,a′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b^=i=16xiyi-6x-y-i=16x2i-6x-2=58-6×72×13691-6×722=57,a^=y--b^x-=136-57×72=-13,所以b^b′,a^a′.【答案】C12.两个分类变量X和Y,值域分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若X与Y有关系的可信程度不小于97.5%,则c等于()A.3B.4C.5D.6附:P(K2≥k0)0.050.025k03.8415.024【解析】2×2列联表如下:x1x2总计y1102131y2cd35总计10+c21+d66故K2的观测值k=66×[1035-c-21c]231×35×10+c56-c≥5.024.把选项A,B,C,D代入验证可知选A.【答案】A二、填空题(本大题共4小题,每小题5分,共20分.将答案填在题中的横线上)13.已知一回归直线方程为y^=1.5x+45,x∈{1,5,7,13,19},则y=________.【导学号:97270065】【解析】因为x=15(1+5+7+13+19)=9,且y=1.5x+45,所以y=1.5×9+45=58.5.【答案】58.514.某大型企业人力资源部为了研究企业员工工作积极性和对企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:积极支持企业改革不赞成企业改革总计工作积极544094工作一般326395总计86103189对于人力资源部的研究项目,根据上述数据试求K2的观测值为________.【解析】根据列联表中的数据,得到k=189×54×63-40×32294×95×86×103≈10.76.【答案】10.7615.(2016·深圳高二检测)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y^=0.67x+54.9.零件数x(个)1020304050加工时间Y(min)62758189现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.【解析】由表知x=30,设模糊不清的数据为m,则y=15(62+m+75+81+89)=307+m5,因为y=0.67x+54.9,即307+m5=0.67×30+54.9,解得m=68.【答案】6816.某地区恩格尔系数Y(%)与年份x的统计数据如下表:年份x2006200720082009恩格尔系数Y(%)4745.543.541从散点图可以看出Y与x线性相关,且可得回归方程为y^=b^x+4055.25,据此模型可预测2017年该地区的恩格尔系数Y(%)为________.【解析】由表可知x=2007.5,y=44.25.因为y=b^x+4055.25,即44.25=2007.5b^+4055.25,所以b^≈-2,所以回归方程为y^=-2x+4055.25,令x=2017,得y^=21.25.【答案】21.25三、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)17.(本小题满分10分)以下是某地区不同身高的未成年男性的体重平均值表.身高/cm60708090100110体重/kg6.137.99.9912.1515.0217.5身高/cm120130140150160170体重/kg20.9226.8631.1138.8542.2555.05(1)给出两个回归方程:①y=0.4294x-25.318,②y=2.004e0.0197x.通过计算,得到它们的相关指数分别是:R21=0.9311,R22=0.998.试问哪个回归方程拟合效果更好?(2)若体重超过相同身高男性平均值的1.2倍为偏胖,低于0.8为偏瘦,那么该地区某中学一男生身高为175cm,体重为78kg,他的体重是否正常?【解】(1)∵R22R21,∴选择第二个方程拟合效果更好.(2)把x=175代入y=2.004e0.0197x,得y=62.97,由于7862.97=1.241.2,所以这名男生偏胖.18.(本小题满分12分)关于x与y有如下数据:x24568y3040605070为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲模型y^=6.5x+17.5,乙模型y^=7x+17,试比较哪一个模型拟合的效果更好.【解】R21=1-∑5i=1yi-y^i2∑5i=1yi-y2=1-1551000=0.845,R22=1-∑5i=1yi-y^i2∑5i=1yi-y2=1-1801000=0.82.又∵84.5%82%,∴甲选用的模型拟合效果更好.19.(本小题满分12分)为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:质量监督员甲在生产现场时,990件产品中合格品有982件,次品有8件;甲不在生产现场时,510件产品中合格品有493件,次品有17件.试分别用列联表、独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响?【解】(1)2×2列联表如下:合格品数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1475251500由列联表可得|ac-bd|=|982×17-493×8|=12750,相差较大,可在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.(2)由2×2列联表中数据,计算得到K2的观测值为k=1500×982×17-493×82990×510×1475×25≈13.0976.635,所以在犯错误的概率不超过0.01的前提下,认为质量监督员甲是否在生产现场与产品质量有关系.20.(本小题满分12分)有两个分类变量x与y,其一组观测值如下面的2×2列联表所示:y1y2x1a20-ax215-a30+a其中a,15-a均为大于5的整数,则a取何值时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系?【解】查表可知,要使在犯错误的概率不超过0.1的前提下认为x与y之间有关系,则k≥2.706,而k=65×[a30+a-20-a15-a]220×45×15×50=65×65a-300220×45×15×50=13×13a-60260×90.故k≥2.706,得a≥7.19或a≤2.04.又a5且15-a5,a∈Z,解得a=8或9,故a为8或9时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系.21.(本小题满分12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜