1/9第3讲统计、统计案例自主学习导引真题感悟1.(2012·福建)一支田径队有男女运动员98人,其中男运动员有56人,按男女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取的女运动员人数是________.解析利用分层抽样的特点,按比例抽样去分析.依题意,女运动员有98-56=42(人).设应抽取女运动员x人,根据分层抽样特点,得x42=2898,解得x=12.答案122.(2012·湖北)容量为20的样本数据,分组后的频数如下表:分组[10,20)[20,30)[30,40)[40,50)[50,60)[60,70]频数234542则样本数据落在区间[10,40)的频率为A.0.35B.0.45C.0.55D.0.65解析根据频率的定义求解.由表知[10,40)的频数为2+3+4=9,所以样本数据落在区间[10.40)的频率为920=0.45.答案B考题分析统计与统计案例部分的高考试题难度一般不大,考查的内容多为抽样方法,用样本估计总体、线性回归分析、独立性检验等,这类题目作为解答题出现时,往往与概率结合命题.网络构建高频考点突破2/9考点一:抽样方法【例1】(2012·中山模拟)某校共有学生2000名,各年级男、女学生人数如图表示,已知在全校学生中随机抽取1名,抽到高二级女生的概率是0.19,现用分层抽样的方法(按年级分层)在全校学生中抽取100人,则应在高三级中抽取的学生人数为________.高一级高二级高三级女生385xy男生375360z[审题导引]据题意求出字母的值,按照分层抽样的规则计算.[规范解答]据题意得x=2000×0.19=380,∴高三级的学生人数为y+z=2000-385-375-380-360=500,∴在高三级中抽取的学生人数为500×1002000=25.[答案]25【规律总结】抽样方法的选取注意分层抽样与系统抽样的计算方法,分层抽样是按比例抽样,比例的性质、方程的方法起主要作用;系统抽样首先是对总体分段的计算,注意分段时可能要排除一些个体,各段的间隔距离是一样的,但各段中抽取的个体就可有不同的规则,要根据这些规则通过计算确立抽取的个体.【变式训练】1.某班级有50名学生,现要采取系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号1~50号,并分组,第一组1~5号,第二组6~10号,…,第十组46~50号.若在第三组中抽得号码为12的学生,则在第八组中抽得号码为________的学生.解析由于组距为5,所以所抽号码为(8-3)×5+12=37.答案37考点二:用样本估计总体【例2】(1)(2012·西城二模)下图是1、2两组各7名同学体重(单位:kg)数据的茎叶图.设1、2两组数据的平均数依次为1和2,标准差依次为s1和s2,那么3/9(注:标准差s=1n[x1-x-2+x2-x-2+…+xn-x-2],其中x-为x1,x2,…,xn的平均数)A.x-1>x-2,s1>s2B.x-1>x-2,s1<s2C.x-1<x-2,s1<s2D.x-1<x-2,s1>s2(2)(2012·徐州模拟)某年级120名学生在一次百米测试中,成绩全部介于13秒与18秒之间.将测试结果分成5组:[13,14),[14,15),[15,16),[16,17),[17,18],得到如图所示的频率分布直方图.如果从左到右的5个小矩形的面积之比为1∶3∶7∶6∶3,那么成绩在[16,18]的学生人数是________.[审题导引](1)根据茎叶图中的数据分别计算x-1,x-2,s21,s22,然后比较大小;(2)根据直方图中各小矩形的面积和为1计算出成绩在[16,18]的频率,然后计算成绩在[16,18]的学生人数.[规范解答](1)由茎叶图知x-1=58+57+56+53+61+72+707=61.s21=17[(58-61)2+(57-61)2+(56-61)2+(53-61)2+(61-61)2+(72-61)2+(70-61)2]=2997,同理x-2=64,s22=3907,所以x-1<x-2,s1<s2.4/9(2)由频率分布直方图可知成绩在[16,18]的学生的频率为6+31+3+7+6+3=920,所以成绩在[16,18]的学生人数为920×120=54.[答案](1)C(2)54【规律总结】用样本估计总体时应注意的问题(1)理解在抽样具有代表性的前提下,可以用样本的频率分布估计总体的频率分布,用样本的特征数估计总体的特征数,这是统计的基本思想;(2)反映样本数据分布的主要方式,一个是频率分布表,一个是频率分布直方图,要学会根据频率分布直方图估计总体的概率分布以及总体的特征数,特别是均值、众数和中位数;(3)要掌握好样本均值和方差的实际意义,并在具体的应用问题中会根据计算样本数据的均值和方差对实际问题做出解释;(4)茎叶图是表示样本数据分布的一种方法,其特点是保留了所有的原始数据,这是茎叶图的优势.【变式训练】2.(2012·义乌模拟)在如图所示的茎叶图中,乙组数据的中位数是________;若从甲、乙两组数据中分别去掉一个最大数和一个最小数后,两组数据的平均数中较大的一组是________组.解析把乙组数据从小到大排,得79,84,84,84,86,87,93,故中位数是84,x-甲=84,x-乙=85,∴x-乙>x-甲.答案84乙3.(2012·杭州二模)将容量为n的样本中的数据分成6组,若第一组至第六组数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和等于27,则n的值为A.70B.60C.50D.405/9解析据题意知2+3+42+3+4+6+4+1=27n,∴n=60.答案B考点三:线性回归分析【例3】某种设备的使用年限x和维修费用y(万元)有以下的统计数据,如表所示x3456y2.5344.5(1)画出上表数据的散点图;(2)请根据上表提供的数据,求出y关于x的线性回归方程y∧=bx+a;(3)估计使用年限为10年,维修费用是多少?[审题导引](1)根据对应值组成点的坐标,画出各点即可;(2)直接套用求回归直线系数的公式,求出b,a;(3)根据求出的回归直线方程,求当x=10时对应的y值,即使用年限为10年时,维修费用的估计值.[规范解答](1)作出散点图如图所示.(2)∑4i=1xiyi=66.5,∑4i=1x2i=32+42+52+62=86,x-=4.5,y-=3.5,b=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a=y--bx-=3.5-0.7×4.5=0.35,所以所求的回归方程为y∧=0.7x+0.35.(3)当x=10时,y∧=0.7×10+0.35=7.35,所以使用年限为10年,维修费用的估计值是7.35万元.【规律总结】求线性回归分析问题的方法6/9(1)画出两个变量的散点图;(2)求回归直线方程;(3)用回归直线方程进行预报.其中求回归直线方程是关键.而求回归直线方程的最好方法是“最小二乘法”,即对于线性回归模型y∧=a+bx来说,估计模型中的未知参数a和b的最好方法就是用最小二乘法,其计算公式为b=∑ni=1xi-x-yi-y-∑ni=1xi-x-2=∑ni=1xiyi-nx-y-∑ni=1x2i-nx-2,a=y--bx-.[易错提示]虽然由任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.线性相关系数可以是正、负或零,线性相关系数为正时是正相关,为负时是负相关,反之也成立.【变式训练】4.(2012·深圳模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y∧=0.67x+54.9.现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.解析由表知x-=30,设模糊不清的数据为y,则y-=15(62+y+75+81+89)=307+y5,∵y-=0.67x-+54.9,即307+y5=0.67×30+54.9,解得y=68.答案68考点四:独立性检验【例4】有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下列联表.优秀非优秀总计甲班10乙班307/9合计105已知在全部105人中随机抽取1人为优秀的概率为27.(1)请完成上面的列联表.(2)根据列联表中的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”?(3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6号或10号的概率.[审题导引]第(1)问由题易知成绩优秀的概率是27,则成绩优秀的学生数是30,成绩非优秀的学生数是75,据此即可以完成列联表;第(2)问按照独立性检验的原理进行判断;第(3)问列举基本事件个数和随机事件含有的基本事件个数,按照古典概型的概率公式进行计算.[规范解答](1)列联表如表所示优秀非优秀总计甲班104555乙班203050合计3075105(2)根据列联表中的数据,得到k=105×10×30-20×45255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.(3)设“抽到6号或10号”为事件A,先后两次抛掷一枚均匀的骰子,出现的点数为(x,y).所有的基本事件有(1,1),(1,2),…(6,6),共36个.事件A包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个,故P(A)=836=29.【规律总结】独立性检验的一般步骤(1)根据样本数据列出2×2列联表,假设两个变量无关系;(2)根据公式K2=nad-bc2a+bc+da+cb+d计算K2的值;(3)比较K2与临界值的大小关系作统计推断.【变式训练】8/95.(2012·南京模拟)某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2列联表,根据列联表的数据,可以有________%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.超重不超重合计偏高415不偏高31215合计71320独立性检验临界值表:P(K2≥k0)0.0250.0100.0050.001k05.0246.6357.87910.828独立性检验随机变量K2值的计算公式:K2=nad-bc2a+bc+da+cb+d.解析k=204×12-3×125×15×7×13=5.934,根据临界值表可知有97.5%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.答案97.5名师押题高考【押题1】根据下面频率分布直方图(如图所示)估计样本数据的中位数、众数分别为A.12.5,12.5B.13,12.5C.12.5,13D.14,12.5解析中位数是位于中间的数,故中位数是13,众数是12.5,中位数把图形的面积一分为二.答案B[押题依据]高考要求考生能通过样本的分布估计总体的分布;根据样本的特征9/9数估计总体的特征数,考查考生的读图能力、概括能力,故押此题.【押题2】某高校从参加今年自主招生考试的学生中随机抽取50名学生的成绩作为样本,得频率分布表如下:组号分组频数频率第一组[230,235)0.16第二组[235,240)①0.24第三组[240,245)15②第四组[245,250)100.20第五组[250,255]50.10合计501.00(1)写出表中位置①②处的数据;(2)为了选拔更优秀的学生,高校决定在第三、四、五组中用分层抽样法抽取6名学生进行第二轮考核,分别求出第三、四、五组参加考核的人数;(3)在(2)的前提下,高校决定在这6名学生中录取2名学生,求2人中