统计第二章复习课(二)统计——查漏补缺巩固提高考点一抽样方法的选取及应用应用抽样方法抽取样本时,应注意以下几点(1)用随机数法抽样时,对个体所编的号码位数要相等.当问题所给位数不相等时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数.(2)用系统抽样法抽样时,如果总体容量N能被样本容量n整除,抽样间隔为k=Nn,如果总体容量N不能被样本容量n整除,先用简单随机抽样剔除多余个体,抽样间隔为k=Nn.Nn表示取Nn的整数部分(3)几种抽样方法的适用范围:当总体容量较小,样本容量也较小时,可采用抽签法;当总体容量较大,样本容量较小时,可采用随机数表法;当总体容量较大,样本容量也较大时,可采用系统抽样;当总体中个体差异较显著时,可采用分层抽样.【典例1】选择合适的抽样方法抽样,写出抽样过程.(1)有30个篮球,其中甲厂生产的有21个,乙厂生产的有9个,抽取10个入样;(2)有甲厂生产的30个篮球,其中一箱21个,另一箱9个,抽取3个入样;(3)有甲厂生产的300个篮球,抽取10个入样;(4)有甲厂生产的300个篮球,抽取30个入样.[解](1)总体由差异明显的两个层次组成,需选用分层抽样法.第一步,确定抽取个数.因为1030=13,所以甲厂生产的篮球应抽取21×13=7(个),乙厂生产的篮球应抽取9×13=3(个);第二步,用抽签法分别抽取甲厂生产的篮球7个,乙厂生产的篮球3个,这些篮球便组成了我们要抽取的样本.(2)总体容量较小,用抽签法.第一步,将30个篮球用随机方式分段,分段为1,2,…,30;第二步,将以上30个分段分别写在大小、形状相同的小纸条上,揉成小球,制成号签;第三步,把号签放入一个不透明的袋子中,充分搅匀;第四步,从袋子中逐个不放回抽取3个号签,并记录上面的号码;第五步,找出和所得号码对应的篮球,这些篮球便组成了我们要抽取的样本.(3)总体容量较大,样本容量较小,宜用随机数表法.第一步,将300个篮球用随机方式分段,分段为001,002,…,300;第二步,在随机数表中随机的确定一个数作为开始,如第8行第29列的数“7”开始,任选一个方向作为读数方向,比如向右读;第三步,从数“7”开始向右读,每次读三位,凡不在001~300中的数跳过去不读,遇到已经读过的数也跳过去不读,便可依次得到286,211,234,297,207,013,027,086,284,281这10个号码,这就是所要抽取的10个样本个体的号码,找出和所得号码对应的篮球便组成我们要抽取的样本.(4)总体容量较大,样本容量也较大宜用系统抽样法.第一步,将300个篮球用随机方式分段,分段为000,001,002,…,299,并分成30段.第二步,在第一段000,001,002,…,009这十个分段中用简单随机抽样抽出一个(如002)作为始号码;第三步,将分段为002,012,022,…,292的个体抽出,组成样本.一般地,在简单随机抽样中,常常使用抽签或随机数表法,近年来,有关分层抽样的计算成为高考命题的热点.[针对训练]1.某高级中学有学生270人,其中一年级108人,二、三年级各81人.现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一分段为1,2,…,270;使用系统抽样时,将学生统一随机分段为1,2,…,270,并将整个分段依次分为10段.如果抽得的号码有下列四种情况:①7,34,61,88,115,142,169,196,223,250;②5,9,100,107,111,121,180,195,200,265;③11,38,65,92,119,146,173,200,227,254;④30,57,84,111,138,165,192,219,246,270.关于上述样本的下列结论中,正确的是()A.②③都不能为系统抽样B.②④都不能为分层抽样C.①④都可能为系统抽样D.①③都可能为分层抽样[解析]按分层抽样时,在一年级抽取108×10270=4(人),在二年级、三年级各抽取81×10270=3(人),则在号码段1,2,…,108中抽取4个号码,在号码段109,110,…,189中抽取3个号码,在号码段190,191,…,270中抽取3个号码,①②③符合,所以①②③可能是分层抽样,④不符合,所以④不可能是分层抽样,排除B;按系统抽样时,抽取出的号码应该是“等距”的,①③符合,②④不符合,所以①③都可能为系统抽样,②④都不能为系统抽样,排除A、C,故选D.[答案]D考点二用样本的频率分布估计总体分布与频率分布直方图有关问题的常见类型及解题策略(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.【典例2】下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高资料(单位:cm):区间界限[122,126)[126,130)[130,134)[134,138)[138,142)人数58102233区间界限[142,146)[146,150)[150,154)[154,158]人数201165(1)列出样本的频率分布表(频率保留两位小数).(2)画出频率分布直方图.(3)估计身高低于134cm的人数占总人数的百分比.[解](1)列出样本频率分布表:分组频数频率[122,126)50.04[126,130)80.07[130,134)100.08[134,138)220.18[138,142)330.28[142,146)200.17[146,150)110.09[150,154)60.05[154,158]50.04合计1201.00(2)画出频率分布直方图,如图所示.(3)因为样本中身高低于134cm的人数的频率为5+8+10120=23120≈0.19.所以估计身高低于134cm的人数约占总人数的19%.画频率分布条形图、直方图时要注意纵、横坐标轴的意义.[针对训练]2.如图所示的是某学校抽取的学生体重的频率分布直方图,已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为10,则抽取的学生人数为()A.20B.30C.40D.50[解析]前3组的频率之和等于1-(0.0125+0.0375)×5=0.75,第2小组的频率是0.75×21+2+3=0.25,设样本容量为n,则10n=0.25,则n=40.故选C.[答案]C考点三用样本的数字特征估计总体的数字特征样本的数字特征可分为两大类,一类反映样本数据的集中趋势,包括样本平均数、众数、中位数;另一类反映样本数据的波动大小,包括样本方差及标准差.通常,我们用样本的数字特征估计总体的数字特征.有关样本平均数及方差的计算和应用是高考考查的热点.【典例3】甲、乙两人在相同的条件下各射靶10次,每次射靶成绩(单位:环)如图所示:(1)填写下表:平均数中位数命中9环以上甲7________1乙________________3(2)请从四个不同的角度对这次测试进行分析:①结合平均数和方差,分析偏离程度;②结合平均数和中位数,分析谁的成绩好些;③结合平均数和命中9环以上的次数,看谁的成绩好些;④结合折线图上两人射击命中环数及走势,分析谁更有潜力.[解](1)甲的射靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,∴中位数为7环.乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,∴x乙=110(2+4+6+8+7+7+8+9+9+10)=7(环).乙的射靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,∴中位数是7+82=7.5(环).于是填充后的表格,如图所示:平均数中位数命中9环以上甲771乙77.53(2)s2甲=110[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]=1.2,s2乙=110[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]=5.4.①甲、乙的平均数相同,均为7,但s2甲s2乙,说明甲偏离平均数的程度小,而乙偏离平均数的程度大.②甲、乙的平均数相同,而乙的中位数比甲大,说明乙射靶环数的优秀次数比甲多.③甲、乙的平均数相同,而乙命中9环以上(包含9环)的次数比甲多2次,可知乙的射靶成绩比甲好.④从折线图上看,乙的成绩呈上升趋势,而甲的成绩在平均线上波动不大,说明乙的状态在提升,更有潜力.平均数、众数、中位数描述了数据的集中趋势,极差、方差和标准差描述了数据的波动大小,也可以说反映了各个数据与其平均数的离散程度,方差越大,数据的离散程度越大,越不稳定;方差越小,数据的离散程度越小,越稳定.[针对训练]3.从一堆苹果中任取5只,称得它们的质量如下(单位:克):125,124,121,123,127,则该样本标准差s=_____(克)(用数字作答).[解析]先求平均数x=125+124+121+123+1275=124(克),则样本标准差s=125-x2+124-x2+…+127-x25=1+0+…+95=2.[答案]2考点四变量的相关性和回归分析1.分析两个变量的相关关系时,我们可根据样本数据散点图确定两个变量之间是否存在相关关系,还可利用最小二乘法求出回归方程.把样本数据表示的点在直角坐标系中作出,构成的图叫做散点图.从散点图上,我们可以分析出两个变量是否存在相关关系.如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系,这条直线叫做回归直线,直线方程叫做回归方程.2.回归方程的应用利用回归方程可以对总体进行预测,虽然得到的结果不是准确值,但我们是根据统计规律得到的,因而所得结果的正确率是最大的,所以可以大胆地利用回归方程进行预测.【典例4】某地区2013年至2019年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2013201420152016201720182019年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(1)已知两变量线性相关,求y关于t的回归方程;(2)利用(1)中的回归方程,分析2013年至2019年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b^=i=1nti-tyi-yi=1nti-t2,a^=y-b^t.[解](1)由所给数据计算得t=17(1+2+3+4+5+6+7)=4,y=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,i=17(ti-t)2=9+4+1+0+1+4+9=28,i=17(ti-t)(yi-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b^=i=17ti-tyi-yi=17ti-t2=1428=0.5,a^=y-b^t=4.3-0.5×4=2.3,故所求回归方程为y^=0.5t+2.3.(2)由(1)知,b^=0.50,故2013年至2019年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2020年的年份代号t=8代入(1)中的回归方程,得y^=0.5×8+2.3=6.3,故预测该地区2020年农村居民家庭人均纯收入为6.3千元.(1)求回归直线方程应给出线性回归系数公式,在求解时为了计算更方便准确不妨列出以上解题过程中给出的表.(2)应当注意所有的回归直线方程都经过点(x,y).[针对训练]4.理论预测某城市2020到2024年人口总数与年份的关系如下表所示:年份202x(年)01234人口数y(十万)5781119(1)请画出上表数据的散点图;(2)