1随机抽样、用样本估计总体1.随机抽样(1)简单随机抽样:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)系统抽样:当总体中的个体数目较多时,可将总体分成均衡的几个部分,然后按照事先定出的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样.(3)分层抽样:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.2.用样本的频率分布估计总体分布(1)在频率分布直方图中,纵轴表示频率/组距,数据落在各小组内的频率用各小长方形的面积表示.各小长方形的面积总和等于1.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.(3)茎叶图茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.用样本的数字特征估计总体的数字特征(1)众数:一组数据中出现次数最多的数.(2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.(3)平均数:x=x1+x2+…+xnn,反映了一组数据的平均水平.(4)标准差:是样本数据到平均数的一种平均距离,s=1n[x1-x2+x2-x2+…+xn-x2].(5)方差:s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2](xn是样本数据,n是样本容量,x是样本平均数).概念方法微思考1.三种抽样方法有什么共同点和联系?提示(1)抽样过程中每个个体被抽取的机会均等.(2)系统抽样中在起始部分抽样时采用简单随机抽样;分层抽样中各层抽样时采用简单随机抽样或系统抽样.22.平均数、标准差与方差反映了数据的哪些特征?提示平均数反映了数据取值的平均水平,标准差、方差反映了数据对平均数的波动情况,即标准差、方差越大,数据的离散程度越大,越不稳定;反之离散程度越小,越稳定.1.(2019•新课标Ⅰ)某学校为了解1000名新生的身体素质,将这些学生编号1,2,,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生【答案】C【解析】:从1000名学生从中抽取一个容量为100的样本,系统抽样的分段间隔为100010100,46号学生被抽到,则根据系统抽样的性质可知,第一组随机抽取一个号码为6,以后每个号码都比前一个号码增加10,所有号码数是以6为首项,以10为公差的等差数列,设其数列为{}na,则610(1)104nann,当62n时,62616a,即在第62组抽到616.故选C.2.(2019•新课标Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该学校学生总数比值的估计值为()A.0.5B.0.6C.0.7D.0.8【答案】C【解析】某中学为了了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,作出维恩图,得:3该学校阅读过《西游记》的学生人数为70人,则该学校阅读过《西游记》的学生人数与该学校学生总数比值的估计值为:700.7100.故选C.3.(2020•天津)从一批零件中抽取80个,测量其直径(单位:)mm,将所得数据分为9组:[5.31,5.33),[5.33,5.35),,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为()A.10B.18C.20D.36【答案】B【解析】直径落在区间[5.43,5.47)的频率为(6.255)0.020.225,则被抽取的零件中,直径落在区间[5.43,5.47)内的个数为0.2258018个,故选B.4.(2020•新课标Ⅲ)设一组样本数据1x,2x,,nx的方差为0.01,则数据110x,210x,,10nx的方差为()A.0.01B.0.1C.1D.104【答案】C【解析】样本数据1x,2x,,nx的方差为0.01,根据任何一组数据同时扩大几倍方差将变为平方倍增长,数据110x,210x,,10nx的方差为:1000.011,故选C.5.(2020•新课标Ⅲ)在一组样本数据中,1,2,3,4出现的频率分别为1p,2p,3p,4p,且411iip,则下面四种情形中,对应样本的标准差最大的一组是()A.140.1pp,230.4ppB.140.4pp,230.1ppC.140.2pp,230.3ppD.140.3pp,230.2pp【答案】B【解析】选项:()10.120.430.440.12.5AEx,所以2222()(12.5)0.1(22.5)0.4(32.5)0.4(42.5)0.10.65Dx;同理选项:()2.5BEx,()1.85Dx;选项:()2.5CEx,()1.05Dx;选项:()2.5DEx,()1.45Dx;故选B.6.(2019•新课标Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()A.中位数B.平均数C.方差D.极差【答案】A【解析】根据题意,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分,7个有效评分与9个原始评分相比,最中间的一个数不变,即中位数不变,故选A.7.(2017•山东)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为()5A.3,5B.5,5C.3,7D.5,7【答案】A【解析】由已知中甲组数据的中位数为65,故乙组数据的中位数也为65,即5y,则乙组数据的平均数为:66,故3x,故选A.8.(2017•新课标Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:)kg分别是1x,2x,,nx,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.1x,2x,,nx的平均数B.1x,2x,,nx的标准差C.1x,2x,,nx的最大值D.1x,2x,,nx的中位数【答案】B【解析】在A中,平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标,故A不可以用来评估这种农作物亩产量稳定程度;在B中,标准差能反映一个数据集的离散程度,故B可以用来评估这种农作物亩产量稳定程度;在C中,最大值是一组数据最大的量,故C不可以用来评估这种农作物亩产量稳定程度;在D中,中位数将数据分成前半部分和后半部分,用来代表一组数据的“中等水平”,故D不可以用来评估这种农作物亩产量稳定程度.故选B.9.(2018•新课标Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是___________.【答案】分层抽样【解析】某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异,为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是分层抽样.故答案为:分层抽样.610.(2017•江苏)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取___________件.【答案】18【解析】产品总数为2004003001001000件,而抽取60件进行检验,抽样比例为6061000100,则应从丙种型号的产品中抽取630018100件,故答案为:18.11.(2020•上海)已知有四个数1,2,a,b,这四个数的中位数是3,平均数是4,则ab___________.【答案】36【解析】因为四个数的平均数为4,所以441213ab,因为中位数是3,所以232a,解得4a,代入上式得1349b,所以36ab,故答案为:36.12.(2020•江苏)已知一组数据4,2a,3a,5,6的平均数为4,则a的值是___________.【答案】2【解析】一组数据4,2a,3a,5,6的平均数为4,则42(3)5645aa,解得2a.故答案为:2.13.(2019•江苏)已知一组数据6,7,8,8,9,10,则该组数据的方差是___________.【答案】53【解析】一组数据6,7,8,8,9,10的平均数为:1(6788910)86x,该组数据的方差为:222222215[(68)(78)(88)(88)(98)(108)]63S.故答案为:53.14.(2018•江苏)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的7分数的平均数为___________.【答案】90【解析】根据茎叶图中的数据知,这5位裁判打出的分数为89、89、90、91、91,它们的平均数为1(8989909191)905.故答案为:90.15.(2019•北京)改革开放以来,人们的支付方式发生了巨大转变.近年来,移动支付已成为主要支付方式之一.为了解某校学生上个月A,B两种移动支付方式的使用情况,从全校所有的1000名学生中随机抽取了100人,发现样本中A,B两种支付方式都不使用的有5人,样本中仅使用A和仅使用B的学生的支付金额分布情况如下:不大于2000元大于2000元仅使用A27人3人仅使用B24人1人(Ⅰ)估计该校学生中上个月A,B两种支付方式都使用的人数;(Ⅱ)从样本仅使用B的学生中随机抽取1人,求该学生上个月支付金额大于2000元的概率;(Ⅲ)已知上个月样本学生的支付方式在本月没有变化.现从样本仅使用B的学生中随机抽查1人,发现他本月的支付金额大于2000元.结合(Ⅱ)的结果,能否认为样本仅使用B的学生中本月支付金额大于2000元的人数有变化?说明理由.【解析】(Ⅰ)由题意得:从全校所有的1000名学生中随机抽取的100人中,A,B两种支付方式都不使用的有5人,仅使用A的有30人,仅使用B的有25人,A,B两种支付方式都使用的人数有:1005302540,估计该校学生中上个月A,B两种支付方式都使用的人数为:401000400100人.(Ⅱ)从样本仅使用B的学生有25人,其中不大于2000元的有24人,大于2000元的有1人,从中随机抽取1人,基本事件总数25n,8该学生上个月支付金额大于2000元包含的基本事件个数1m,该学生上个月支付金额大于2000元的概率125mpn.(Ⅲ)不能认为样本仅使用B的学生中本月支付金额大于2000元的人数有变化,理由如下:上个月样本学生的支付方式在本月没有变化.现从样本仅使用B的学生中随机抽查1人,发现他本月的支付