§9.1随机抽样、用样本估计总体考试要求1.理解随机抽样的必要性和重要性,会用简单随机抽样方法从总体中抽取样本,了解分层抽样和系统抽样的方法.2.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.1.随机抽样(1)简单随机抽样:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)分层抽样:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.2.用样本的频率分布估计总体分布(1)在频率分布直方图中,纵轴表示频率/组距,数据落在各小组内的频率用各小长方形的面积表示.各小长方形的面积的总和等于1.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.(3)茎叶图茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.用样本的数字特征估计总体的数字特征(1)众数:一组数据中出现次数最多的数.(2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.(3)平均数:x=x1+x2+…+xnn,反映了一组数据的平均水平.(4)标准差:是样本数据到平均数的一种平均距离,s=1n[x1-x2+x2-x2+…+xn-x2].(5)方差:s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2](xn是样本数据,n是样本容量,x是样本平均数).微思考1.三种抽样方法有什么共同点和联系?提示(1)抽样过程中每个个体被抽取的机会均等.(2)系统抽样中在起始部分抽样时采用简单随机抽样;分层抽样中各层抽样时采用简单随机抽样或系统抽样.2.平均数、标准差与方差反映了数据的哪些特征?提示平均数反映了数据取值的平均水平,标准差、方差反映了数据对平均数的波动情况,即标准差、方差越大,数据的离散程度越大,越不稳定;反之离散程度越小,越稳定.题组一思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)简单随机抽样中,每个个体被抽到的机会不一样,与先后有关.(×)(2)分层抽样中,每个个体被抽到的可能性与层数及分层有关.(×)(3)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.(×)(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.(√)题组二教材改编2.某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为()A.33,34,33B.25,56,19C.20,40,30D.30,50,20答案B解析设在不到35岁的员工中抽取x人,则100500=x125,所以x=25,同理可得这三个年龄段抽取人数分别为25,56,19.3.某射击小组有20人,教练将他们某次射击的数据绘制成如下表格,则这组数据的众数和中位数分别是()环数5678910人数127631A.7,7B.8,7.5C.7,7.5D.8,6答案C解析从表中数据可知7环有7人,人数最多,所以众数是7;中位数是将数据从小到大排列,第10个与第11个数据的平均数,第10个数是7,第11个数是8,所以中位数是7+82=7.5.4.如图是100位居民月均用水量的频率分布直方图,则月均用水量在[2,2.5)范围内的居民有______人.答案25解析0.5×0.5×100=25.题组三易错自纠5.已知一组数据的频率分布直方图如图,则众数是______,平均数是________.答案6567解析因为最高小长方形中点的横坐标为65,所以众数为65;平均数x=(55×0.030+65×0.040+75×0.015+85×0.010+95×0.005)×10=67.6.若数据x1,x2,x3,…,xn的平均数x=5,方差s2=2,则数据3x1+1,3x2+1,3x3+1,…,3xn+1的平均数和方差分别为________.答案16,18解析∵x1,x2,x3,…,xn的平均数为5,∴x1+x2+x3+…+xnn=5,∴3x1+3x2+3x3+…+3xnn+1=3×5+1=16,∵x1,x2,x3,…,xn的方差为2,∴3x1+1,3x2+1,3x3+1,…,3xn+1的方差是32×2=18.题型一抽样方法1.(2020·吉安模拟)总体由编号为00,01,02,…,48,49的50个个体组成,利用下面的随机数表选取6个个体,选取方法是从随机数表第6行的第9列和第10列数字开始从左到右依次选取两个数字,则选出的第3个个体的编号为()附:第6行至第9行的随机数表如下:26357900337091601620388277574950321149197306491676778733997467322748619871644148708628888519162074770111163024042979799196835125A.33B.16C.38D.20答案D解析按随机数法,从随机数表第6行的第9列和第10列数字开始从左到右依次选取两个数字,超出49及重复的不选,则编号依次为33,16,20,38,49,32,…,则选出的第3个个体的编号为20,故选D.2.用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是()A.110,110B.310,15C.15,310D.310,310答案A解析在抽样过程中,个体a每一次被抽中的概率是相等的,因为总体容量为10,故个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性均为110.故选A.3.为了调查城市PM2.5的情况,按地域把48个城市分成大型、中型、小型三组,相应的城市数分别为24,16,8.若用分层抽样的方法抽取12个城市,则应抽取的中型城市数为()A.3B.4C.5D.6答案B解析根据分层抽样的特点可知,抽样比为1248=14,则应抽取的中型城市数为16×14=4.思维升华(1)简单随机抽样是分层抽样的基础,是一种等概率的抽样,由定义应抓住以下特点:①它要求总体个数较少;②它是从总体中逐个抽取的;③它是一种不放回的抽样.(2)分层抽样适用于总体中个体差异较大的情况.题型二统计图表及应用命题点1扇形图例1(2018·全国Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半答案A解析设新农村建设前,农村的经济收入为a,则新农村建设后,农村的经济收入为2a.新农村建设前后,各项收入的对比如下表:新农村建设前新农村建设后新农村建设后变化情况结论种植收入60%a37%×2a=74%a增加A错其他收入4%a5%×2a=10%a增加了一倍以上B对养殖收入30%a30%×2a=60%a增加了一倍C对养殖收入+第三产业收入(30%+6%)a=36%a(30%+28%)×2a=116%a超过经济收入2a的一半D对故选A.命题点2折线图例2下面两个图是2020年6月25日由国家卫健委发布的全国疫情累计趋势图,每图下面横向标注日期,纵向标注累计数量.现存确诊为存量数据,计算方法为:累计确诊数-累计死亡数-累计治愈数.则下列对新冠肺炎叙述错误的是()A.自1月20日以来一个月内,全国累计确诊病例属于快速增长时期B.自4月份以来,全国累计确诊病例增速缓慢,疫情扩散势头基本控制C.自6月16日至24日以来,全国每日现存确诊病例平缓增加D.自6月16日至24日以来,全国每日现存确诊病例逐步减少答案D解析由图1可知A,B均正确;由图2数据计算得16日的现存确诊病例为84867-79926-4645=296,同理可计算18,20,22,24日现存确诊分别为346,383,441,473.命题点3茎叶图例3如图所示的茎叶图记录了甲,乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均数也相等,则x和y的值分别为()A.3,5B.5,5C.3,7D.5,7答案A解析甲组数据的中位数为65,由甲,乙两组数据的中位数相等,得y=5.又甲、乙两组数据的平均数相等,∴15×(56+65+62+74+70+x)=15×(59+61+67+65+78),∴x=3.故选A.命题点4频率分布直方图例4(2020·天津)从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47]内的个数为()A.10B.18C.20D.36答案B解析因为直径落在区间[5.43,5.47]内的频率为0.02×(6.25+5.00)=0.225,所以个数为0.225×80=18.思维升华(1)通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.(2)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.(3)由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较烦琐.(4)准确理解频率分布直方图的数据特点:①频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.②频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.跟踪训练(1)由于受疫情的影响,学校停课,同学们通过三种方式在家自主学习,现学校想了解同学们对假期学习方式的满意程度,收集如图1所示的数据;教务处通过分层抽样的方法抽取4%的同学进行满意度调查,得到的数据如图2.下列说法错误的是()A.样本容量为240B.若m=50,则本次自主学习学生的满意度不低于四成C.总体中对方式二满意的学生约为300人D.样本中对方式一满意的学生为24人答案B解析选项A,样本容量为6000×4%=240,该选项正确;选项B,根据题意得自主学习的满意率为600+300+12506000≈0.3580.4,该选项错误;选项C,样本可以估计总体,但会有一定的误差,总体中对方式二满意人数约为1500×20%=300,该选项正确;选项D,样本中对方式一满意人数为2000×4%×30%=24,该选项正确.(2)(2021·贵阳模拟)某网站为了了解某“跑团”每月跑步的平均里程,收集并整理了2019年1月至2019年11月期间该“跑团”每月跑步的平均里程(单位:公里)的数据,绘制了下面的折线图.根据折线图,下列结论正确的是()A.月跑步平均里程的中位数为6月份对应的里程数B.月跑步平均里程逐月增加C.月跑步平均里程高峰期大致在8,9月份D.1月至5月的月跑步平均里程相对于6月至11月波动性更小,变化比较平稳答案D解析由折线图可知月跑步平均里程比6月份高的只有9,10,11,共3个月,比6月份低的有1,2,3,4,5,7,8,共7个月,故6月份对应里程数不是中位数,因此A不正确;月跑步平均里程在1月到2月,6月到7月,7