第一节抽样方法、用样本估计总体1.简单随机抽样(1)抽取方式:逐个不放回抽取;(2)特点:每个个体被抽到的概率相等;(3)常用方法:抽签法和随机数表法.2.分层抽样(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.3.系统抽样的步骤(1)采用随机的方式将总体中的N个个体编号;(2)将编号按间隔k分段,当Nn是整数时,取k=Nn;当Nn不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数N′能被n整除,这时取k=N′n,并将剩下的总体重新编号;(3)在第一段中用简单随机抽样确定起始的个体编号l;(4)按照一定的规则抽取样本,通常将编号为l,l+k,l+2k,…,l+(n-1)k的个体抽出.4.作频率分布直方图的步骤(1)求全距;(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.5.茎叶图的优点茎叶图的优点是不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.[提醒]茎叶图中茎是指中间的一列数,叶是从茎的旁边生长出来的数.6.样本的数字特征(1)众数、中位数、平均数数字特征概念优点与缺点众数一组数据中重复出现次数最多的数众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使它无法客观地反映总体特征中位数把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点平均数如果有n个数据x1,x2,…,xn,那么这n个数的平均数x-=x1+x2+…+xnn平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低(2)标准差、方差①标准差:样本数据到平均数的一种平均距离,一般用s表示,s=1n[x1-x2x2-x2xn-x2].②方差:标准差的平方s2s2=1n[(x1-x)2+(x2-x-)2+…+(xn-x)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,x是样本平均数.[小题体验]1.为调查某高校学生对“一带一路”政策的了解情况,现采用分层抽样的方法抽取一个容量为500的样本.其中大一年级抽取200人,大二年级抽取100人.若其他年级共有学生3000人,则该校学生总人数是________.解析:设该校学生总人数为n,则1-200+100500=3000n,解得n=7500.答案:75002.某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.解析:由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以共有80×0.6=48(人).答案:483.已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________.解析:5个数的平均数x=4.7+4.8+5.1+5.4+5.55=5.1,所以它们的方差s2=15[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.答案:0.11.简单随机抽样中易忽视样本是从总体中逐个抽取,是不放回抽样,且每个个体被抽到的概率相等.2.系统抽样中,易忽视抽取的样本数也就是分段的段数,当Nn不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列.3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.[小题纠偏]1.已知某商场新进3000袋奶粉,为检查其三聚氰胺是否超标,现采用系统抽样的方法从中抽取150袋检查,若第一组抽出的号码是11,则第六十一组抽出的号码为________.解析:每组袋数:d=3000150=20,由题意知这些号码是以11为首项,20为公差的等差数列.a61=11+60×20=1211.答案:12112.如图是甲、乙两名篮球运动员在五场比赛中所得分数的茎叶图,则在这五场比赛中得分较为稳定(方差较小)的那名运动员得分的方差为________.解析:由茎叶图知,得分较为稳定的那名运动员是乙,他在五场比赛中得分分别为8,9,10,13,15,所以x乙=8+9+10+13+155=11,s2乙=15×[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=6.8.答案:6.8考点一抽样方法——[题组练透]1.总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为________.7816657208026314070243699728019832049234493582003623486969387481解析:由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.答案:012.采用系统抽样方法从1000人中抽取50人做问卷调查,将他们随机编号1,2,…,1000.适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.若抽到的50人中,编号落入区间[1,400]的人做问卷A,编号落入区间[401,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷C的人数为________.解析:根据系统抽样的特点可知,所有做问卷调查的人的编号构成首项为8,公差d=100050=20的等差数列{an},所以通项公式an=8+20(n-1)=20n-12,令751≤20n-12≤1000,得76320≤n≤2535,又因为n∈N*,所以39≤n≤50,所以做问卷C的共有12人.答案:123.(2019·南京调研)某高校甲、乙、丙、丁四个专业分别有150,150,400,300名学生.为了解学生的就业倾向,用分层抽样的方法从该校这四个专业中抽取40名学生进行调查,则应从丙专业抽取的学生人数为________.解析:由题意得,应从丙专业抽取的学生人数为40×4001000=16.答案:164.某企业三月中旬生产A、B、C三种产品共3000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:产品类别ABC产品数量(件)1300样本容量(件)130由于不小心,表格中A、C产品的有关数据已被污染看不清楚,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C的产品数量是________件.解析:设样本容量为x,则x3000×1300=130,所以x=300.所以A产品和C产品在样本中共有300-130=170(件).设C产品的样本容量为y,则y+y+10=170,所以y=80.所以C产品的数量为3000300×80=800(件).答案:800[谨记通法]三种抽样方法的比较类别共同点各自特点相互联系适用范围简单随机抽样均为不放回抽样,且抽样过程中每个个体被抽取的机会相等从总体中逐个抽取是后两种方法的基础总体中的个数较少系统抽样将总体均分成几部分,按事先确定的规则在各部分中抽取在起始部分抽样时采用简单随机抽样元素个数很多且均衡的总体抽样分层抽样将总体分成几层,分层按比例进行抽取各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成考点二频率分布直方图和茎叶图——[典例引领]1.(2019·启东模拟)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x+y的值为________.解析:由茎叶图知,甲组的中位数为65,当乙组的中位数也为65时,y=5,此时乙组的平均数为59+61+65+67+785=66,所以x=66×5-(56+65+62+74+70)=3,所以x+y=8.答案:82.(2018·海安质量测试)某校高一年级共有800名学生,根据他们参加某项体育测试的成绩得到了如图所示的频率分布直方图,则成绩不低于80分的学生人数为________.解析:由题设中提供的频率分布直方图可以看出:不低于80分的学生人数为(0.02+0.01)×10×800=240.答案:2403.(2018·苏州测试)为了了解某校今年准备报考飞行员的学生的体重情况,将所得的数据整理后,其频率分布直方图如图所示,已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为12,则报考飞行员的学生人数为________.解析:设报考飞行员的学生人数为x,则12x=(1-0.037×5-0.013×5)×13,解得x=48,即报考飞行员的学生人数为48.答案:48[由题悟法]1.茎叶图中的3个关注点(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.(2)重复出现的数据要重复记录,不能遗漏.(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.2.由频率分布直方图进行相关计算时,需掌握的2个关系式(1)频率组距×组距=频率.(2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.[即时应用]1.(2018·苏北四市期末)某次比赛甲得分的茎叶图如图所示,若去掉一个最高分,去掉一个最低分,则剩下4个分数的方差为________.345424628解析:剩下的4个分数是42,44,46,52,则其平均数是46,故方差为14×(16+4+0+36)=14.答案:142.随着社会的发展,食品安全问题渐渐成为社会关注的热点,为了提高学生的食品安全意识,某学校组织全校学生参加食品安全知识竞赛,成绩的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若该校的学生总人数为3000,则成绩不超过60分的学生人数大约为________.解析:由频率分布直方图知,成绩不超过60分的学生的频率为(0.005+0.01)×20=0.3,所以成绩不超过60分的学生人数大约为0.3×3000=900.答案:900考点三样本的数字特征——[锁定考向]样本的数字特征常与频率分布直方图、茎叶图等知识交汇命题.常见的命题角度有:(1)样本的数字特征与直方图交汇;(2)样本的数字特征与茎叶图交汇;(3)样本的数字特征与优化决策问题.[题点全练]角度一:样本的数字特征与直方图交汇1.(2019·苏州调研)样本容量为100的频率分布直方图如图所示,根据样本频率分布直方图估计平均数为________.解析:平均数为1100×(6×10+20×12+40×14+24×16+10×18)=14.24.答案:14.24角度二:样本的数字特征与茎叶图交汇2.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示.则7个剩余分数的方差为________.解析:根据茎叶图,去掉1个最低分87,1个最高分99,则17[87+94+90+91+90+(90+x)+91]=91,所以x=4.所以s2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=367.答案:367角度三:样本的数字特征与优化决策问题3.甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):甲108999乙1010799如果甲、乙两人中只有1人入选,则入