12.3抽样方法、总体分布的估计一、知识梳理(一)抽样1.简单随机抽样:设一个总体的个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样奎屯王新敞新疆⑴用简单随机抽样从含有N个个体的总体中抽取一个容量为n的样本时,每次抽取一个个体时任一个体被抽到的概率为N1;在整个抽样过程中各个个体被抽到的概率为Nn;⑵简单随机抽样的特点是,逐个抽取,且各个个体被抽到的概率相等;⑶简单随机抽样方法,体现了抽样的客观性与公平性,是其他更复杂抽样方法的基础.(4).简单随机抽样的特点:它是不放回抽样;它是逐个地进行抽取;它是一种等概率抽样奎屯王新敞新疆简单抽样常用方法:(1)抽签法:先将总体中的所有个体(共有N个)编号(号码可从1到N),并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌,抽签时每次从中抽一个号签,连续抽取n次,就得到一个容量为n的样本奎屯王新敞新疆适用范围:总体的个体数不多时奎屯王新敞新疆优点:抽签法简便易行,当总体的个体数不太多时适宜采用抽签法.(2)随机数表法:随机数表抽样“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码奎屯王新敞新疆2.系统抽样:当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样叫做系统抽样.系统抽样的步骤:①采用随机的方式将总体中的个体编号奎屯王新敞新疆为简便起见,有时可直接采用个体所带有的号码,如考生的准考证号、街道上各户的门牌号,等等奎屯王新敞新疆②为将整个的编号分段(即分成几个部分),要确定分段的间隔k奎屯王新敞新疆当Nn(N为总体中的个体的个数,n为样本容量)是整数时,k=Nn;当Nn不是整数时,通过从总体中剔除一些个体使剩下的总体中个体的个数N能被n整除,这时k=Nn.③在第一段用简单随机抽样确定起始的个体编号l奎屯王新敞新疆④按照事先确定的规则抽取样本(通常是将l加上间隔k,得到第2个编号l+k,第3个编号l+2k,这样继续下去,直到获取整个样本)奎屯王新敞新疆①系统抽样适用于总体中的个体数较多的情况,它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时,采用的是简单随机抽样;②与简单随机抽样一样,系统抽样是等概率抽样,它是客观的、公平的.③总体中的个体数恰好能被样本容量整除时,可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时,可用简单随机抽样先从总体中剔除少量个体,使剩下的个体数能被样本容量整除在进行系统抽样奎屯王新敞新疆奎屯王新敞新疆3.分层抽样:当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样,这种抽样叫做分层抽样,所分成的部分叫做层奎屯王新敞新疆常用的抽样方法及它们之间的联系和区别:类别共同点各自特点相互联系适用范围简单随机抽样抽样过程中每个个体被抽取的概率是相同的从总体中逐个抽取总体中的个数比较少系统抽样将总体均匀分成几个部分,按照事先确定的规则在各部分抽取在起始部分抽样时采用简单随机抽样总体中的个数比较多分层抽样将总体分成几层,分层进行抽取各层抽样时采用简单抽样或者相同抽样总体由差异明显的几部分组成不放回抽样和放回抽样:在抽样中,如果每次抽出个体后不再将它放回总体,称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体,称这样的抽样为放回抽样.随机抽样、系统抽样、分层抽样都是不放回抽样奎屯王新敞新疆奎屯王新敞新疆(二)总体分布1.总体:在数理统计中,通常把被研究的对象的全体叫做总体.2.频率分布:用样本估计总体,是研究统计问题的基本思想方法,样本中所有数据(或数据组)的频数和样本容量的比,就是该数据的频率.所有数据(或数据组)的频率的分布变化规律叫做样本的频率分布.可以用样本频率表、样本频率分布条形图或频率分布直方图来表示.3.总体分布:从总体中抽取一个个体,就是一次随机试验,从总体中抽取一个容量为n的样本,就是进行了n次试验,试验连同所出现的结果叫随机事件,所有这些事件的概率分布规律称为总体分布.4.总体密度曲线:样本容量越大,所分组数越多,各组的频率就越接近于总体在相应各组取值的概率.设想样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线,这条曲线叫做总体密度曲线.总体密度曲线b单位O频率/组距a它反映了总体在各个范围内取值的概率.根据这条曲线,可求出总体在区间(a,b)内取值的概率等于总体密度曲线,直线x=a,x=b及x轴所围图形的面0.5人数(人)时间(小时)2010501.01.52.015积.二、基础训练1.一个总体中共有10个个体,用简单随机抽样的方法从中抽取一容量为3的样本,则某特定个体入样的概率是CA.310C3B.89103C.103D.1012.(2004年江苏,6)某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用下面的条形图表示.根据条形图可得这50名学生这一天平均每人的课外阅读时间为BA.0.6hB.0.9hC.1.0hD.1.5h3.一个年级有12个班,每个班有50名同学,随机编号为1~50号,为了了解他们在课外的兴趣爱好,要求每班的33号学生留下来参加阅卷调查,这里运用的抽样方法是DA.分层抽样法B.抽签法C.随机数表法D.系统抽样法4.为调查参加运动会的1000名运动员的年龄情况,从中抽查了100名运动员的年龄,就这个问题来说,下列说法正确的是A.1000名运动员是总体B.每个运动员是个体C.抽取的100名运动员是样本D.样本容量是100解析:这个问题我们研究的是运动员的年龄情况.因此应选D.答案:D5.一个容量为n的样本,分成若干组,已知某数的频数和频率分别为40、0.125,则n的值为A.640B.320C.240D.160解析:∵n40=0.125,∴n=320.故选B.答案:B6.某单位有老年人27人,中年人54人,青年人81人,为了调查他们的健康状况,需从他们中抽取一个容量为36的样本,在简单随机抽样、系统抽样、分层抽样这三种方法中较合适的抽样方法是___________.解析:要研究的总体里各部分情况差异较大,因此用分层抽样.答案:分层抽样5.某班学生在一次数学考试中成绩分布如下表:分数段[0,80)[80,90)[90,100)人数256分数段[100,110)[110,120[120,130)人数8126分数段[130,140)[140,150)人数42那么分数在[100,110)中的频率和分数不满110分的累积频率分别是______________、_______(精确到0.01).解析:由频率计算方法知:总人数=45.分数在[100,110)中的频率为458=0.178≈0.18.分数不满110分的累积频率为458652=4521≈0.47.答案:0.180.47三、例题剖析【例1】(2004年湖南,5)某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法剖析:此题为抽样方法的选取问题.当总体中个体较多时宜采用系统抽样;当总体中的个体差异较大时,宜采用分层抽样;当总体中个体较少时,宜采用随机抽样.依据题意,第①项调查应采用分层抽样法、第②项调查应采用简单随机抽样法.故选B.答案:B评述:采用什么样的抽样方法要依据研究的总体中的个体情况来定.【例2】(2004年福建,15)一个总体中有100个个体,随机编号为0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第k小组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是___________.剖析:此问题总体中个体的个数较多,因此采用系统抽样.按题目中要求的规则抽取即可.∵m=6,k=7,m+k=13,∴在第7小组中抽取的号码是63.答案:63评述:当总体中个体个数较多而差异又不大时可采用系统抽样.采用系统抽样在每小组内抽取时应按规则进行.【例3】把容量为100的某个样本数据分为10组,并填写频率分布表,若前七组的累积频率为0.79,而剩下三组的频数成公比大于2的整数等比数列,则剩下三组中频数最高的一组的频数为___________.剖析:已知前七组的累积频率为0.79,而要研究后三组的问题,因此应先求出后三组的频率之和为1-0.79=0.21,进而求出后三组的共有频数,或者先求前七组共有频数后,再计算后三组的共有频数.)由已知知前七组的累积频数为0.79×100=79,故后三组共有的频数为21,依题意qqa1)1(31=21,a1(1+q+q2)=21.∴a1=1,q=4.∴后三组频数最高的一组的频数为16.答案:16评述:此题剖析只按第二种思路给出了解答,你能按第一种思路来解吗?【例4】对某电子元件进行寿命追踪调查,情况如下:寿命(h)100~200200~300300~400400~500500~600个数2030804030(1)列出频率分布表;(2)画出频率分布直方图和累积频率分布图;(3)估计电子元件寿命在100~400h以内的概率;(4)估计电子元件寿命在400h以上的概率.剖析:通过本题可掌握总体分布估计的各种方法和步骤.解:(1)频率分布表如下:寿命(h)频数频率累积频率100~200200.100.10200~300300.150.25300~400800.400.65400~500400.200.85500~600300.151合计2001(2)频率分布直方图如下:100200300400500600寿命(h)频率组距100200300400500600寿命(h)1.000.800.600.400.20累积频率(3)由累积频率分布图可以看出,寿命在100~400h内的电子元件出现的频率为0.65,所以我们估计电子元件寿命在100~400h内的概率为0.65.(4)由频率分布表可知,寿命在400h以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400h以上的概率为0.35.评述:画频率分布条形图、直方图时要注意纵、横坐标轴的意义.【例5】某批零件共160个,其中,一级品48个,二级品64个,三级品32个,等外品16个.从中抽取一个容量为20的样本.请说明分别用简单随机抽样、系统抽样和分层抽样法抽取时总体中的每个个体被取到的概率均相同.【例6】一个容量为100的样本,数据的分组和各组的一些相关信息如下:分组频数频率累积频率[12,15)6[15,18)0.08[18,21)0.30[21,24)21[24,27)0.69[27,30)16[30,33]0.10[33,36)1.00合计1001.00(1)完成上表;(2)画出频率分布直方图和累积频率分布图;(3)根据累积频率分布图,总体中小于22的样本数据大约占多大的百分比?〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓四、同步练习g3.1099抽样方法、总体分布的估计1.某公司甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其