第十二章统计12.1抽样方法一、知识导学1.抽签法:(1)将总体中的所有个体编号(号码可以从1到N);(2)将1到N这N个号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作);(3)将号签放在同一箱中,并搅拌均匀;(4)从箱中每次抽出1个号签,并记录其编号,连续抽取k次;(5)从总体中将与抽到的签的编号相一致的个体取出.2.随机数表法:(1)对总体中的个体进行编号(每个号码位数一致);(2)在随机数表中任选一个数作为开始;(3)从选定的数开始按一定的方向读下去,得到的数码若不在编号中,则跳过;若在编号中,则取出;如果得到的号码前面已经取出,也跳过;如此继续下去,直到取满为止;(4)根据选定的号码抽取样本.3.系统抽样(等距抽样):(1)采用随机的方式将总体中的个体编号;(2)将整个的编号按一定的间隔(设为k)分段,当nN(N为总体中的个体数,n为样本容量)是整数时,nNk;当nN不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数N/能被n整除,这时nNk/,并将剩下的总体重新编号;(3)在第一段中用简单随机抽样确定起始的个体编号l;(4)将编号为knlklkll)1(.,,.........2,,的个体抽出.4.分层抽样:(1)将总体按一定标准分层;(2)计算各层的个体数与总体的个数的比;(3)按各层个体数占总体的个体数的比确定各层应抽取的样本容量;(4)在每一层进行抽样(可用简单随机抽样或系统抽样).二.疑难知识1.简单随机抽样是从总体中逐个不放回地抽取.2.简单随机抽样和系统抽样都是一种等概率抽样,即每个个体被抽到的可能性都是相同的.3.简单随机抽样适用于总体中个体较少的情况;系统抽样适用于总体中个体数较多的情形;分层抽样用于总体由几个差异明显的部分组成的情况.4.分层抽样时,在每一层内进行抽样时可根据具体情况,采用简单随机抽样或系统抽样.5.在使用分层抽样时,在每一层内抽样的比例相同.三.经典例题[例1]某工厂生产A,B,C,D四种不同型号的产品,产品数量之比依次为2:3:5:1,现用分层抽样方法抽出一个容量为n的样本,样本中A型号有16件,那么此样本容量n是多少?错解:样本容量1615322=2(件)错因:混淆了A型号产品与样本容量的比例关系.正解:在分层抽样中,每一层所抽的个体数的比例与总体中各层个体数的比例是一致的,所以,样本容量为881621532n答:此样本容量为88件.[例2]从1002名学生中选取100名进行抽样检查.请用系统抽样法设计一种方案,叙述其步骤.解:(1)将1002名学生进行编号,号码分别为1,2,……,1002;(2)用随机数表法剔除2个个体,并将剩下的学生重新编号,号码分别为1,2,……1000;(3)将1000个号码平均分成100组,并在第一组1,2,……,10中用简单随机抽样法确定一个号码(如l);(2)将号码为llll990,......20,10,的个体抽出.[例3]某学校有2005名学生,从中选取20人参加学生代表大会,采用简单随机抽样方法进行抽样,是用抽签法还是随机数表法?如何具体实施?分析:由于学生人数较大,制作号签比较麻烦,所以决定用随机数表法解:采用随机数表法实施步骤:(1)对2005名同学进行编号,0000-2004(2)在随机数表中随机地确定一个数作为开始,如21行45列的数字9开始的4位:9706;依次向下读数,5595,4904,………,如到最后一行,转向左边的四位数字号码,并向上读,凡不在0000-2004范围内的,则跳过,遇到已读过的数也跳过,最后得到号码为:0011,0570,1449,1072,1338,0076,1281,1866,1349,0864,0842,0161,1839,0895,1326,1454,0911,1642,0598,1855的学生组成容量为20的样本.[例4]某工厂有3条生产同一产品的流水线,每天生产的产品件数分别是3000件,4000件,8000件.若要用分层抽样的方法从中抽取一个容量为150件产品的样本,应该如何抽样?解:总体中的个体数N=3000+4000+8000=15000样本容量n=150抽样比例为100115000150Nn所以应该在第一条流水线生产的产品中随机抽取30001001=30件产品在第二条流水线生产的产品中随机抽取:40001001=40件产品在第三条流水线生产的产品中随机抽取:50001001=50件产品这里因为每条流水线所生产的产品数都较多,所以,在每条流水线的产品中抽取样品时,宜采用系统抽样方法四.典型习题1.为了解某班50名同学的会考及格率,从中抽取10名进行考查分析,则在这次考查中,考查的总体内个体总数为样本容量为.2.采用系统抽样从含有2000个个体的总体(编号为0000,0001,……,1999)中抽取一个容量为100的样本,则第一段的编号为若在第一段中用简单随机抽样得到起始个体编号为0013,则前6个入样编号为.3.某市为了了解职工的家庭生活状况,先将职工所在的国民经济行业分成13类,然后每个行业抽1001的职工家庭进行调查,这种抽样方法是.4.用分层抽样的方法在一个企业中抽取一个样本容量为50的样本,其中在管理营销部门抽了15人,技术部门10人,其余在生产工人中抽取,已知该企业有生产工人375人,那么这个企业共有多少职工?5.采用简单随机抽样从含有5个人的身高的总体173,171,161,167,162中抽取一个容量为2的样本,写出全部样本,并计算各个样本的平均值,各样本平均值的平均值.12.2频率分布直方图、折线图与茎叶图一、知识导学1.频率分布表:反映总体频率分布的表格.2.一般地,编制频率分布表的步骤如下:(1)求全距,决定组数和组距,组距=组数全距;(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;(3)登记频数,计算频率,列出频率分布表.3.频率(分布)直方图:利用直方图反映样本的频率分布规律.4.一般地,作频率分布直方图的方法为:(1)把横轴分成若干段,每一线段对应一个组的组距;(2)以此线段为底作矩形,它的高等于该组的组距频率,这样得出一系列的矩形;(3)每个矩形的面积恰好是该组上的频率.5.频率折线图:如果将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起,就得到一条折线,称这条折线为本组数据的频率折线图.6.制作茎叶图的方法是:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出.二、疑难知识1.在编制频率分布表时,要选择适当的组距和起始点才可以使频率分布表更好地反映数据的分布情况.2.在编制频率分布表时,如果取全距时不利于分组(如不能被组数整除),可适当增大全距,如在左右两端各增加适当范围(尽量使两端增加的量相同).3.频率折线图的优点是它反映了数据的变化趋势,如果将样本容量取得足够大,分组的组距取得足够小,则这条折线将趋于一条曲线,我们称这一曲线为总体分布的密度曲线.4.茎叶图对于分布在0~99的容量较小的数据比较合适,此时,茎叶图比直方图更详尽地表示原始数据的信息.5.在茎叶图中,茎也可以放两位,后面位数多可以四舍五入后再制图.三、典型例题[例1]一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人用再用分层抽样方法抽出100人作进一步调查,则在3000,2500(元)月收入段应抽出人.解析:由直方图可得[2500,3000)(元)月收入段共有100000.00055002500人,按分层抽样应抽出10025002510000人.故答案25点评:频率分布直方图中,关健要理解图中数据的意义,特别是图中每个小矩形的面积才是这一组距内个体的频率.[例2]从有甲乙两台机器生产的零件中各随机抽取15个进行检验,相关指标的检验结果为:甲:534,517,528,522,513,516,527,526,520,508,533,524,518,522,512乙:512,520,523,516,530,510,518,521,528,532,507,516,524,526,514画出上述数据的茎叶图错解:甲乙80787632102466887642202013468433024错因:对于两位数是将两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出,对于三位数字,应该把前两位数字作为茎,最后一位数字作为叶,然后从图中观察数据的分布情况,而不是仍考虑两位数,尽管此题的效果一样.正解:用前两位数作为茎,茎叶图为甲乙8507876325102466887642205201346843530254从图中可以看出,甲机床生产的零件的指标分布大致对称,平均分在520左右,中位数和众数都是522,乙机床生产的零件的指标分布也大致对称,平均分也在520左右,中位数和众数分别是520和516,总的看,甲的指标略大一些.[例3]在绘制频率分布直方图的第三个矩形时,矩形高度①与这个矩形的宽度(组距)有关;②与样本容量n无关;③与第三个分组的频数有关;④与直方图的起始点无关.以上结论中正确的共有()A.0个B.1个C.2个D.3个错解:D.错因:起始点与组距均影响第三组的频数,所以矩形高度与以上各因素均有关,①③正确,正解:C.[例4]根据中国银行的外汇牌价,2005年第一季度的60个工作日中,欧元的现汇买入价(100欧元的外汇可兑换的人民币)的分组与各组频数如下:〔1050,1060〕:1,〔1060,1070〕:7,〔1070,1080〕:20,〔1080,1090〕:11,〔1090,1100〕:13,〔1100,1110〕:6,〔1110,1120〕:2.(1)列出欧元的现汇买入价的频率分布表;(2)估计欧元的现汇买入价在区间1065~1105内的频率;(3)如果欧元的现汇买入价不超过x的频率的估计值为0.95,求此x解:(1)欧元的现汇买入价的频率分布表为:分组频数频率[1050,1060﹚10.017[1060,1070﹚70.117[1070,1080﹚200.333[1080,1090﹚110.183[1090,1100﹚130.217[1100,1110﹚60.100[1110,1120﹚20.033合计601.000(2)欧元现汇买入价在区间1065~1105内的频率的估计值为84.01100111011001105100.0217.0183.0333.01060107010651070117.0(3)因为0.017+0.117+0.333+0.183+0.217=0.867〈0.95,0.017+……+0.217+0.100=0.967〉0.95,所以x在[1100,1110]内,且满足0.867+0.1003.1108,95.0110011101100xx即欧元现汇买入价不超过1108.3的频率的估计为0.95[例5]初一年级某班期中考试的数学成绩统计如下:分数段10090—9980--8970--7960--690--59人数26122172如果80分以上(包括80分)定为成绩优秀,60分以上(包括60分)定为成绩及格.那么,在这个班级的这次成绩统计中,成绩不及格的频率是多少?成绩及格的频率是多少?成绩优秀的频率是多少?解:被统计的对象(参加这次考试的本班学生)共有2+6+12+21+7+2=50个.60分以上的有48个,80分以上的有20个,所以成绩不及格的频率是04.0502,成绩及格的频率是96.05048,成绩优秀的频率是4.05020.说明要计算一组数据中某个对象的频率,要先计算数据的总的个