2.2.1用样本的频率分布估计总体分布1、用样本去估计总体是研究统计问题的一基本思想2、前面我们学过的抽样方法有:简单随机抽样、系统抽样、分层抽样。要注意这几种抽样方法的联系与区别。3、初中时我们学习过样本的频率分布,包括频数、频率的概念,频数分布表和频数分布直方图的制作。1、抛掷硬币的大量重复试验的结果:35964反面向上36124正面向上频率频数实验结果0.50110.4989样本容量为72088频率分布条形图0.10.20.30.40.50.60.701试验结果频率“正面向上”记为0“反面向上”记为1频率分布表:注意:①各长方形长条的宽度要相同。②相邻长条的间距要适当。结论:当试验次数无限增大时,两种试验结果的频率大致相等。③长方形长条的高度表示取各值的频率。如何用样本的频率分布估计总体分布?我国是世界上严重缺水的国家之一,城市缺水问题较为突出。2000年全国主要城市中缺水情况排在前10位的城市例1:某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超过a的部分按议价收费。①如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?②为了较合理地确定这个标准,你认为需要做哪些工作?思考:由上表,大家可以得到什么信息?通过抽样,我们获得了100位居民某年的月平均用水量(单位:t),如下表:1.求极差:步骤:频率分布直方图2.决定组距与组数:组数=4.3-0.2=4.14.10.5=8.2组距极差=3.将数据分组(组距0.5,组数9)[0,0.5),[0.5,1),…,[4,4.5]4.列频率分布表100位居民月平均用水量的频率分布表频率/组距月平均用水量/t0.500.400.300.200.1000.511.522.533.544.55.画频率分布直方图小长方形的面积组距频率=组距×频率=注意:①这里的纵坐标不是频率,而是频率/组距;②某个区间上的频率用这个区间的面积表示;直方图思考:所有小长方形的面积之和等于?上图称为频率分布直方图,其中横轴表示月均用水量,纵轴表示频率/组距.频率分布直方图中各小长方形的宽度和高度在数量上有何特点?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O宽度:组距高度:频率组距图形的意义图形的意义:频率分布直方图中各小长方形的面积表示什么?各小长方形的面积之和为多少?各小长方形的面积=频率各小长方形的面积之和=1月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O宽度:组距高度:频率组距分析例题:频率分布直方图非常直观地表明了样本数据的分布情况,使我们能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出来.你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O(1)居民月均用水量的分布是“山峰”状的,而且是“单峰”的;(2)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;(3)居民月均用水量的分布有一定的对称性等.月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O一、求极差,即数据中最大值与最小值的差二、决定组距与组数:组距=极差/组数三、分组,通常对组内数值所在区间,取左闭右开区间,最后一组取闭区间四、登记频数,计算频率,列出频率分布表画一组数据的频率分布直方图,可以按以下的步骤进行:五、画出频率分布直方图(纵轴表示频率/组距)练习1.有一个容量为50的样本数据的分组的频数如下:[12.5,15.5)3[15.5,18.5)8[18.5,21.5)9[21.5,24.5)11[24.5,27.5)10[27.5,30.5)5[30.5,33.5)4(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)根据频率分布直方图估计,数据落在[15.5,24.5)的百分比是多少?解:组距为3分组频数频率频率/组距[12.5,15.5)3[15.5,18.5)8[18.5,21.5)9[21.5,24.5)11[24.5,27.5)10[27.5,30.5)5[30.5,33.5)40.060.160.180.220.200.100.080.0200.0530.0600.0730.0670.0330.027频率分布直方图如下:频率组距0.0100.0200.0300.0400.05012.515.50.0600.0702.为检测某种产品的质量,抽取了一个容量为30的样本,检测结果为一级品5件,二级品8件,三级品13件,次品4件.(1)列出样本的频率分布表;(2)画出表示样本频率分布的条形图;(3)根据上述结果,估计此种产品为二级品或三级品的概率约是多少.解:(1)样本的频率分布表为:0.134次品0.4313三级品0.278二级品0.175一级品频率频数产品解:(2)样本频率分布的条形图为:0.10.20.30.40.50.60.7一级品二级品产品频率三级品次品(3)此种产品为二级品或三级品的概率约为0.27+0.43=0.7.解:(1)样本的频率分布表为:0.134次品0.4313三级品0.278二级品0.175一级品频率频数产品3.一个容量为100的样本,数据的分组和各组的相关信息如下表,试完成表中每一行的两个空格.分组频数频率频率累计[12,15)6[15,18)0.08[18,21)0.30[21,24)21[24,27)0.69[27,30)16[30,33)0.10[33,36]1.00合计1001.00课堂小结:频率分布直方图应用步骤1.求极差2.决定组距与组数3.将数据分组4.列频率分布表5.画频率分布直方图探究:同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断。分别以1和0.1为组距重新作图,然后谈谈你对图的印象。知识回顾频率分布直方图应用步骤1.求极差2.决定组距与组数3.将数据分组4.列频率分布表5.画频率分布直方图频率/组距月平均用水量/t0.500.400.300.200.1000.511.522.533.544.5频率分布折线图连接频率直方图中各小长方形上端中点的折线,叫频率分布折线图频率组距产品尺寸(mm)当样本容量无限增大,分组的组距无限缩小,那么频率分布折线图就会无限接近一条光滑曲线总体在区间内取值的频率),(baS——总体密度曲线.ab用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.总体密度曲线例1、对某电子元件进行寿命追踪调查,情况如下:寿命个数100~200200~300300~400400~500500~6002030804030(1)列出频率分布表;(2)画出频率分布直方图;(3)估计电子元件寿命在100h~400h以内的频率;(4)估计电子元件寿命在400h以上的频率;应用举例:(1)列出频率分布表;100~200200~300300~400400~500500~600寿命合计频率频数累积频率20308040302000.100.150.400.200.1510.100.250.650.851100200300400500600)寿命(h频率/组距0.65.0:400~10065.0:400~1003的概率为元件寿命在,所以我们估计电子为的电子元件出现的频率出,寿命在)由频率分布表可以看(hhh..:h...:h3504003501502004004以上的概率为估计电子元件寿命在,故我们元件出现的频率为以上的电子命在由频率分布表可知,寿)(.广东文11题5分11.为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量.产品数量的分组区间为45,55,55,65,65,75,75,85,85,95,由此得到频率分布直方图如图3,则这20名工人中一天生产该产品数量在55,75的人数是.图30.0400.0350.0300.0250.0200.0150.0100.0050455565758595产品数量频率/组距高考题型:茎叶图初中我们学过用平均数、众数和中位数反映总体的水平,用方差考察稳定程度。我们还有一种简易的方法,就是将这些数据有条理的列出来,从中观察数据的分布情况,这种方法就是茎叶图。制作茎叶图的方法将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出。123452545116679049茎:十位数字叶:表示个位数字例1:某篮球运动员在某赛季各场比赛的得分情况如下:12,15,24,25,31,31,36,36,37,39,44,49,50茎叶图:注:1、重复出现的数据要重复记录,不能遗漏;特别是“叶”部分;2、所有的信息都可以从这个茎叶图中得到;3、茎叶图便于记录和表示;4、不足的是其分析只是粗略的,对差异不大的两组数据不易分析;表示三位数以上的数据时不够方便;例2:甲、乙两篮球运动员上赛季每场比赛的得分如下,试比较这两位运动员的得分水平:甲12,15,24,25,31,31,36,36,37,39,44,49,50乙8,13,14,16,23,26,28,33,38,39,51,33,29甲乙08251346052368911667938913494051注:中间的数字表示得分的十位数字。旁边的数字分别表示两个人得分的个位数。海南卷文科16题、5分练习.从甲、乙两品种的棉花中各抽测了25根棉花的纤维长度(单位:mm),结果如下:甲品种:271273280285285287292294295301303303307308310314319323325325328331334337352乙品种:284292295304306307312313315315316318318320322322324327329331333336337343356由以上数据设计了如下茎叶图根据以上茎叶图,对甲、乙两品种棉花的纤维长度作比较,写出两个统计结论:①;②.31277550284542292587331304679403123556888553320224797413313673432356甲乙小结图形优点缺点频率分布1)易表示大量数据丢失一些直方图2)直观地表明分布地情况信息1)无信息损失只能处理样本茎页图2)随时记录方便记录和表示容量较小数据课堂小结表示样本分布的方法:(1)频率分布表(2)频率分布图(包括直方图和条形图)(3)频率分布折线图(4)茎叶图1.频率分布表表示样本的分布的方法:分组个数累计频数频率频率/组距产品尺寸(mm)2.频率分布直方图样本频率分布中,当样本容量无限增大,组距无限缩小样本频率分布直方图接近于一条光滑曲线——总体密度曲线,反映了总体分布。3.频率分布折线图1.总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布。2.总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图。小结