2.2.1用样本频率估计总体频率(教案)陈巴尔引入:我们本章学习的内容是统计学,我们运用统计学解决一个具体问题,要分几个步骤?首先是数据的收集,然后是数据的分析。我们之前的课程已经学习了怎么收集数据,今天我们要开始学习怎么分析我们得到的数据,来解决一个实际问题。(看问题,图片)面对这样一个现状,我们该如何节约用水?政府部门提了这么一个设想:(看问题)问题的提出:该如何确定a呢?能不能太高?——失去节约用水的意义。(由学生回答)能不能太低?——影响居民的正常生活。(由学生回答)所以,我们希望大部分的居民用水量应该低于a,而小部分的居民用水量高于a,这样即不影响居民正常生活,又能达到节水的效果。既然要求大部分居民的用水量在a以下,小部分在a以上,我们就需要了解本市居民的用水量情况,更准确地说,我们要知道用水量在哪些范围内较多,哪些范围内较少,或者说大部分集中在哪些范围内。即了解居民用水的整体“分布”。这类似于我们考完试,分析班级的成绩分布。那我们可以通过什么方法来了解用水情况?——抽样(若学生提出普查则加以说明)数据的处理:我们通过合理的抽样方法,获得了100位居民某年的月平均用水量。(得到用水量表格)刚才我们说过要了解用水的整体分布吧,就是在哪些范围内较多,哪些范围内较少?如果就给你一个表格,这么多数据一放,你能看清吗?(由学生回答,发现只能大致看出最大值,最小值,以及1点几和2点几的用水量都“比较多”,但具体就不清楚了。)看不清,就要对表格的数据进行整理与分析,你们初中有没有学过拿到这么一大堆数据可以怎么处理,分析?(学生回答频数分布表)回顾初中熟悉的——频数分布表。初中的频数分布表是如何制作的?数据的处理过程:(由学生回答,让一名学生起来回答,如果忘记了,可以让他参考书本中的过程在一一说出。)过程:(将6个处理数据的步骤完整得留在黑板上。)步骤1、找出最大最小值(过大或过小的区间都没有意义)步骤2、确定组距与组数(1)起始区间是不是一定要从0.2开始?(留给学生一定的思考时间,可以提问学生回答!)——可以从0开始,一是为了方便,二是实际意义。当然最后一组的右端点也不一定是4.3。所以如果我们设组数为n,组距为r,则n*r大于等于4.1,而且是略大于等于。(2)由上面的式子我们就可以知道组数和组距是有联系的,确定其中一个就可以近似确定另外一个,那我们应该先确定组距还是先确定组数?(为了制图方便,通常希望组距“取整”,所以可以先确定组距再求组数,并可以和经验公式做比较)(3)现在我们取0.5为组距,则可以得到组数应该为8.2,即可以取组数为9组。(4)(若学生此时提出组距和组数大小如何选择,则举较极端的例子,如分1组、2组,与组距0.1,0.05等例子说明分组太少则信息表达过少,数据分析不够细致,而分组过多,则由于样本容量的限制与数据采集方法等影响,使得原始数据本身不够精细,从而会导致失真的后果。如图片放大率与像素值的关系。若学生没有提出,则此问题在画完直方图后讲解。)步骤3、将数据分组统计(通过划正统计)步骤4、得到初中我们熟悉的是频数分布表。频数分布表的讨论:我们通过处理数据得到频数分布表,与原始数据相比,能获得哪些有关数据分布的进一步信息?学生:大部分集中在区间.....上,(或最多,次多集中在区间......上),越往中间数据越多,越往两边数据越少。频数的好处在于知道落在每个区间内数据的多少。如果我想知道落在每个区间内的数据占全部的比例是多少的时候,该怎么办?——用频数除以样本容量,就得到了比例,我们称这个比例为频率。我们把频率这一列加在我们刚才的表格中,就得到了频率分布表。步骤5、得到频率分布表频率分布表的讨论:那我们为什么要引入频率,用频数不是已经能很好得看出各个区间里面的数据多少吗?(若学生不能回答就直接说出!)频率与频数相比,更容易看清这个区间内的数据个数占全部样本的比例是多少,我们研究样本的目的是什么?(学生——估计总体!)所以引入频率的话,在我们估计总体的时候特别有效,比如我们知道总体是一万户,那么根据我们的频率分布表,我们如何估计总体中落在区间....中的个数?(学生:用样本的频率来估计总体的频率,将总体乘以样本的频率即可)(这里可以举一个具体的例子计算一遍)从频率分布表中,与原始数据表相比较,我们能得到些什么新的信息?数据落在各个小组的比例大小(越往中间越多,最多是...其次是...大部分集中在...)数据的表示有表格的形式,那除了表格还有别的形式吗?图形。——图能给我们更加直观的感觉。如何作图?(学生可能提出以下不同做法)1、取分组区间的中点为横坐标,频率为纵坐标画三点图;(学生没提出则略过)2、以频率为高度画柱状图,有间隔或没有间隔;(学生没提出则略过)书上是和我们做法一样吗?步骤6、以区间跨度为矩形的宽,以频率除以组距作为矩形的高画出相应的柱状图就是频率分布直方图。为什么用直方图而不用我们觉得更加自然的条形图?直方图与频率条形图比较:1、总体分布的直观感受:由表格中得到的信息,现在仍然能得到(各个分组数据的比例大小,单峰对称的分布形状),并且更加直观。(此时直方图没有优势)2、如何读取频率?那直方图中的频率到底怎么读?如何读取区间[1,1.5)的频率?条形图为矩形高度,直方图用面积表示!我们可以用读取的样本频率估计总体的频率。如何读取区间[1,2)的频率?条形图为矩形高度和,直方图为面积和!(直方图感觉更加直观)我们可以用读取的样本频率估计总体的频率。如何读取区间[1,2.1)的频率?可以利用直方图为1至2.1处的所有面积和作为总体的频率的估计,条形图可以按照比例计算频率估计值,但远不如直方图直观简便。直方图与表格之间的对应关系:面积是频率,总面积是1。即频率分布直方图以面积的形式来反映数据落在各个小组的频率大小(而频率柱状图以高度来反映频率大小。)缺点:频率分布表和频率分布直方图除了得到新的信息以外,也会丢失一些原有的信息,如原始数据。表和图的应用:回到原问题的解决,如果要求85%以上的居民用水量不超出标准,则如何寻找标准?——3t(通过计算频率的累加获得,由学生做到。让个别学生起来回答自己是如何选择的)3t的选择一定能保证85%以上的居民用水量不超标吗?学生——不一定!为什么?(一下两个原因先由学生回答,不全面的再加以补充)原因1、样本只是总体的代表,与总体仍有区别,且代表性与抽样方法,样本容量均有关。并且如果多做几次抽样得到的样本几乎不可能完全一样,自然画出的直方图也很可能不同,但只要抽样方法设计合理,样本的代表性强,不同样本得到的结论应该比较接近。那么如果通过普查得到的标准a能够保证吗?原因2、今年的月平均用水与明年乃至以后的月平均用水量情况不可能完全一样,有较多的不确定因素会影响用水量的变化,所以现在得到的标准只能作为明年的一个相对合理的猜测。结果的统计意义:对于总体或者将来的一个较为合理与准确的估计,其误差在额可以容许的范围之内,也正因为这样,统计结果的好坏,往往需要进一步的评价,或通过理论方法的评价,或通过实际应用的检验。(统计方法也不唯一,可以在直方图上找到面积正好为0.85的分界点作为a的取值。)总结:为了解总体的分布,我们通常通过分析样本的频率分布来估计总体的分布,(分布表和直方图体现的都是样本的频率分布,而我们则是利用它们来估计总体的分布。)估计的结果是一个具有统计意义的结果,这个结果会根据样本的不同而有所改变,但对于有较好代表性的不同样本,得到的估计结果应该是近似的。不仅用相同的方法由于样本不同可能得到不同的结果,对于同一问题,我们也经常会有不同的方法来处理,得到的结果也不同,那么对于不同的结果的好坏,通常需要进一步评价。其中估计的方法有频率分布表,频率分布直方图,其中我们较为感兴趣的应该是频率分布直方图。用面积来反映频率,为估计总体的分布提供了一个直观、简便的方法。需要注意的是矩形的高度不是频率,而是频率除以组距。事实上利用样本估计总体的处理方法还有很多很多,今天我们介绍的频率分布表和频率分布直方图只是其中最基本的两种方法,其他的方法,在我们后续的课程中,而更多的是在大学的课程中你们会接触到。练习:某个容量为100的样本的频率分布直方图如下,则在区间[4,5)上的数据的频数为.O0.050.100.150.40123456数据