2.2总体分布的估计用样本估计总体用样本估计总体(两种):一种是:用样本的频率分布估计总体的分布。另一种是:用样本的数字特征(平均数标准差等)估计总体的数字特征。用样本的频率分布估计总体分布一频率分布图和频率分布直方图二频率分布折线图和总体密度曲线三茎叶图(stem-and-leafdisplay)2.2.1用样本的频率分布估计总体分布我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?探究:你认为,为了较为合理地确定出这个标准,需要做哪些工作?我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?探究:①采用抽样调查的方式获得样本数据②分析样本数据来估计全市居民用水量的分布情况下表给出100位居民的月均用水量表分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息。表格则是通过改变数据的构成形式,为我们提供解释数据的新方式讨论:如何分析数据?根据这些数据你能得出用水量其他信息吗?为此我们要对这些数据进行整理与分析〈一〉频率分布的概念:频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布〈二〉画频率分布直方图其一般步骤为:(1)计算一组数据中最大值与最小值的差,即求极差(2)决定组距与组数(3)将数据分组(4)列频率分布表(5)画频率分布直方图第一步:求极差:(数据组中最大值与最小值的差距)最大值=4.3最小值=0.2所以极差=4.3-0.2=4.1第二步:决定组距与组数:(强调取整)当样本容量不超过100时,按照数据的多少,常分成5~12组.为方便组距的选择应力求“取整”.本题如果组距为0.5(t).则4.18.20.5极差组数=组距第三步:将数据分组:(给出组的界限)所以将数据分成9组较合适.[0,0.5),[0.5,1),[1,1.5),……[4,4.5)共9组.第四步:列频率分布表.分组频数频率频率/组距[0-0.5)4[0.5-1)8[1-1.5)15[1.5-2)22[2-2.5)25[2.5-3)15[3-3.5)5[3.5-4)4[4-4.5)2合计100组距=0.50.040.080.080.160.30.150.440.220.250.512.000.020.040.040.080.10.30.150.0500.10.20.30.40.50.60.511.522.533.544.5第五步:画出频率分布直方图.频率/组距月均用水量/t(组距=0.5)0.080.160.30.440.50.30.10.080.04小长方形的面积=?小长方形的面积总和=?月均用水量最多的在哪个区间?请大家阅读第68页,直方图有哪些优点和缺点?频率分布直方图的特征:从频率分布直方图可以清楚的看出数据分布的总体趋势。从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。思考:1.频率分布表与频率分布直方图的区别?频率分布表列出的是在各个不同区间内取值的频率。频率分布直方图是用小长方形面积的大小来表示在各个区间内取值的频率。2.如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布表2-2和频率分布直方图2.2-1,你能对制定月用水量标准提出建议吗?3.将组距确定为1,作出教材P66页居民月均用水量的频率分布直方图4.谈谈两种组距下,你对图的印象?同一个样本数据,绘制出来的分布图是唯一的吗?(同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图和形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断)练习1.有一个容量为50的样本数据分组的频数如下[12.5,15.5)3[15.5,18.5)8[18.5,21.5)9[21.5,24.5)11[24.5,27.5)10[27.5,30.5)5[30.5,33.5)4(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)根据频率分布直方图估计,数据落在15.5,24.5)的百分比是多少?解:组距为3分组频数频率频率/组距[12.5,15.5)3[15.5,18.5)8[18.5,21.5)9[21.5,24.5)11[24.5,27.5)10[27.5,30.5)5[30.5,33.5)40.060.160.180.220.200.100.080.0200.0530.0600.0730.0670.0330.027频率分布直方图如下:频率组距0.0100.0200.0300.0400.05012.515.50.0600.0701、求极差(即一组数据中最大值与最小值的差)知道这组数据的变动范围4.3-0.2=4.12、决定组距与组数(将数据分组)3、将数据分组(8.2取整,分为9组)小结:画频率分布直方图的步骤4、列出频率分布表.(填写频率/组距一栏)5、画出频率分布直方图。组距:指每个小组的两个端点的距离,组距组数:将数据分组,当数据在100个以内时,按数据多少常分5-12组。4.18.20.5极差组数=组距注意第几组频数(1)第几组频率样本容量(2)纵坐标为:频率组距2、一个容量为20的样本数据.分组后.组距与频数如下:(0,20]2;(20,30]3,(30,40]4;(40,50]5;(50,60]4;(60,70]2。则样本在(-∞,50]上的频率为:,7/10(2002,江西)4.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁-18岁的男生体重(kg),得到频率分布直方图如下:C0.030.050.07体重(kg)频率/组距54.558.562.566.570.574.5根据上图可得这100名学生中体重在[56.5,64.5]的学生人数是()A.20B.30C.40D.50240027003000330036003900X体重y0.0013、观察新生婴儿的体重,其频率分布直方图如图所示,则新生婴儿体重(2700,3000)的频率为:;0.30.30.14.34.54.74.95.1视力频率/组距AA.0.27,78B.0.27,83C.2.7,78D.2.7,835.为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图,如右,由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a,视力在4.6到5.0之间的学生数为b,则a,b的值分别为()6、某射手对100个靶各射击5次,记下命中数,设计结果如下:频数43210命中数514312918351、列出频率分布表;2、画出分布频率条形图;3、求命中不少于3次的概率。(2003,东北)在城市居民月均用水量样本数据的频率分布直方图中,,依次连接各小长方形上端的中点,就得到一条折线,这条折线称为频率分布折线图.你认为频率分布折线图能大致反映样本数据的频率分布吗?频率组距0.50.40.30.20.10.511.522.533.544.5O月均用水量/t当总体中的个体数很多时(如抽样调查全国城市居民月均用水量),随着样本容量的增加,作图时所分的组数增多,组距减少,你能想象出相应的频率分布折线图会发生什么变化吗?频率组距0.50.40.30.20.10.511.522.533.544.5O月均用水量/t在上述背景下,相应的频率分布折线图越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.那么图中阴影部分的面积有何实际意义?月均用水量/t频率组距abO月均用水量/t频率组距abO总体密度曲线总体在区间(a,b)内取值的百分比.频率分布表、频率分布直方图和折线图的主要作用是表示样本数据的分布情况,此外,我们还可以用茎叶图来表示样本数据的分布情况.一般地,画出一组样本数据的茎叶图的步骤如何?第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在左(右)侧;第三步,将各个数据的叶按大小次序写在茎右(左)侧.对于样本数据:3.1,2.5,2.0,0.8,1.5,1.0,4.3,2.7,3.1,3.5,用茎叶图如何表示?012348050571153茎叶【问题】某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.【问题】某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.甲乙846336838910123452554161679490你能理解这个图是如何记录这些数据的吗?你能通过该图说明哪个运动员的发挥更稳定吗?甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.甲乙846336838910123452554161679490用茎叶图表示数据的分布情况是一种好方法,你认为茎叶图有哪些优点?(1)保留了原始数据,没有损失样本信息;(2)数据可以随时记录、添加或修改.