§5用样本估计总体•数理统计的基本思想:•用样本估计总体.•用样本的某些特性估计总体相应的特性.•用样本的平均数、中位数和众数去估计相应总体的平均水平特性.•用样本的频数、频率、频数分布表、频数分布直方图和频数分布折线图去估计相应总体数据的分布情况.•用样本的极差、方差或标准差去估计相应总体数据的波动情况.复习回顾1、什么是简单随机抽样?什么样的总体适宜简单随机抽样?2、什么是系统抽样?什么样的总体适宜系统抽样?3、什么是分层抽样?什么样的总体适宜分层抽样?通过图、表、计算来分析样本数据,找出数据中的规律,就可以对总体作出相应的估计.这种估计一般分成两种:①是用样本的频率分布估计总体的分布.②是用样本的数字特征(如平均数、标准差等)估计总体的数字特征.用样本去估计总体,是研究统计问题的一个基本思想.初中时我们学习过样本的频率分布,包括频数、频率的概念,频率分布表和频率分布直方图的制作.频率分布样本中所有数据(或数据组)的频数和样本容量的比,叫做该数据的频率.频率分布的表示形式有:①样本频率分布表②样本频率分布条形图③样本频率分布直方图所有数据(或数据组)的频数的分布变化规律叫做样本的频率分布.数据的“代表”平均数:一般地,对于n个数x1,x2,……,xn,我们把(x1+x2+……+xn)÷n叫做这个数的平均数,简称算术平均数.中位数:一般地,n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.众数:一组数据中出现次数最多的那个数据叫做这组数据的众数.平均数,中位数和众数都是数据的代表,它们刻画了一组数据的“集中趋势”.平均数反映的是数据平均水平,中位数反映的是一组数据的中间水平,众数反映的是一组数据的大多数水平。极差、方差、标准差极差是指一组数据中最大数据与最小数据的差.方差是各个数据与平均数之差的平方的平均数,即用一组数据的极差、方差或标准差来反映这组数据离散程度或波动情况.,1222212xxxxxxnsn标准差:s1.5.1用样本的频率分布估计总体分布(1)我国是世界上严重缺水的国家之一,城市缺水问题较为突出。2000年全国主要城市中缺水情况排在前10位的城市探究:某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超过a的部分按议价收费。①如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?②为了较合理地确定这个标准,你认为需要做哪些工作?根据这些数据你能得出用水量其他信息吗?1.求极差(即一组数据中最大值与最小值的差)知道这组数据的变动范围4.3-0.2=4.12.决定组距与组数(将数据分组)3.将数据分组(8.2取整,分为9组)画频率分布直方图的步骤4.列出频率分布表.(学生填写频率/组距一栏)5.画出频率分布直方图组距:指每个小组的两个端点的距离,组数:将数据分组,当数据在100个以内时,按数据多少常分5-12组.4.18.20.5极差组数=组距1.求极差:步骤:2.决定组距与组数:组数=4.3-0.2=4.14.10.5=8.2组距极差=3.将数据分组[0,0.5),[0.5,1),…,[4,4.5]画频率分布直方图iifx4.列频率分布表100位居民月均用水量的频率分布表第几组频率=第几组频数样本容量0.080.160.300.440.500.280.120.080.02频率组距小长方形的面积=?5.画频率分布直方图其相应组距上的频率等于该组距上长方形的面积.=频率长方形的面积组距频率组距月均用水量/t0.100.200.300.400.500.511.522.533.544.5iifx一般地,作频率分布直方图的方法为:把横轴分成若干段,每一段对应一个组的组距,以此线段为底作矩形,高等于该组的频率/组距(),这样得到一系列矩形,每一个矩形的面积恰好是该组上的频率,这些矩形构成了频率分布直方图.iifx小长方形的面积总和=?5.画频率分布直方图月均用水量/t0.100.200.300.400.500.511.522.533.544.5iifx月均用水量最多的在那个区间?5.画频率分布直方图月均用水量/t0.100.200.300.400.500.511.522.533.544.5iifx直方图有那些优点和缺点?5.画频率折线图月均用水量/t0.100.200.300.400.500.511.522.533.544.5iifx频率分布直方图的特征:(1)从频率分布直方图可以清楚的看出数据分布的总体趋势.(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.探究:同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同.不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断.分别以1和0.1为组距重新作图,然后谈谈你对图的印象.样本量越大,样本中落在每个区间内的样本数的频率越稳定于总体在相应区间内的取值的概率,样本量越大,用样本的频率分布去估计总体的分布就越精确。样本量越大,划分的区间越多,每个区间长度越短,频率折线图就越接近于一条曲线已知样本10,8,6,10,8,13,11,10,12,7,8,9,12,9,11,12,9,10,11,11,那么频率为0.2范围的是()A.5.5~7.5B.7.5~9.5C.9.5~11.5D.11.5~13.5分组频数频率5.5~7.520.17.5~9.560.39.5~11.580.411.5~13.540.2合计201.0D练习1:练习2:有一个容量为50的样本数据的分组的频数如下:[12.5,15.5)3[15.5,18.5)8[18.5,21.5)9[21.5,24.5)11[24.5,27.5)10[27.5,30.5)5[30.5,33.5)4(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)根据频率分布直方图估计,数据落在[15.5,24.5)的百分比是多少?解:组距为3分组频数频率频率/组距[12.5,15.5)3[15.5,18.5)8[18.5,21.5)9[21.5,24.5)11[24.5,27.5)10[27.5,30.5)5[30.5,33.5)40.060.160.180.220.200.100.080.0200.0530.0600.0730.0670.0330.027频率分布直方图如下:频率组距0.0100.0200.0300.0400.05012.515.50.0600.070小结:思考:如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布表和频率分布直方图,你能对制定月用水量标准提出建议吗?频率分布直方图应用步骤1.求极差2.决定组距与组数3.将数据分组4.列频率分布表5.画频率分布直方图1.求极差(即一组数据中最大值与最小值的差)知道这组数据的变动范围4.3-0.2=4.12.决定组距与组数(将数据分组)3.将数据分组(8.2取整,分为9组)小结:画频率分布直方图的步骤4.列出频率分布表.(学生填写频率/组距一栏)5.画出频率分布直方图组距:指每个小组的两个端点的距离,组数:将数据分组,当数据在100个以内时,按数据多少常分5-12组.4.18.20.5极差组数=组距