8.5样本分布估计总体分布1.求极差(即一组数据中最大值与最小值的差)知道这组数据的变动范围4.3-0.2=4.12.决定组距与组数(将数据分组)3.将数据分组(8.2取整,分为9组)画频率分布直方图的步骤:组距:指每个小组的两个端点的距离,组距组数:将数据分组,当数据在100个以内时,按数据多少常分5-12组。4.18.20.5极差组数=组距4.列频率分布表100位居民月均用水量的频率分布表频率/组距月均用水量/t0.500.400.300.200.1000.511.522.533.544.55.画频率分布直方图注:小长方形的面积=组距×频率/组距=频率各长方形的面积总和等于1。6.频率分布折线图:月均用水量/t频率组距0.100.200.300.400.500.511.522.533.544.5连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图7.总体密度曲线频率组距月均用水量/tab(图中阴影部分的面积,表示总体在某个区间(a,b)内取值的百分比)。样本容量的增加组数增加组距减小频率分布直方图的特征:(1)从频率分布直方图可以清楚的看出数据分布的总体趋势。(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。8.茎叶图概念:当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。注意:相同的得分要重复记录,不能遗漏。甲乙804631253682543893161679449150注:中间的数字表示得分的十位数字。旁边的数字分别表示两个人得分的个位数。具体实例某赛季甲、乙两名篮球运动员每场比赛得分的原始纪录如下:甲得分:13,51,23,8,26,38,16,33,14,28,39乙得分:49,24,12,31,50,31,44,36,15,37,25,36,39茎叶图的特征:(1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两记录那么直观,清晰。1.众数:一组数据中出现次数最多的数据;2.中位数:一组数据从小到大排列后处于中间位置的数据或中间两个数据的平均数;三、样本的数字特征估计总体的数字特征样本数据:nxxx,,,21nxxxxn213.平均数:4.标准差:nxxxxssn2212)()(2221()()nxxxxsn5.方差:3.平均数:每个小矩形的面积与小矩形底边中点的横坐标的乘积之和.如何根据样本频率分布直方图,分别估计总体的众数、中位数和平均数.1.众数:最高矩形下端中点的横坐标;2.中位数:直方图面积平分线与横轴交点的横坐标;频率/组距t10.80.60.40.2011.522.5练习1.根据下面样本频率分布直方图,分别估计总体的众数、中位数和平均数.练习2.某总体的样本数据分别为2,4,6,6,分别估计总体的众数、中位数、平均数和标准差.【例1】(2009·安徽)某良种培育基地正在培育一种小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)完成所附的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.【解】(1)茎叶图如图11-2-4所示.(2)由于每个品种的数据都只有25个,样本不大,画茎叶图很方便.此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且还可以随时记录新的数据.(3)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.【例2】甲乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图11-2-3所示:(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.课堂反思1.总体分布反映了总体在各个范围内取值的概率,利用样本的频率分布可近似地估计总体的分布,利用样本在某一范围内的频率可近似地估计总体在这一范围的概率.2.频率分布表中的频数之和等于样本容量,各组中的频率之和等于1;在频率分布直方图中,各小长方形的面积表示相应各组的频率,所以,所有小矩形的面积的和等于1.3.用茎叶图优点是原有信息不会抹掉,能够展开数据的分布情况,但当样本数据较多或数据位数较多时,茎叶图显得不太方便了.4.标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,标准差、方差越小,数据的离散程度越小,因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准差.