统计第二章2.2用样本估计总体2.2.1用样本的频率分布估计总体分布课前自主预习1.体会分布的意义和作用.2.学会用频率分布表画频率分布直方图表示样本数据.3.能通过频率分布表或频率分布直方图对数据做出总体统计.1.频率分布直方图的画法2.频率分布折线图与总体密度曲线(1)频率分布折线图连接频率分布直方图中各小长方形上端的,就得到频率分布折线图.(2)总体密度曲线在样本频率分布直方图中,当样本容量逐渐增加,作图时所分的组数增加,减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.中点组距3.茎叶图将所有两位数的十位数字作为,个位数字作为,茎相同者共用一个茎,茎按从的顺序从上向下列出,共茎的叶可以按从大到小(或从小到大)的顺序列出(也可以没有大小顺序).4.茎叶图的优点与不足(1)优点:一是原始数据信息在图中能够保留,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录、随时添加、方便记录与表示.(2)不足:当样数据较多时,茎叶图就显得不太方便.茎叶小到大1.茎叶图中对“叶”和“茎”有什么要求?[提示]茎叶图中,“叶”是数据的最后一个数字,其前面的数字作为“茎”.2.判断正误.(正确的打“√”,错误的打“×”)(1)极差组距=组数.()(2)一般样本容量越大,所分组数越多;样本容量越小,所分组数越小.()(3)频率分布直方图的横轴表示样本数据,纵轴表示频率.()(4)频率分布直方图中各个小长方形面积之和等于1.()[提示](1)×若极差组距为整数,则极差组距=组数;若极差组距不是整数,则极差组距的整数部分+1=组数.(2)√当数据总数在50以内时,一般分为5~8组,当数据总数在50~100时,则分为8~12组较合适.(3)×纵轴表示频率组距.(4)√由于各小长方形的面积就是数据落在该组的频率,故各个小长方形面积之和等于1.课堂互动探究题型一频率分布表、频率分布直方图及其绘制【典例1】美国历届总统中,就任时年纪最小的是罗斯福,他于1901年就任,当时年仅42岁;就任时年纪最大的是里根,他于1981年就任,当时69岁.下面按时间顺序(从1789年的华盛顿到2009年的奥巴马,共44任)给出了历届美国总统就任时的年龄:57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,48将数据进行适当的分组,并画出相应的频率分布直方图和频率分布折线图.[解]以4为组距,列表如下:频率分布直方图如图(1)所示,频率分布折线图如图(2)所示.(1)频率分布表中极差、组距、组数的关系①若极差组距为整数,则极差组距=组数;②若极差组距不为整数,则极差组距的整数部分+1=组数.(2)确定频率分布直方图中组距和组数的注意点组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,纵使数据的分布规律能较清楚地呈现出来,组数太多或太少,都会影响我们了解数据的分布情况,若样本容量不超过100,按照数据的多少常分为5~12组,一般样本容量越大,所分组数越多.[针对训练1]某制造商3月份生产了一批乒乓球,随机抽样100个进行检查,测得每个球的直径(单位:mm),将数据分组如下表:分组频数频率[39.95,39.97)10[39.97,39.99)20[39.99,40.01)50[40.01,40.03]20合计100补充完成频率分布表(结果保留两位小数),并在下图中画出频率分布直方图.[解]频率分布表如下:分组频数频率[39.95,39.97)100.10[39.97,39.99)200.20[39.99,40.01)500.50[40.01,40.03]200.20合计1001.00频率分布直方图如下:题型二茎叶图及应用【典例2】某中学高二(2)班甲、乙两名学生自进入高中以来,每次数学考试成绩情况如下:甲:95,81,75,91,86,89,71,65,76,88,94,110,107乙:83,86,93,99,88,103,98,114,98,79,78,106,101画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.[思路导引]分析题中数据均为两位数或三位数,可用十位数字或百位,十位数字为茎,个位数字为叶作茎叶图,然后根据茎叶图分析两人成绩.[解]甲、乙两人数学成绩的茎叶图如图所示.从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是98;甲同学的得分情况也大致对称,中位数是88.乙同学的成绩比较稳定,总体情况比甲同学好.(1)绘制茎叶图关键是分清茎和叶.一般地说,当数据是两位数时,十位上的数字为“茎”,个位上的数字为“叶”;如果是小数,通常把整数部分作为“茎”,小数部分作为“叶”.解题时要根据数据的特点合理地选择茎和叶.(2)应用茎叶图对两组数据进行比较时,要从数据分布的对称性、中位数、稳定性等几方面来比较.(3)茎叶图只适用于样本数据较少的情况.[针对训练2]某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5,将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是()[解析]由分组组距为5,可知C,D错误;由茎叶图可知[0,5)内有1人,[5,10)内有1人,所以第一组,第二组频率应相同,频率分布直方图中矩形的高应相同,可排除B项,故选A.[答案]A题型三频率分布直方图的应用【典例3】为了检测某种产品的质量,抽取了一个容量为100的样本,数据的分组情况与频数如下:[10.75,10.85),3;[10.85,10.95),9;[10.95,11.05),13;[11.05,11.15),16;[11.15,11.25),26;[11.25,11.35),20;[11.35,11.45),7;[11.45,11.55),4;[11.55,11.65],2.(1)列出频率分布表;(2)画出频率分布直方图以及频率分布折线图;(3)据上述图表,估计数据落在[10.95,11.35)范围内的可能性是百分之几?(4)数据小于11.20的可能性是百分之几?[思路导引]分析根据画频率分布直方图的步骤先画频率分布直方图,再画折线图,最后结合直方图的特征解决(3)(4).[解](1)频率分布表如下:分组频数频率[10.75,10.85)30.03[10.85,10.95)90.09[10.95,11.05)130.13[11.05,11.15)160.16[11.15,11.25)260.26[11.25,11.35)200.20[11.35,11.45)70.07[11.45,11.55)40.04[11.55,11.65]20.02合计1001.00(2)频率分布直方图及频率分布折线图如图所示.(3)由上述图表可知,数据落在[10.95,11.35)范围内的频率为1-(0.03+0.09)-(0.07+0.04+0.02)=0.75,即数据落在[10.95,11.35)范围内的可能性是75%.(4)数据小于11.20的可能性即数据小于11.20的频率,设为x,则(x-0.41)÷(11.20-11.15)=(0.67-0.41)÷(11.25-11.15),所以x-0.41=0.13,即x=0.54,从而估计数据小于11.20的可能性是54%.(1)因为小矩形的面积=组距×频率组距=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.(2)在频率分布直方图中,各小矩形的面积之和等于1.(3)频数相应的频率=样本容量.(4)在频率分布直方图中,各矩形的面积之比等于频率之比,各矩形的高度之比也等于频率之比.[针对训练3]如图所示是总体的一个样本频率分布直方图,且在[15,18)内频数为8.(1)求样本在[15,18)内的频率;(2)求样本容量;(3)若在[12,15)内的小矩形面积为0.06,求在[18,33)内的频数.[解]由样本频率分布直方图可知组距为3.(1)样本在[15,18)内的频率为475×3=425.(2)设样本容量为N,则8N=425,N=50,故样本容量为50.(3)在[12,15)内的小矩形面积为0.06,故样本在[12,15)内的频率为0.06,故样本在[15,33)内的频数为50×(1-0.06)=47.又因为在[15,18)内的频数为8,故在[18,33)内的频数为47-8=39.课堂归纳小结1.总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布.2.总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图.