12.2频率分布直方图、折线图与茎叶图一、知识导学1.频率分布表:反映总体频率分布的表格.2.一般地,编制频率分布表的步骤如下:(1)求全距,决定组数和组距,组距=组数全距;(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;(3)登记频数,计算频率,列出频率分布表.3.频率(分布)直方图:利用直方图反映样本的频率分布规律.4.一般地,作频率分布直方图的方法为:(1)把横轴分成若干段,每一线段对应一个组的组距;(2)以此线段为底作矩形,它的高等于该组的组距频率,这样得出一系列的矩形;(3)每个矩形的面积恰好是该组上的频率.5.频率折线图:如果将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起,就得到一条折线,称这条折线为本组数据的频率折线图.6.制作茎叶图的方法是:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出.二、疑难知识导析1.在编制频率分布表时,要选择适当的组距和起始点才可以使频率分布表更好地反映数据的分布情况.2.在编制频率分布表时,如果取全距时不利于分组(如不能被组数整除),可适当增大全距,如在左右两端各增加适当范围(尽量使两端增加的量相同).3.频率折线图的优点是它反映了数据的变化趋势,如果将样本容量取得足够大,分组的组距取得足够小,则这条折线将趋于一条曲线,我们称这一曲线为总体分布的密度曲线.4.茎叶图对于分布在0~99的容量较小的数据比较合适,此时,茎叶图比直方图更详尽地表示原始数据的信息.5.在茎叶图中,茎也可以放两位,后面位数多可以四舍五入后再制图.三、典型例题导讲[例1](06全国卷)一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人用再用分层抽样方法抽出100人作进一步调查,则在3000,2500(元)月收入段应抽出人.解析:由直方图可得[2500,3000)(元)月收入段共有100000.00055002500人,按分层抽样应抽出10025002510000人.故答案25点评:频率分布直方图中,关健要理解图中数据的意义,特别是图中每个小矩形的面积才是这一组距内个体的频率.[例2]从有甲乙两台机器生产的零件中各随机抽取15个进行检验,相关指标的检验结果为:甲:534,517,528,522,513,516,527,526,520,508,533,524,518,522,512乙:512,520,523,516,530,510,518,521,528,532,507,516,524,526,514画出上述数据的茎叶图错解:甲乙80787632102466887642202013468433024错因:对于两位数是将两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出,对于三位数字,应该把前两位数字作为茎,最后一位数字作为叶,然后从图中观察数据的分布情况,而不是仍考虑两位数,尽管此题的效果一样.正解:用前两位数作为茎,茎叶图为甲乙8507876325102466887642205201346843530254从图中可以看出,甲机床生产的零件的指标分布大致对称,平均分在520左右,中位数和众数都是522,乙机床生产的零件的指标分布也大致对称,平均分也在520左右,中位数和众数分别是520和516,总的看,甲的指标略大一些.[例3]在绘制频率分布直方图的第三个矩形时,矩形高度①与这个矩形的宽度(组距)有关;②与样本容量n无关;③与第三个分组的频数有关;④与直方图的起始点无关.以上结论中正确的共有()A.0个B.1个C.2个D.3个错解:D.错因:起始点与组距均影响第三组的频数,所以矩形高度与以上各因素均有关,①③正确,正解:C.[例4]根据中国银行的外汇牌价,2005年第一季度的60个工作日中,欧元的现汇买入价(100欧元的外汇可兑换的人民币)的分组与各组频数如下:〔1050,1060〕:1,〔1060,1070〕:7,〔1070,1080〕:20,〔1080,1090〕:11,〔1090,1100〕:13,〔1100,1110〕:6,〔1110,1120〕:2.(1)列出欧元的现汇买入价的频率分布表;(2)估计欧元的现汇买入价在区间1065~1105内的频率;(3)如果欧元的现汇买入价不超过x的频率的估计值为0.95,求此x解:(1)欧元的现汇买入价的频率分布表为:分组频数频率[1050,1060﹚10.017[1060,1070﹚70.117[1070,1080﹚200.333[1080,1090﹚110.183[1090,1100﹚130.217[1100,1110﹚60.100[1110,1120﹚20.033合计601.000(2)欧元现汇买入价在区间1065~1105内的频率的估计值为84.01100111011001105100.0217.0183.0333.01060107010651070117.0(3)因为0.017+0.117+0.333+0.183+0.217=0.867〈0.95,0.017+……+0.217+0.100=0.967〉0.95,所以x在[1100,1110]内,且满足0.867+0.1003.1108,95.0110011101100xx即欧元现汇买入价不超过1108.3的频率的估计为0.95[例5]初一年级某班期中考试的数学成绩统计如下:分数段10090—9980--8970--7960--690--59人数26122172如果80分以上(包括80分)定为成绩优秀,60分以上(包括60分)定为成绩及格.那么,在这个班级的这次成绩统计中,成绩不及格的频率是多少?成绩及格的频率是多少?成绩优秀的频率是多少?解:被统计的对象(参加这次考试的本班学生)共有2+6+12+21+7+2=50个.60分以上的有48个,80分以上的有20个,所以成绩不及格的频率是04.0502,成绩及格的频率是96.05048,成绩优秀的频率是4.05020.说明要计算一组数据中某个对象的频率,要先计算数据的总的个数,再计算符合这个对象要求的数据的个数.某个对象可以是一个确定的数据,也可以是在某一范围内数据的总数.[例6]在英语单词frequency和英语词组relativefrequency中,频数最大的各是哪个字母?它们的频数和频率各是多少?解:在frequency和英语词组relativefrequency中,频数最大的字母都是e,在单词frequency中,e的频数是2,频率是92;在词组relativefrequency中,e的频数是4,频率是174.点评:在两组数据中,同一个对象的频数相等,但频率不一定相等,频数大,不一定频率大.在同一组数据中,某两个对象的频数相等,频率也相等;频数大,频率也大.一、典型习题导练1.(06年重庆卷)为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为185.17岁的男生体重kg,得到频率分布直方图如下:根据上图可得这100名学生中体重在]5.64,5.56[的学生人数是().A.20B.30C.40D.502.一个容量为800的样本,某组的频率为6.25%,则这一组的频数是3.某校随机抽取了20名学生,测量得到的视力数据如下:4.7,4.2,5.0,4.1,4.0,4.9,5.1,4.5,4.8,5.2,5.0,4.0,4.5,4.8,4.7,4.8,4.6,4.9,5.3,4.0(1)列出频率分布表(共分5组)(2)估计该校学生的近视率(视力低于4.9)4.用一个容量为200的样本制作频率分布直方图时,共分13组,组距为6,起始点为10,第4组的频数为25,则直方图中第4个小矩形的宽和高分别是多少?5.200名学生某次考试的成绩的分组及各组频率如下表:分组40,060,4070,6080,7090,80100,90频数21130528520则及格率,优秀率(85)的估计分别是6.某地随机检查了140名成年男性红细胞(/1012L),数据的分组及频率如下表:分组频数频率分组频数频率0.4,8.322.5,0.5172.4,0.464.5,2.5134.4,2.4116.5,4.546.4,4.4258.5,6.528.4,6.4320.6,8.510.5,8.427合计140(1)完成上面的频率分布表(2)根据上面的图表,估计成年男性红细胞数在正常值(4.0~5.5)内的百分比7.名著《简爱》的中英文版本中,第一节部分内容每句句子所含单词(字)数如下:英文句子所含单词数10,52,56,40,79,9,23,11,10,21,30,31;中文句子所含字数11,79,7,20,63,33,45,36,87,9,11,37,17,18,71,75,51.(1)作出这些数据的茎叶图;(2)比较茎叶图,你能得到什么结论?