-1-2.2.1用样本的频率分布估计总体的分布学习目标核心素养1.理解用样本的频率分布估计总体的分布的方法.(重点)2.会列频率分布表,画频率分布直方图、频率分布折线图、茎叶图.(难点)3.能够利用频率分布直方图和茎叶图解决实际问题.(重点)1.通过频率分布直方图及频率分布折线图的学习,培养数据分析的核心素养.2.借助茎叶图及频率分布直方图解决实际问题,提升数学运算的数学核心素养.1.频率分布表及频率分布直方图(1)频率分布表、频率分布直方图的编制步骤①计算极差(全距);②决定组数与组距;③决定分点;④列频率分布表;⑤绘制频率分布直方图.(2)频率分布直方图(3)频率分布折线图、总体密度曲线①频率分布折线图的定义:把频率分布直方图各个小长方形上边的中点用线段连接起来,就得到频率分布折线图.②总体密度曲线:如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体的分布,它可以用一条光滑曲线y=f(x)来描绘,这条光滑曲线就叫做总体密度曲线.思考:频率分布表与频率分布直方图各有什么特点?[提示]频率分布表反映具体数据在各个不同区间的取值频率,但不直观,数据的总体-2-态势不明显.频率分布直方图能直观地表明数据分布的形状态势,但失去了原始数据.2.茎叶图思考:一般情况下,茎叶图中的“茎”“叶”分别指哪些数?[提示]“叶”是数据的最后一个数字,其前面的数字作为“茎”.1.一个容量为80的样本中,数据的最大值为152,最小值为60,组距为10,应将样本数据分为()A.10组B.9组C.8组D.7组A[由题意可知,152-6010=9.2,故应将数据分为10组.]2.从一群学生中抽取一个一定容量的样本,对他们的学习成绩进行分析.已知不超过80分的为10人,其累积频率为0.5,则样本容量是()A.20B.40C.80D.60A[样本容量=100.5=20.]3.在用样本频率估计总体分布的过程中,下列说法中正确的是()A.总体容量越大,估计越精确B.总体容量越小,估计越精确C.样本容量越大,估计越精确D.样本容量越小,估计越精确-3-C[估计实质上是通过研究总体中样本的性状,来判断总体性状.样本容量越大,就与总体越接近,估计也越精确.故选C.]4.如图是一个班的语文成绩的茎叶图(单位:分),则优秀率(90分以上)是________,最低分是________.5156034467889735556798023357914%51[由茎叶图知,样本容量为25,90分以上的有1人,故优秀率为125=4%,最低分为51分.]频率分布直方图的绘制[探究问题]1.我们抽取样本的目的是什么?把抽出的样本数据做成频率分布表,需要对数据做什么工作?[提示]用样本去估计总体,为决策提供依据.分组、频数累计、计算频数和频率.2.画频率分布直方图时,如何决定组数与组距?[提示]组数与样本容量大小有关,当样本容量不超过100时,按数据的多少,常分成5~12组,组距的选择应力求取整,一般运用“极差组距=组数”.3.同一组数据,如果组距不同,得到的频率分布直方图相同吗?[提示]不相同.对同一组数据,不同的组距与组数对结果有一定的影响.4.频率分布直方图的纵轴表示频率吗?[提示]不.表示频率组距.【例1】某省为了了解和掌握2019年高考考生的实际答卷情况,随机地取出了100名考生的数学成绩,数据如下:(单位:分)13598102110991211109610010312597117113110921021091041121051248713197102123104104128-4-1091231111031059211410810410212912697100115111106117104109111891101218012012110410811812999909912112310711191100991011169710210810195107101102108117991181061199712610812311998121101113102103104108(1)列出频率分布表;(2)画出频率分布直方图和折线图;(3)估计该省考生数学成绩在[100,120)分之间的比例.[思路探究]先求极差.根据极差与数据个数确定组距、组数,然后按频率分布直方图的画法绘制图形.[解]100个数据中,最大值为135,最小值为80,极差为135-80=55.取组距为5,则组数为555=11.(1)频率分布表如下:分组频数频率频率/组距[80,85)10.010.002[85,90)20.020.004[90,95)40.040.008[95,100)140.140.028[100,105)240.240.048[105,110)150.150.030[110,115)120.120.024[115,120)90.090.018[120,125)110.110.022[125,130)60.060.012[130,135]20.020.004合计1001.000.200注:表中加上“频率/组距”一列,这是为画频率分布直方图准备的,因为它是频率分布直方图的纵坐标.(2)根据频率分布表中的有关信息画出频率分布直方图及折线图,如图所示:-5-(3)从频率分布表中可知,这100名考生的数学成绩在[100,120)分之间的频率为0.24+0.15+0.12+0.09=0.60,据此估计该省考生数学成绩在[100,120)分之间的比例为60%.(0.60=60%)1.(变条件)有一容量为200的样本,数据的分组以及各组的频数如下:[-20,-15),7;[-15,-10),11;[-10,-5),15;[-5,0),40;[0,5),49;[5,10),41;[10,15),20;[15,20],17.(1)列出样本的频率分布表;(2)画出频率分布直方图和频率分布折线图;(3)求样本数据不足0的频率.[解](1)频率分布表如下:分组频数频率[-20,-15)70.035[-15,-10)110.055[-10,-5)150.075[-5,0)400.200[0,5)490.245[5,10)410.205[10,15)200.100[15,20]170.085合计2001.000(2)频率分布直方图和频率分布折线图如图所示:(3)样本数据不足0的频率为:0.035+0.055+0.075+0.200=0.365.2.(变结论)本例条件不变,若制成频率分布直方图时分组如下,[80,85),[85,90),-6-[90,95),[95,100),[100,105),[105,110),[110,115),[115,120),[120,125),[125,130),[130,135].请计算该省考生数学成绩的及格率(90分以上及格).[解]列出频率分布表如下:分组频数频率[80,85)10.01[85,90)20.02[90,95)40.04[95,100)140.14[100,105)240.24[105,110)150.15[110,115)120.12[115,120)90.09[120,125)110.11[125,130)60.06[130,135]20.02合计1001.00由表可得,及格(即90分以上)的频率为:0.04+0.14+0.24+0.15+0.12+0.09+0.11+0.06+0.02=0.97,故及格率为97%.1.在列频率分布表时,极差、组距、组数有如下关系:(1)若极差组距为整数,则极差组距=组数;(2)若极差组距不为整数,则极差组距的整数部分+1=组数.2.组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,使数据的分布规律能较清楚地呈现出来,组数太多或太少都会影响了解数据的分布情况,若样本容量不超过100,按照数据的多少常分为5~12组,一般样本容量越大,所分组数越多.频率分布直方图的应用【例2】某幼儿园根据部分同年龄段女童的身高数据绘制了频率分布直方图,其中身高-7-的变化范围是[96,106](单位:厘米),样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106].(1)求出x的值;(2)已知样本中身高小于100厘米的人数是36,求出样本总量N的数值;(3)根据频率分布直方图提供的数据,求出样本中身高大于或等于98厘米并且小于104厘米的学生数.[思路探究]根据频率之和等于1可求出x的值,同时运用公式频数相应的频率=样本容量,可求出样本容量及相应频数.[解](1)由于频率分布直方图以面积的形式反映了数据落在各个小组内的频率大小,且频率之和等于1,∴0.050×2+0.100×2+0.125×2+0.150×2+x×2=1,∴x=0.075.(2)样本中身高小于100厘米的频率为(0.050+0.100)×2=0.3.∴样本容量N=360.3=120.(3)样本中身高大于或等于98厘米并且小于104厘米的频率为(0.100+0.150+0.125)×2=0.75.∴学生数为120×0.75=90人.1.频率分布直方图的性质:(1)因为小矩形的面积=组距×频率/组距=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小;(2)在频率分布直方图中,各小矩形的面积之和等于1;(3)频数/相应的频率=样本容量.2.频率分布直方图反映了样本在各个范围内取值的可能性,由抽样的代表性利用样本在某一范围内的频率,可近似地估计总体在这一范围内的可能性.-8-1.某校高一(1)班共有54人,如图是该班期中考试数学成绩的频率分布直方图,则成绩在[100,120]内的学生人数为()A.36B.27C.22D.11B[由题意知,10×(0.015+a+0.030+a+0.010+0.005)=1,∴a=0.020.∴成绩在[100,120]内的学生人数为10×(0.030+0.020)×54=27,故选B.]茎叶图及其应用【例3】某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验.两种小麦各种植了25亩,所得亩产量数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.(1)画出茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,得出统计结论.[解](1)茎叶图如图.(2)样本容量不大,画茎叶图很方便,此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息丢失,而且还可以随时记录新的数据.(3)通过观察茎叶图可以看出:-9-①品种A亩产量的平均数比品种B亩产量的平均数大;②品种A的亩产量波动比品种B的亩产量波动大,故品种A的亩产量稳定性较差.1.绘制茎叶图关键是分清茎和叶.一般地说,当数据是两位数时,十位上的数字为“茎”,个位上的数字为“叶”;如果是小数,通常把整数部分作为“茎”,小数部分作为“叶”.解题时要根据数据的特点合理地选择茎和叶.2.应用茎叶图可以对两组数据进行比较,画图时,要找到两组数据共同的茎,分析时要从数据分布的对称性、中位数、稳定性等方面比较.3.茎叶图的优点是保留了原始信息,并可以随时记录数据,但当样本容量较大时就不适合了.2.如图是2019年青年歌手大赛中七位评委为甲、乙两名选手打出的分数的茎叶图(图中m为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a1,a2,则一定有()A.a1>a2B.a2>a