9.2用样本估计总体9.2.1总体取值规律的估计9.2.2总体百分位数的估计基础预习初探1.频率分布直方图美国历届总统中,就任时年纪最小的是罗斯福,他于1901年就任,当时年仅42岁;就任时年纪最大的是特朗普,他于2017年就任,当时70岁.下面按时间顺序(从1789年的华盛顿到2017年的特朗普,共45任)给出了历届美国总统就任时的年龄:57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,48,70请根据上述材料回答下列问题:(1)上述45个数据中最大值与最小值的差是多少?提示:70-42=28.(2)若将上述数据分成下列几组,[41.5,45.5),[45.5,49.5),[49.5,53.5),[53.5,57.5),[57.5,61.5),[61.5,65.5),[65.5,69.5),[69.5,73.5],各组中数据个数是多少?提示:各组数据的个数依次为2,7,8,16,5,4,2,1.(3)画频率分布直方图时,数据的分组,组数、组距和极差有何关系?组数一般如何确定?提示:组数k=,如果k∈Z,则组数为k,否则组数为大于k的最小整数.取样容量越大,分的组数越多.当样本容量不超过100时,常分为5~12组.2.思考如何求一组数据的中位数?中位数在总体中百分位数是多少?提示:将一组数据从小到大排列后,位于最中间的数(或者中间两数的平均数).中位数在总体中是50%分位数.极差组距【概念生成】频率分布表与频率分布直方图一般地,频数指某组中包含的个体数,各组频数和=样本容量;频率=,各组频率和等于1.在频率分布直方图中,纵轴表示_____,数据落在各小组内的频率用________________来表示,各小长方形的面积的总和等于_______.频数样本容量频率组距小长方形的面积1核心互动探究探究点一频率分布直方图的画法【典例1】调查某校高一年级男生的身高,随机抽取40名高一男生,实测身高数据(单位:cm)如下:171163163166166168168160168165171169167169151168170168160174165168174159167156157164169180176157162161158164163163167161(1)作出频率分布表;(2)画出频率分布直方图.【思维导引】找出最值,计算极差,确定组距与组数,列表、画图.【解析】(1)最低身高151,最高身高180,它们的差是180-151=29,即极差为29;确定组距为3,组数为10,列表如下:分组频数频率[150.5,153.5)10.025[153.5,156.5)10.025[156.5,159.5)40.1[159.5,162.5)50.125[162.5,165.5)80.20[165.5,168.5)110.275分组频数频率[168.5,171.5)60.150[171.5,174.5)20.050[174.5,177.5)10.025[177.5,180.5]10.025合计401.0(2)频率分布直方图如图所示:【类题通法】绘制频率分布直方图的基本步骤第一步,求极差(即一组数据中最大值与最小值的差).第二步,确定组距与组数.组距是指每个小组的两个端点之间的距离.极差、组距、组数有如下关系:①若为整数,则=组数;②若不为整数,则+1=组数.([x]表示不大于x的最大整数).极差组距极差组距极差组距[]极差组距第三步,分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间.第四步,统计各组数据的频数,计算频率,填入表格中,完成频率分布表.第五步,画频率分布直方图:画图时,应以横轴表示分组,纵轴表示频率/组距.其相应组距上的频率等于该组上的小长方形的面积.提醒:(1)解决此类问题的关键是绘制频率分布表,在绘制频率分布表时要体现分组的合理性,针对具体问题具体分析,体会组数太多或太少对处理问题的影响.(2)如果极差不利于分组(如不能被组数整除),可适当增大极差,如在左右两端各增加适当范围(尽量使两端增加的量相同).【定向训练】某家庭记录了使用了节水龙头50天的日用水量数据(单位:m3),得到频数分布表如表:使用了节水龙头50天的日用水量频数分布表日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6]频数151310165请作出使用了节水龙头50天的日用水量(单位:m3)数据的频率分布直方图:【解析】频率分布直方图为:探究点二频率分布直方图的应用【典例2】(1)某高校调查了320名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这320名学生中每周的自习时间不足22.5小时的人数是()A.68B.72C.76D.80(2)学校为了调查学生在课外读物方面的支出情况,抽出了一个容量为n的样本,其频率分布直方图如图所示,其中支出在[40,50)元的同学有30人,则n的值为【思维导引】(1)先求出每周的自习时间不足22.5小时的频率,再求人数.(2)先根据频率分布直方图求出,支出在[40,50)元的频率,再由频率计算公式求出n的值.【解析】(1)选B.由频率分布直方图可得,320名学生中每周的自习时间不足22.5小时的人数是320×(0.02+0.07)×2.5=72人.(2)由频率分布直方图可得,支出在[40,50)元的频率为1-(0.01+0.024+0.036)×10=0.3.根据题意得=0.3,解得n=100.答案:10030n【类题通法】1.由频率分布直方图进行相关计算时需掌握的两个关系式(1)×组距=频率.(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.频率组距频数样本容量频数频率2.频率分布直方图的应用中常见的三种问题(1)频数、频率及频率分布直方图:这类问题是高考考查的重点和热点问题.主要考查频率分布(图)表的画法、识别和运用.(2)填表、补图、估算:填表、补图、估算是频率分布估计总体分布的常考查形式,读懂图表、直方图,活用公式:组距×=频率;=样本容量.(3)开放性问题:要选择适当的数据特征进行分析,根据数据特征分析得出实际问题的结论.频率组距频数频率【定向训练】2019年高考结束,山东省为了了解和掌握高考考生的实际答卷情况,随机地取出了100名考生的数学成绩,数据如下(单位:分)135981021109912111096100103125971171131109210210910411210512487131971021231041041281091231111031059211410810410212912697100115111106117104109111891101218012012110410811812999909912112310711191100991011169710210810195107101102108117991181061199712610812311998121101113102103104108(1)列出频率分布表;(2)画出频率分布直方图和折线图;(3)估计该省考生数学成绩在[100,120)分之间的比例.【解析】100个数据中,最大值为135,最小值为80,极差为135-80=55.把100个数据分成11组,这时组距===5.极差组数5511(1)频率分布表如下:分组频数频率[80,85)10.010.002[85,90)20.020.004[90,95)40.040.008[95,100)140.140.028[100,105)240.240.048[105,110)150.150.030[110,115)120.120.024分组频数频率[115,120)90.090.018[120,125)110.110.022[125,130)60.060.012[130,135]20.020.004合计10010.2注:表中加上“”一列,这是为画频率分布直方图准备的,因为它是频率分布直方图的纵坐标.(2)根据频率分布表中的有关信息画出频率分布直方图及折线图,如图所示.频率组距(3)从频率分布表中可知,这100名考生的数学成绩在[100,120)分之间的频率为0.24+0.15+0.12+0.09=0.60,据此估计该省考生数学成绩在[100,120)分之间的比例为60%(0.60=60%).探究点三总体百分位数的估计【典例3】根据如表和图估计月均用水量的样本数据的80%和95%分位数.【思维导引】在某些情况下我们只能获得整理好的统计表或图,与原始数据相比,它们损失了一些信息,例如表中我们知道在[16.2,19.2)内有5个数据,但不知道这5个数据具体是多少,此时,我们通常把它们看成均匀地分布在此区间上.【解析】由表可知月均用水量在13.2t以下的居民用户所占比例为23%+32%+13%+9%=77%,16.2t以下的居民用户所占的比例为77%+9%=86%,因此80%分位数一定位于[13.2,16.2)内,由13.2+3×=14.2,可以估计月均用水量的样本数据的80%分位数约为14.2,类似地,由22.2+3×=22.95,可以估计月均用水量的样本数据的95%分位数约为22.95.0.800.770.860.770.950.940.980.94【类题通法】求p%分位数一般都是先从小到大进行数字排序,然后按下列步骤进行计算:第1步:从小到大排列原始数据第2步:计算i=n×p%第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.【定向训练】一个容量为30的样本数据,分组后组距与频数如下:(10,20],3;(20,30],4;(30,40],6;(40,50],7;(50,60],6;(60,70],4.估计样本数据的70%分位数.【解析】样本落在(0,50]上的频数为3+4+6+7=20,所以频率=≈67%,样本落在(0,60]上的频数为3+4+6+7+6=26,所以频率=≈87%,又30×70%=21,因此70%分位数一定位于(50,60]内,由50+10×≈51.67,所以估计样本数据的70%分位数约为51.67.2030263021202620【课堂小结】课堂素养达标1.某个容量为100的样本的频率分布直方图如下,则在区间[4,5)上的数据的频数为()A.70B.0.3C.30D.0.7【解析】选C.在区间[4,5)上数据的频率为1-(0.05+0.10+0.40+0.15)×1=0.3,所以频数为100×0.3=30.2.一个容量为20的样本数据,分组及各组的频数如下:[10,20),2;[20,30),3;[30,40),4;[40,50),5;[50,60),4;[60,70],2.则样本在区间[20,60)上的频率是()A.0.5B.0.6C.0.7D.0.8【解析】选D.频率==0.8.3454164==2345422053.在频率分布直方图中,中位数两侧的面积和所占比例为()A.1∶3B.2∶1C.1∶1D.不确定【解析】选C.因为频率分布直方图中面积是频率,中位数左右两边的频数是相等的,所以频数一定的情况下,频数同时除以组距也是相等的,即频率是相等的,所以面积比为1∶1.4.容量为60的样本的频率分布直方图共有n(n1)个小矩形,若其中一个小矩形的面积等于其余n-1个小矩形面积和的,则这个小矩形对应的频数是______.【解析】设其余n-1个小矩形面积和为x,由题意得x+x=1,所以