第二节直方图和箱线图一、直方图二、箱线图三、小结男子的头颅的最大宽度(mm),141148132138154142150146155158150140147148144150149145149158143141144144126140144142141140145135147146141136140146142137148154137139143140131143141149148135148152143144141143147146150132142142143153149146149138142149142137134144146147140142140137152145一、直方图例1下面给出了84个伊特拉斯坎(Etruscan)人数据的“频率直方图”.现在来画这些步骤:1.找出最小值126,最大值158,现取区间[124.5,159.5];2.将区间[124.5,159.5]等分为7个小区间,3.小区间的端点称为组限,数出落在每个小区./nfi算出频率,if间的数据的频数,小区间的长度记成称为组距;7/)5.1245.159(,5列表如下:组限频数频率累计频率124.5~129.510.01190.0119129.5~134.540.04760.0595134.5~139.5100.11910.1786139.5~144.5330.39290.5715144.5~149.5240.28570.8572149.5~154.590.10710.9643154.5~159.530.03571.0000nfi个小区间上作以现在自左向右依次在各,为高的小矩形这样的图形叫频率直方图.频率直方图129.5134.5139.5144.5149.5154.5159.5nfi......0.0950.0710.0480.024图6-1二、箱线图定义,,,,21nxxxn的样本观察值设有容量为;1pxnp个观察值小于或等于至少有)(.)1(2pxpn个观察值大于或等于至少有)(.得分位数可按以下法则求样本p,,21,将xx.)()2()1(nnxxxx成按从小到大的顺序排列不是整数,若npo1中的两点要求,义则只有一个数据满足定的最小整数这一数据位于大于np样本它具有以下的性质:,1)0(pxpp记为分位数处,是整数,若npo2综上,.1][处的数即为位于np处的和就取位于1][][npnp.中位数],[21)1()(npnpxx,)1]([npxpx不是整数,当np.是整数当np特别,称为第一四分位数,分位数25.025.0x称为第三四分位数,分位数75.057.0x即有称为样本中位数,M或也记为分位数2505.0Qx.时,当5.0p;又记为1Q.3Q又记为],[21)12()2(nnxx,)1]2([nx5.0x不是整数,当np.是整数当np例2设有一组容量为18的样本如下(已经排过序)122126133140145145149150157.5.025.02.0xxx,,求样本分位数:解处,位于第41]6.3[2.0xnp因为)1(2.0x即有处,位于第51]5.4[25.0xnp因为)2(是这组数中间两5.0xnp因为)3(16216617517717718318819921225.0x即有2.018,6.3)(4x.14025.018,5.45.018,9.145个数的平均值,0.5x即有数据集的箱线图是由箱子和直线组成的图形,它是基于以下五个数的图形概括:,最小值Min它的作法如下:,第一四分位数1Q,中位数M和第三四分位数3Q.Max最大值画一水平数轴,)1(.Max下侧平行于数在数轴上方画一个上、轴的矩形箱子,,于箱子的左右两侧分别位1Q,在轴上标上Min,3Q,1Q,M3Q.的上方)162157(21.5.159.内部;线自箱子左侧引一条水平Min)2(在同一水平高度自箱子右侧引一条水平线直至最大值..段点的上方画一条垂直线在M线段位于箱子如图所示.inMaxMM1Q3Q图6-2以下是8个病人的血压(收缩压,mmHg)数解np因为故1Q例3试作出箱线图.据(已经过排序),10211011711812212313215025.08,2)117110(21.5.1135.0xnp因为故np因为故)122118(21.120,475.08,65.082Q75.0xMinMax作出箱线图如图所示.)132123(21.5.1273Q,102,150inMaxMM1Q3Q图6-3例4量(以升计.数据应经过排序)女子组2.72.82.93.13.13.13.23.43.4男子组4.14.14.34.34.54.64.74.84.8试分别画出这两组数据的箱线图.下面分别给出了25个男子和25个女子的肺活3.43.43.43.53.53.53.63.73.73.73.83.84.04.14.24.25.15.35.35.35.45.45.55.65.75.85.86.06.16.36.76.7解女子组MinMaxMnp因1Qnp因3Q男子组np因1Qnp因3Q作出箱线图如图所示.25.052,25.675.052,75.18.7.325.052,25.675.052,75.18,7.2,2.4,5.3,1.4Min,7.6Max,3.5M.2.3.7.4.8.5图6-4女子男子在数据集中,之间的距离:与第三四分数第一四分位数31QQIQRQQ13称为四分位数间距.,或大于若数据小于IQRQIQRQ5.15.131.则认为它是疑似异常值某一个观察值不寻常地大于或小于该数据集中的其他数据,称为疑似异常值.疑似异常值修正箱线图;)1(同,计算13QQIQR则认为它是一个,或大于IQRQIQRQ5.15.131若一个数据小于.疑似异常值画出疑似异常值,;*表示并以)3(自箱子左侧引一水平线段直至数据集中又自箱子右侧引一除去疑似异常值后的最小值,水平线直至数据集中除去疑似异常值后的最大值.)1()2(例5下面给出了某医院21个病人的住院时间(以1233445667799解MinMaxM25.021因1Q得75.021又3Q得IQRQ5.11IQRIQRQ5.13124.8试画出修正箱线图(数据已经过排序).天计),1012121315182355,8,25.5,75.1513QQ85.112,24,1,55,7,4,12,2455观察值故55是疑似异常值,且仅此一个疑疑似异常值.作出修正箱线图如图所示.图6-5inMaxMM1Q3Q1.频率直方图作图步骤(1)找出最小值和最大值;(2)将选定区间分为k个小区间;./)3(nfi算出频率nfi在各个小区间上作以.为高的小矩形三、小结画一水平数轴,)1(.Max下侧平行于数在数轴上方画一个上、轴的矩形箱子,,于箱子的左右两侧分别位1Q,在轴上标上Min,3Q,1Q,M3Q.的上方.内部;线自箱子左侧引一条水平Min)2(高度自箱子右侧引一条水平线直至最大值..段点的上方画一条垂直线在M线段位于箱子2.箱线图作图步骤在同一水平