2020/1/4商学院12020/1/41第二章频数分布与图形表示(Frequencydistributionandgraphicpresentation)第一节构造频数分布(ConstructingaFrequencydistribution)第二节相对频数分布(RelativeFrequencydistribution)第三节茎叶图(Stemandleafdisplays)第四节频数分布的图形表示(Graphicpresentationoffrequencydistribution)第五节统计表(statisticaltable)第六节交叉分组表和散点图(crosstabulationsandscatterdiagrams)2020/1/4商学院22020/1/42第一节构造频数分布一、数据的预处理二、步骤三、组距和组中值FrequencyDistributionAgroupingofdataintomutuallyexclusiveclassesshowingthenumberofobservationsineach.2020/1/4商学院31.Largedatasetscanbesummarized.2.Wecangainsomeinsightintothenatureofdata.3.Wehaveabasisforconstructingimportantgraphs.ReasonsforConstructingFrequencyDistributions2020/1/4商学院42020/1/44一、数据的预处理(一)审核的内容1、完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2、准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际,检查数据是否有错误,计算是否正确等2020/1/4商学院52020/1/45一、数据的预处理(1)逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对定类数据和定序数据的审核(2)计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对定距和定比数据的审核2020/1/4商学院62020/1/46一、数据的预处理(3)适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定这些数据是否符合自己分析研究的需要(4)时效性审核应尽可能使用最新的统计数据(5)确认是否必要做进一步的加工整理2020/1/4商学院72020/1/47一、数据的预处理(二)数据的筛选1、对审核过程中发现的错误应尽可能予以纠正2、当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选3、数据筛选的内容包括:(1)将某些不符合要求的数据或有明显错误的数据予以剔除(2)将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出2020/1/4商学院82020/1/48一、数据的预处理(三)数据的排序1、定类数据的排序(1)字母型数据,排序有升序降序之分,但习惯上用升序(2)汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分2020/1/4商学院92020/1/492、定距和定比数据的排序(1)递增排序:设一组数据为X1,X2,…,XN,递增排序后可表示为:X(1)X(2)…X(N)(2)递减排序可表示为:X(1)X(2)…X(N)2020/1/4商学院102020/1/410频数分布的编制例题某生产车间30名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。106841109110991111107121105999411988118971031069510685106101105961051071281111012020/1/4商学院1111(一)确定组数(Decideonthenumberofclasses)(二)确定组距(Determinetheclassintervalorwidth)(三)确定组限(Settheindividualclasslimits)(四)计算频数(Countthenumberofitemsineachclass)二、步骤2020/1/4商学院122020/1/412(一)确定组数(numberofclasses):组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按2的k次方法则来确定组数,即使2的k次方大于n的最小的k。(二)确定各组的组距:组距(ClassWidthorclassinterval)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数2020/1/4商学院13(三)确定组限:必须遵循“不重不漏”的原则,一般上限不在本组内。(eachdatavaluebelongstooneclassandonlyoneclass)下限(thelowerclasslimit):一个组的最小值;上限(theupperclasslimit):一个组的最大值2020/1/4商学院142020/1/414某车间30名工人日加工零件数分组表按零件数分组频数(人)80~9090~100100~110110~120120~130371352合计30(4)例题2020/1/4商学院152020/1/415三、组距和组中值组距:上限与下限之差组中值(ClassMidpointsorclassmark):下限与上限之间的中点值下限值+上限值2组中值=2020/1/4商学院162020/1/416某车间30名工人日加工零件数分组表按零件数分组频数(人)组中值80~9090~100100~110110~120120~1303713528595105115125合计30(4)例题组中值=(80+90)/22020/1/4商学院172020/1/417不等距分组(differentinterval)各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况2020/1/4商学院182020/1/418对于第一组是“多少以下”,最后一组是“多少以上”的开口组(open-endclass),组中值的计算可参照邻组的组距来决定。即:缺下限开口组组中值=上限—1/2邻组组距;缺上限开口组组中值=下限+1/2邻组组距。2020/1/4商学院192020/1/419某车间50名工人日加工零件数分组表按零件数分组频数(人)组中值110以下110~114115~119120~124125~129130~134134以上358141064108112117122127132136合计502020/1/4商学院20第二节相对频数分布relativefrequency=classfrequencysumofallfrequenciesincludesthesameclasslimitsasafrequencydistribution,butrelativefrequenciesareusedinsteadofactualfrequencies2020/1/4商学院21某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计501002020/1/4商学院222020/1/422第三节茎叶图①用于显示未分组的原始数据的分布②由“茎”和“叶”两部分构成,其图形是由数字组成的③以该组数据的高位数值作树茎,低位数字作树叶④对于n(20≤n≤300)个数据,茎叶图最大行数不超过L=[10×log10n]2020/1/4商学院232020/1/423树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图类似横置的直方图某车间工人日加工零件数的茎叶图2020/1/4商学院242020/1/424扩展的茎叶图树茎树叶10s10.11*11t11f11s11.12*12t12f12s12.13*12t13f13s13.78802234577788890012222333344455667778890133445799树茎树叶10*10.11*11.12*12.13*13.78802234577788890012222333344455667778890133445799扩展后的茎叶图2020/1/4商学院252020/1/425第四节频数分布的图形表示(Graphicpresentationofafrequencydistribution)一、直方图(Histogram)二、频数多边形图(Frequencypolygon)三、累计频数分布(Cumulativefrequencydistribution)四、其他图形(Othergraphicpresentationofdata)2020/1/4商学院262020/1/426一、直方图直方图的制作方法①用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布②在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)③直方图下的总面积等于12020/1/4商学院272020/1/427直方图的绘制频数(人)1512963105110115120125130135140日加工零件数(个)直方图下的面积之和等于1某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120~125之间!2020/1/4商学院282020/1/428二、多边形图①折线图也称频数多边形图(Frequencypolygon)②是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉③折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的2020/1/4商学院292020/1/4291512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!折线图的绘制某车间工人日加工零件数的折线图2020/1/4商学院302020/1/430某车间50名工人日加工零件数分组表按零件数分组频数(人)累计频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50三、累计频数分布2020/1/4商学院31例题在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————2020/1/4商学院32243001322252700100200300400非常不满意不满意一般满意非常满意累积户数(户)(a)向下累积27616830300750100200300400非常不满意不满意一般满意非常满意累积户数(户)(b)向上累积甲城市家庭对住房状况评价的累积频数分布2020/1/4商学院33四、其他图形(一)线图(Linechart)(二)条形