第3章统计数据的整理与显示主要内容一、统计数据的整理二、统计数据的显示三、EXCEL在数据整理与显示中的应用学习目标1.了解统计数据整理的概念及步骤;2.掌握统计分组的方法;3.熟悉频数分布的概念、构成与类型;4.运用EXCEL整理与显示数据。通过统计调查可以搜集到大量的统计资料,但是这些资料只是反映总体单位具体情况的分散的、不系统的资料,不能用以反映总体的特征。统计整理将统计调查得到的原始资料进行科学的分类和汇总,使之成为系统化、条理化的综合资料,以反映研究总体特征的过程。是统计调查的继续,统计分析的前提和基础,起着承前启后的作用。地位一、统计数据的整理数据的预处理数据的分组数据的汇总分布数列(频数分布)统计数据整理的一般程序(一)数据的预处理1.数据的审核检查数据中的错误2.数据的排序升序和降序寻找数据的基本特征3.数据的筛选找出符合条件的数据1.完整性与及时性审核–检查应调查的单位或个体是否有遗漏–所有的调查项目或指标是否填写齐全–检查填报单位是否按时报送了有关数据2.准确性审核–检查数据是否真实反映客观实际情况,内容是否符合实际–检查数据是否有错误,计算是否正确等数据的审核•审核数据准确性的常用方法1.逻辑检查–从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象–主要用于对分类和顺序数据的审核2.计算检查–检查调查表中的各项数据在计算结果和计算方法上有无错误–主要用于对数值型数据的审核1.按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2.排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3.在某些场合,排序本身就是分析的目的之一4.排序可借助于计算机完成数据的排序1.分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分2.数值型数据的排序–递增排序:设一组数据为x1,x2,…,xn,递增排序后可表示为:x(1)x(2)…x(n)–递减排序:可表示为:x(1)x(2)…x(n)数据的筛选将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来Excel的筛选功能有两种,即自动筛选和高级筛选。用Excel进行数据筛选8名学生的考试成绩数据(二)统计分组指根据事物的内在特点和统计研究的目的,按一定的标志将统计总体区分为若干性质不同的组成部分的统计研究方法对总体而言,是“分”,即将总体区分为性质相异的若干部分。对总体单位而言,是“合”,即将性质相同的个体组合起来,在同一组内则保持着相同的性质。1.概念分组前分组后25%33%42%(1)划分现象的类型例:如:国民经济按产业分组农业分成农、林、牧、渔业各组;企业按所有制分组等。2.作用(2)揭示现象的内部结构(3)分析现象之间的依存关系我国五次人口普查的人口年龄构成表单位:%按年龄分组(岁)1953年1964年1982年1990年2000年0~1515~6565以上36.359.34.440.755.73.633.661.54.927.566.75.822.970.17.0合计100100100100100中国农民家庭按收入分组的恩格尔系数按收入分组(元)2003004005006008001000恩格尔系数(%)64.960.256.754.450.549.943.63.原则互斥性穷尽性指各组之间界限明确,总体中的每一个单位,都只应属于其中的一个组。指在一个分组方案中拟定的所有组,能够包容总体的全部单位,不能排斥和遗漏任何一个单位。4.种类按分组标志不同按每组变量值的取值范围按分组标志多少及排列方式品质分组数量分组单项分组组距分组平行分组复合分组简单分组选择反映事物属性差异的标志进行的分组。亦即对非数值型数据进行分组,包括对分类数据的分组与对顺序数据的分组。选择反映事物数量的差异的标志进行的分组。亦即对数值型数据进行分组。品质分组数量分组产品按等级可分为一等品、二等品、三等品等组如饮料按品牌可分为百事可乐、可口可乐、芬达、雪碧、七喜等组如人口按年龄分组:0-14岁,15-64岁,65岁以上。单项分组用一个变量值(数据)作为一组,适用于分类数据、顺序数据以及对变动范围不大、不同变量值个数不多的离散型数据进行分组。如家庭按子女人数分组:0,1,2,3,4,…。组距分组将变量值的一个区间作为一组,只适用于数值型数据。一般用来对连续型数据或变动范围较大、不同变量值个数较多的离散型数据进行分组。如某班学生某学科成绩分组:60分以下,60—70分,70—80分,80—90分,90分以上。组限上限下限每个组的最大值每个组的最小值组距每一组的区间长度组距=上限-下限组中值每一组中点位置的数值组中值=(上限+下限)÷2开口组缺少上限数值或下限数值的组注意开口组以相邻组的组距作为该组的组距,确定其下限或上限,再计算组中值。组距分组中的一些概念等距分组异距分组各组组距相等的分组称为等距分组。各组组距不全相等的分组称为异距分组。如某班学生某学科成绩分组:60分以下,60—70分,70—80分,80—90分,90分以上。如人口按年龄分组:0-15岁,15-60岁,60岁以上。进行组距分组需要注意的问题①要处理好组数与组距问题组数的确定主要凭经验;也可按不同的组数进行试验,比较其次数分布,看哪一个能够更好地显示出分组数据的特征;还可以根据美国学者斯特杰斯(Sturges)创立的经验公式k=1+3.3lgN(N为总体单位数)来确定。组数一旦确定,组距就可以根据全距来确定。组距=全距/组数,宜采用5或10的倍数对某组数值型数据是进行等距分组还是异距分组,这取决于变量值的分布状况。对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;遵循“上限不在内”原则;首末两组可使用“××以下”及“××以上”的开口组。第二、组限的表示②要处理好组限的问题第一,最小组的下限应低于最小变量值,而最大组的上限应高于最大变量值;某班学生数学成绩的分布情况按成绩分组(分)学生人数(人)60以下60-7070-8080-9090-100合计上组限U下组限L组距d=U-L=90-80=10(分)组中值x=(U+L)/2=(80+90)/2=85(分)组中值x=L+d/2=60-(70-60)/2=55(分)上限不在内原则简单分组复合分组只按一个分组标志对所研究的总体进行分组。按两个或两个以上的标志层叠排列对同一总体进行分组。平行分组按两个或两个以上的标志平行排列对同一总体进行分组。对教师的分组按性别分组男性女性按职称分组高级中级初级共计5组2+3平行分组按性别分类按职称分类男女高级中级初级共计6组2×3对教师的分类复合分组(三)数据的汇总数据汇总的组织形式逐级汇总集中汇总综合汇总按照一定的统计管理体制,自下而上逐级汇总统计数据的一种组织形式。将全部调查数据集中到组织统计调查的最高一级机关进行统一汇总的形式。将上述两种组织形式结合使用的汇总形式。数据汇总的方法手工汇总电子计算机汇总①“条件计算函数”②“Frequency函数”③“分类汇总”④“直方图工具”⑤“数据透视表”数据汇总的方式计数汇总求和汇总平均值汇总(四)频数分布在统计分组基础上,将总体所有单位按组归并排列,形成总体中各个单位在各组间的分布,亦称频数分布数列。各组变量值(可以是一组一个变量值、也可以是一定范围的变量值)2.构成要素频率各组单位数占总体单位总数的比重次数总体单位在各组中出现的次数,亦称频数各组的次数或频率1.概念累计次数(频率)从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。向上累计向下累计从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。某班学生数学成绩的分布情况按成绩分组(分)学生人数(人)学生比例(%)累计学生人数(人)向上累计累计学生比例(%)向上累计60以下51051060-70918142870-801326275480-901530428490-10081650100合计50100--=13/50fff数量数列-数值型数据的频数分布品质数列-分类数据、顺序数据的频数分布异距数列等距数列组距数列单项数列3.种类某超市某日出售的50瓶饮料品牌的频数分布饮料品牌频数(瓶)可口可乐15旭日升冰茶11百事可乐9汇源果汁6露露9合计50分类数据的频数分布品质数列、单项数列某省2009年部分城镇居民收入高低的频数分布按收入高低分组调查人数(人)最低收入418低收入398中下收入763中等收入738中上收入693高收入313最高收入305合计3628顺序数据的频数分布品质数列、单项数列某车间50名职工的家庭人口分布子女人数分组(人)户数(户)比例(%)0123935511870102合计50100数值型数据的频数分布数量数列、单项数列某班学生数学成绩的分布情况按成绩分组(分)学生人数(人)学生比例(%)60以下51060-7091870-80132680-90153090-100816合计50100数值型数据的频数分布数量数列、组距数列钟型分布U型分布J型分布4.分布类型二、统计数据的显示作用1、使统计数据系统化、条理化、生动化,便于资料的积累和比较分析。2、清晰地显示现象的活动过程和现象之间的复杂关系,给人一种一目了然的印象。统计数据的显示统计表统计图总标题数字资料横行标题纵栏标题是统计表表的名称,放在表格的正上方是横行的名称,通常用来表示各组的名称,一般放在表格的左边是纵栏的名称,通常为统计指标的名称,一般放在表格的右上方即指标数值,排列在各横行标题与纵栏标题的交叉处从形式看(一)统计表1.统计表的概念与结构统计表可分为广义统计表和狭义统计表两种。人们通常所说的统计表是反映频数分布的表格。主词宾词统计表所要说明的总体及其组成部分说明总体及总体各组数量特征而采用的统计指标从内容看2.统计表的种类常见的统计表主要有以下几种:显示未分组数据的统计表显示分组数据的统计表简单表简单分组表平行分组表复合分组表简单表显示未分组数据的统计表某地区2002年铁矿计划完成情况企业名称计划产量(吨)实际产量(吨)计划完成(%)甲矿乙矿丙矿丁矿简单分组表对总体进行简单分组的统计表某地区2002年各类型企业总产值表企业按规模分组总产值(亿元)比上年增长(%)大型企业中型企业小型企业合计平行分组表对总体选择二个或二个以上标志进行平行分组的统计表。2009年末某地区人口统计表按城镇与性别分组人口数(万人)比例(%)全地区人口合计一、按城镇分组城镇农村二、按性别分组男性女性4257-10683189-21172140100.00-25.0974.91-49.7350.27复合分组表对总体进行复合分组的统计表2009年末某地区人口统计表按城镇与性别分组人口数绝对数(万人)比例(%)全地区人口总计一、城镇男性女性二、农村男性女性4,2571,0685165523,1891,6011,588100.0025.0912.1212.9774.9137.6137.30男性女性合计比例(%)城镇516552106825.09农村16011588318974.91合计211721404257100.00比例(%)49.7350.27100.00-城乡性别2009年末某地区人口统计表单位:万人(1)总标题内容应满足3W要求(2)合理安排统计表的结构(3)表中的上下两条横线一般用粗线,其他线用细线,通常情况下,统计表的左右两边不封口(4)统计表各纵列若须合计时,一般应将合计列在最后一行,各横行若须要合计时,可将合计列在最前一栏或最后一栏(5)数据计量单位相同时,可放在表的右上角,不同时应放在每个指标后或单列出计量单位栏(6)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一(7)对于没有数字的表格单元,