第三章统计整理•学习目的:通过本章的学习,使学生掌握统计资料整理的程序、统计分组的方法以及分布数列的编制、统计汇总的组织形式和技术方法,以及设计和编制统计表。•分以下几节来讲:第一节统计整理概述第二节统计分组第三节分布数列第四节统计汇总第五节统计表第一节统计整理概述一、概念原始统计资料综合统计资料二、统计整理的作用•统计整理是一项重要的工作,既是统计调查的必然继续,又是统计分析的基础和前提条件,起着承前启后的作用。三、统计整理的步骤(一)对调查资料的审核:1、对原始资料的审核完整性审核:检查应调查的单位或个体是否有遗漏;所有的调查项目或指标是否填写齐全。准确性审核:逻辑检查:检查数据是否真实反映客观实际情况,内容是否符合实际。计算检查:检查数据是否有错误,计算是否正确等。2、对第二手资料的审核:(1)适用性审核–弄清楚数据的来源、数据的口径以及有关的背景材料–确定这些数据是否符合自己分析研究的需要(2)时效性审核–应尽可能使用最新的统计数据(3)确认是否必要做进一步的加工整理(二)统计分组:分类将统计总体按照一定的标准分成若干类(或组),这是分类法在统计中的具体应用。统计分组是统计整理的基础,分组科学与否直接影响到统计整理工作的质量。(三)统计汇总:加总,求合计数•在分组的基础上采用适当的汇总组织形式和技术方法,按分组要求对原始资料进行汇总综合,计算各组及总体的单位数和标志总量。•统计汇总是统计整理的中心内容(四)编制统计表•以简明扼要的表格形式表述统计汇总的结果,反映社会经济现象在数量方面的具体表现和有关联系。•统计表成为统计整理的有效表现形式第二节统计分组一、统计分组的概念1、概念:总体各组统计整理的首要步骤就是对调查得到的原始资料进行分组。•统计分组就是•根据统计研究的目的和任务,按照选定的变异标志将总体划分为若干部分或组别的一种统计方法。•社会产品按其经济用途分为•生产资料•消费资料•工业企业按年产量或投资总额可分为•大型、中型、小型企业;•居民按居住地区,一般可分为•城市•农村•从总体的角度看,将总体划分为若干性质不同的组成部分,使不同组的单位之间具有明显的差别,是“分”的过程;•另一方面,从个体的角度看,把性质相同的总体单位组合起来,使同组内各单位具有相对的同质性,是“合”的过程。2、统计分组的原则:(1)周延性:即一个不漏(又称穷举原则)(2)互斥性:即不能重复(又称互斥原则)即:要求保持组内资料同质性和组间资料的差异性二、统计分组的作用(一)区分社会经济现象的类型社会经济现象是极其复杂多样的,客观上存在着各种不同类型,各种不同类型的现象在规模、水平、速度、结构、比例关系等方面的数量表现有所不同或具有差异,•利用统计分组就能根据统计研究的目的,将总体区分为各种性质不同的类型,来研究各类现象的数量差异和特征以及相互关系。(二)研究总体的内部结构•利用统计分组,计算出各组数值在总体中所占比重,对社会经济现象的内部结构进行研究,可说明现象总体的基本性质和特征。•对现象内部结构的变化进行动态研究,还可以反映现象总体发展变化的过程、趋势和规律表3.1某厂近几年老、中、青职工所占比重表(%)年份老年职工中年职工青年职工合计20002001200220032004403830252035363840382526323542100100100100100•从表中资料可以看出,该厂通过近几年职工队伍的调整,初步形成了以中、青年职工为主体的年轻化的职工队伍。(三)研究现象之间的依存关系•社会经济现象之间都存在着不同程度的相互联系、相互制约的依存关系,例如,施肥量与亩产量,原材料消耗量与产品单位成本,商品销量与价格之间都存在着一定的依存关系。•利用统计分组,将性质上相关的分组资料联系起来分析,就可以揭示现象之间的联系和依存关系。表3.2某年某地区部分商品水平流通费用率表按商品流转额分组(万元)商店数(个)商品流通费用率(%)100以下100—200200——400400—600600—800800—10001000以上25801307540181011.210.59.86.55.85.04.8•通过表中分组资料分析,可以看出商品流通费用率与商品流转额之间存在负相关的依存关系为:•即随着商品流转规模的扩大,其流通费用率相应降低。三、分组标志(分组标准)(一)分组标志的概念:即分组的依据•统计分组的关键在于正确选择分组标志,这是统计分组的核心问题。•分组标志就是•将总体划分为若干部分或组别的标准或根据•如工业企业按生产资料所有制形式分组,则所有制形式就作为分组的标准成为分组标志。•如果分组标志选择不当,分组结果就难以正确反映总体的特征。(二)分组标志的选择:任何事物都有许多标志,要在许多可供选择的标志中选取能反映总体性质特征的标志作为分组标志,必须遵循以下三个基本原则:1、根据统计研究的目的选择2、选择具有本质性的重要标志(抓主要矛盾)3、结合现象所处的具体条件四、统计分组的种类(一)按分组标志的性质不同分1、按品质标志分组如:学生按性别分组,企业按所有制性质分组等《工业部门分类目录》、《主要商品目录》等,以统一全国的分类口径,便于各部门掌握和使用。2、按数量标志分组按数量标志分组的结果,形成变量数列。如:学生按年龄分组,企业按产值分组等•要从各组的量的变化中研究、确定各组的数量特征,其中涉及到变量的类型、变量值多少、变化范围大小等问题,以及如何相应地确定组数、组距和组限等问题,在第三节中详细叙述。(二)按分组标志的多少不同分1、简单分组:对总体只按一个标志分组。例:对企业这个总体按所有制性质、规模大小分别分组。(1)(2)全民所有制大型企业集体所有制企业中型其他小型若干个相互联系的简单分组构成平行分组体系2、复合分组:对同一总体按照两个或两个以上的标志层叠起来进行分组例:大型全民所有制企业中型小型大型企业集体所有制企业中型小型大型其他经济类型中型小型在复合分组方法下形成复合分组体系五、统计分组的方法(一)按品质标志分组1、选择品质标志作为分组标志2、确定组数并表示出各组(根据品质标志的具体表现)3、把各单位归入相应的组汇总出各组的单位数(次数)有的很简单,如人口按性别分组。有的很复杂(如人口按职业分组),可查相应的专业分类目录。(二)按数量标志分组1、选择数量标志作为分组标志2、确定组数、划定各组的界限(较复杂)3、把各单位归入相应的组汇总得出各组的单位数(称为次数或频数;也可用相对数表示,称为频率)六、分组结果的表示方法分组后的结果通常用如下形式来表示:这种形式称为分布数列(或次数分布或频率分布)所分得的各组各组次数(或频率)合计总次数第三节分布数列一、分布数列1、概念:在统计分组的基础上,将总体的各单位按组归类整理,形成总体单位在各组间的分布。这种表明总体单位数在各组分配情况的资料称为次数(频率)分布,又称分布数列。2、分布数列的构成:由两部分构成:(1)各组(2)各组次数(或频率)3、分布数列的种类:根据分组标志的不同可分为:品质分布数列:可用条形图、圆形图等表示数量分布数列:简称为变量数列(1)品质分布数列•按品质标志分组编制的分布数列,简称品质数列。如性别人数(万人)比率(%)男性女性653556122851.6348.37合计126583100.00•(2)数量分布数列:重点二、变量数列(数量分布数列)•1、概念•按数量标志分组编制的分布数列。如我国第五次人口普查我国大陆人口年龄分布:人口按年龄分组人口数(亿人)比率(%)14岁以下2.897922.8915—648.879370.1565岁以上0.88116.96合计12.6583100.00•变量数列由两部分构成:•一是由变量值所形成的各个组,用表示;•二是总体单位在各组中出现的次数。ixixix•有两种表现形式:•一是用绝对数表示的次数,又叫频数,用•表示;•二是用相对数表示的次数,即各组次数占总次数的比重,称为频率或比率,•用表示。ifffi•变量数列按变量类型不同,可分为•连续型变量•离散型变量•变量数列按各组表示方式不同可分为•单项变量数列•组距数列1、单项变量数列:每组用一个数表示。适合于离散变量适合于变量值较少的情况工人按日产量(件)分组工人数(人)25310432、组距数列:适合于连续变量适合于变量值较多的情况可采用等距分组,也可采用不等距分组学生按成绩分组学生数(人)60以下360——70770——802080——90890以上2合计40三、组距数列中的有关概念(一)组限:表示每组的界限。有:上限(μ):每组的最大值下限(L):每组的最小值1、组限的表示方法有:(1)重叠组限:如:10——2020——30…在统计每组的次数时应遵循“上限不在内”原则(2)不重叠组限:如:10——20(只适用于离散变量)21——30…2、组的表示方法:(1)闭口组:上、下限都有(2)开口组:上、下限有一缺一(二)组距1、概念:每组中最大值与最小值之间的差距2、计算公式:组距(i)=上限–下限3、种类:根据各组组距是否相等,组距数列可分为:(1)等距数列(2)异距数列:一般用次数密度表示,它是次数与组距之比。4、组距的确定与表示方法:一般用5、10、20、50、100等类似数字表示。5、全距:所有变量值中最大值与最小值之间的差距全距(R)=最大变量值–最小变量值(三)组中值概念:每组中点的数值计算公式:对于开口组,需先假定其所缺的上限或下限(假设开口组的组距与其相邻组的组距相等)。如:各组组中值60以下5560——706570——807580——908590以上952下限上限组中值四、变量数列的编制1、排序:将原始数据条理化排序后:(1)求出全距R(2)确定变量数列的种类(等距数列或不等距数列)2、确定组距和组数3、划定各组的界限:确定组限4、汇总得出各组单位数(次数)(四)组数(K)组数、组距、全距之间存在如下关系:可用经验公式来确定:K=1+3.322lgn)组数()全距()组距(KRi•5、将结果用分布数列的形式表示出来课堂练习:某工厂同工种的50名工人完成生产定额百分数(%)资料如下:838812311011815812114613712016312513612714211812312613815110186821131421081011051251161321381171031141311088711912710511512612511010714113511793根据上述资料编制变量数列•解:1、将原始资料按其数值大小重新排列•828386878893101101103105•105107108108110110113114115116117117118118119120121123123125125125126126127127131132135136137138138141142142146151158163•全距R=163-82=81•2、确定变量数列的形式•采用等距数列•3、确定组距和组数•组数K=1+3.22lg50=1+3.221.69=6.44•组距I=全距R/组数K=81/6.44=12.57•取组距I=104、确定组限(上限不在内)分组次数比重(%)100以下612100-110816110-1201122120-1301122130-140714140-15048150以上36合计50100第四节分布数列的表示方法一、表示法:用表格的形式表示学生按成绩分组组中值学生数(人)比率(%)向上累计向下累计工人数比率工人数比率60以下5525.025.040100.060~7065615.0820.03895.070~80751332.52152.53280.080~90851537.53690.01947.590~10095410.040100.0410.0合计—40100.0————计算累计次数方法:1、向上累计:由变量值小的组向大的组累计,累计次数表示该组上限以下(比该组上限小)的组的次数的总和,所以又称为较小制累计。2、