2-1第二章统计数据的搜集、整理和显示第一节统计资料的搜集第二节数据整理第三节频数分布2-2第一节统计数据的搜集一、统计数据搜集的基本理论1、定义:根据统计研究预定的目的要求和任务,运用相应的科学的调查方法与手段,有计划、有组织地向客观实际搜集数字资料。从过程的阶段性看,统计数据的搜集处于统计工作过程的基础阶段。2-32、搜集数据的方法:实验与调查3、搜集的统计数据有两种:一种是原始资料,又称为初始资料;另一种是次级资料或第二手资料。2-4二、统计调查的方案设计1、确调查目的。2、确定调查对象和调查单位。调查对象:是指需要调查的现象总体,该总体是由许多性质相同的调查单位组成的。调查单位:是指所要调查的具体单位,它是进行调查登记的标志的承担者。报告单位:报告单位亦称填报单位,它是负责向上报告调查内容、提交统计资料的单位。调查单位与报告单位,有时是一致的,有时不一致。3、确定调查项目。调查项目就是调查中所要登记的调查单位的特征,即调查单位所承担的基本标志,它由一系列品质标志(或称质量标志、属性标志)和数量标志所构成。2-54、调查表格和问卷的设计。调查表:将各个调查项目按照一定的顺序排列在一定的表格上,就构成了调查表。问卷调查:根据调查目的,在调查对象中随机选择或有意识地确定调查单位,以书面文字或表格形式了解被调查者的意见,调查者自愿、自由地回答问卷中所提出的问题。5、确定调查时间。统计调查时间包括二种涵义,即调查时间和调查期限。调查时间:是指调查资料所属的时间。调查期限:是进行调查工作的时限,包括搜集资料和报送资料的工作所需的时间。6、调查的计划实施2-6三、统计数据的搜集方法1.直接观察法2.报告法(通讯法)3.采访法4.登记法5.实验设计调查法6.其他调查法2-7四、统计调查的组织各种形式(一)全面调查与非全面调查统计调查按调查的范围划分,可分为全面调查和非全面调查两大类。1、全面调查是对调查对象的所有单位一一进行调查。普查、全面统计报表都属于全面调查。2-81)普查普查是专门组织的一种全面调查,它主要是用以调查某些不能或不宜用定期的全面报表搜集的统计资料。普查有主要特点:第一,它是一次性(非连续性)的调查。第二,它是一种全面调查,可获得大量详细、全面的资料。2-92)全面统计报表制度全面统计报表制度是依照国家有关法规,自上而下地统一布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目,统一的报送时间和报送程序,自下而上地逐级地定期提供统计资料的一种调查方式。全面统计报表的实施范围,是调查对象的全部单位均要填报。统计报表的主要特点:第一,资料的来源是各个基层单位的原始记录。第二,逐级上报和汇总的。第三,属于经常性(连续性)调查,调查项目相对稳定。2-102、非全面调查:对调查对象其中的一部分单位进行调查。1)抽样调查。抽样调查是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据所获得的样本数据,对调查对象总体特征作出具有一定可靠程度的推算。A)特点:第一,按随机原则抽取样本。第二,根据部分调查的实际资料对调查对象总体的数量特征作出估计。第三,抽样误差可以事先计算并加以控制。B)适用范围:第一,不可能或不必要进行全面调查的社会现象。第二,对普查资料进行必要的修正。2-11C)抽样调查的理论基础概率论和数理统计的有关定理。D)抽样调查对数据的要求:所研究的变量是随机变量。E)抽样调查应遵循的原则:第一,随机原则。第二,最大抽样效果原则。2-122)重点调查重点调查:是指在调查对象中,只选择一部分重点单位进行的非全面调查。重点单位:着眼于现象量的方面而言,尽管这些单位在全部单位中只是一部分,但它们在所研究现象的标志总量中却占有绝大的比重,在总体中具有举足轻重的作用。3)典型调查:典型调查是一种专门组织的非全面调查。根据调查的目的,在对所研究的对象进行初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。有人也认为它是“目的抽样”,以若干具有代表性的单位为样本。2-13(二)经常性调查与一次性调查。统计调查按时间标志可分为连续性(经常性)和不连续性(一次性)调查两大类。1、连续性(经常性)调查:是指随着研究现象的变化,连续不断地进行调查登记。如统计报表制度。2、不连续性(一次性)调查:是指间隔一段较长的时间对事物的变化进行一次性调查,如普查、典型调查。2-14(三)定期报表形式与专门调查统计调查按组织形式可分为定期报表形式和专门调查。1、定期报表制度是按国家统一规定的表式和内容,定期地向各级领导机构报送统计资料的一种形式。2、专门调查是为某一专题研究而组织的专项调查,如抽样调查、典型调查、普查。2-15统计调查形式示意图普查全面报表抽样调查重点调查典型调查周期性调查一次性调查普查抽样调查重点调查典型调查全面调查非全面调查连续(经常性)调查不连续调查定期报表专门调查调查范围调查时间组织形式统计调查形式2-16五、统计调查体系统计调查方法体系:建立以必要的周期性的普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和少量的全面报表综合运用的统计调查方法体系。普查和全面报表都是全面调查,但两者不能互相替代。2-17抽样调查虽然是一种非全面调查,但它能够解决全面调查无法或难以解决的问题,抽样调查调查单位少,调查项目就可以多一些,以便对某一社会经济现象进行更深入的研究,也可以节省调查费用,又可以满足统计时效性的要求。所以,我国统计调查体系是以经常性的抽样调查为主体。如果调查任务只要求掌握基本情况,而现象总体中又有部分单位能比较集中地反映研究项目的数量特征,则可采用重点调查。在统计调查体系中,适度地采用了科学的推算方法。2-18六现有统计资料的主要来源1.统计年鉴2.有关期刊3.有关网站2-19第二节数据整理一、数据整理的内容与程序1、统计数据整理的内容:2、数据整理的程序。1)统计资料的审核。2)资料的分组和汇总。分组,即对资料按其性质和特点,划分为若干类;汇总,加总计算形成各项统计指标。统计分组和统计指标是整理的中心工作。3)编制统计表或绘制统计图。4)统计资料的积累、保管和公布。2-20二、统计分组(一)统计分组的概念与种类1、统计分组1)根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。2)分组的性质来:兼有分和合双重含义。2、统计分组的原则穷尽原则,使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。互斥原则,在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。2-213、统计分组的种类1)按分组标志的多少,可分为简单分组和复合分组。简单分组:就是对研究现象按一个标志进行分组。复合分组:用两个或两个以上标志分组,即先按一个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组,这称为复合分组。2)按分组的标志的性质不同,分为品质分组(或称属性分组)和数量分组(或称变量分组)。品质分组:按品质(或属性)标志进行分组。品质分组所形成的数列称为品质数列。数量分组:按数量标志分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量分组。变量分组所形成的数列称为变量数列。2-223)按分组的作用和任务不同,分为类型分组、结构分组和分析分组。类型分组:把复杂的现象总体,划分为若干个不同性质的部分,就是类型分组。结构分组:在对总体分组的基础上计算出各组对总体的比重,借此研究总体各部分的结构,即结构分组。分析分组:为研究现象之间依存关系而进行的统计分组即分析分组。2-23(二)统计分组的方法1、品质分组的方法。按品质标志分组,有些分组比较简单,分组标志一经确定,组的名称和组数也随之确定。2、数量分组的方法。按数量标志分组,应注意如下两个问题:首先,分组时各组数量界限的确定必须能反映事物质的差别。其次,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限。2-241)单项式分组与组距式分组A)单项式分组:用一个变量值作为一组,形成单项式变量数列。变量值又称标志值。按数量标志分组,数量标志的表现,就是变量的取值单项式分组一般适用于离散型变量且变量变动范围不大的场合。B)组距式分组:将变量依次划分为几段区间,一段区间表现为“从……到……”距离,把一段区间内的所有变量值归为一组,形成组距式变量数列。区间的距离就是组距。连续型变量或者变动范围较大的离散型变量,适宜采用组距式分组。2-252)间断组距式分组和连续组距式分组下限,上限:组距式分组的每一组变量值中,其最小值为下限,最大值为上限。组距:上下限之间的距离。组限:相邻两组的界限。间断组距式分组:组限不相连的组距式分组。连续组距式分组:组限相连(或称相重叠的),即以同一数值作为相邻两组的共同界限的组距式分组。离散型变量,可间断组距式分组,也可连续组距式分组。连续型变量,只能采用连续组距式分组。“上限在不内”原则:在连续组距式分组中,以同一个数值作为相邻两组共同的界限,统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内。2-263)等距分组与异距分组等距分组:标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。一般用于标志值变动比较均匀的场合。异距分组:各组的组距不相等。2-27(三)相关指标的计算1.组距连续式分组的组距计算公式:组距=本组上限–本组下限间断式分组的组距计算公式:组距=本组上限–本组下限+1开口组的组距:以相邻组的组距为本组的组距。2.组中值:上下限之间的中点数值称为组中值,组中值的计算公式:2下限上限组中值2-28计算平均指标或进行其它统计分析时,常以组中值来代表各组标志值的平均水平。3.组数组数=全距/组距斯特杰斯经验公式:组数=1+3.3LgN由此推出组距=(最大变量值-最小变量值)/(1+3.3LgN)2-29第三节频数分布一、频数分布的基本概念1、频数分布在统计分组的基础上,将总体所有的单位按某一标志进行归类排列,称为频数分布,或次数分布。根据分组标志特征的不同,分布数列可分为品质分布数列和变量分布数列。2、分布数列的两个要素1)总体按某标志所分的组。2)各组所出现的单位数,即频数,亦称次数。对于变量数列,标志值形成的数列,称为变量,一般用x表示;频数(次数)用f表示。2-30二、变量数列的编制1、编制方法。2、频率的性质1)任何频率都是界于0和1之间的一个分数,即:2)各组频率之和等于1,即:3、频数密度:采用异距分组,各组次数的多少受到组距不同的影响,为消除异距分组所造成的影响须计算频数密度(或称次数密度)。频数密度的计算公式:频数密度=频数/组距频率密度=频率/组距各组频数密度与各组组距乘积之和等于总体单位数,各组频率密度与各组组距乘积之和等于1。2-31三、累计频数与累计频率1、向上累计频数(或频率)分布:先列出各组的上限,然后由标志值低的组向标志值高的组依次累计。向上累计频数表明某组上限以下的各组单位数之和是多少,向上累计频率表明某组上限以下的各组单位数之和占总体单位数比重的大小。2、向下累计频数(或频率)分布:先列出各组的下限,然后由标志值高的组向标志值低的组依次累计。向下累计频数表明某组下限以上的各组单位数之和是多少,向下累计频率表明某组下限以上的各组单位数之和占总体单位数比重的大小。2-323、累计频数分布特点1)第一组的累计频数等于第一组本身的频数;2)最后一组累计频数等于总体单位数。累计频率同样也具有两个特点:1)第一组的累计频率等于第一组本身的频率;2