1人口学研究方法规范与发展认识人口与计划生育统计的特点避免统计方法和数据的误用王谦(国家计生委计财司副司长)由于工作关系和职业习惯,笔者对各种各样有关人口和计划生育的工作报告、分析文章中的统计方法和统计数据比较关注,经常可以发现统计方法和统计数据被误用的情况。本文通过一些实例,分析由于不了解人口和计划生育的特点而造成统计方法和数据误用的情况。1个案与群体〔实例1〕某调查报告称,某村2001年出生婴儿10人,其中男婴6人,女婴4人,出生性别比高达150,严重失调。〔实例2〕某乡给某村下达人口计划,其中一项指标是计划生育率,要求当年的计划生育率不低于95%,而该村一般每2年出生不足20人。〔实例3]某地计生委根据群众举报,查出某县一个超生5胎的情况,据此称该县超生问题严重。〔实例4〕某县总人口不足50万人,近年来在孕妇中推广服用“福施福”。上级要求检查服用“福施福”后,人口缺陷发生率是否逐年下降。还有不少地方把孕产妇死亡率是否逐年下降当作生殖健康服务工作的考核内容。这几个例子所出现的问题都是以个案或少量发生的情况,说明一个地方宏观的情况。人口和计划生育统计所分析的对象(人口)或事例具有群体性,这个群体是由每个个体的人或事件集合而成。每个个体是否发现这种现象是偶然的,作为表现群体规律的统计数据,只有当群体具有相当的规模后才有意义。群体的规模太小,尽管对每个个体的统计是准确的,指标的计算也是正确的,但计算结果并不能客观地反映群体的规律。如实例1,一个村的出生人数仅为10人,计算的出生性别比要么是100(“绝对平衡”),要么就是男女比例严重失调。实例2中计划生育率受出生总数的影响,要么计生率正3好100%,只要有一个计划外出生,计划生育率就低于95%。例4涉及的出生缺陷发生率或孕产妇死亡率一般统计时均以10万作为分母,对于一个县,每年出生几千人或1万多人,即使按照出生缺陷、孕产妇死亡发生的平均水平,每年也只有几例,偶然性很大,在统计数据上很难表现为逐年下降。至于例3,以一个特例说明全县的情况,更是欠妥。各种人口和计划生育统计教材上并未说明各项统计指标适用的人群至少要达到多少,但一般说来这些统计指标绝大部分不能用于分析规模在几百人到一千多人的村级情况,许多指标在县、乡级使用也不太合适。多年来各级是通过报表收集人口和计划生育统计数据。报表由上级制发,基层单位按统一的口径填报每个项目,然后逐级汇总、上报。这样以来,上、下级的报表式样相同,只是数量大小有差别,于是,上级单位计算哪些指标,下级单位“照葫芦画瓢”计算相同指标。特别是实行人口与计划生育目标管理责任制后,各项工作任务和责任要逐级分解、落实,相应地,工作指标也被层层分解,上一级控制的指标(如出生率、计划生育率)也被一直套用到基层单位。在这种情况下,群体性的要求很容易被忽视。2自然属性与社会属性〔实例5〕1995年8月,在全国上半年人口形势分析会4上,某省计生委分析本省当年上半年二孩出生数量比上一年同期减少的原因时称,由于自当年起全省广泛推行“三结合”,许多群众为了发家致富,主动退出二孩指标,于是二孩出生明显减少。笔者的同事立即对此理由提出了置疑:既然是主动退出二孩指标导致二孩出生减少,那么原来应在1995年上半年生育二孩的妇女至少在1994年上半年就应退出二孩指标,而那时候,该省并未开展计划生育“三结合”;至于1995年上半年开展“三结合”后退出的二孩指标,其二孩出生减少的效果应在1996年以后才能表现出来。群众退出二孩指标与二孩出生数量的减少在时间上出现了“矛盾”。〔实例6〕许多文章分析妇女受教育程度越高,生育的孩子越少。这两个例子说明分析人口出生数量的变化应考虑人口的自然属性和社会属性。人口首先是生物意义上的人口,具有自然属性,同时,人口生活、存在于一定的社会环境中,具有社会属性。人口现象的发生既受自然属性的影响,也受社会属性的影响。从根本上说,社会属性对人口现象的影响和制约是有条件的、间接的。而自然属性的影响和制约是无条件的、直接的。社会属性的影响和制约常常要通过自然属性来实现。在分析人口现象的时候,首先要解释人口的自然属5性,然后再解释社会属性。就实例5而言,从妇女退出二孩指标到二孩出生减少,至少间隔10个月,即妇女的怀孕期,无论推行“三结合”力度多大,妇女10个月的怀孕期不能缩短。退指标的发生与出生数的减少在时间上不“同步”,至少要“滞后”一年。也就是说,1995年上半年因开展“三结合”妇女退出二孩生育指标不会影响这个时期的二孩出生数量。关于实例6,一个人的受教育程度属于社会属性,妇女受教育水平提高,的确会影响其生育行为。然而,影响生育的自然因素,直接因素是避孕节育行为,具体地说,影响生育的生物因素包括推迟结婚(不发生性行为)、采取避孕措施和流产(终止妊娠)。妇女文化程度影响到上述生物因素发生变化(如文化程度高,能够更好地掌握避孕知识,可以提高避孕的有效性,减少怀孕的可能),并通过上述因素影响生育孩子的数量。直接讲文化程度与孩子数量的关系,未免有些牵强。3定量与定性〔实例7〕各地每年都要分析当年的人口形势,将当年的数据与上一年的数据进行对比。许多分析报告在列举了对比数据后得出结论:“今年的工作比上一年有明显的进步,取得了巨大的成绩,上了一个新台阶”。但如果我们仔细察看6各项指标的数量,发现变化并不大,如计划生育率由88.5%上升到89%,出生率由15.4‰下降为14.9‰(这其中由于人口年龄结构的变化也能导致出生率下降),多孩出生由165人减少为149人,多孩率由2.2%下降为2%等等。根据这些数据的变化,得出的定性结论应当是:“工作稳步发展,人口增长保持平稳的态势”。人口和计划生育的统计分析主要是指对数据的分析,并由“定量”的描述引申到定性的判断。如果忽视定性的分析,那么,所谓定量分析不过是数量变化的文字描述而已。把握好定性分析的关键在于,定性分析应以定量分析为基础,即“定量”在前,“定性”在后。那种先“定性”,再计算数量变化的做法,违背了“定量”与“定性”的基本规律。这样进行的定量分析,只是给定性的结论加一些数量的点缀。4模糊和精确〔实例8〕某地区的一份材料称,根据20年来每年总和生育率的变化,推算本地区20年来少生了1831275人。〔实例9〕某县计生委利用农村赶集日人口比较集中的机会,出动服务车,设置咨询台,向群众宣传计划生育知识,提供咨询服务。县计生委的汇报材料称,“一个月来在集日7上接受宣传、咨询的群众累计达到127328人次”。乍一看,实例8和实例9中的人数和人次数的统计和计算十分认真仔细,数字如此精确,令人钦佩。但转念一想,不免生疑:实例8中利用总和生育率计算少生人口,需要以年龄别生育率与分年龄妇女人数相乘计算出生人数,一般来看,每个年龄组的计算结果都不会是整数,只好四舍五入。每一年若干个年龄组累计下来,个位数已经含糊不清了。再把20年的少生人数累计起来,怎么可能精确到个位数呢?况且20年间,该地区的人口并非处于“封闭状态”,各年龄组人数因为人口迁移而变化,也会影响到计算少生的数量。至于实例9,在一个开放的、人们频繁走动的集市上,如何判定哪个人接受了宣传,哪个人接受了咨询,并没有一个客观的标准;即使有标准,实际操作中也很难把握,因此,根本没有可能逐人统计。实例8、实例9中看似精确的数据令人感到滑稽,倒不如模糊一些,说“20年大约少生了18万人”,“一个月在集市上接受了计划生育宣传、咨询服务的人次达10余万”,或许有几分可信。从某种意义上讲,人口和计划生育所涉及的是宏观层面的事情,与此相应的统计数据所反映的是大致的状态或趋势,没有必要也没有可能做到精确。许多同志在应用统计方法时,往往注意的是方法本身的定义和计算过程,而对计算中数据的来源不了解。人口和计划生育统8计属于社会经济统计范畴,很多数据是通过抽样调查获得,允许有一定的误差;即使是全面的调查(如人口普查、全局报表),在实施过程中,也会遇到这样、那样的干扰或影响,存在着调查误差,这是无法完全避免的。从某种意义上讲,数据存在一定的误差,这是人口和计划生育统计的特点之一。5原因与结果〔实例10〕最典型的例子莫过于“人口出生率每降低1个千分点,人均GDP提高多少个百分点”的说法。这种说法的依据是利用相关分析法对全国各省的人口出生率和人均GDP的数量变化进行计算,得出二者之间的函数关系式和相关系数。把人口出生率作为自变量,看自变量的单位变化影响因变量(人均GDP)变化的数量大小。在这个例子中相关分析法本身以及有关的数据都是正确的,然而,用这样一个函数式来解释人口增长与经济增长的相互关系是有问题的。其一,就统计方法来说,相关分析只反映变量之间的相关关系,而不说明因果关系;其二,人口增长与经济增长固然相互影响,但从本质上来说,是经济发展影响人们的思想,进而影响人们的生育行为,最终导致生育率下降,人口增长率降低,即经济增长是“因”,而人口9增长是“果”。颠倒了因果关系,不仅逻辑上讲不通,数量上的“相关性”也失去了意义。笔者在多年的工作中体会到,由于人口和计划生育所具有的特点,人口和计划生育统计分析方法的应用和统计数据的解释有别于其它部门和领域对于统计的一般要求。正确地应用统计分析有助于我们认识人口和计划生育的特点和规律,只有科学地认识和把握人口和计划生育的特点和规律,才能避免在统计分析中陷入误区。社会科学实证研究中的统计分析方法应用郑真真(北京大学人口研究所副教授)统计学的应用随着微型计算机的普及越来越广泛,在社会科学实证研究中几乎是无处不在。有了一定规模的数据和一个统计分析软件,就可以很方便地进行各种估算和分析。然而由于统计分析方法本身并不像加减乘除那样简单,而一些统计分析软件已经发展到几乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情况下操作并得到结果,可能出现对统计分析方法误用或滥用的现象。本文仅对一些统计分析中比较常见的问题进行讨论,以引起各方面的10重视。1描述性统计描述性统计是社会科学实证研究中最常用的方法。准确、全面、正确的描述是所有实证分析的基础,如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将是值得怀疑的。一项研究能够将所研究的现象或对象描述清楚,就是一个极大的贡献;而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但是因为描述性统计所用方法简单易得,往往没有得到足够的重视。均值的局限普遍用于描述样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来说是比较好的测量,对于不对称分布则不然,尤其会受到极端值的影响。两个分布完全不同的样本可能会有相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要我们进行深入研究的、或应当引起人们注意的。为了弥补均值的这个缺陷,一般在报告均值的同时也报告方差,或用直方图/散点图的形式描述分布,以提请读者注意群体内部的差异。11不同群体的可比性在描述性统计中,往往涉及到对不同时期或不同人群的总体描述,以反映社会变化或地区差异。在社会科学中、尤其是人口研究中,不少事件的发生都是与年龄密切相关的,如我国妇女大部分在35岁以前完成了生育,从而导致35岁以上育龄妇女中极高的避孕现用率。在这种情况下,两个样本之间存在避孕现用率的差异可能只是年龄结构的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,但忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群。这种对两个不同群体的比较往往会导致错误的结论。绝对数的使用由于中国人口数量巨大,调查研究也比较容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究人群的比例。小样本的代表性在一次抽样的小样本中求得的率或比例会非常不稳定,与另一次抽样的结果可能会有较大差距。因此当研究仅限于从小样本获得的资料时,应当在报告比例12