中国综合社会调查(CGSS)第二期(2010-2019)抽样方案2目录一、调查背景.............................................................................................3二、调查目标总体....................................................................................3三、抽样设计原则....................................................................................3四、抽样设计中的几个问题....................................................................4(一)关于分层..................................................................................4(二)各阶段抽样单元......................................................................4(三)样本量的界定及分配..............................................................5五、具体设计.............................................................................................6(一)必选层的样本抽取..................................................................6(二)抽选层的样本抽取..................................................................8六、最终样本的构成..............................................................................10七、样本权数的确定..............................................................................10(一)设计权数................................................................................10(二)实际执行情况调整................................................................11(三)最终权数的确定....................................................................11八、主要估计量......................................................................................11(一)各小层内部目标量的估计....................................................12(二)全国目标量的估计................................................................13九、估计量的方差估计..........................................................................14十、附录:抽选层100个样本初级单元..............................................163中国综合社会调查抽样设计方案(2010)一、调查背景我国是世界上人口最多的国家,随着我国市场经济的发展,社会正在发生巨大的变革,经济发展使得对全国社会多方面信息的需求日益突出。及时、全面、客观地了解我国收入、医疗卫生、教育、失业保障等方面的信息,将为国家宏观调控政策的制定和企业的更好发展提供保障,对于促进城乡社会的协调发展、保持国民经济可持续发展都有着重大的现实意义。中国综合社会调查是一项全国性的大型调查项目,调查总体是全国城镇居民和农村居民。本次调查的总体要求:(1)能够全面了解我国城乡社会发展情况;(2)能够对城市群体和农村群体进行对比分析;(3)能够在地理概念或者区域发展水平方面体现我国社会发展的地域差异性。本方案着重介绍此次调查项目的抽样方案设计以及样本数据的权数调整方法。设计方案充分考虑了全国及不同地域估计的需要,对调查总体进行了科学、细致的分层,在一定程度上提高了估计精度;特别是在城乡样本配比、设立自我代表层、样本数据加权等问题的处理上体现了本方案的科学性、高效性、可操作性等特点。二、调查目标总体此次调查的目标总体为全国31个省、自治区、直辖市(不含港澳台)的所有城市、农村家庭户。三、抽样设计原则首先,作为全国性的抽样调查,整体方案必须是严格的概率抽样,要求样本对全国及某些指定的城市或地区具有代表性。其次,抽样方案必须保证具有较高4的效率,即在相同的样本量条件下,方案设计应使抽样误差尽可能小,调查精度尽可能高。最后,方案必须具有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理。四、抽样设计中的几个问题(一)关于分层根据本次调查的研究需要,将调查总体分为两大类:一是必选层,该层总体为入选大城市的市辖区家庭户;二是抽选层,该层总体为除去必选层市辖区以外全国所有家庭户。1、必选层根据调查需要及以往调查经验,本次调查对那些发展处于国内领先水平的大城市将特殊对待,将该类城市市辖区家庭户作为单独一层进行设计,作为必选层。对于大城市的界定,着眼于直辖市、省会城市和副省级城市共36座城市,从经济水平、教育水平及城市开放性程度等角度出发,选取GDP、拥有教师总数、外国直接投资(FDI)实际使用外资金额这三个总量指标进行考察,采用因子分析方法确定排名前五的城市进入必选层。需要特别说明的是:该层的调查对象为这些城市的市辖区居民,该层最终调查单元均划为城市家庭户。2、抽选层抽选层的调查总体由必选层以外的城市、农村家庭户组成。为了便于在后期数据分析中采用平衡半样本进行方差估计,对初级抽样单元的分层划分打破省级地域限制,进一步增加分层的层数。将抽选层划分为区层和县层(包含县级市和县),采用人口密度、非农业人口比重和人均地区生产总值三个指标,在区层和县层中分别进行因子分析,得到区层和县层内各个区县的综合因子得分;在对综合因子得分进行排名的基础上将区层进一步分为19层,县层划进一步分为31层,抽选层共计细分划分为50个层。(二)各阶段抽样单元本次调查采用分层三阶段概率抽样,视所在层情况,各阶段抽样单元略有不同,详见表1。5表1各阶段抽样单元第一阶段抽样单元第二阶段抽样单元第三阶段抽样单元必选层街道居委会家庭户抽选层区、县级市、县居委会、村委会家庭户这样设计的原因在于:对于必选层,选择街道作为初级抽样单元可以细化抽样框,使得样本点相对分散,有利于总体信息的采集,避免由于抽样框过粗而导致样本有偏。对于抽选层,全国区、县级市、县的数量较多,以其作为初级抽样单元比较合适。(三)样本量的界定及分配1、目标样本量目标样本量是指在一定精度要求下,实现调查目标所必需的样本量。根据以往调查经验,本次调查设定目标样本量为12000户,其中必选层2000户,抽选层10000户。后续部分涉及的样本量分配均立足于目标样本量。2、各阶段样本量分配由于必选层与抽选层设计的各阶段抽样单元略有不同,因此,分别介绍两者各阶段样本量的分配。对于必选层,该层总样本量为2000户,计划抽取40个初级抽样单元(街道),每个初级抽样单元(PSU)抽取2个二级抽样单元(居委会),每个二级抽样单元(SSU)中抽取25个家庭户。对于抽选层,该层总样本量为10000户,计划抽取100个PSU(区、县级市、县),每个PSU中抽取4个SSU(居委会、村委会),每个居委会(村委会)中抽取25个家庭户。最终,本方案共需抽取140个PSU,480个SSU。3、样本城乡分配为了能切实反映全国范围城乡社会的真实情况,并在后续研究中能够对城乡进行对比研究,需要保证样本在城乡分配上与实际情况一致。首先明确本方案中的城乡样本概念,本方案设计基于这样的假设:居委会的家庭户为城市居民,村委会的家庭户为农村居民。6统计资料显示,目前我国城市常住人口数与农村常住人口数基本持平,由于城市居民主体的各方面差异相对明显,方差较大,因此将样本量的城乡分配比例确定为6∶4。根据第一阶段样本量的分配结果,必选层中共抽取80个居委会,共计2000户,因此抽选层内城乡家庭户数需分别为5200和4800户才能满足6:4的要求。由于抽选层每个PSU下抽取4个SSU(居委会或村委会),每个SSU内最终抽样单元的目标样本量均为25,因此对城乡样本比例的控制,主要是使得抽选层居委会与村委会下的城乡样本比例达到5200:4800,也即抽选层中的居委会与村委会样本个数比约为208:192。为了实现样本二级单元208:192的目的,需要根据样本初级单元的城市化水平(非农业人口比重)分配样本居委会和村委会的数量。这里采用分别在区层和县层样本初级单元内,根据各个区县的城市化水平(用非农人口比重表示)进行分段,形成若干个区间,然后根据不同的区间对样本区县中的居委会、村委会个数进行分配的方法来实现样本居委会和村委会的比例要求。4、接触样本量如果回答率达到100%,则调查时需要的接触样本量即为有效样本量,但现实中无回答现象不可避免。要克服这个困难,可以采取替换样本的方法,但样本替换在实际操作中存在缺陷,因此本方案采取利用膨胀系数扩大样本量的方法,对第三阶段样本量进行放大。根据往年调查经验,发达城市的市辖区居民由于种种原因,回答率在50%左右,即膨胀系数在2左右,因此在必选层每个二级单元抽取50户家庭,该层接触样本量扩大至4000;抽选层的居民群体回答率高于必选层,但其内部还有差异,大体上城市居民的回答率在65%左右,农村居民的回答率高于城市居民,大致在85%左右,因此,对于抽选层,在每个居委会抽取38户,在每个村委会内抽取30户。五、具体设计(一)必选层的样本抽取1、必选层入样城市的确定7首先对全国36座城市(包括直辖市、省会城市、副省级城市)市辖区的GDP、拥有教师总数、外国直接投资(FDI)实际使用外资金额这三项指标进行因子分析,最终确定5个城市进入必选层。这里给出进行因子分析之后,综合得分排名前五的城市名单(见表2)。表236座城市中前5座城市排名城市名称1上海2北京3广州4深圳5天津2、初级单元的抽取根据最新的全国行政规划,这5座城市市辖区总数为67个,如果以67个市辖区为初级阶段抽样框,初级单元个数有限,可能会导致样本在分布上过于集中,影响样本对该层总体的代表性,为了使样本点分布较为分散,将初级抽样单元细化为街道,由此,必选层的抽样框为入选城市市辖区的街道,且该层人口规模均只采用城市人口。以必选层入选城市市辖区的街道作为抽样框,以各街道的城市人口规模为辅助信息,采取与人口规模成比例的PPS抽样抽取40个街道作为该层的PSU,这里:最终抽样单元为家庭户,理论上应该以街道的户数作为辅助信息,但目前这方面信息缺乏,因而用街道人口数作近似处理。具体步骤说明如下:设共有N个初级单元(街道),第i个初级单元的人口规模为iM(1,2,,iN),首先按地理区域将街道进行排序并产生累计人口数列,即排序第一位二级抽样单元为1M,对应的累积人口为1M;排序第二位的单元人