调查中的复杂样本

liyuaq
2 ℃
2020-04-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

调查中的复杂样本一、辅助信息的种类1、内部辅助信息来自于本次调查之中。一般有三种情况：（1）目标变量之外的其他变量。（2）为改进估计而专门设计的变量。（3）访问员反馈的信息。2、外部辅助信息。主要有如下类型：（1）普查资料。（2）前期调查资料。（3）各级政府部门的统计数据。（4）各企事业单位的工作记录。二、辅助信息的利用1、抽样设计任何抽样设计都需要辅助信息，抽样框是辅助信息的集中体现，辅助信息内容越多、质量越高，就为进行良好的抽样设计提供了更多更好的素材，具有充分的辅助信息也是良好抽样框的重要标志。例如，分层抽样需要利用辅助信息进行分层，把总体各单元按相应的规则分到各个层中。好的分层应该做到确定合理的层数量，即要解决把总体分为几个层，层和层之间的分界点确定在哪里，总体中的单元应该分别归属于哪个层，每个层的样本量应该是多少等问题。2、目标量估计可以利用辅助信息改进估计方法，提高估计精度，这一点在比率估计和回归估计中表现明显。例如，在一些大型调查中，在设计阶段利用辅助信息进行多阶段分层抽样设计，在估计阶段采用比率或回归估计方法，选择与目标变量相关的辅助变量X。3、数据调整在调查数据调整中辅助信息有许多重要的应用。一个是对入样单元进行权数的计算和调整；二是对利用辅助信息减小调查中无回答的偏差。例如，调查的主要研究变量为受访者的年收入,用y表示。将收集到的34478个样本单位看作一个新的总体,则该总体规模为N=34478,其中男性17062人,女性17416人。已知男性群体和女性群体在研究变量y上的均值分别为196592和135689,且男性回答概率为0.5,女性回答概率为0.9。收入总体总量值Y=571712328假定目标估计量为总体总量Y，为了估计Y，采用简单随机抽样从总体抽取规模为400的样本，其中281个单位有回答。由于不同性别人群回答概率有差别，因此在最终得到的281个回答单位中，女性比例可能高于其总体真实比例。也就是说，与理想的简单随机样本相比，该样本中女性比例偏高。此时如果采用最简单的估计量rkymNYˆ（r表示样本的回答单位集，m表示回答单位数）对Y进行估计显然会夸大女性群体的影响力，造成总收入的估计结果偏低。针对这种情形，引入辅助信息。由于总体中男女人数已知，且回答单位性别已知，因此可以根据性别变量进行分层，并采用事后分层估计量。HhrhhPSTyNY1ˆ进行估计。式中，r表示样本中回答单位集；H表示划分的事后层数；hN表示第h层的总体单位数。此时事后层数H=2，分别为男性和女性。利用相关辅助信息进行分层，使得原来有偏的估计得到了改善。辅助信息的引入减小了无回答造成的偏差，提高了估计质量，辅助信息的无回答处理中起到了重要的作用。三、样本的权数用样本的调查结果对总体的目标量今夕估计是基于这样的原理：每个样本单元不仅代表自己，而且代表研究总体中那些没有被选入样本的单元。抽样推断就是把调查的原始结果放大，得到总体参数的估计。1、设计权数设计权数是由抽样设计所规定的每个样本单元所代表研究总体的单元数，也就是样本单元入样概率的倒数。例如，在简单随机抽样中，用dW表示设计权数，总体总值的估计为niidyWY1ˆ，因为在简单随机抽样条件下每个单元入样概率的Nn,则NnWd，所以总体总值的估计又可以写为niinidynNyWY11ˆ。因为每个单元入样概率相等，又称为等概率抽样。在采用等概率抽样设计时，每个单元的设计权数是相同的。系统抽样也是等概率抽样。在系统抽样中抽样间隔就是设计权数，每隔一定间隔抽取一个单元，用抽中的单元代表该间隔所有单元的情况。对于分层抽样，如果按照各层规模等比率分配样本，也是等概率抽样；如果不是按各层规模等比例分配样本，如内曼分配，则是不等概率抽样。在不等概率抽样条件下，每个单元的设计权数是不同的。在多阶段抽样条件下，设计权数由每个单元在不同阶段的入样概率相乘而得。例如，对于两阶段的抽样设计，令iP1代表第i个单位在第一个阶段的入样概率。令iP2代表第i个单位在第二个阶段的入样概率，则i单元的设计权数为iidPPW211。2、权数结构调整权数的结构调整主要指调查现场出现与抽样设计不同的情况，为了保证抽样设计方案的落实而进行的某些权数调整。例如，我国劳动力抽样调查是多阶段分层整群抽样，最后阶段抽取群，群由30个家庭户组成，对抽中群的家庭户全部进行调查。在调查实施中，不可能保证所有的群都正好为30户，如在农村有自然村，对于规模很小的自然村（远少于30户）可以合并为群，对于规模差不多的自然村（30户左右），该自然村就是一个群。在城市通常取某栋住宅楼或其某个单元为一个群。有些群的规模与抽样设计相同（正好30户）或相仿（30户左右），有些群的规模则与抽样设计要求相差较大，这时就需要对入样单元的设计权数进行调整。在这个例子中，设群的规模为M，如果M30，则给该群的每一个家庭户都赋予一个结构调整权数MW30。例如，一个群包含45户，则该群的每个住户的结构调整系数4530W。3、权数的无回答调整存在无回答情况时，如果不对原有的设计权数进行调整，那些无回答单位的权数就会丧失，总体的规模就会被低估，从而导致对总值进行估计的出现严重偏差。权数的无回答调整可以计算无回答调整系数，令nrW为回答调整系数，rW为调查中回答单元权数和，nW为调查中无回答单元的权数和，则无回答调整系数为：rnrnr4、最终权数最终权数是对目标量进行估计所适用的权数，是设计权数，结构权数，无回答调整系数的结合体。最终权数=设计权数×结构权数×无回答调整系数=dW×W×nrW四、自加权设计自加权是指调查中每个样本单元的设计权数是相同的，也就是说每个单元最终入样的概率是相等的。在单阶段抽样条件下进行自加权设计比较容易，例如简单随机抽样，系统抽样，按层规模等比例分配样本的分层抽样等都属于自加权设计，因为实施这些抽样方法都能使总体中每个单元的入样概率相等。在多阶段抽样设计下情况有些复杂，要得到自加权样本需要有意识地去设计，已达到每个单元最终入样概率相同的目标。既然在大规模调查中自加权设计不是一件容易的事，为什么还要努力实现自加权呢？首先，自加权设计不一定就绝对完美，所有的调查也不一定都要以自加权设计为模式，自加权设计只是所有抽样设计中的一种类型，况且进行自加权设计需要一些条件。但是如果条件允许，把自加权设计当作一个优先的选择是有道理的。因为在大规模调查中，样本量通常都比较大，每个单位的权数不等时，计算权数的工作量较大，而且调查中会有多个参数，对每个参数进行估计都要加权，使数据处理变得比较复杂。如果进行自加权设计，每个单元都有相同的权数，数据处理就得到简化。1、分层PPS抽样分层PPS抽样指对总体进行分层，然后在各层采用PPS抽样这种方法，PPS抽样是与样本规模大小成比例的概率抽样。若将总体划分为L层，hiy为第h层中第i个样本单元的调查值，hix为第h层中第i个样本单元作为PPS抽样的规模，hX为第h层的总规模，则第h层第i个单元的入样概率为hhiXx，第h层的样本量为hn，由抽样理论可知，该抽样方法的总体总值估计量为：hnihihiLihhxyxXY11ˆ。如果是自加权设计，则要求第层的样本了为，也就是各层样本量与层规模大小成比例，于是估计量可以简化为：LinihihrxXY11ˆ2、两阶段抽样从总体的N个初级单元中采用简单随机抽样抽取n个初级单元，用iM表示第i个初级单元的规模，在入样的第i个初级单元中采用简单随机抽样抽取个im单元最终接受调查。依据抽样理论，总体总值的估计量为：imjijniiiymMnNY11ˆ,式中，ijy为第i个初级单元中第j个最终单元的调查值。要使这种抽样方法成为自加权设计，就必须使iimM成为常数，也就是说第二阶段的抽样中，无论在那个初级单元中都采用等比例抽样。3、两阶段PPS抽样如果第一阶段采用与初级单元规模iM成比例的概率抽样,即PPS方法抽取初级单元,第二阶段采用等概率方法（简单随机抽样或系统抽样）抽取最终单元,则总体总值的估计量为:iimjijniimjijniiiiymMnymMMMnY11011011ˆ式中,NiiMM10为初级单元规模之和，即总体规模。由于0M是一个常数，要使该设计成为自加权设计，就需要使imM0为一常数，也就是在每个入样的初级单元中抽取相同数量的最终单元im。在多阶段抽样中，由于前面阶段通常采用PPS抽样方式，所以可以把这种抽样模式的规律总结如下：如果要实现自加权设计，在两阶段抽样中，第一阶段采用PPS抽取初级样本单元，在每个人选得初级单元中采用等概率方法抽取相同数量的最终单元；如果是三阶段抽样，在前面两个阶段，均采用PPS抽取初级、二级样本单元，在入选的二级样本中采用等概率方法抽取相同数量的最终单元；对于更多阶段的抽样可以类推。