抽样知识点

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1.抽样调查广义的抽样调查:是从研究对象的全体(总体)中抽取一部分单位作为样本,根据对所抽取的样本进行调查,获得有关总体目标量的了解。从总体中抽取样本的方法看,抽取方法可以分为两类:一类是非随机抽样(非概率抽样);一类是随机抽样(概率抽样),狭义上的抽样就是随机抽样。2.随机抽样(概率抽样)随机抽样是从总体中按随机原则抽取样本,并依据样本观察值对总体的数量特征取得具有一定可靠性的推断,从而达到对总体的认识。随机抽样的特点:1.所谓随机原则就是在抽取样本时排除主观上有意识地抽取调查单元,使每个单元都以一个事先已知的非零概率有机会被抽中。2.每个单元被抽中的概率是已知的,或是可以计算出来的,按照给定的入样概率通过一定的随机化程序进行抽样。3.估计量不仅与样本单元的观测值有关,也与其入样概率有关。随机抽样的主要优点是:随机抽样比非随机抽样更具有客观性,而且随机抽样可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。3.非随机抽样(非概率抽样)非随机抽样是相对于随机抽样而言的。非随机抽样的共同特点是:抽取样本时,是依据主观判断有目的、有意识地进行,或根据方便的原则进行。滚雪球抽样判断抽样定额抽样便利抽样)随意调查非随机调查系统抽样不等概率抽样多阶抽样整群抽样分层抽样简单随机抽样随机调查非全面调查全面调查统计调查(4.抽样调查的基本程序一、确定调研问题——二、抽样调查设计(抽样设计、问卷设计)——三、实施调查过程——四、数据处理分析——五、撰写调查报告——六、总结评估5.总体、目标总体与抽样总体、抽样框、样本(包含第十章抽样框误差定义)所要研究对象的全体称为总体,组成这个总体的每个个别对象就称为总体单元或总体单位。总体又有目标总体与抽样总体之分。目标总体就是抽样调查预先确定的所要认识的对象的全体,也就是从样本中得到信息对之进行说明的总体。抽样总体就是从中进行抽样的总体,是抽取样本的依据,从样本中得到的结论只适用于抽样总体。抽样总体应该与目标总体完全一致,但实践中两者不一致的情况时常发生。抽样框是一份包含所有抽样单元的名单、清册或地图。抽样单元是构成抽样框的基本要素。理想的抽样框标志是目标总体和抽样总体完全重合,就是说目标总体单元和抽样总体单元完全是一一对应的关系。否则,抽样框就是不完善的,这意味着有可能出现抽样框误差。这种误差并不是来自于抽样的随机性,而是产生于不完善的抽样框,所以抽样框误差是一种非抽样误差。把从总体中按一定程序抽出的部分总体基本单元的集合称为样本。样本n对总体单元数N的比称为抽样比,即抽样比Nnf。6.几种基本的抽样方法简单随机抽样、分层抽样、整群抽样、系统抽样、多阶抽样、不等概率抽样7.抽样误差与非抽样误差(包含第十章内容:非抽样误差的定义及分类)由于样本的随机性引起的误差称为抽样误差,确切地讲,就是用样本数据估计总体指标而引起的总体指标估计值与总体指标真值之间的离差。非抽样误差是相对于抽样误差而言的,是指除抽样以外的,由于其他多种原因引起的总体指标估计值与总体指标真值之间的差异。非抽样误差分类:1.抽样框误差,即由不完善的抽样框引起的误差。2.无回答误差,即由于种种原因没有能够从调查单元获得调查结果,造成调查数据的缺失。3.计量误差,即所获得的调查数据与调查项目的真值之间不一致造成的误差。8.精度与费用、最优设计抽样误差的精度通常用给定置信度下的绝对误差限或相对误差限表示,也可以以估计量的方差、标准差或变异系数形式提出。抽样调查的精度取决于误差的大小。抽样误差越小,说明用样本统计量对总体指标进行估计时的精度越高。抽样误差与样本量有关,样本量越大,在其它条件相同情况下,抽样误差就越小,抽样调查的精度就越高。同时,样本量也与调查费用有关,样本量越大,调查费用就越高。样本量与调查费用大致呈线性关系,但样本量与精度却成非线性关系。对于一个具体的抽样设计,在核定的费用内达到最高的精度,或在达到精度要求的条件下使调查的费用最少,则称这样的抽样设计为最优设计。9.简单随机抽样(定义、作用、局限性)及其抽选方法简单随机抽样(或单纯随机抽样)是一种等概率的抽样方法,即每一个总体单元进入样本的概率都是相同的,一般局限于不放回随机抽样。简单随机样本的抽选通常有两种做法:抽签法和随机数法。简单随机抽样在抽样理论中占有重要的地位,其他抽样方法技术都是在它的基础上建立发展起来的。简单随机抽样的局限性主要表现在:首先,当总体单位数N很大时,则编制抽样框比较困难;其次,简单随机抽样也不利用其他辅助信息,使得它的效率较其他利用辅助信息的抽样设计方法低。最后,由于样本在总体中的地理分布很广,如果采取面访,就费时费力,实际操作难度很大,完全有可能得到一个代表性很差的样本。10.设计效应一个特定的抽样设计(包括抽样设计方法以及对总体目标量的估计方法)估计量的方差对相同样本量下(不放回)简单随机抽样的(简单)估计量的方差之比,即效率越低。值越大,抽样估计量的方差相同样本量下简单随机的方差所考虑抽样设计估计量,deffdeff11.分层抽样的定义、特点、划分原则将容量为N的总体分成L个不相重叠的子总体,子总体的大小分别为N1、N2、…NL,皆已知,且每个子总体就称为层。从每层中独立地进行抽样,这样的抽样方法称为分层抽样。分层随机抽样:在分层抽样中,如果每层中的抽样都是简单随机抽样,则这样的分层抽样称为分层随机抽样。分层随抽样的特点:1.分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。2.分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。3.层内抽样方法可以不同,而且便于抽样工作的组织。4.为了组织调查的方便,各层可以根据层内的特点,分别采取不同的抽样方法。层的划分原则:1.层内单元具有相同性质,通常按调查对象的不同类型进行划分。2.尽可能使层内单元的标志值相近,层间单元的差异尽可能大(层间方差大,层内方差小),从而达到提高抽样估计精度的目的。3.既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。4.抽样组织实施的方便,通常按行政管理机构设置进行分层。12.比率估计与回归估计概念与应用条件XYXYR即均值)之比值体的两个指标总量(或所需估计的目标值是总,。比率估计量又称比估计。在简单随机条件下,若分别以y,x表示两个指标均值,以Rˆ表示样本比率,则iixyxyRˆ,若以Rˆ作为总体比率R的估计,就称为R的比率估计。在简单随机抽样下,总体均值与总体总量的线性回归估计量定义为:xXyylrˆ,tryNYˆˆ,其中,y、x分别为调查变量、辅助变量的样本均值,X是辅助变量的总体均值,称为回归系数。有两种情况需要应用比率估计量。一是利用两种变量样本对总体比率进行估计时需要应用比率估计量;二是一个变量为调查变量,另一个变量表现为与调查变量有密切关系的辅助变量,在对调查变量总体总量、总体均值等目标量进行估计时,利用已知的辅助变量信息构造比率估计量可以提高估计的精度。比率估计、回归估计是非线性估计,于简单估计相比,其优劣取决于辅助变量的选择,也就是辅助变量应该与调查指标有较好的正相关关系,例如正比例关系或线性回归估计。13.不等概率抽样定义与适用场合总体单元差异特别大的情况时,通常是牺牲“简单”来提高抽样效率。一是将总体单元按规模(大小)分层,对较大单元的层抽样比定的高些,抽样比甚至可以是100%,而较小单元的层抽样比定的低些。二是赋予每个单元与其规模(或辅助变量)成比例的入样概率,这样一来,大单元入样概率大,小单元入样概率小。这就是不等概率抽样。实际工作中,以下情况可以考虑使用不等概率抽样:1.需要估计总体总量但总体单元规模相差很大的情况,抽样单元在总体中所占的地位不一致。2.由于种种原因不能直接对基本的较小的单元抽样的情形。14.整群抽样的定义与特点整群抽样是将总体单元归并成数量较少而规模较大的初级单元也称为群,二级单元即为基本单元。然后以群为抽样单元,按某种方式从中抽取部分群,对抽中的群中的所有基本单元进行调查的一种抽样方法。优点:1.构造抽样框比较容易。2.实施调查便利,节省费用。缺点:在多数情况下,与简单随机抽样相比,其抽样误差较大。但是,对于某些特殊结构的总体,整群抽样反而有较高的精度,例如总体中各个群的结构相似时。15.整群抽样的设计效应和群的划分原则整群抽样的设计效应为:ccsrsMSnMfMSnMfYVyVdeff)1(11)1(11)ˆ()(22划分群的原则:群内方差尽可能大,而群间方差尽可能小(群内单元差异大,群间差异小)。16.多阶抽样的定义和优点将一个很大的总体划分为N个初级单元,每个初级单元又划分为若干二级单元(或次级单元),若在总体中按一定方法抽取n个初级单元,对每个被抽中的初级单元再相互独立地抽取若干二级单元进行调查,这种抽样称为二阶抽样。在二阶抽样中,全部抽样是分两步实施的:第一步是从总体中抽初级单元,称为第一阶抽样;第二步是从每个被抽中的初级单元中抽二级单元,称为第二阶抽样。优点:1.多阶抽样一方面保持了整群抽样的样本比较集中、便于调查、节省费用等优点,同时又避免了对小单元过多调查造成的浪费,充分发挥调查抽样的优点。2.大大降低编制抽样框的工作量。3.能够提高估计精度。4.多阶抽样每一阶的抽样方法更加灵活和多样化。二阶抽样与分层抽样、整群抽样的关系:如果第一阶抽样采用全面调查,二阶抽样就成了分层抽样;如果第二阶抽样采用全面调查,二阶抽样就成了整群抽样。17.系统抽样的定义、特点及局限性系统抽样是将总体单元按一定顺序排列,在规定的范围内随机抽取一个单元作为样本的第一单元,即起始单元,然后按照某种特定的规则抽取其他样本单元的一种抽样方法。特点:1.简便易行,简化抽样手续。2.对抽样框的要求比较简单。3.系统抽样的精度与总体单元的排列顺序密切相关。局限性:1.如果单元的排列存在周期性的变化,而抽样者对此缺乏了解或缺乏处理的经验,抽取的样本的代表性就可能很差。2.一般系统抽样没有设计意义下的无偏估计量,且系统抽样的方差估计较为复杂。18.无回答误差、计量误差与离群值的概念无回答误差是指在调查中由于各种原因,调查人员没能够从入样的单元处获得所需要的信息,由于数据缺失造成估计量的偏误。计量误差是指由于种种原因,调查中所获得的数据与真实值不一致而造成的误差。主要成因来自于设计误差、被调查者误差、调查者误差和其他误差。离群值是调查数据集里的极端值,是指和其他数据明显不一致的观测值。第三章简单随机抽样简单随机抽样的常见指标总体指标样本指标NNiiYYYYY211NYYYYNYNNii2111)10(11或iNiiYYNNAPXYXYXYRNiiNii1122121)(11NNYYNSNiinyyyynynnii2111)10(11或iniiyynnapxyxyxnRniinii11ˆ212)(11yynsnii总体均值的估计性质1对于简单随机抽样,Yy是的无偏估计。即YyE)(性质2对于简单随机抽样,221VSnfSnNnNyy)(的方差为:性质321)(snfyvyV的无偏估计为:性质4区间估计(-1)ˆV-ˆ(21uP,ˆˆ2121SuVud)的近似置信区间为的置信度为1Y(snfuy121,snfuy121)对于放回简单随机抽样,对总体均值Y的简单估计为:niiyny11Y,Y是y的无偏估计,其方差为21Vny,其中221211SNNYYNNii,因为22sE,因此,21snyvyV的无偏估计为:。总体总量的估计(N1iiYYNYnN

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功