抽样方案设计一、确定抽样调查的目的、任务和要求二、确定调查对象(总体)的范围和抽样单元三、确定抽取样本的方法四、确定必要的样本量五、对主要抽样指标的精度提出要求六、确定总体目标量的估算方法七、制定实施总体的办法和步骤抽样方案设计的主要程序1、定义总体及抽样单位2、确定所采集的抽样框3、选择抽样技术4、确定必要的样本量5、确定总体目标量的估算方法6、实施抽样抽样技术的分类•抽样技术可以被宽泛地分为非概率抽样和概率抽样•非概率抽样依赖于研究人员的个人判断而非随机选择样本个体;•可以对总体的特征很好的估计;•无法对样本结果的精确度作出客观的评价。•概率抽样随机选择样本单位,选择每个样本的概率相等•每个样本不一定有相同的选择概率,但可以指定选择任一给定大小的特定样本的概率;•可以确定样本估计值的精确度;•可以根据个体抽样对整群抽样、相等单位概率对不等概率、非分层抽样对分层抽样、随机选择对系统选择、单阶段技术对多阶段技术,这5个方面所有的可能组和分成32种不同的抽样技术。抽样技术的分类抽样技术非概率抽样概率抽样便利抽样判断抽样配额抽样滚雪球抽样简单随机抽样系统抽样分层抽样整群抽样在概率抽样与非概率抽样间作抉择决择考虑方面有利于使用的条件非概率抽样概率抽样研究的性质探索性描述性抽样误差与非抽样误差的相对大小非抽样误差较大抽样误差较大总体的变异程度同质(低)异质(高)统计上的考虑不利有利操作上的考虑有利不利随机抽样技术•一、简单随机抽样:–1、含义–2、方法(抽签法、随机数字表法)、入户随机抽样表(序号)–3、优缺点•优点:方法简单直观,当总体名单完整时,可直接从中随机抽取样本;抽取的概率相同,抽样误差及对总体指标加以推断方便•缺点:主要表现在应用上–采用简单随机抽样,一般须对总体各单位加以编号,而实际所需要调查总体往往是十分庞大的,单位非常多,逐一编号几乎是不可能的–对于某些事物无法适用简单随机抽样,如对连续不断生产的大量产品进行质量检验,就不能对全部产品进行编号抽样–当总体的标志变异程度较大时,简单随机抽样的代表性就不如经过分组后再抽样的代表性高–由于抽出样本单位较为分散所以调查人力、物力、费用消耗较大•简单随机抽样适用于单体单位数不太庞大以及总体分布比较均匀的情况随机抽样技术•二、等距抽样(系统抽样)–含义:–单位的两种排列方式–抽样距离的计算–局限性•按有关标志排队时需要较为详细的总体每个单位的有关材料•当抽选间隔和被调查对象本身的节奏性(或循环周期)重合时,就会影响调查的精度•抽样误差的计算较为复杂随机抽样技术•三、分层抽样•四、整群抽样:按大单元整群抽取–划分群时可以相等,也可以不等–可以采用等概率抽样,也可以采用不等抽样–优点是组织工作方便,确定一组就可以抽出许多单位进行观察–缺点:•在抽样单位数目相同的条件下抽样误差较大,代表性较低,在调查实践中采用整群抽样时一般都要比其它抽样方式抽选更多的单位,以降低抽样误差,提高抽样结果的准确程度。–整群抽样的可靠程度主要取决于群与群之间的差异的大小,当各群间的差异越小时,整群抽样的调查结果就越准确。因此在大规模的市场调查中当群内各单位间的差异较大,而各群之间差异较小时,最适用采用整群抽样方式•五、多阶段抽样:我国城市住户调查–两个特点:一是对总体单位的抽选不是一步到位的,至少分两步;二是组织调查比较方便,尤其对于那些基本单位数多且分散的总体,由于编制抽样框较为困难或难以直接抽取所需样本,就可以利用地理区域或行政系统进行多阶段抽样•六、二重抽样法和连续抽样法非随机抽样技术•市场调查中非随机抽样的原因–受客观条件限制,无法进行严格的随机抽样–为快速获得调查结果–调查对象不确定,或无法确定的情况下采用–总体各单位间的离散程度不大,且调查员具有丰富的调查经验时非随机抽样技术•一、方便抽样–又称偶遇抽样,是根据调查方便与否来抽取样本的方法。其优点是简便易行,能及时取得所需的信息资料,省时、省力、节约经费,但抽样偏差较大,一般用于非•二、判断抽样–又称为目的抽样,是凭借调查人员的主观意愿、经验、知识,从总体中选择具有典型代表性的样本作为调查对象的一种抽样方法。•三、配额抽样:–非随机抽样中最流行的一种,与其它几种非随机抽样方法相比,样本具有较高的代表性•四、雪球抽样–优点是便于有针对性地找到被调查者,而不致于“大海捞针”–缺点是要坟样本之间心谤腹非有一定的联系,并且愿意保持和提供这种关系,否则将会影响这种调查方法的进行,影响调查效果。配额抽样•类似随机抽样中的分层抽样,它也是首先将总体中的所有单位按一定的标志分为若干类(组)然后在每个类(组中)用便利抽样或判断抽样方法选取单位。•配额抽样不遵循分层抽样中随机性原则,而是主观地确定对象分配比例。•采用配额抽样,事先要对单体中所有单位按其属性特征分为若干类型,这些属性、特征称为“控制特征”,如被调查者的姓名、年龄、收入、职业、文化程度等,然后按照各个控制特征分配样本数额非随机抽样技术•独立控制配额抽样分配表•相互控制配额抽样分配表–某城市进行空调消费者需求调查,确定样本量为200名,选择消费者月收入、年龄、性别三个标准分类。抽样误差与样本量•一、调查误差的概念与种类–调查误差是指调查的结果和客观实际情况的出入和差数。•非抽样误差:基于抽样之外的许多其它原因而产生的误差,从理论上看,概念性错误、逻辑性错误对回答的错误解释等都可导致此误差的出现,故是调查者需认真对待的一个问题•抽样误差–是指一个样本的测定值与对该变量真值之间的差异,抽样误差无特定偏向,其误差大小主要受以下三个因素的影响•第一,被研究总体各单位标志值的变异程度•第二,抽取的样本量•第三,抽样的组织方式覆盖不周不 在家拒答无回答误解而错答故意错答被访问者责任访问员过失访问员作弊访员责任非观测偏误观测偏误非抽样误差产生的原因•样本量–影响样本量的因素•第一,被调查对象标志的差异程度–方差越大,样本量也就越多•第二,允许误差。又称极限误差–允许误差的大小取决于调查的目的和力量,调查结果要求比较精确,又掌握抽样调查技术的队伍,允许误差可小些反之允许误差可以放大些•第三,调查结果的可靠程度–即概率度t值的大小,可靠程度在统计中叫做概率(用P表示)它对应的数值为概率率(用t表示)•第四,抽样方法–同等条件下不重复抽样比重复抽样的样本单位数少•第五,抽样的组织形式–若采用类型抽样和等距抽样比简单随机抽样需要的样本数目少•此外根据经验,调查表的回收谐调做错了是影响样本数目的一个重要因素,在回收率低的情况下,应适当加大样本数目。•样本量的确定–无论是经常开展抽样调查还是初次开展这些工作,在抽样之前都有一些未知量需要测算。•在抽样之前或抽样之后,总体的X,P和是不知道的,要组织一两次试验性的抽样调查,用样本的有关指标,p或s代替总体的有关指标。如果是连续性的抽样调查,又积累了丰富的经验和历史资料,可以用以前的调查资料代替总体的有关指标。–确定样本量的计算公式可以根据抽样误差的公式推导而来样本量抽样设计过程有关抽样设计的几个问题•在抽样设计中,常常会遇到有关抽样的一些技术问题,如抽样精度的要求、抽取样本数目的大小、抽样方式的选择、样本轮换方法、无回答问题的处理方法、敏感性问题的处理方法等一、抽样精确度问题•调查所需要准确,不是也不可能是百分之百的准确,只要准确性能满足决策要求就可以了,不必追求过分的精确,以至花费过多的不必要的代价。•在进行抽样方案的设计时,应花一定的时间去了解这项调查所要求的准确程度,并以此作为设计整个方案的依据,这样做既能满足决策的要求,又能提高调查的效率–如我国城市家计调查一般要求当置信度为95%时,相对误差不超过2%-3%就可以了二、抽样框误差问题•抽样框是一份关于总体中全部研究对象或抽样单元的资料。在实际调查中有时收集不到这样一份名单,或是虽能得到,但很可能遗漏了总体中的一些元素,还可能包括了并不属于研究总体的另外一些元素,使用这样的名单就会产生抽样框误差•当总体与抽样框之间的差异很小,对此可考虑。但大多数情况下,对此误差应给予关注并给出相应的处理。常用的方法有如下三种:–按照抽样框重新定义总体–在收集资料的过程中筛选被调查者–用加权的方法调整所收集的资料三、样本量的确定问题•有关样本量的计算方法和影响因素已经有了了解。在此强调一点,就是任何精确度及样本量的设计都不能回避调查费用这个基本因素。–事实上任何一项抽样调查都是在一定费用限制下实施的,在很多情况下,提高精确度往往需要加大样本量,而样本量的增加又会导致费用开支提高。因此,精确度要求往往与节省费用要求相矛盾–最优设计应该是在满足一定的误差要求下,使费用最少或在一定费用限制精确度最高的设计四、抽样方式的确定问题•在运用随机抽样方式进行调查时,究竟采用何种方式进行调查,是一个很重要的现实问题。一般情况下,应考虑以下几个方面的因素:–第一,对抽样误差大小的要求。在相等样本条件下,抽样误差的大小主要取决于受总体差大小的影响•根据调查经验,不同抽样方式的抽样误差有所不同,在实际调查时,可根据对调查误差的不同要求和实际条件,选择适当的抽样调查方式–第二,调查对象本身的特点。•对于有些现象,事先没有有关总体各单位的全面、详细的资料,就无法采用有关标志排队的等距抽样,而只能采用其它抽样方式。同时还要考虑对调查对象所能了解的程度,对调查对象了解的越周全,就越能采用准确性高的调查方式–第三,人力、物力、经费和时间等各种调查条件。•如在调查前考虑到抽出的样本可能极为分散,在各地都有,会增加调查往返的时间和费用,就可采用整群抽样的调查方式,使调查样本相对集中,调查员行动半径缩小,以节省人力、费用和时间五、样本轮换问题•其含义是指:在连续调查中,每隔一定时间轮换部分或全部的被调查者户。样本轮换的原因:–第一,长期调查会造成样本老化,由于调查时间过久,调查总体变化较大,样本对总体的代表性会逐渐减弱•一方面,样本中包括不了新增户(如新始户、外地迁入户);另一方面,对老住户的代表性也在减弱,因为随着城区的不断扩大,原抽样框中不可能包括新增居民–第二,长期调查会影响被调查者的合作态度•家计调查是以自愿合作为基础的,调查的顺利与否在很大程度上取决于被调查者的合作态度,当对调查单位时间拖得太长,就有可能遭到拒绝或产生应付心理而影响调查的结果。–第三,长期调查有可能会影响被调查者的行为。•长期调查,即使被调查者愿意,但也有可能出现影响其经济活动和生活方式的问题,从而使被调查户的资料推动代表性。如家计调查中居民本来并不注意家庭生活费收支情况,但长期登记家庭生活费收支帐后,对生活开支加以控制或有意识购买某类商品,这样调查所取得的资料的代表性就下降了。•在抽样设计时,是事需要替换样本,替换多少样本,是设计人员经常面临的问题,应在明确调查目的的前提下,考虑替换样本单位会带来多大的抽样误差,同时还要考虑调查的经费是否许可•不断替换样本会增加经费开支,因此有些调查机构常从节省经费的角度出发,当非替换不可时才考虑替换问题–如我国城市住户调查从1990年起衽抽样轮换制,以增强样本的代表性,提高调查质量•我国城市住户调查的样本轮换是在一次性调查样本中采用对称等距方法抽选的。一次性地抽出若干个轮换组(把一个大样本分成若干个相等的部分,每个部分称为一个轮换组)以备轮换时用。由于轮换组随着时间的推移,会产生老化,从而影响样本的代表性,所以储存若干个轮换组,其储存期限和利用期不得超过3年,即每进行一次居民家庭基本情况调查的一次性调查,原先备用的轮换组就必须全部更新,为保持资料的连续性与可比性,经常性调查户可保留1/3,即一个轮换组到下期调查六、无回答问题•在抽样实践中,常有部分单位的调查结果会因多种而出现空缺,即无回答现象。由此将总体和样本都分为两层:回答层和无回答层–无回答层没有提供样本数据,如果其指标值与回答层没有显著的差异,倒也无妨。但事实上,无回答层和回答层之间常有较明显的非随机性差异,随着调查次数的增加,初次回答者、第二次回答者、第三次回答者之间的均值或比例呈明显的差