第6章抽样设计22020/1/20本章的几个基本问题是否进行抽样?采用什么样的方法抽样?选择什么类型的样本?样本大小如何确定?如何控制和调整样本误差?一、抽样设计概述1、什么是抽样调查日常生活的例子抽样调查:按照一定方式,从调查总体中抽取能代表总体的一部分(即样本)进行调查,然后用样本所包含信息对总体的状况进行估计和推算的一种调查方法。相对于普查52020/1/202、抽样调查相关概念总体样本总体指标抽样指标抽样单元与抽样框抽样误差62020/1/20总体总体指所要调查对象的全体,其中每个被调查对象叫做个体。实际调查中总体的定义要精确和具体。样本样本:是从调查总体中被选择研究的对总体具有代表性的一些个体样本容量:样本中个体的数目大样本、小样本(≤30)抽样单元、样本单位和样本框抽样单元为方便实行随机抽样,将总体划分为有限个互不重叠的部分,每个部分就是一个抽样单元样本单位(样本元素)组成总体或样本的基本单位抽样单元不一定是样本单位样本框:总体中所有样本单位的完整列表92020/1/20总体指标和样本指标总体指标:总体参数总体平均数和总体成数总体方差和均方差样本指标样本平均数和样本成数样本方差和均方差抽样的价值:用样本指标估计、推算总体指标抽样误差抽样误差:指样本指标值与被推断的总体指标值之差。主要包括:样本平均数与总体平均数之差样本成数与总体成数之差抽样误差的主要来源抽样方法样本容量总体单位的标志值的差异程度112020/1/203、为什么要开展抽样调查普查不可行总体太大有些个体难以接触破坏性费用高昂时间与时效问题抽样调查的必要性和可行性122020/1/204、抽样调查适用范围对一些不可能或不必要进行全面调查的项目;经费、人力、物力和时间有限的情况;运用抽样调查对全面调查或普查进行验证;对某种总体的假设进行检验,判断这种假设的真伪,以决定行为的取舍。132020/1/205、抽样调查的一般程序定义总体确定抽样框设计样本计划样本抽取与检验估计与推算定义总体根据研究目标识别目标总体;根据人口统计学特征,将目标总体明确化进一步明晰样本单位。识别抽样框(样本框)抽样框的常见形式:电话号码本、名单、手册、地图、数据包等抽样框的要求抽样框应是有序的(抽样单元有编号,且按某种顺序排列);抽样框中包含的抽样单元应“不重不漏”。评估抽样框误差设计样本计划考虑数据收集成本确定具体抽样方法确定样本容量样本抽取与检验样本抽取的步骤选择样本单位从样本单位获取信息样本抽取中的问题受访者替代:舍弃、过多抽样、再抽样样本有效性:检验样本的代表性二、抽样技术的分类及选择192020/1/201、什么是抽样技术抽样技术对抽样的方法、操作技巧和工作程序的总称。抽样技术分为两大类型:概率抽样:总体元素均有一定概率入选样本非概率抽样:无法估计总体元素的选样概率202020/1/202、概率抽样技术特点:每个总体元素都有一个已知的、非零的机会(概率)入选为样本。这个概率不一定相等,其大小取决于样本选择程序。保证了样本的代表性类型简单随机抽样系统抽样技术分层随机抽样技术分群随机抽样技术212020/1/20简单随机抽样例子:抽签法、随机数表法特点:每个总体元素入选为样本的概率相等;能得到总体特征的无偏估计值;要求有总体元素的完整列表。适应情况:调研总体中各个体之间差异较小调查对象不明,难以分组、分类222020/1/20系统抽样系统抽样:先将总体的各个体按一定的标志排列起来,然后,按照固定顺序和一定间隔来抽取样本个体。跳跃区间(间隔):总体数(N)÷样本数(n)抽样标志按与调查项目无关的标志排队,如门牌号;按与调查项目有关的标志排队,如住户月均收入避免自然周期的影响232020/1/20分层抽样分层抽样:先将总体的所有个体按某一重要标志进行分类(层),然后在各类(层)中采用简单随机抽样或系统抽样。分层抽样的理由:抽样误差更小可以对特定群体进行研究分层抽样方法:等比例分层分等比例分层242020/1/20整群抽样整群抽样将总体分为若干子群体,随机抽取一个群体,以此推断总体的一般特性。适应于:大规模市场调查中,群体内各个体的差异大,但各群之间的差异较小的情况。如产品质量检验概率抽样技术比较优点缺点简单随机抽样易于理解成本高,精确度较低,不能确保代表性,难以构建抽样框系统抽样可增加代表性,比简单抽样容易执行,不需抽样框会降低代表性分层抽样精确难以选择相关的分层变量整群抽样容易执行不精确,难以计算和解释结果262020/1/203、非概率抽样技术特点不是基于概率,但努力抽取代表性样本类型方便抽样判断抽样配额抽样参考抽样272020/1/20方便抽样(偶然抽样)方便抽样:以偶然的方式获得样本具体方式街头拦截法特点方便代表性无法保证应用适合探测性研究不适合描述性研究、因果性研究282020/1/20判断抽样(目的性抽样)专家判断选择样本平均型:是在调查总体中挑选代表平均水平的个体作为样本,以此作为典型样本来推断总体。多数型:是在调查总体中挑选占多数的个体作为样本来推断总体。利用统计资料判断选择样本利用调查总体的全面统计资料,按照一定的标准选择样本。292020/1/20配额抽样配额抽样:按照一定的标准分配样本数额,并在规定数额内由调查人员任意抽选样本。配额抽样vs分层抽样分层抽样是按随机原则在层内抽样。配额则是由调查人员在配额内主观判断选定样本配额抽样vs判断抽样配额抽样是分别从总体的各控制特性的层次中抽取若干个样本,复杂,注重“量”;判断抽样是从总体的某一层次抽取若干符合条件的典型样本,简单,注重“质”。302020/1/20参考抽样(滚雪球抽样)先随机方式选择一组调查对象或个体,在对他们进行调查后,根据他们所提供的信息或由他们推荐选择下一组调查对象或个体。可以分析调研总体中的稀有特征,如35岁的单身贵族。非概率抽样技术比较优点缺点方便抽样成本最低,耗时少,最方便有选择偏差,无代表性判断抽样低成本,方便结论不支持推广,主观配额抽样可以就确定的特征对样本进行控制有选择偏差,不能确保代表性滚雪球抽样可以估计稀缺特征较耗时4、抽样技术的选择非概率抽样概率抽样研究性质探索性归纳性误差非抽样误差较大时抽样误差较大时总体的变异程度同质异质统计上的考虑不要求精确时要求精确时操作上的考虑人员/费用/时间有限制时人员/费用/时间允许时三、样本容量的确定1、初始样本量的计算以简单随机抽样为例给定均值,计算样本量给定成数,计算样本量样本容量的确定:均值简单随机抽样下,通常使用误差限和估计量的标准差来确定所需的样本量。其中,z为置信区间的值,为估计量的标准差,e为调查误差,N为总体大小样本容量的确定:成数对于简单随机抽样,给定成数估计若在以往调查中可得总体比例的一个较好估计,那么直接将它代入上面的公式就可以得到所需的样本量;否则可以用,因为这时总体的方差最大。则公式简化成常用的样本量:经验数据容许的抽样误差e(%)样本量n容许的抽样误差e(%)样本量n1.0100005.53201.545006.02772.025006.52372.516007.02043.011007.51783.58168.01564.06258.51384.54949.01235.04009.511010.01002、系数修正当目标样本相对于目标总体较大时(占10%以上),会高估总体参数的方差,这时使用修正系数:3、考虑设计效应如果抽样设计不是简单随机抽样,则用下面公式对样本量进行调整:其中,B是设计效应。简单随机抽样设计,设计效应等于1;分层抽样设计,设计效应一般小于等于1;整群或多阶抽样设计,设计效应一般大于等于1。4、确定最终样本量根据回答率/发生率再对样本量进行调整,以确定最终的样本量r为预计回答率或发生率例子:样本量计算某杂志出版商希望得到读者对该杂志综合满意度的估计值。通过邮寄调查,出版商可以联系到所有2500个订户。但由于时间的限制,出版商决定使用简单随机抽样进行电话调查。请问应访问多少个订户?我们假定:可接受的误差限e为0.10;调查估计值的置信度为95%,因此Z=1.96;使用简单随机抽样;预计回答率=0.65;由于事先没有关于顾客满意度的估计,方差应取最大,即。样本量的计算步骤如下:第1步:计算初始样本量:第2步:根据总体大小调整样本量(这一步只需对中小规模的总体):第3步:根据抽样的设计效应来调整样本量:在本例中,由于假定采用简单随机抽样设计,所以B=1。第4步:根据无回答情况进行调整,确定最终的样本量:四、抽样误差及其测定472020/1/201、调查误差系统误差抽样误差482020/1/202、抽样误差的影响因素被调研总体各个体标志值的变异程度:总体的方差和均方差越大,抽样误差就越大,反之,误差越小。抽样的个体数目(样本容量):个体数目越多,误差越小。抽样调查技术:系统抽样,分层抽样方式比简单随机抽样误差小。492020/1/203、抽样平均数的标准误差重复抽样不重复抽样当N→很大μx:为平均数抽样标准误差μp:为成数抽样标准误差σ2:为总体方差σ:为总体均方差N:为总体的个体数n:为样本的个体数502020/1/204、抽样成数的标准误差重复抽样不重复抽样当N→很大μx:为平均数抽样标准误差μp:为成数抽样标准误差P:为总体成数N:为总体的个体数n:为样本的个体数