第13章基本抽样问题◊13.1抽样的概念◊13.2设计抽样方案◊13.3抽样误差和非抽样误差◊13.4概率抽样方法◊13.5非概率抽样学习目标1.掌握抽样的概念2.学习制定抽样计划的步骤3.明确抽样误差和非抽样误差的概念4.明确随机样本和非随机样本的区别5.了解互联网调研涉及的抽样问题1.抽样的概念抽样的概念是指从一个较大的群体(范围或者总体)的一个子集(样本)获得信息的过程。从总体中抽取部分样本进行调研,用所得的结果说明总体情况。抽样调研是指从调研总体中抽选出一部分要素作为样本,对样本进行调研,并根据抽样所得的结果推断总体的一种专门性的调研活动。1.总体也称调研总体,是在特定调研目的或任务条件下的认识客体,是指实际进行调研对所使用的所有可能被调研的元素的总和,即所要调研研究对象的全体。总体可分为有限总体和无限总体两种。有限总体,也称目标总体,是指所需要研究说明的所有符合所规定的属性或数量特征的有限单位的集合,就构成一个有限全集总体。即所要调查具有某种共同性质的所有单位对象的全体组成的总体。无限总体,即所需要研究说明的所有符合规定的属性或数量特征的无限单位的集合,就构成一个全集总体。2.抽样和普查普查:是对调研总体中的所有个体进行的全面、普遍的调研。事实证明:一个相对较小、但精心选择的样本能准确地反映出所抽查的总体的特征抽样调查与普查的结果会有一定的差别,这种差别叫做抽样误差3.抽样的条件抽样的前提条件费用低效率高精度高信息量大破坏性小抽样和普查适宜性比较一般而言,如果非抽样误差的成本较大,采用抽样就更合适如果在深入调研中需要关注个案或调研本身的保密性强,采用抽样也是必要的但是有时,普查时必要的对破坏性调研应考虑选择抽样4.抽样调查的优缺点优点1.节省经费2.时效性强3.易推广4.准确性高缺点由于抽样调查的样本仅是调研对象中的一部分,抽样调查的结果是从样本中获取的信息资料推断出来的,所以,抽样调查不可避免地存在着抽样误差。控制抽样误差,将其控制在允许的范围内,使其不影响抽样调查的可信度和质量,是抽样调查应注意的问题。5.抽样调研的特点(1)在样本的抽取上具有随机性(2)在调研的功能上,能以样本指标估计总体指标(3)在推断手段上,是以概率估计的方法对总体进行估计(4)在推断效果上,可以对抽样误差进行计算并加以控制2.设计抽样方案定义总体选择资料收集方法选择抽样框选择抽样方法确定样本容量制定执行步骤实际运行抽样方案制定抽样计划1.定义总体即要调研对象的全体同质总体:地域特征、人口统计学特征、产品或服务的使用情况、认知程度等。过滤性问题基础详述地域因素抽查的地域通常是指顾客活动的范围,可能是一个城市、一个县、一个城市的地区、州、几个州、全美国或者一些国家人口统计因素考虑到调研目标和产品目标市场,哪些人的观点、反应是至关重要的?18岁以上的妇女,18-34岁的妇女,还是18-34岁有学龄前儿童、家庭年收入超过35000美元的职业女性?哪个才是我们感兴趣的信息来源呢?使用情况作为上述的补充,同质总体通常是根据产品和服务的需求状况来定义,通常通过一段时间内对消费者使用产品和接受服务的情况,包括是否使用和使用频率来描述认知度对于那些注意到的公司广告,我们希望探究广告所传达的产品或服务信息例如,一个调研人员正在为一种新型减肥药进行产品创意测试,他也许会认为同质总体包括每个身体较肥胖的人,因为他们使用减肥药的可能性较大。但并非每个身体肥胖的人都会选择减肥或使用减服药进行减肥,只有那些“准备购买或正在使用减肥药的人们”,才应包括在同质总体内。正如木地板生产企业的调研总体是:“现在正在考虑购买和已经购买使用地板的人们”;电慰斗小组座谈调研案的调研对象是“6个月以来,每周至少使用一次电慰斗的人们”等。onecase在调研中,问卷开始的过滤性问题,可以识别出哪些应答者是属于同质总体.即使有总体清单,仍有必要使用过滤性问题识别合格的应答者。2.选择资料收集方法3.选择抽样框定义:总体的数据目录或者单位的名单,从中可以抽出样本单位。完整理想的抽样框中,抽样框的范围与被抽样总体一致,每个调研对象只出现一次例如,以学校班级为抽样单元,则该学校100个班级的名册就是完整的抽样框;“沪深两地股票上市公司”,就是在我国境内上市的公司的完整抽样框。(1)抽样框的形式名单抽样框:即以名单一览表形式列出总体的所有单位,常见的有;车牌登记簿、工商局企业登记库、电话号码本、职工名单等。区域抽样框:即按地理区域划分并排列出总体的所有单位,如一块土地划分为若干地块单位并编号、住户门牌号码表、户籍簿,一片森林划分为若干区域单位并编号等。时间表抽样框,即按时间顺序排列总体单位,如在流水线生产的产品检验抽样调查中.把一天时间划分为许多抽样时间单位并按先后顺序排列。(2)抽样框的编制遗漏一个名单里有两个或多个样本单位空缺重复登记4.选择抽样方法(1)概率抽样:指在总体中的每个单位都具有同等可能被选中的机会(选择程序)(2)非概率抽样:是指从总体中非随机的选择特定的要素概率抽样优缺点:•调研人员可获得被抽取总体的不同年龄、不同层次的人们的信息•能估计出抽样误差•调研结果可以用来推断总体优点概率抽样优缺点:•同样规模的概率抽样的费用要比非概率抽样的费用高•概率抽样比非概率抽样需要更多地时间策划和实施缺点•需要考虑的因素:•(1)如果调研人员需要对调研活动的资料进行各种统计、分析与数据处理,则必须采用随机抽样的方法获得调研样本,以保证调研数据对总体具有足够的代表性。•(2)如果市场调研在方案设计中就明确规定最终必须获得具有一定准确性和把握性的调研结果,那么在确定调研单位时,就应该选择随机抽样的方式。•(3)如果市场调研存在一个近乎理想的抽样框,就可以选择随机抽样的抽样方法。例如,中国工商银行调研储户对银行提供新服务的需求时.就可以很方便地获取储户的数据库作为相当完整的抽样框,然后经过编程就可以由计算机完成简单随机抽样。•(4)在调研人员没有掌握随机抽样的程序、原理和原则的情况下,或者由于调研的时效性要求越来越高,调研的频度也越来越大时,研究人员常采用非随机抽样方法。5.确定样本容量即确定从调研总体重抽取的样本的数量样本容量的确定原则是控制在必要的最低限度从极限抽样误差估算公式推导得出6.制定执行步骤7.实际运行抽样方案1.抽样误差是指所选样本的结果不能完全代表总体而导致的误差用样本指标推断总体指标时所产生的代表性误差,不可避免随机抽样误差:偶然因素(增加样本容量)管理抽样误差:样本的设计和执行中的变化3.抽样误差和非抽样误差2.抽样误差产生的原因(1)被研究总体各单位标志值的变异程度,总体的方差越大,抽样误差就越大;反之,则抽样误差越小。如果总体各单位标志值之间没有差异,那么,抽样误差也就不存在了。(2)抽取的样本量,抽样误差的规模可由样本旦的调整而得到控制,在其他条件不变的情况下,抽样单位越多,抽样误差就越小;反之,抽样误差就越大。(3)抽样调查的组织方式,采用不同的抽样组织方式,也会有不同的抽样误差。(4)抽样方法的不同,抽样误差大小也不相同。一般来说,简单随机抽样比分层、分群抽样误差大,重复抽样比不重复抽样误差大。3.抽样误差的控制准确选定抽样方法要正确确定样本数目要加强对抽样调查的组织领导,提高抽样调查工作质量3.非抽样误差是在研究过程中由于计算的不准确和偏见等原因产生的不同于抽样误差的各种误差。原因:抽样调查设计不当调研实施不当被调研者应答不当概率抽样:又叫随机抽样,就是使总体内所有个体具有相同的被抽入样本的概率,即总体中的每一个个体都给予平等的抽取机会的抽样技术简单随机抽样等距抽样分层抽样整群抽样4.概率抽样方法概率抽样的优缺点优点(1)排除了人为的干扰,抽取的样本可以大致上代表总体(2)能够计算调研结果的可靠程度缺点:(1)对所有调研样本都平等看待,难以体现重点(2)与非随机抽样技术相比,同样规模的调研,抽样范围比较广,所需时间比较长,参加调研的人员和费用多(3)需要具有一定专业技术的专业人员进行抽样和资料分析,一般调研人员难以胜任。1.含义简单随机抽样,又称纯随机抽样或完全随机抽样,是指从总体单位中不加任何分组、划分类别、排序等任何有目的的选择,而是完全按照随机原则,用纯粹偶然的方法抽取样本该方法适用于调研总体每个个体之间的差异程度较小或者调研数目不多的情况简单随机抽样2.概率抽样公式例如,如果总体单位数是10000,样本单位数是400,那么抽样概率为4%,计算过程为:400/10000=0.43.简单随机抽样的应用(1)抽签法用抽签法抽样取样本,需先将调研总体的每个个体编上号码,充分混合后任意从中抽选,抽到一个号码,就对上一个个体,直到抽足预先的样本数目为止。这种方法适用于调研总体中个体数目较少的情况。(2)随机数表法随机数表法又称乱数表法。它首先将总体中的全部个体分别标上1至n个号码,然后利用随机数表随机抽取所需样本。随机数表是指含有一系列组别的随机数字的表格。一般用特制的摇码及其在0到9的阿拉伯数字中,按照数字位数的要求自动随机逐个摇出一定数目的号码编成,也可利用Excel软件的rand()函数产生随机数,所以在客观上,随机数表内任何数码出现的机会都是相等的。例如在EXCEL中输入=TRUNC(RAND()*9+1,0)公式,会生成一系列1-10的整数使用随机数表法时,首先要把调研总体的所有单位予以编号.根据编号的位数确定使用若干位数字,然后查乱数表。在乱数表中任意选定一行或一列的数字作为开始数,接着可以从上而下或从左右.或按一定间隔(隔行或隔列)顺序取数,凡编号范围内的数字号码即为被抽取的样本。如果不是重复抽样,碰到重复数字应舍掉,直到抽足预定样本数为止。例如,现在要从80户居民中抽取10户进行收入调研,首先将80户居民从1到80进行编号,然后假设从随机致表中第一行的第六列开始自左向右、自上而下取样.那么顺序取得的样本号:36、96、47、36、61、46、99、69、81、62、97、74、24、67,由于96、99、97大于80,36出现重复,故96、99、97和第二个36应舍弃不用。4.简单随机抽样的优缺点优点:方法简单,并且保证每个总体单位在抽选时都有相等的被抽中的机会,当进行总体相对较小的调研是这种方法比较有效缺点:需要以一个完整的总体单位表为依据,但是爱现实中编制这样一个完整的总体单位表往往是极其困难的。这一方法要求实现对所有研究对象编码,当研究对象较多时,就非常复杂与其他随机抽样技术相比,这一方法精度较低,标准差较大该法抽出的样本是否能代表总体值得商榷,特别是当总体较小时。1.含义:系统随机抽样是指先将调研总体的各基本单位按一定标志顺序排列.然后根据一定的抽样距离从总体中抽取样本,抽样距离是由母体总数除以样本数而得到的。系统随机抽样经常作为简单随机抽样的替代方法使用。等距抽样2.等距抽样的应用(1)先按一定的标志把总体中各基本单元顺序排列。排列所依的标志有两种:一种是按与调研项目无关的标志排队。例如,在进行家庭购买力调研时.选择住户可以选择住户所在街区的门牌号码排列。另一种是按与调研项目有关的标志排列。例如,在进行家庭购买力调研时,也可按住户平均月收入排列.再进行抽选。总之,必须获得一份总体单位表,这一点与简单随机抽样方式一样。•(2)确定一个抽样间隔•计算公式为:抽样间隔=总体单位数(N)/样本单位数(n)•(3)确定起始抽样数,即抽样起点。可以采用简单抽样方式,从第一段距离中抽取一个个体,也可以从第一段距离的1/2处抽取第一个个体。•(4)按照抽样间隔继续抽取余下的个体,直到达到样本单位数为止。例如,母体若为10000个消费者,采用等距抽样法抽取200人作为样本进行调研,则样本区间(样本间隔或样本距离