抽样与抽样调查李孜为什么要知道一个人的血液情况,只需抽一点点血来化验就行了?由部分认识总体同质和异质盖洛普,美国民意测验中心1936年美国总统大选预测(配额抽样)1948年美国总统大选预测(失败)1984年美国总统大选预测1994年美国总统大选预测样本数据3000左右1994年美国总统大选预测民意调查日期主办机构总统候选人克林顿多尔佩罗其他10/28-31CBS/N.YTIME54359211/1-3Reuter49418211/1-3Harris51399111/1-3ABC52399211/1-3NBC/WallST.51387211/1-3Gallup/CNN513892选举结果494192抽样解决什么问题?对象的选取问题:如何从总体中选出一部分对象来作为总体的代表抽样调查的含义抽样调查:是指按照科学的原理和计算从所要研究现象的全部分析单位中按随机原则抽取部分单位进行调查,取得资料后,再根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断的方法。抽样调查旨在以样本的资料来推断调查对象总体的相关统计数据。抽样理论与方法是构建在现代统计学和概率论(尤其是概率抽样)基础上的。抽样调查的特点1)抽取样本时要遵循随机原则,即产生样本时,调查对象总体中的所有单位都有同等被抽中的机会。2)大数规律起作用的条件是样本容量足够大,如此样本对总体才有充分的代表性3)抽样误差可以事先经过计算而控制在一定范围内,并且能采取一定的组织措施控制这个误差。几个关键概念抽样sampling:指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素的过程。抽样单位samplingunit:是一次直接的抽样所使用的基本单位或与元素。如班级(/学生)元素element:构成总体的单位,也是样本所包含的内容。抽样单位与构成总体的元素有时相同,有时不同。如抽样单位班级--构成总体的元素学生抽样框samplingframe:又称作抽样范围。指一次直接抽样时总体中所有抽样单位的名单。班级(学生)名单抽样框的重要性举例:1936年《文学文摘》的民意测量:从电话薄和车牌登记名单中选择1000万人,最后收到200万人预测出43%的罗斯福支持率(实际是61%)思考:抽样框是什么?为什么预测不准?抽样框选择的不合理—只选择了不成比例的富人样本,而排除了穷人。成功的对比:盖洛普的配额抽样抽样的一般程序界定总体--掌握总体的结构及各方面情况制定抽样框--对名单进行统一编号,多阶段抽样需要分别建立不同的抽样框。决定抽样方案--抽样方法/抽样规模/主要目标量的精确程度实际抽取样本评估样本质量--对样本的质、代表性、偏差进行初步检验和衡量。即用样本中某些重要指标与总体中的指标进行比较,结果越接近越好。抽样方法概率抽样非概率抽样简单随机抽样偶遇抽样等距抽样判断抽样分层抽样定额抽样整群抽样雪球抽样多阶段抽样概率抽样probabilitysampling是依据概率论基本原理,按照随机原则进行抽样,不加主观因素,组成总体的每个单位都有被抽中的概率(非零概率),可以避免样本出现偏差,样本对总体有很强的代表性。非概率抽样nonprobabilitysampling是按主观意向进行的抽样(非随机的),组成总体的很大部分单位没有被抽中的机会(零概率),使调查很容易出现倾向性偏差。常在探索性调查中使用。方便/偶遇抽样accidentalsampling样本限于总体中易于抽到的一部分。因此它并没有保证总体中的每一成员都具有同等被抽中的概率。常被误认为随机抽样,但有以上差别。最常见的方便抽样是偶遇抽样,即研究者将在某一时间和环境中所遇到的每一总体单位均作为样本成员。“街头拦人法”就是一种偶遇抽样。某些调查对被调查者来说是不愉快的、麻烦的,这时为方便起见就采用以自愿被调查者为调查样本的方法。方便抽样是非随机抽样中最简单的方法,省时省钱,但样本代表性因受偶然因素的影响太大而得不到保证。不能依赖偶遇抽样的样本值来推断总体。立意/判断抽样purposivesampling立意抽样又称判断抽样,研究人员从总体中选择那些被判断为最能代表总体的单位作样本的抽样方法。研究者对自己的研究领域十分熟悉,对研究总体比较了解时采用这种抽样方法,可获代表性较高的样本。这种抽样方法多应用于总体小而内部差异大的情况,以及在总体边界无法确定或因研究者的时间与人力、物力有限时采用。滚雪球抽样snowballsampling以若干个具有所需特征的人为最初的调查对象,然后依靠他们提供认识的合格的调查对象,再由这些人提供第三批调查对象,……依次类推,样本如同滚雪球般由小变大。滚雪球抽样多用于总体单位的信息不足或观察性研究的情况。这种抽样中有些分子最后仍无法找到,有些分子被提供者漏而不提,两者都可能造成误差。如喜欢公园活动的老人--喜欢在家的老人定额抽样quotasampling定额抽样也称配额抽样,是将总体依某种标准分层(群);然后按照各层样本数与该层总体数成比例的原则主观抽取样本。参考书P145表6-7100个人的定额样本分布表(性别/学科/年级3种分类特征)定额抽样与分层概率抽样很接近,最大的不同是分层概率抽样的各层样本是随机抽取的,而定额抽样的各层样本是非随机的,是按事先规定的条件有目的地寻找的。定额抽样总体也可按照多种标准的组合分层(群),例如,在研究自杀问题时,考虑到婚姻与性别都可能对自杀有影响,可将研究对象分为未婚男性、已婚男性、未婚女性和已婚女性四个组,然后从各群非随机地抽样。定额抽样是通常使用的非概率抽样方法,这项抽样方法要求对总体的情况比较了解。盖洛普1948年失败的案例(二战导致1940年人口普查数据的变化)简单随机抽样simplerandomsampling思考什么是随机?在班上随便抽点10个同学是不是随机?是概率抽样最基本的形式。常用办法有抽签、随机数表、人民币等来抽样要点:取得抽样框名单将总体中所有元素一一按顺序编号根据总体规模是几位数来确定从随机数表中选几位数。特点:在差异较大的总体中,简单随机抽样的样本不一定能保证样本的代表性。随机数表的使用将总体中所有数据编码确定所选择的随机数需要几位数字—根据总体数据的位数来定查阅随机数表,建立某个执行原则(如从上到下或从左到右)来选择随机数当选到的数超过范围或重复时,跳过这个数选择下一个P353系统抽样/等距抽样systematicsampling又称系统抽样。把总体中的单位进行编号排序后,再计算出某种间隔,然后按这一固定的间隔抽取个体的号码来组成样本的方法。K(抽样间隔)=N(总体规模)/n(样本规模)个体编号为A,A+K,A+2K,…A+(n-1)K抽样比率=样本大小/总体大小注意:若总体名单中,个体的排列具有某种等级的高低(如学生名单是按学生成绩高低来排的)或周期性分布,则应打破原次序,重新编制总体名单。等距抽样比简单随机抽样简便易行,规模较大时多采用。分层抽样stratifiedsampling又称类型抽样。它是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干个类型或层次然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后将这些子样本合起来构成总体的样本。分层抽样特点:层内同质,层间异质分层抽样在层内是抽样调查,层间是全面调查,所以分层时应该尽量让每层内的变异程度小,而层间的变异程度大。(因此分层要全面考虑,而分层的首要目标就是达到同质性)。分层抽样的优点就是在不增加样本规模的前提下降低抽样误差。它的抽样误差较简单随机抽样小,样本具有很好的代表性。(参考抽样误差的公式)考虑分层的比例问题,又分为1、比例分配法;考虑每层中的总体单位数,按比例在每层中抽出相同比例的样本,即常数kkNnNnNn11NNNNk21NNnnii每层的样本容量例如:调查在校学生的阅读倾向将符合要求的学生做统计后(除去留学生,成教等)总数为2万多人,考虑要作年级和教育差异对比,可将学生分为本科、硕士、博士三个大群体,根据最大样本数估计(允许的抽样误差在3%)需要抽取1068人就足够了。经求取比例,最低比例4.3%可以满足样本需求。各层均按照4.3%进行抽样,做到了各层次中抽取的样本单位数量的比例、该样本在总体中抽取的样本单位的比例、该样本在总体中所占的比例这三个比例保持一致,这就是分层比例抽样。非随机抽样中有一种配额抽样和分层比例抽样极为相似。差别在于:配额抽样不要求样本结构与总体完全相等,或具有已知的确切关系,具体单位样本的选择也是由调研人员在实施调研时才在给定的配额内主观地选取,其实质是一种分层的估计抽样。2、不按比例分层抽样当总体中有些分层的数目太少,若以比例抽样,则有的层在样本中个案太少,影响分析。为了对不同层次的子总体进行专门研究,则可不按比例分层抽样。但需注意,若要用样本资料推断总体时,则需要对各层数据资料进行加权处理,使样本中各层的比例恢复到总体中各层实际的比例结构。例如:某厂600工人(男500,女100人)调查他们的平均收入。计划抽样60人。按比例抽样:男500*(60/600)=50人,女100*(60/600)=10人不按比例抽样,即男女各抽30人全厂工人平均收入=(每个男工的收入*5/3+每个女工的收入*1/3)/60人kiiiiiiNNnn1是各层的标准差。是总体中各层的数量i2、奈曼最佳分配法考虑每层中总体单位的变异程度不同,在样本容量一定的条件下,变异大的层样本容量也大,变异小的层样本容量也小。每层的样本容量为iNNNnnii整群抽样clustersampling概念:首先将总体划分为群R;然后按随机的原则不重复抽出群r,在每群中进行全面调查。该调查方法适用于单位较多的总体。与分层抽样相反,整群抽样在群内是全面调查,在群间是抽样调查。整群抽样适用于:不同子群相互之间差别不大,而每个子群内部的异质性程度比较大。--层内异质,层间同质(与分层抽样相反)当我们不可能或不方便编制一个完整的名单形成目标总体的时候,可以使用整群抽样。如对城市的人口进行抽样的时候,没有整个城市的人的名册,可以先选出几个街道样本,对街道中的所有户进行抽样。整群抽样优点:简便易行、节省费用缺点:样本分布面不广,样本对总体的代表性相对较差多段抽样multistagesampling又称分段抽样。它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。适合于总体规模特别大,或总体分布范围特别广。方法:从总体中随机抽取若干大群,然后从大群中抽取若干小群,层层抽下去,直到抽到最基本的抽样元素为止。重复两个基本步骤:列表名册和抽样在上述每个阶段的抽样中,都要采用简单随机抽样或等距抽样或分层抽样的方法进行。多段抽样时,需要考虑类别和个体之间如何保持平衡?考虑两个因素REF书P137表6-3各个抽样阶段中的子总体同质性程度。同质性越高的子总体,所抽规模就小一点。反之亦然。考虑人力和经费--“大的类别抽取的多,每一子类抽取的相应较少”所花的人力经费就多,但又可适当减少抽样误差每级抽样都会产生误差,故多段抽样的误差较大。Q:如何控制多段整群抽样的抽样误差?从抽样误差的公式入手增加样本容量提高样本要素的同质性(然而,如果总样本数量一定的话,抽取的群数量增加每个群中被抽取的要素的数量势必减少。)整群抽样的原则就是尽可能多的选取群(群的同质性强),而减少每个群中要素的数量。但又可能违背整群抽样效率的功能户内抽样within-householdsampling适用于以家庭作为分析单位,以入户访谈的方法收集资料入户前的抽样可以采用多段抽样的方式如市/县—区/乡—街/村—居委会/组—家庭户确定户后,如何对户内的成年人进行选择?--生日接近法--KISH选择表KISH选择法将调查表编号为A,B1,B2,C,,D,E1,E2,F八