第四章抽样一、抽样的意义与作用二、概率抽样的原理与程序三、概率抽样方法四、非概率抽样方法五、样本规模与抽样误差第四章教学要求要求:理解抽样的一般原理、基本概念与术语以及抽样的具体步骤;掌握各种抽样方法的特点及运用范围,能过在实际调查中选择和确定适当的抽样方法及样本数。了解抽样误差。重点和难点:各种抽样方法的特点及适用范围。一、抽样的意义与作用(一)抽样的概念1.总体(population)——是构成它的所有元素的集合,一般用大写字母N表示。•研究总体:在理论上明确界定的个体的集合体•调查总体:是研究者从中实际抽取调查样本的个体的集合体,它往往是对研究总体的进一步界定•如妇女-“2005年年满15-49岁的中国妇女”-“2005年10月1日零时(除台湾、西藏、香港、澳门)外28个省自治区15-49岁的妇女”,同时还将医院、精神病院、监狱、劳教所、军队中的妇女除外。2.样本(sample)——从总体中按一定方式抽取出的一部分元素的集合。样本数目一般用小写字母n表示。3.抽样(sampling)——从总体中按一定方式选择或抽取样本的过程。4.抽样单位(samplingunit)——一次直接的抽样所使用的基本单位。注意:抽样单位与构成总体的元素有时相同,有时是不同的5.抽样框(samplingframe)——又称抽样范围,指一次直接抽样时总体中所有抽样单位的名单。6.参数值(parameter)——也称总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。通常以希腊字母表示7.统计值(statistic)——也称样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。通常用罗马字母表示。•注意:参数值和统计值重要区别:•参数值是确定不变的、唯一的,并且通常是未知的;•统计值则是变化的,即对于同一个总体来说,不同样本所得的统计值是有差别的。同时,对于任一特定的样本来说,统计值是已知的,或者说是可以通过计算得到的。8.置信度:又称置信水平,它指的是总体参数值落在样本统计值某一区间内的概率,或者说,是总体参数值落在样本统计值某一区间中的把握性程度。9.置信区间:指在一定的置信度下,样本统计值与总体参数值之间的误差范围。(二)抽样的作用•为人们提供一种实现“由部分认识整体”这一目标的途径和手段。•解决了调查对象的选取问题。•抽样调查是架在研究者十分有限的人力、财力和时间与庞杂、纷繁、多变的社会现象之间的一座桥梁例:1984年美国总统选举预测与实际结果比较%里根蒙代尔《时代》/《扬基拉维奇》《今日美国》/《黑蛇发女怪》哥伦比亚广播公司/《纽约时代周刊》盖洛普民意测验/《新闻周刊》实际投票结果盖洛普民意测验/《新闻周刊》美国广播公司/《华盛顿邮报》哈里斯民意测验罗珀民意测验646361595959575655363739414141434445(三)抽样的类型抽样方法非概率抽样概率抽样多段抽样系统抽样分层抽样整群抽样简单随机抽样偶遇抽样判断抽样定额抽样雪球抽样PPS抽样户内抽样二、概率抽样的原理与程序1.概率抽样的基本原理“世上没有两片完全相同的树叶”,现实社会中更没有两个完全相同的人。在各种社会总体都普遍存在异质性的现实面前,严格的概率抽样程序与方法就必不可少。而概率样本所要反映的正是总体本身所具有的那种内在的异质性结构。同质性与异质性概率抽样基本前提:异质性投掷硬币——事件发生的客观概率概率抽样的合理性:随机事件的发展变化规律抽样的最终目的在于通过对样本的统计值的描述来相对准确地勾画出总体的面貌。概率抽样的方法可以帮助我们实现这一目标。并且可以对这种勾画的准确程度作出估计。随机抽取(randomselection)是这一过程的关键。所谓随机抽取,就是保证总体中的每一个个体都有同等的机会入选样本。或者说,总体中的每一个成员被抽中的概率相等(也即被抽中的机会相等)。而且,任何一个个体的入选与否,与其他个体毫不相关,互不影响。或者说,每一个个体的抽取都是相互独立的,是一种随机事件。随机抽取(randomselection)对于投掷硬币的结果(总体)来说,只有正面和反面(个体)两种可能。每次投掷硬币相当于一次抽样过程(从两种可能性中抽取一种);这种抽样是随机的(两种可能性都可能出现,且出现的机会均等)尽管一次具体的随机抽样(一次投掷)只会有一种结果,或者说出现某一种情况(正面或反面)的概率为100%;但是若下次不同的抽样的结果,却总是趋向于两种情况出现的次数各为50%——即趋向于两种不同结果本身所具有的概率,或者说趋向于总体内在结构中所蕴涵的随机事件的概率。最好的例子:投掷硬币这个例子告诉我们,在各种随机事件的背后,存在着事件发生的客观概率,正是这种概率决定着随机事件的发展变化规律。概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好地按总体内在结构中所蕴涵的各种随机事件的概率来构成样本,使样本成为总体的缩影。概率抽样的一个基本原则如果总体中的每一个体被抽去为样本的概率相同,那么,从这个总体中抽去的样本就具有对该总体的代表性。抽样的独立性要求任何一个元素的抽取都不影响到其他元素被抽取的概率。严格地说,它要求放回抽样。放回抽样不放回抽样研究者实际上进行的是不放回抽样。只要总体相对于样本来说要大得多,我们就可以忽略这种不放回抽样所产生的微小改变。2.抽样分布抽样分布是根据概率的原则而成立的理性分布。显示出:从一个总体中不断抽取样本时,各种可能出现的样本统计值的分布情况。我们先来看一个总体为10个个案的平均数抽样分布。假如这10个人参加工作的年限分别为6、7、8、9、10、11、12、13、14、15年。举例:总体为10个个案的平均数的抽样分布,样本容量为1,10次取样样本容量为2,45次取样样本容量为3,120次取样变化趋势平均数的范围将逐步缩小(即底部越来越窄);相同的平均数会相应增多;全部平均数的分布向总体平均数集中的趋势也会越来越明显。样本容量为4,210次取样样本容量为5,252次取样中心极限定理在一个含有N个元素且平均数为μ,标准差为σ的总体中,抽取所有可能含有n个元素的样本。全部可能的样本数目为m:若用,,…来分别表示这m个样本的平均数,那么,样本平均数的分布将是一个随n愈大而愈趋于具有平均数μ和标准差的正态分布。中心极限定理当n足够大时(通常假定大于30),无论总体的分布如何。其样本平均数所构成的分布都趋于正态分布。中心极限定理正态分布图68.27%95.45%99.73%正态分布图),(~2nXNxXxx2x3x2xx3x正态分布的特点1、单峰对称;2、平均数、中位数、众数合一,都在峰点;3、包含了95%(出现概率)的面积注:平均值往左或往右1.964、包含了90%的面积,即面积和标准差(方差开方)之间有一个固定换算。3.抽样的一般程序界定总体制定抽样框决定抽样方案实际抽取样本评估样本质量(1)界定总体:对从中抽取样本的总体范围与界限作明确的界定。这一方面是由抽样的目的所决定的。另一方面,界定总体也是达到良好的抽样效果的前提条件。3.抽样的程序3.抽样的程序(1)界定总体:案例:1936年《文摘》杂志总统民意测验这一实例告诉我们,要有效地进行抽样,必须事先了解和掌握总体的结构及各方面的情况,并依据研究的目的明确地界定总体的范围。样本必须取自明确界定后的总体,样本中所得的结果,也只能推广到这种最初已作出明确界定的总体范围中。(2)制定抽样框根据已经明确的总体范围,收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立其供抽样使用的抽样框。需要注意的是,当抽样是分几个阶段、在几个不同的抽样层次上进行时,则要分别建立起几个不同的抽样框。3.抽样的程序(3)决定抽样方案根据研究的目的要求依据各种抽样方法的特点以及其他有关因素。3.抽样的程序(4)实际抽取样本从抽样框中抽取一个个的抽样单位,构成调查样本。依据抽样方法的不同,以及依据抽样框是否可以事先得到等因素,实际的抽样工作既可能在研究者到达实地之前就完成,也可能需要到达实地后才能完成。即既可能先抽好样本,再下去直接对预先抽好的对象进行调查或研究;也可能一边抽取样本一边就开始调查或研究。3.抽样的程序(5)评估样本质量样本评估:对样本的质量、代表性、偏差等等进行初步的检验和衡量,其目的是防止由于样本的偏差过大而导致调查的失误。方法:将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比。3.抽样的程序三、概率抽样方法–简单随机抽样–系统抽样–分层抽样–整群抽样–多段抽样–PPS抽样–户内抽样1.简单随机抽样(simplerandomsampling)纯随机抽样,是概率抽样的最基本形式。基本原理:从N中抽取n常用的方法:A、总体元素较少时,类似于抽签方法。B、总体元素较多时,随机数表法练习1:我系共有学生300人,系学生会打算采用简单随机抽样的办法,从中抽取60人进行调查。具体方法(总体元素少时):先编制一个抽样框,把总体各单位编上号码写在纸片上搓成纸团,作成签和阄(给每个学生编号,从001到300,并写在纸片上);然后,把签和阄放在一个盒子内搅拌均匀;最后,随机从盒子内抽取签和阄,被抽中的签和阄上的号码所代表的单位就是样本,直到抽满规定的样本为止(从300张纸条里抽取60张,并找相关同学)。特点:总体单位很多时,写号码的工作量就很大,搅拌均匀也不容易,因而此法经常在总体规模较小的时候使用简单随机抽样随机数表总体元素多时,采用随机数表利用随机数表进行抽样的具体步骤:先取得一份总体所有元素的名单(即抽样框)将总体中所有元素一一按顺序编号根据总体规模是几位数来确定从随机数表中选几位数码以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍根据样本规模的要求选择出足够的数码个数依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素对照附表中的随机数表,练习随机抽样。要从3000个人(或其他分析单位)的总体中用简单随机抽样的方法选取100个人作为样本进行调查。练习2步骤首先,将总体中所有的人编码本例中编码为1-3000。接下来的问题是从随机数表中随机选取100个数字。这100个数字所对应的人就是样本。接下来是确定所选择的随机数需要几位数需要有四位数字才能保证所有人都有被选中的机会。(如果总数为21654的话,需要选择五位数的随机数)。因此,我们要从0001到9999的数字中抽取100个随机数。我们可以随意确定表格中选取数字的顺序:依纵列的方向向下选取,也可以依纵列的方向往上选取,由左到右或者由右到左,也可以依对角线的方式选取。什么方式并不重要,关键是从头到尾贯彻使用这种方法。这里我们为了方便选择从纵列方向,当一列到了末端时,可以从下一列最顶端选起,当一页选完以后,可以从下一页的第一纵列继续选取。现在,我们决定从那里开始。可以闭着眼睛随便戳一个数字。也可以随意想一个行号和列号,譬如第五行第三列作为开始。随机数表抽样例随机数表中的数码选用的数码不选用的原因84329909061053873020942741004101390225079361404310135986604263219126839420582507272565117609060041250726831176后面四位数大于3000后面四位数大于3000后面四位数大于3000与所选的第三个数码重复2.系统抽样(systematicsampling)又称等距抽样或机械抽样是把总体的单位进行编号排序后,在计算出来某种间隔,然后按照这一固定的间隔抽取个体的号码来组成样本的方法。练习:在某大学总共3000名学生中,抽取一个容量为100的大学生样本。系统抽样具体步骤给总体中的每一个个体按顺序编号,即制定出抽样框计算出抽样间距。计算方法是用总体的规模除以样本的规模:KN(总体规模)n(样本规模)K=在最前面的K个个体中,采用简单随机抽样的方法抽取一个个体,记下这个个体的编号(假设所抽取的这个个体的编号为A