1第七章抽样一、抽样与抽样调查1、抽样:是一种选择调查对象的程序和方法。2、抽样调查:就是从研究对象的整体中选出一部分代表加以调查研究,然后用所得结果推论和说明总体的特征。3、优点:社会学中第一次采用抽样方法的调查是A.L.Bowleg于第一次世界大战前在英格兰和威尔士所做的五城镇调查。二战后,随着计算机技术的发展抽样调查法得到迅速推广,目前已成为社会调查的主流。与整体调查(普查)比,抽样调查具有下列优越性。第一、调查费用低。抽样调查由于调查的仅仅是整体的一部分,因此,所需费用较整体调查低。例如,我国第三次人口普查,动用普查人员710万,正式调查期间还动员了1000万干部群众参加,耗资约4亿元。第二、速度快。时间往往是最重要的,特别是某些社会现象需要及时了解,随时掌握。第三、范围广。由于上述两个特点,抽样调查可广泛用于各个领域,各种课题。第四、可获得内容丰富的资料。普查通常只了解少量项目,无法进行深入分析。例如人口普查,我国1953年的第一次人口普查,只有姓名与户主的关系、性别、年龄、民族、住址六个项目,1982年的第三次人口普查,调查项目也只增加到19个。第五、准确性高。整体调查往往需要大批访问员,而这些访问员,有许多是缺乏经验和专业训练的,这往往会降低调查质量。4、注意事项:抽样调查的成功首先要求所选取的样本能够代表总体,所谓代表性就是说,所选取的样本从调查要研究的总体特征看,能再现总体的结构。在社会研究中,任何个体之间都存在着差异,任何部分都无法完全代表总体,因此,无论采用什么样的选取部分的方法,无论做得多么仔细,没有也不可能抽出毫无偏差的代表总体的所有特点和关系的样本。这也就是说,在用样本来概括总体时,总要有误差,它的大小可以反映出样本代表性的高低。对于研究人员来2说,重要的不是没有误差,而是能知道误差的大小和控制它的大小。有两个因素可以减少抽样误差。首先,大样本比小样本产生的误差小。其次,从同质的总体中抽取样本比从异质总体中抽取样本所产生的抽样误差要小。二、非概率抽样抽样方法一般分为两大类:非概率抽样,是根据研究任务的要求和对调查对象的分析,主观地、有意识地在研究对象的总体中进行选择。概率抽样,是依据概率理论,按照随机的原则选择样本,完全不带调查者的主观色彩。非概率抽样由于每个个体进入样本的概率是未知的,而且由于排除不了调查者的主观影响,因而无法说明样本是否重现了总体的结构,用这样的样本推论总体是极不可靠的。1、偶遇抽样(方便抽样)指研究者在一定时间、一定环境里所能遇见到或接触到的人均选入样本的方法。“街头拦人”法即为一例,电视台、电台和报社的记者常借这种方法迅速了解公众对某些刚刚发生的重大事件的反映。偶遇抽样的优点是方便省力,但样本的代表性差,有很大的偶然性。偶遇抽样非常容易产生系统误差,可能会产生无效的、非常不具代表性的样本,甚至比完全没有样本更糟。这种样本可能颇具娱乐价值,但它可能得到扭曲的观点,并成为总体一个严重的错误代表。2、主观抽样(判断抽样、立意抽样)主观抽样的“主观”有两种含义,一是主观判断的意思,即研究者依据主观判断抽取可以代表总体的个体作为样本。这种样本的代表性取决于研究者对总体的了解程度和判断能力。二是“有目的”地选择样本的意思。如在问卷设计阶段,为检验问题设计是否得当,常有意地选择一些观点差异悬殊的人作为调查对象。这种方法常用在探索性研究或实地研究中。主观抽样常用在下列三种情况:第一,研究者使用它来选择特别能提供信息的独特个案。例如要研究杂志的内容,以发掘文化主题,可选择某本流行的女性杂志做研究,因为该本杂志领导潮流。3第二,研究者使用它来选取很难接近、特殊总体中的成员。例如,要研究娼妓,若要列出所有娼妓名单,使用随机抽样是不可能的,相反,使用主观信息比较可行,像娼妓招揽客人的地方、娼妓结合的社会团体,在红灯区工作的警察、其他娼妓等等。第三,当研究者想要确认特殊个案类型,以便进行深入探究时可使用此方法。3、滚雪球抽样是先从几个合适的调查对象开始,然后通过他们得到更多的调查对象,这样一步步扩大样本范围。例如研究城市保姆问题。4、空间抽样是针对一个变动的总体,如游行队伍、集会等进行抽样的方法,这种总体虽然总是变动的,但在空间上是有限的。空间抽样最重要的是在同一时间对整个总体进行抽样。5、配额抽样(定额抽样)是按照调查对象的某种属性和特征将总体中所有个体分成若干类或层,然后在各层中抽样。样本中各类所占的比例与他们在总体中所占比例一样。定额抽样是以代表总体为目的的,因此它必须对总体的性质有充分的了解,如不同性别、年龄、教育水平的人在总体中各占多大比例等。然后按比例分配应抽定额。不过一旦定额抽样者固定了要抽取的类别和每一个类别要抽取的个案数目后,便使用随意抽样了,因而这种抽样还是有很大的局限性。例题:假设某高校有2000名学生,其中男生占60%,女生占40%;文科学生和理科学生各占50%;一年级学生占40%、二年级、三年级、四年级学生各占30%,20%,10%。现要用定额抽样方法依上述三个变数抽取一个规模为100人的样本。依总体的构成和样本规模,我们可得到下列定额表表5—1100人的定额样本分布表男生(60人)女生(40人)文科(30)理科(30)文科(20)文科(20)年级一二三四一二三四一二三四一二三四人数129631296312963129634三、概率抽样(一)有关概率抽样:1、概率抽样是按照随机原则选择样本,完全不带调查者的主观意志,使总体中每一个体都具有一个已知不为零的被选机会进入样本。2、基本原则:如果总体中的每一个体被抽取为样本的概率相同,那么从这个总体抽取的样本,就具有对该总体的代表性。3、优点:第一,更具代表性。代表性是指当选出的样本的各种集合特征大体接近于总体的集合特征时,样本就具有代表性。第二,概率理论使我们能够估计样本的精确度和代表性。(二)抽样设计的类型:1、简单随机抽样(simplerandomsampling)是最基本的概率抽样,最直观地体现了抽样的基本原理,是其他抽样方法的基础。简单随机抽样分为重复抽样和不重复抽样两类:在重复抽样中,已被选中的个体仍放回总体,因此,在同一样本中,某一个体就有可能不止一次地出现。在不重复抽样中,被选样本的个体不再放回总体,因此,在同一样本中,每一个体只能出现一次。社会调查中的简单随即抽样通常是使用随机数表进行。随机数表一般是由范围在00001~99999内的5位数的随机数,按行和列排序构成的。下面举一例说明如何使用随机数表进行抽样。假设要从一个900人的总体中,用简单随机抽样方法抽取一个100人的样本。ⅰ、将总体中的所有人编号:在本例中,每个人按001~900的顺序编号。ⅱ、确定选出的随机数的位数。本例中,由于总体人数为900,所以需要有3位数的随机数才能保证所有人都有被选中的机会。ⅲ、决定从5位数组中选择哪几位数字。要从5位数中产生3位数可以选择最左边的3位数、中间的3位数、最右边的3位数,任何方法都行,关键在于要先建立一个原则,然后从头到尾都依这个原则去做。ⅳ、确定在表中选择数字的顺序。我们可以随意确定在表格中选去数字的顺5序:依纵列的方向往下选取或往上选取;也可以顺着每一行从左到右或从右到左;还可以顺着对角线方向。同样,选择什么样的方法并不重要,重要的是选定一个方法之后,必须从头到尾都使用这种方法。ⅴ、确定开始选择的5位数组的起点。只需闭上眼睛,用铅笔随意在随机数表上戳一下以决定开始的第一个数字,或者可以在纸上随意写下某一行与某一列,然后从这个位置的数字开始。ⅵ、处理大于总体规模或重复的随机数。当选取随机数时碰到超过范围的数字,在本例中如918,跳过这个数字然后继续选下一个即可。在选择过程中,如果碰巧选中了两个相同的随机数,如两次选中了288,则应跳过第2次选中的288。ⅶ、用所选的随机数抽样,抽样框中编号与选出的随机数相同的那些人将组成样本。简单随机抽样是概率抽样的理想类型,没有偏见,简单易行。但当总体所含个体数目太多时,采用这种抽样方式不仅费时、费力,而且费用很高,而在总体异质性很高时,误差较大。2、系统抽样(systematicsampling)(1)是简单随机抽样的一个变种。是系统化地选择完整名单中每第K个要素组成样本。如果名册包含10,000个要素,而你们需要1000个样本时,你们选择每第十个要素作为样本。为了避免使用本方法时造成的人为偏差,必须以随机的方式选择第一个要素。(2)系统抽样法中有两个常用术语:抽样间距和抽样比率。抽样间距是指两个被选择要素间的标准距离,抽样比率则是被选择要素与所有总体要素的比率。抽样间距=总体大小样本大小抽样比率=样本大小总体大小(3)在系统抽样中,等间距抽取是最常用的规则,故系统抽样经常被称为等距抽样。常用的等距抽样方法包括直线等距抽样和循环等距抽样,二者的区别在于总体规模是否为样本规模的总数倍。ⅰ)整数抽样间距:当总体N是样本数n的整数倍,即抽样间距k=N/n是整数,可使用直线等6距抽样。即在算出抽样间距后,先在1~k范围内抽取一个随机数r作为起点,然后每隔k个单位抽出一个单位,直到抽出n个单位。抽中的号码分别为:r,r+k,…,r+(n—1)kⅱ)非整数抽样间距当N不是n的整数倍,即抽样间距k不是整数时,可以采用以下两种方法进行抽样。一是循环等距抽样方法,即先将N个总体单位首尾相接排成一个封闭圈,抽样间距k取最接近N/n的整数,再从1~N中随机抽取一个随机起点作为起始单位,然后每隔k抽取一个单位,直到抽满n个单位为止。另一种方法是调整直线等距抽样,先将非整数的抽样间距k的小数点后移,使其成为整数[k],然后在10~[k]之间选定一个整数的随机起点[r];接下来再将[r]的小数点移回来,成为非整数的随机起点r。由r开始每隔k个单位抽出一个单位,直到抽出n个单位。抽中的号码分别为r,r+k,…,r+(n—1)k,接下来再将这些号码的小数部分略去,便相应地得到入样单位的号码。例如,N=2580,n=300,则k=8.6。利用调整直线等距抽样,在10~86之间选定整数的随机起点[r]=27,将小数点移回,得到非整数的随机起点r=2.7,由此得到号码:2.7,11.3,19.9,28.5,…,将小数点后面的部分略去,就是选中的号码:2,11,19,28,…。可以证明,调整后所有单位都具有相同的中选概率。1(4)使用系统抽样要注意一个问题:如果总体的排列出现有规律的分布时,就会使系统抽样产生很大误差,降低样本的代表性。在一个有关二战士兵的经典研究中,研究人员从名册中每隔十个士兵抽出一个来进行研究。然而士兵的名册是依系列的组织方式来编排的:首先是中士,接着是下士,其后是二等兵;用一班一班的方式进行编排,每个班10个人。因此,此名册中每隔十个便是一位中士。如此系统抽样可能会取得一个完全是中士的样本,同样的理由,此方式也可能会取得一个完全不含中士的样本。3、分层抽样(1)所谓分层抽样就是先将总体依照一种或几种特征分为几个子总体(类、群),每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合1郝大海.社会调查研究方法.中国人民大学出版社2005,27。7在一起,即为总体的样本,称为分层样本。(2)样本量在各层的分配。最常见的样本量分配方式是按比例分配,即各层的子样本单位在总样本中所占的比例,与各层单位在总体中所占的比例完全相同。另外,还可以有意识地利用非比例分配样本,当某些层的单位在总体中的比例太小时,如果按比例分配样本,则这些层的样本量会很少,无法进行统计分析;这时可以加大该层的样本量,即使用较大的抽样比,以便对这些层的子总体进行研究和比较。4、整群抽样(1)是将总体按照某种标准划分为一些子群体,每一个子群为一个抽样单位,用随机的方法从中抽若干子群,将抽出的子群中所有个体合起来作为总体的样本。通常情况下,整群抽样的抽样误差大于简单随机抽样。(2)群的划分。从群的划分类型看,经常用到的是那些自然群,即由行政或地域区划形成的群,如学校、企业、省市或村镇。另一类是调查人员人为划