3.2抽样的方法上一节讲述了抽样方法简单的发展情况,归结起来,无非是两个要点:1.在某些(不是一切)情况下,用抽取群体中的一部分个体进行调查的方法来取代全面调查;2.个体(即样本)的抽取应遵守机会均等的原则:群体中每一个体有同等机会被抽出。这种将样本的选定委之于机会的抽样,叫做随机抽样。这里我们来讲讲随机抽样如何实施的问题。可以说,随机抽样在纸面上写来轻松容易,而具体实施起来却麻烦多多,这恐怕也是此法不易推开的一个原因。说纸面上讲来容易,是因为随机抽样,就其最基本的形态说,不过是“抽签”或我们在第一章中已多次提到过的“盒中抽球”的模型。设某社区有人口1万,要作其1%的抽样调查。先将这l万人自l至10000编号,每人各有一个号。准备1万个大小质地一样的球(或纸片也可以,此处只做说明,不计较实行的难易),其上分别写上数字l至l0000将球放入一不透明的大口袋中,充分扰乱后,从中抽出100个——也可以100个一次抽出,也可以一个一个抽,但每次抽的球,下次抽时不放回去,这叫做“不放回抽样”。这100个球上的数字所对应的那100个人,即构成样本。这样的抽样法叫做“简单随机抽样”,因为其形式简单,“机会均等”的性质一目了然,但它并非在实施上是最简单的一种随机抽样方法。正相反,从一定意义说,这种“简单随机抽样”。在实施上常是最复杂的一种随机抽样方法,因此在大型的抽样调查工作中很少应用,而往往用一些变通的方法(仍保持“机会均等”这一性质)来代替之。但这并不降低简单随机抽样方法的重要性,因为其理论比较简单,且更复杂的抽样方法的理论是以之为基础的,这问题到稍后再谈。在实施这一方法时,有3件事要做:l.给调查对象的群体中的每一个体编号;2.准备“抽签”的工具,实行“抽签”;3.对样本中每一个体,去测量或调查所关注的指标。这事完成后就是所得数据的分析问题,暂且不谈。先说第一件事,在大群体中,这是一个老大的麻烦。比如抽样调查一个省农民的经济状况,涉及个体数以千万计,要对每一个体编上号谈何容易,就是包括几千人的群体也非轻而易举。这一步看来没有什么简省的方法可以代替,当然,组织上的工作做得好可以使工作有条不紊减少错误。第三件事也不容易,这里有两个问题:样本中的个体在地域上散布很广,比如有一个偏远的角落有几个样本,也必须专程前往。在使用通讯调查时这麻烦可以减少,但通讯调查中“调查对象不回答”的问题,会比当面访问更严重,而只根据愿回答者所提供的资料,其统计分析会产生偏差,这是抽样调查的理论和应用中一个困难问题。其次,当调查对象是人(即使调查对象是企业之类的机构,但仍要人来回答问题)时,得到所关注的指标的可靠数据有时也不易。如果调查对象只是个体的身高之类的资料,问题可能好办些,但若内容涉及隐私或敏感问题,如个人收入情况,是否吸过毒之类,被调查者不一定愿意说出真实情况。这时就要想些办法,比方说,设计合适的问题单,即一张包含一些不那么敏感的问题的单子,但问题都与调查关注之点有某种关联,按被调查者对这些问题的回答去做出估量,有时不得不采取煞费苦心的办法。在C.R.劳著、石坚等译的《统计与真理》一书中,有一个有趣的例子,介绍了怎样用一种迂回的办法去估计人群中吸食大麻者的比率。为免除因抽签而准备纸条或球等等的麻烦,统计学家设计了一种叫做“随机数表”的东西,那是以本完全由数字0.1,…,9组成的表,其中每个数字都是用随机的方式决定的。理想的随机数表应按照如下的方式制作:准备10个大小质地一样的球,放入一个不透明的袋子里,球上分别写上数字0,1,…,9;将球充分扰乱后,从袋中抽出一个球,将球上的数字记在纸的第一行最左边的位置。把球放回去,充分扰乱,再抽出一个,将球上的数字记在第一行第2个位置。按照这个办法无限次地重复下去,你想要得到多少数字都可以。把所得数字按行、列依次排列,满了一页再排下一页,就可以得到一本包含多页的随机数字的书,这就是随机数表。第一个这样的表是英国统训学家梯培特于1927年所出版。该书共26页,含41600个数字,次页所载是该书某页的一部分(转录自C.R.劳著、石坚等译《统计真理》一书)。它是按4个数字一组排列,5组成一单元,这种排列是为了使用上的方便。我们来举例说明此表如何用于抽样。设有一个由90个体组成的群体,要从中随机抽出l0个作为样本。把群体中的个体按0至89编号,查随机数表,例如此处所附的一页看表的最左边的两列,组成一些2位数,由上至下依次是:78,32,29,83,55,26,32,27,74,53,92,58,28,51,…①但梯培特的随机数表并非用抽签式的方法制成,据说是利用某种现成的统计数字经过加工排列而得。其中32重复出现,只保留一个,92超过了89,不能要。去掉这后,读出l0个既无重复且都不超过89的数,即78,32,29,83,55,26,27,74,53,58,这些号所对应的个体被选人样本。如果样本量不止10,就要继续往下读,找出28,51等。如2列不够,再启用表的3、4列,得16,04等.直到取足所需个数为止。如果群体的个体数多于100但不多于l000就要把表的3个列联合使用,得78l,320等号。若群体的个体数多于1000但不多于10000,则要联合4列使用.依此类推。为了获得更好的效果,每次使用时不必从表的第l页开始,可“随机”翻到表的某一页在一页内,也不必从左上角开始,可“随机”从该页上的某个位置开始。现在。人们也广泛地利用计算机产生随机数字.那是根据一定的算法而产生的,严格讲来,不是上面所讲的那种随机数,因此也常被叫做“伪随机数”。不过,它在统计性质上很接近于真正的随机数,不影响其应用。计算机虽然精巧且神通广大,却是不能产生上述严格意义下的随机数的.根本原因在于,“机会均等”是一个无法严格定义的概念。用“球在盒中被充分扰乱”,是实现“机会均等”的一种做法。如在第一章中所述,这也只是在感觉上我们觉得如此,因为,所谓“充分扰乱”,也不是一个可以严格定义的概念。以上讲的随机数是十进位的,也可以考虑制作其他形式的随机数表。例如只含0,l这两个数字的随机数表,其每个位置或0或l,以同等的机会出现。随机数表有很多用处,除上述用于抽样外。另一个重要应用是模拟一定的概率模型。时常,一种概率模型的性质在理论上去探讨很难,这时,通过模拟可以在统计上对其性质做出估量,这有点相似于用频率估计概率。表面上看,随机数只适用于模拟“机会均等”的情形,但经过数学上的转化,以这种情形为基础,可用于模拟更为复杂的模型。随机数的另一个有趣的应用是用于编制密码:同一个密码如用的时间过久,则易于为人所破译,比较保险的办法是按一种随机的方式不停地更换,而更换的方式(称为密钥),由机器产生,除非失密,不易为敌方所了解。例如,可以把要传送的每个符号编成由0、l组成的某个序列。如(比方说)“他”这个字可以编为0100011001000ll1(1)共16个数字。但是在发出前,先按发送和接收方都了解的密钥,比方说1001111000100110(2)将其转化为另一序列。方法是,密钥中为0的位置不变。而为1的位置则改变(1变为0,0变为1),这样,序列(1)经密钥(2)转换后化为1101100001100001(3)发出的是序列(3)。对方收到后,按密钥(2)还原为(1)。就得到“他”这个字。这一切都由密码机自动完成,密钥也由机器产生,并不固定.因此难于侦破。简单随机抽样在实施中有其麻烦之处,这在前面已提到了。另外,从效率的观点看,它也不一定是最好的方案.因此在实际中常对之做出一定的变通,以下介绍最常用的两种。一是分层随机抽样。“分层”的概念,前面在介绍凯尔的“代表性抽样”时已提到了。举一个简单的例子:设要对国内全体高校教师的状况进行抽样调查,把教师按职称高、中、初3个等级分成3个“层”。设(比方说)各层人数之比大致为2:3:5,而我们打算抽2000人进入样本,则按此比例在高级职称教员中抽400人,中、初级职称中抽600人和1000人。但在各层内,抽样按简单随机或下文介绍的集团抽样的方式抽出。这么做的好处是:使样本在宏观上具有更好的代表性。如果按简单随机的方式抽,则随机的作用可以使在样本中各层的比例与其在全群体中的比例产生较大的差距,特别在样本量较小时更显著。做这种抽样的要求是分层要合理,且对各层所含个体数的比例要了解比较确实。如在本例中,按职称分层,对绝大多数调查目的来说是一个合理的做法。若是按地域(比方说按南、北或东、西),则对某些调查项目可能适合,但对于收人、健康状况等重要指标就不见得合适了,因为地域的差别对这指标并无多大影响,分层不会缩小偶然性的作用。另外,若对各层所含个体数的认定有较大的偏差,则在样本中将产生系统性偏差而影响结果的精度。另一个重要的方法是集团抽样。其方法是先按某种标准把群体中的个体分成一些集团。第一阶段先抽出一些集团(凡未被抽出的集团,其中的个体皆不进入样本),然后在每一集团中再按某种方式抽出一个体,各集团中所抽出的个体组成样本(也可以只有第一阶段.即抽出的各集团中的个体全进入样本)。拿上例来说.可以把一个高校作为集团,也可以把一个城市的全体高校作为一个集团。这些抽样方法可以结合起来使用,而构成各种形式的抽样方案。例如全部集团也可以分层,集团内的抽样方式可以是简单随机抽样,也可以是其他的抽样方式.集团内还可以分成小集团,例如把一个高校作为集团,则每一个系可以作为子集团,再在一高校内做集团抽样,等等。集团抽样的好处在于降低样本在地域上的散布程度。就此例来说,如做简单随机抽样,则所得样本可能散布在全国上千所高校内,访问起来很费事。若做集团抽样,可以(比方说)把要调查的对象限制在自所学校的范围内,而在一个学校里又可集中在少数几个系内,工作量减轻不少。集团内所含个体数不一,例如大的高校教员有几千人,小的不过几百人,如在各集团间做“机会均等”的抽样,则各个体被选入样本的机会就不会均等,但可以用一些补充的规定来保证这一点。例如,让大的集团有更大的概率被抽出。一般地,对群体内的个体或集团,可按其重要眭各赋予不同的概率,而抽样方案设计成使每一个体有按此概率被抽出的机会。选种抽样方案叫概率抽样,简单随机抽样是其特例,其中每一个体赋予相同的概率。随机抽样方法把调查对象的选定委之于机会,目的是为了避免调查者主观上的偏向性。对于不习惯从统计学观点考虑问题的人来说,难免对这种做法感到有所怀疑,觉得与其委之于机会,还不如在经过考虑的基础上由人主动去挑选好。正确认识这个问题的关键.在于理解在什么情况下用随机抽样的方式更合适。我们不能武断地说,不论在任何情况下都是用随机抽样的方式最好。举一个不甚贴切的例子,要从系里成百名教员中挑选几名去参加校运动会,正确的做法是根据教员的条件,挑选其中最有竞争力者,而不会用随机抽样的方法去挑。另外,如果群体不大,而我们对群体中每一个体都有充分的了解,这时人为的选择(只要选择者不抱偏见)可能得出比随机抽样更有代表性的样本。那么,随机抽样手要适合于哪些情况呢?首先,群体是够大,以至研究者不可能充分掌握其中各个体的情况。如果群体较小,干脆用普查的方式,工作量也不大。其次,抽样的目的不是让选出的个体完成某项明确的任务(如参加运动会),而是为了对群体的某项指标进行估计。例如该群体中患有某种疾病的人的比率有多大,其平均收人有多少等,对这类问题,通过随机抽样所做的估计,其误差可用概率方法加以估计。若用人为挑选的办法,则因为群体中个体数太多,代表性不易保证,因而在估计上会有偏差,且偏差大小无法进行估计。借用经济学上的说法,随机抽样可比拟为用“看不见的手”来进行调节。在市场中,充满了难以掌握的偶然因素,可人类经验证明,市场经济有利于使资源配置优化,产生更大的经济效益。而计划经济则由于人的认识有限及不能摆脱主观偏向的局限性,效果反而不如。这个比拟可以启示我们随机抽样优越性的道理所在。由于在挑选样本时末能充分体现随机化的原则而造成失误的例子,在应用上不少见。历史上一个有名的例子,是美国一家有名的刊物《文学文摘》预测1936年美国总统选举结果发生重大失误