1抽样讲义壹、导论抽样的意思顾名思义,就是从全体之中抽取一部分个体做为样本,借着对样本的观察,再对全体做出推论。譬如说,我们想知道某个地区七岁到十二岁的小孩在除夕夜平均每人收了多少压岁钱,这些钱又跑到那里去了;或是我们的商品检验单位想要知道有一批货柜的棒球是不是每一个都符合使用标准;或是水库管理当局想要知道到底水库里有多少鱼。在理论上,我们当然可以不厌其烦地针对母体所有成员一个一个观察以取得数据,但在实际上我们知道这很不容易做到,事实上在有些情况下我们还非得做抽样调查不可。一、为什么要抽样?(一)因为要节省经费,(二)因为要节省时间。这两个理由很容易了解,如果要访问全体,则所耗费的时间和经费是相当可观的,而且有许多调查性质具有时间性,如果拖得太长就会失去时效。例如想知道学生们对某一项考试的反应如何,就非得打铁趁热,在短时间内完成调查不可。(三)因为要提高资料的准确性,这是由于全体调查牵涉到相当大量而又繁杂的作业,动员不少人力、物力和行政管道,增加许多犯错的机会,导致取得的数据质量不佳,而抽样调查工作涉及的作业负担相对地轻松许多,参与人员因为较少,好控制,使得数据的品质也较好。事实上联合国的专家们也发现,在一些教育较不发达的地区,人口普查的资料就不如抽样调查来得好。(四)因为要取得较详尽的数据,譬如我们想要知道七岁到十二岁小孩的压岁钱流到那里去,如果进行全体调查的话,由于人力和物力的限制,我们只能针对每一个小孩取得一点点资料,但是如果是抽样调查,则因为调查对象不多,反而可以很从容的取得细节资料提供分析之用。每十年一次的人口普查,除了全体都查之外,总是还要再抽取少数样本做更详尽的访问就是这个道理。(五)因为要2减轻损失,例如汽车车身的耐撞试验,罐头食品的安全检查,或是电灯泡寿命的质量管理检验。这些调查本身就具有破坏性,总不能每部汽车都撞一撞,或是每个罐头都打开检查,这种情形非得进行抽样检验不可,而且样本数目还要控制到越少越好。二、机率抽样与非机率抽样在谈抽样设计之前,让我们先厘清一下这里所谈的抽样是指机率抽样,也就是说:「在完整定义的母体之中,每一个个体都有一个不为零的中选机会」。凡不属于这个定义范围的都是非机率抽样。常见的非机率抽样方法,综合Kish(1965)和Cochran(1977)的说法,有下列几种:(一)偶遇样本(haphazardsample)或便利抽样(convenientsample),是碰到谁就选谁的抽样,做研究的人并不在乎调查对象是否有代表性,例如生物学家解剖青蛙,心理学家观察人们对声光刺激的反应,医生征求自愿者做药物反应的实验等等。(二)立意选样(purposivesampling)或判断选样(judgmentsampling),这是经由专家主观判断,立意选定他们认为「有代表性」的样本来观察。例如人类学家或社会学家会选定一个或几个村庄来代表乡村地区,交通专家选定几个路口来计算交通流量,教育专家选定几个学校班级的学生来代表所有的学生等等。(三)自愿样本(volunteersubjects),听任自动送上门来的人组成样本群。(四)配额选样(quotasampling),依照母体的人口特征按比例分配样本数,在配额之内进行非机率抽样,也就是把调查对象依照特征分类后,根据各类别的百分比每类立意选样至额满为止。例如某个地区七岁到十二岁的小孩之中,约有一半是男的,另一半是女的,有四分之一住在都市,四分之三住在乡村。如果样本数是一千,则根据上述各类别的比例先算出各种特征交叉汇编后每一组合的配额,在配额内立意选出符合该类别的人即可。这样做可以节省时间和资源,而又维持了样本的「代表性」。3(五)雪球抽样(snowballedsample),先找到原始受访者,然后再从受访者所提供的信息找到其它受访者。以上这些非机率抽样方法由于没有机率做推论基础,大多只能做描述性的用途,而不能对全体做科学的估计或验证理论的假设检定,因为它们提不出确切的误差数据,无法计算样本数据的准确程度。贰、抽样的基本原理假设某个地区七岁到十二岁的小孩共有两百四十万人,如果我们要抽取一千个人来调查有关他们的压岁钱收入和支出情形,怎么抽才会「准」呢?用常识来判断,总要有一些都市人,一些乡下人,要男生,也要女生,要富豪子弟,也要清寒子弟等等。这些顾虑都是担心万一抽得不好,变成瞎子摸象,整个推论就失效了。在谈抽样原理之前,首先让我们先熟悉几个名词和符号。一、资料的中心点和离散程度:平均数和标准差大家都知道平均数是什么,它是所有个案观察值的总和除以累加的个案数,也就是我们通常说的一组资料的中心点。我们把全体的平均数写成μ(念成mu)。它的定义是:=(x1+x2+…+xN)/N……………………………………(2.1)式中N是全体的总个案数,xi是第i个个案的观察值。其次一个名词是标准差σ(念成sigma),是衡量一组资料中各个点和中心点之间的「标准距离」。也就是衡量一组数据中各点的集中或离散程度。它的定义是:NxxxN/])(...)()[(22221………………………(2.2)从定义上来看,它是每一个点和中心点μ的差,平方后累加起来取平均数,再开根号还原。平方的原因是要避免各点和中心点的差正负相抵。4二、正态分布和中央极限定理假设这个地区两百多万个七岁到十二岁小孩的压岁钱平均数是μ,标准差是σ。现在我们要抽取一千个样本,从样本观察值来估计μ,一个很自然的选择是用样本的平数来估计,让我们把样本的平均数写成X(念成XBar,Bar是横杠的意思),它的定义是:xxxxnn(...)/12…………………………………………(2.3)式中n是样本数。如果我们使用一套机率抽样的作业程序抽出一千人,取得他们的观察值后会得到一个平均数,把它写成x1,表示是第一次抽样得到的结果。现在把整个作业重做一遍,我们可能得到不同的一千个人,因为在机率抽样之下每个人都有中选的机会,重新做一遍就可能抽到不同的人。我们把第二次抽样的结果写成x2。当然这个x2不一定会和x1相同,就像两颗子弹不会射中相同的一点一样。如此一直做下去,如果我们做K次的话,会有xxxK12,,...,一共有K个样本平均数。在数学上有个中央极限定理,它的内容是:在样本数足够大的情况下,如果把这K个X排起来,它们会形成正态分布,而这些样本平均数的平均数会等于μ,这些样本平均数的标准差会等于/n。什么是正态分布呢?它是一种钟形,以平均数为中心、左右对称的图形分布。譬如说,全校同学的身高由低而高排列起来,会有少数人很矮或很高,大部分人集中在中间,而越靠近平均身高的人会越多,形成像钟形的样子。事实上,我们可以利用正态分布的特性计算出身高在某一高度之间者到底有多少人。这是因为根据正态分布,有68%的人会落在平均数左右一个标准差距离之内,有95%的人会落在平均数左右两个标准差之内,而有99.7%的人会落在平均数左右三个标准差范围之内的缘故。三、点估计、区间估计、和信赖系数根据中央极限定理,我们知道如果做很多次抽样的话会得到很多个X,而这些X排起来会形成正态分布,它们的平均数是μ,标准差是/n。换5句话说,有68%的X会落在/n之间,有95%的X会落在2/n之间,有99.7%的X会落在3n之间。把上述的说法稍为转换一下就变成:有68%的Xn/会包含着μ,有95%的Xn2/会包含着μ,有99.7%的Xn3/会包含着μ,而这就是抽样和估计最根本的道理。我们从全体之中以机率抽样方式抽取n个样本,取得样本观察值,计算它们的平均数X,然后加减两倍的/n得到一组上下区间,然后说:我们有95%的信心,这个上下区间一定会包含着全体的平均数μ。如果我们仍不放心的话,可以用X加减三倍的/n,那么这组区间包含着μ的信赖度就有99.7%。用样本平均数X来估计全体的平均数μ称为点估计。点估计命中目标的机会是很低的,因为只凭着少数样本观察值得到的结果要和全体的平均数吻合几乎是不可能的事,所以我们最好不要用点估计,而要用区间估计。根据中央极限定理和正态分布的特性我们知道Xn/这个区间包含着全体平均数μ的机会有68%,Xn2/的机会有95%,而Xn3/的机会有99.7%!真正可靠的估计势必要用区间估计,只有这样做我们才可以知道估计准确的程度,而这68%,95%,99.7%就称做是信赖系数。说得更确切一点,以95%信赖系数为例,它的意思是:如果我们进行一百次独立的抽样估计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计里会有95个正确地包含着全体平均数μ。实际上我们不会做一百次抽样,而是只做一次,所以说这一次抽样而来的区间估计会包含着μ的机会是95%,信赖系数越高,估计的区间也就越宽,这是高信赖系数所必须付出的代价。譬如我们估计全国七岁到十二岁小孩的压岁钱平均数是在10元到1000元之间。这个估计即使有99.7%的信赖度也没有什么用,因为这段区间实在太宽了,如果是100元到120元之间,而且信赖系数是99.7%,这就是个非常好的估计。我们学习抽样方法就是要使这个信赖区间尽可能的缩小。刚刚提到过一个好的估计必须既准又稳,我们用X来估计μ,如果做很多次的话,会有很多个X。中央极限定理已经给我们保证,这些X的平均数6会等于μ,所以是「准」的估计已无问题,但是这些X是否都靠近在一起,称得上是「稳」呢?这就要看这些X的标准差了。我们已经知道X的标准差是/n,其中σ是全体的标准差,n是样本数,把样本数加大会使得标准差变小,所以我们马上领悟到样本数越大,估计也就越稳。其次,σ是全体数据的标准差,我们并不知道它到底是多少,在区间估计里我们也需要用到它,因此为了要知道估计的准确程度,连全体资料的σ也要一起估计才行。至少有两种方法来估计σ,一是用样本观察值的标准差,它的定义是:S=/[()()...()]()xxxxxxnn122221…………………(2.4)在数学上可以证明用S2来估计2是合乎「准」的要求的,但是这个方法必须做完抽样,取得样本数据后才能派上用场,有时很不方便事前的规划和设计。二是用速简方式,我们知道通常的数据若以平均数为中心,左右各三个标准差的距离大概可以网罗绝大部分的数据。所以我们可以用常识判断,找出这组资料可能的最大数和最小数的差,再除以六,即是我们对σ的速简估计,因为从最小数到最大数之间大概有六个标准差的距离。举例来说:压岁钱最少的大概是零,最大的大概有一万元,差距是一万,除以六得1667元,这就是我们对σ的估计。先不论我们抽样得到的X是多少,在规画作业时我们就可以知道,如果样本数是一千,那么95%信赖度的区间宽度是2/n,估计是216671000/或是±105元,这个宽度通常也叫做抽样误差。四、抽样误差和样本数的决定习惯上我们都以95%的信赖系数做为一般抽样设计的常模,因此公式2/n就成为我们决定样本数和误差大小的依据。上述的例子说明了如果样本数是一千,则抽样误差是±105元。若希望把误差控制在±50元之内,那么至少需要多少样本呢?我们可以代入公式,计算5021667/n得到n应该是4446人。另外一个比较快速的估计方式是使用百分比。假设我们想调查的是全体国民之中有多少百分比的人吸烟,则以前的平均数现在变成百分比,亦即从0到1之间的一个数字。样本百分比的标准差则跟着这个百分比变化,但是7绝对不会超过05./n,为了保险起见,我们就用05./n来代入,换句话说,原来的公式2/n现在变成2051.//nn,这是估计的最大抽样误差。例如样本数为400时,抽样误差为120005/.;样本数为900时,抽样误差是±0.033;同理,样本数一千六百时,抽样误差是正负二点五个百分点;样本数二千五百时抽样误差是正负二个百分点。我们可以看到样本数在一千到一千六百时最划得来;若再往上加,经费会增加很多,但抽样误差却减少得很有限,并不经济,所以一千到一千六百是最常见到的样本数。还有一件值得注意的事情是:样本数的大小和母体总数的大小并没有什