第七章抽樣與抽樣分配所謂的抽樣,是指從一個母體中抽出一組樣本,利用此樣本來推估母體特性的一種方法或程序,而我們所抽出的樣本是否能夠具體的代表整個母體,與我們所使用的抽樣方法有關。一般而言,抽樣的方法可以分為兩種,一種是隨機抽樣,另一種則是非隨機抽樣。由隨機抽樣所抽出的樣本都具有隨機性,亦即每組樣本被抽出的機率皆相同,而且所抽出的樣本是互相獨立的;至於非隨機抽樣則沒有這個特性。在此我們僅介紹隨機抽樣的部分。隨機抽樣所抽出的樣本,稱之為隨機樣本。常見的隨機抽樣方法有簡單隨機抽樣法(SimpleRandomSampling)、分層隨機抽樣法(StratifiedRandomSampling)、部落抽樣法(ClusterSampling)以及系統抽樣法(SystematicSampling)。7.1常見的抽樣方法在這一節中我們所討論的是隨機性的抽樣法,常見的有以下四種:簡單隨機抽樣、分層隨機抽樣、部落抽樣以及系統抽樣,以下便將這四種方法加以說明。7.1.1簡單隨機抽樣法設從含有N個元素的母體中,隨機抽取個為一組樣本,而每一個樣本被抽出的機會均相同,此種抽樣的方法,稱之為簡單隨機抽樣法;而按此種方法所抽出的樣本,則稱之為簡單隨機抽樣樣本。在採用此種抽樣方法時,依其抽取的樣本放回或不放回,又可分為抽樣放回(samplingwithreplacement)與抽樣不放回(samplingwithoutreplacement)兩種。這兩者在抽樣的時候,樣本出現的機率並不相同。當我們採取抽樣放回的方式時,每組樣本出現的機率為,而當我們採用抽樣不放回的方式時,其每組樣本出現的機率則為,然而當母體相當大的時候,兩者均可視為獨立的狀況,也就是說不管樣本放回或是不放回,對於下一次抽取並不會造成影響。nN1NnC17.1.2分層隨機抽樣法分層隨機抽樣法就是指將整個母體分成若干個不重疊之部份母體,此部份母體稱之為層,每個層與層之間互相排斥。例如將班上個同學的身高依160公分以下、160~170公分、170公分以上三種層次分為三個不同的部份母體,而每個母體的個數分別為、與,然後在每一層中各別抽取一簡單隨機樣本,其樣本數分別為、與。若將各層的樣本數加總起來,便為總樣本。由上述的例子,我們不難看出層內的變異較小,而層與層之間的變異則較大。然而當我們在採用分層隨機抽樣法時,要如何來決定每一層內到底要抽出幾個樣本呢?一般而言,最常用的方法是「比例配置法」,以下便加以說明。【例7.1】某個研究機構想要研究大學教育的問題,於是想要在台灣地區以隨機抽樣法選取1200名大學生作為樣本。倘若已知全省大學各年級之總人數及其學業平均成績的資料如下表所示:試問倘若以分層比例抽樣法來選取樣本,則各年級應該抽取多少名學生?解:首先我們先求出台灣地區大學生之總個數NN=25,000+21,000+18,000+16,000=80,000令n1,n2,n3與n4分別表示依分層比例抽樣法所應該抽取之大一、大二、大三與大四的學生人數。則根據(7.1)式我們可以求出因此,倘若以分層比例抽樣法來選取樣本時,則應該選取大一的學生375位,大二的學生315位,大三的學生270位以及大四的學生240位。375800002500012001n315800002100012002n270800001800012003n240800001600012004n7.1.3部落抽樣法部落抽樣法是將整個母體依其標準分成若干個部落(部落內的每個元素彼此間的差異較大,而部落與部落間的差異較小),然後任取數個部落為隨機樣本,而被抽中之部落內的每個元素皆為調查的對象。例如人口調查,以家庭為抽樣單位,被選中的家庭其全部成員皆必須接受調查。採用部落抽樣法的誤差通常較大,然而因為可以就近集中調查,可因此而省下不少的時間與調查費用,故此種抽樣法還是有其可用之處。部落抽樣法與分層抽樣法看似相同,然而實際上,兩者卻有很大的不同之處,茲將這兩種抽樣方法的差異列表如下:7.1.4系統抽樣法將母體所有的元素依次排列,然後將其分成數個間隔,每隔若干元素抽取一個,此種抽樣方法稱之為系統抽樣法。此種抽樣方法的優點便是在使用時非常方便,只需隨機選取出第一個元素之後,每隔若干個單位之後再抽取一個元素,以此類推,其餘的樣本元素便能夠決定出來,一直到抽取了所需的樣本個數為止。然而採用此種抽樣方法時,其所使用的資料應該避免有週期性的現象,否則將會造成嚴重的偏差。例如在探討冷氣機平均每月的銷售數量時,倘若每隔12個月抽取一個元素,則所得到的資料都是同一月份的資料,將無法提供充分的情報,因此在採用此方法時必須加以注意。以下便將此系統抽樣法的步驟加以說明:(1)首先先將所有的N個母體元素依序排列。(2)依次將母體劃分為n個相等大小的區間,每一區間內的元素個數為(若k為非整數,則取最接近的整數來代替)。(3)採用簡單隨機的抽樣方法從第一個區間的k個元素中,抽出一個元素,作為起始點。(4)由起始點算起,每隔k個單位抽取一個元素,即為樣本元素,共取n個元素合成一組樣本。nNk7.2抽樣分配統計量乃為樣本內隨機變數的實數值函數,但此實數值函數不包含未知參數。統計量本身亦為一隨機變數並以大寫字母表示,如樣本平均數,樣本變異數,而以小寫字母表示統計量的計算值或觀察值,如樣本平均數,樣本變異數。舉個例子來說,假若我們從一母體中隨機抽出一組樣本,則像等皆為樣本內隨機變數的實數值函數,但這些實數值函數不包含未知參數,這些皆可稱之為統計量。X2Sx2s),,(21nXXX32211XXY),,min(212nXXXYnnXnXXXY41)2(2411213但隨機變數並不是統計量,因包含未知參數。當我們在作資料分析時,主要的目的便是利用統計量來推估母體的某些數值特徵,這些母體的數值特徵稱為母體參數。一般在統計學上較常使用到的統計量包含有樣本平均數、樣本變異數、樣本比例等。為了要充分地利用樣本統計量來對母體的參數作估計,我們必須對每一種可能的樣本作探討。倘若我們將所有可能的樣本組合都考慮進去,那麼統計量的機率分配便稱為抽樣分配。1XU與X2Sp7.2.1樣本平均數的抽樣分配倘若我們從一個平均數為,標準差為的母體中,隨機抽出一組樣本,那麼樣本平均數則為樣本平均數的抽樣分配之期望值與變異數如下:期望值變異數XXnX,,X,X21XnXnXXXXniin121)(XnXV2)(nnXXXnnXXXX21211nXXXn211nn1nnXXXVnnXXXVXV212211nXVXVXVn2121nnn222【例7.2】設一個母體,其元素包含1、2、3、4、5共N=5個數值,若從此一母體中抽出n=2個為一組隨機樣本。倘若採用抽取後放回的方式,試求樣本平均數的抽樣分配,平均數與變異數。解:首先可以由題意求出母體平均數與母體變異數母體平均數母體變異數3554321xxpX52221()()()()5iixVXxpx25)35()32()31(222若從此一無限母體中抽取n=2個為一組隨機樣本,則所有可能的不同樣本組合列表如下:編號樣本編號樣本編號樣本1(1,1)111(3,1)221(5,1)32(1,2)1.512(3,2)2.522(5,2)3.53(1,3)213(3,3)323(5,3)44(1,4)2.514(3,4)3.524(5,4)4.55(1,5)315(3,5)425(5,5)56(2,1)1.516(4,1)2.57(2,2)217(4,2)38(2,3)2.518(4,3)3.59(2,4)319(4,4)410(2,5)3.520(4,5)4.5xxx由上表可知,的可能組合有25種,而每一種組合的機率皆為,所以的抽樣分配為11.522.533.544.55從的抽樣分配表中可以計算出的平均數與變異數x)(xf251252253254255254253252251X2X3257525152525.12511)()(91iiiXxfxX29122)()(XxfxiiiX2222325152525.125111910由以上所得到的結果可知,所有可能組合之樣本平均數的期望值與母體平均數相等(),而樣本平均數的變異數等於母體變異數除以n的值()。而對所有的有限母體且抽出後不放回,使用簡單隨機抽樣,則樣本平均數的抽樣分配之期望值與變異數:期望值變異數(7.4))(X1)(2NnNnXV3X22122Xn上述定理中是在有限母體且抽出的元素不放回母體中的情況。而式子中則稱為有限母體校正因子(f.p.c),在此將一些有限母體校正因子的特性加以說明:1.由於樣本數固定,所以當母體數愈大時,愈接近於1。2.若樣本數與母體數N的比例相當小時,則可以將之視為無限母體;一般而言,當時,便可將有限母體校正因子省略。3.當樣本數接近於母體數N時,有限母體校正因子便趨近於0,亦即表示也將趨近於0。1NnNn1NnN05.0Nnn一般來說,當我們在考慮樣本平均數之抽樣分配的型態時,樣本大小以及母體本身的分配型態都會影響此統計量之抽樣分配。當這些因素處於不同的情況之下,則的抽樣分配將會有所差異,以下便加以探討在不同的特性因素下,抽樣分配所呈現的各種型態。XXX自常態分配母體中抽樣時:自非常態分配母體中抽樣時:【例7.4】一個常態分配母體其平均數80而變異數16,若從此一母體中隨機抽取出樣本大小為100的隨機樣本,其樣本平均數用來估計母體平均數。試求之期望值與標準差為何?並且說明的抽樣分配。解:由題意我們可以得知,母體平均數80,母體變異數16而樣本大小n=100,且母體本身為常態分配,因此其樣本平均數的期望值與標準差分別為而之抽樣分配則是平均數為80,標準差為0.4的常態分配。2X80)(X401004.nX7.2.2中央極限定理(CentralLimitTheorem;C.L.T)中央極限定理在統計學中相當地重要,該定理是指從一個具有平均數與變異數的母體中抽取樣本數為的一組隨機樣本,其樣本平均數為,則當n趨近無限大時時,的分配趨近於標準常態分配。因此,當我們不知母體的分配型態,或是母體本身並非常態分配,只要樣本個數夠大,我們均可以將其樣本平均數之抽樣分配視為常態分配,並且我們也可以利用此定理來求有關樣本平均數的某些機率。nX【例7.6】一個在全省各地開了三千家分店的大企業,想要抽樣估計去年每家分店發生物品損壞的平均損失金額。假設母體平均數元,而母體標準差元,試求(a)倘若抽取n=100家分店當成隨機樣本,則樣本平均數與母體平均數之差在60元以內的機率是多少?(b)倘若將抽取的分店家數增加到n=256家,則樣本平均數與母體平均數之差在60元以內的機率又是多少?解:由題意可以得知,母體平均數與標準差分別為與,令X代表該企業的去年的損失金額,則X~N(1630,)。16304001630400(a)由於母體總數N=3000,而樣本數n=100,這兩者的比例相當小,因此在求時,可以將有限母體校正因子省略不計,因此我們可以求得由此可知,樣本平均數的抽樣分配為~N(1630,),而所欲求的機率為:X40100400nXXX240606060XX4060404060X5151..5151..0668093320..8664.0由以上的結果,我們有約87%的信