抽樣與母群體(SamplesandPopulations)各種抽樣方法抽樣誤差平均數抽樣分配平均數抽樣誤差信賴區間t分配推估各種比例摘要前言因為社會研究者是在有限的時間、精力、及經濟資源的狀況下來進行研究,她/他們極少能夠研究一個既存母群體內的每一個成員。取而代之的,她/他們僅能研究樣本-此一母群體中較少數目的個體(人)。經由抽樣過程,社會研究者尋求從一個樣本(一個小群體)通則化(或概化)到整個母群體-從這裏,樣本被抽取出來-(一個大群體)。隨機抽樣與非隨機抽樣社會研究者採取的抽樣方法,比起日常生活中所使用的抽樣方法,往往考慮更為周詳且較具科學性。她/他們主要關切樣本對於整個母群體而言是否具有足夠的代表性,並得以對母群體作出各種精確的通則。為了此類推論,研究者根據母群體中的任一成員是否具有同等機會被抽取出來,以選取一種適當的抽樣方法。倘若任何母群體成員均具有一種抽樣選擇的同等機會,即是使用一種隨機抽樣方法;否則,就是運用非隨機抽樣方法。各種抽樣方法(SamplingMethods)非隨機抽樣法(NonrandomSamples)偶遇抽樣(accidentalsampling)定額抽樣(quotasampling)判斷或立意抽樣(judgmentorpurposivesampling)隨機抽樣法簡單隨機抽樣(simplerandomsampling)系統抽樣(systematicsampling)分層抽樣(stratifiedsampling)結叢或多階段抽樣(clusterormultistagesampling)偶遇抽樣偶遇抽樣法乃是最普遍使用的非隨機抽樣法,與我們日常生活中的抽樣程序較沒有差異,因為此種抽樣方法完全建立在對於研究者來說,是否便利的想法之上。換言之,研究者僅僅包含最便利取得的個案在她/他的樣本裏,並排除所有不方便取得的樣本。定額抽樣另外一種非隨機抽樣類型為定額抽樣法。在此一抽樣程序中,一個母群體的不同分類特徵,諸如年齡、性別、社會階級、或族群等,依比例被抽取出來-根據它們在此一母群體中所佔的比例。雖然性別或許在樣本中具有適當的代表性,但是其它的分類特徵-如年齡或種族-則沒有被顧及。定額抽樣法的不當之處在於其對於各種因素控制的缺乏更甚於對於這些因素的定額設定。判斷或立意抽樣第三種非隨機抽樣法為判斷或立意抽樣法。在此種抽樣類型中,邏輯、常識、或感覺判斷被用來選擇一個樣本,其代表一個較大的母群體。隨機抽樣三個原則隨機抽樣包含下列三個原則:母體中的每一個成員都必須有同等機會成為樣本。換言之,抽樣架構必須完整。母體中每一個成員被選中的機會必須是已知的。我們必須確實知道我們所選擇母群體中任一位成員的機率,唯一方法是,在抽樣的每一個步驟中,知道有多少人是有資格被選出來的。所有被選擇的樣本應該是彼此獨立的(independent)。選擇母群體中任一位成員,不應增加或減少另一位成員被選擇的機會。簡單隨機抽樣最基本的隨機抽樣法為簡單隨機抽樣法。其能夠透過一種過程,例如現今極為熟悉的技術,將所有人的名字寫在紙條上並折疊好,放入一頂帽子裏,加以充分混合後,再抽出若干名字。此一程序,讓母群體中任一成員具有同等抽樣選擇的機會,因為每一個成員,且僅有一個成員,其名字會在紙條上。基於若干原因(包括研究者需要一個非常大的樣本時),社會研究者通常要抽取一個隨機樣本時,並不是從帽子中來抽取名字。她/他們通常是使用亂數表(tableofrandomnumbers)。系統隨機抽樣所有隨機抽樣方法實際上都是簡單隨機抽樣變形。例如,系統隨機抽樣,在這裏,並不需要亂數表,因為母群體所有成員的名單是被以固定的區間抽取出來。是以,使用系統隨機抽樣,一個母群體中,每一個nth成員均包含在此一母群體的樣本中。系統隨機抽樣法的好處是不需要亂數表,其結果,此一方法比起簡單隨機抽樣程序而言,較不費時,特別是從較大母群體中抽取樣本時。而其不利之處在於,系統隨機抽樣法假定了在母群體所有成員的名單上所處的位置不會影響到隨機性(randomness),如果此一假定沒有被嚴肅地看待,則其結果可能會忽略某些母群體的成員,比起其他成員而言較不會被取得。分層抽樣分層抽樣法涉及到將母群體分成更多具同質性的次團體或階層(strata),再從這些次團體或階層中簡單隨機抽取出樣本。階層化是建立在一個具同質性的(homogeneous)團體比起一個具異質性的(heterogeneous)而言,祇需要一個較小的樣本。表面上而言,分層抽樣法與前面提及的定額抽樣法具有顯著的相似性,因為此二種程序通常需要以精確的比例來包含各種樣本的分類特徵-它們是歸因於母群體。除了表面相似性外,定額與分層抽樣本質上是不同的,因為定額抽樣的成員是由調查者以任何方式抽取出來,而分層抽樣的成員總是在一種隨機的基礎上而被選取出來。結叢或多階段抽樣結叢或多階段抽樣法經常是被用來減少大規模調查的成本耗費-這類大規模調查需要訪員遊走於許多分散的地區。使用結叢抽樣法,至少會運用到二個抽樣層級:初級的抽樣單位或結叢,它們乃是良好劃分(well-delineated)的地理區域,在其中包含了母群體中所發現的各種分類特徵。在每一個結叢內的樣本數目。平均數抽樣分配(SamplingDistributionofMeans)如果一個平均數為μ而標準差為σ的母體,其平均數的抽樣分配會有一個平均值,等於μ。也許有人接著會問,那抽樣分配的標準差呢?標準差在告訴我們不同的樣本之間變異的狀況,在只做一次抽樣時,樣本的分數與其平均數差異的情形稱為標準差,而當我們進行無限次抽樣時,所得到的抽樣分配的所有平均數,與這些平均數的平均的差異情形,即抽樣分配的標準差(請注意!這和標準差的抽樣分配是不一樣的),會等於,其中N為樣本數。我們將此抽樣分配的標準差稱之為平均數之標準誤(standarderrorofthemean)。N另外,我們可以發現當樣本數愈小時,其平均數的抽樣分配則愈形擴散,相反地,如果樣本數愈大時,則平均數的抽樣分配則愈集中於抽樣分配之平均數附近。可是我們要注意的是,雖然樣本大小會改變抽樣分配的形狀,但是抽樣分配的平均數是不受樣本大小所影響的。平均數抽樣分配的特徵(CharacteristicsofaSamplingDistributionofMeans)平均數抽樣分配有下列三個特徵:平均數抽樣分配近似於一個常態曲線一個平均數抽樣分配的平均數(平均數的平均數themeanofmeans)等同於母群體的真正平均數一個平均數抽樣分配的標準差小於母群體的標準差上述平均數抽樣分配的特徵,即是為何能從樣本來對母群體作出可靠推論的能力之核心所在。中央極限定理(centrallimittheorem)在抽樣分配的討論中,我們曾經提到抽樣分配的過程,我們發現當樣本數愈大的時候,其分配的峰度也就愈尖,其尾端也就愈短,相反地,當樣本數愈小的時候,其峰度較平,而尾端也就延伸得較廣。如此樣本大小會改變分配的狀態,我們則稱之為中央極限定理(centrallimittheorem),我們將之應用在描述抽樣分配的狀態,亦即當我們從母體中隨機抽出固定數目的樣本,不管母體的分配為何,當樣本數愈大的時候,樣本平均數的抽樣分配會愈趨近常態分配,其抽樣分配的平均數會趨近於母體平均數,其抽樣分配的標準誤約等於估計的標準差除以樣本數的平方根。換句話說,對任何平均數等於和變異數等於的母體而言,樣本平均數的分配是接近常態分配的,而這些平均數的平均()等於μ,而其平均數的變異數()則為。x2xx2xN2中央極限定理是一項數學上的定理,如果能滿足一些假設,則可以幫助我們進行統計的推論,要符合的三個假設是:假設1:母體之平均數和變異數都是固定的。假設2:抽樣必須是隨機的,母體中的每一個單位被抽中之機會都相同。假設3:每一次抽樣之樣本大小都必須一樣。平均數抽樣分配作為一個常態曲線(TheSamplingDistributionofMeansasaNormalCurve)在第五章中,我們學習到如何將一個原始分數轉換成z分數,並可求出高於或低於此一原始分數的面積比例。但是在本章中,我們所興趣的不在於求得與一個原始分數分配相關聯的機率,我們將從事的是一個平均數的抽樣分配-那些被我們從分數的總母群體中隨機抽出-並對這些平均數樣本作機率陳述。平均數抽樣分配,求取z分數公式如下:平均數抽樣分配標準差平均數的平均數此一分配中樣本平均數xxXXz平均數標準誤(StandardErroroftheMean)平均數標準誤,求法如下:借助於平均數標準誤,我們得已發現所有平均數的值之全距,在此一全距中,母群體真正平均數可能落在其上。我們也能夠推估母群體平均數確實地落在此一所有平均數的值之全距的機率(可能性)。而此即為信賴水準的概念。Nx信賴區間(ConfidenceIntervals)信賴區間的求算公式如下:樣本平均數的標準誤樣本平均數信賴區間xxX1.96X%95樣本平均數的標準誤樣本平均數信賴區間xxX58.2X%99Confidenceintervalsforthemeanwithknownpopulationvariance一般所謂95%的信賴區間估計,乃是表示重複抽取樣本數為n的所有可能樣本所建立的全部區間估計中,有95%的區間將會包含真正的母體平均數,而僅有5%沒有包含母體平均數。但實際上我們通常僅抽取一個樣本,且u通常為未知,因此無法確切知道此樣本是否包含u,但我們可以說此區間有95%的機率會包含u.0.3991.338104fx()44x43210123400.20.4μ的抽樣分配X母體參數:Mean=μVariance=σ2每個區間=nx96.1間為隨機區間變化,所以區的平均值會有因為每個樣本t分配倘若我們更現實地思考,則我們知道母群體中變數的標準差(σ)但卻不知道且須推估母群體的平均數(μ),這是沒有多大意義的。因為僅有非常少數的情況下,母群體的標準差(且因此平均數的標準誤)是已知的。通常,我們不僅需要從一個樣本來推估母群體的平均數,同時也需要從相同的樣本來推估標準誤。在此一母群體的變異數或標準差未知的情況下,我們可以利用從樣本所得到的相關統計值來加以估計。惟此時不再使用z,而是使用t。xCharacteristicsoftdistributiont分配是一群機率分配的組合,不同自由度對應不同的tdistribution的密度函數,由於變異數較標準常態分配大,所以形狀較為矮胖。0.3991.338104fx()44x43210123400.20.4Standardnormal(d.f.=)d.f.=4d.f.=2d.f.=1兩種信賴區間的比較由t值所建構出的CI的區間比由Z-score所建構出的CI區間要寬,因為母體的變異數必須估計,誤差較大。樣本數愈大,CI的寬度愈小。因為(1)n在分母(2)t值隨著degreeoffreedom的增加而減小。觀念兩種信賴區間的比較CI隨著d.f.增加而減小的情形:觀念samplesized.f.95%CInn-15410920193029∞∞)/(776.2nsx)/(262.2nsx)/(093.2nsx)/(045.2nsx)/(96.1nsx當d.f.大於30時,用t值所計算的CI與用標準常態分配所計算出的CI幾乎相同。