来自樣本大小的決定本章的學習主題来自抽樣的基本概念抽樣的基本意義是「選擇母體或群體(population)中一部份的元素,針對抽出之樣本進行研究,並藉由研究的結果推論整個母體」。来自抽樣的基本概念為何要抽查而不普查:1.減少人力、成本。2.縮短資料蒐集的時間。3.對抽樣的樣本可做較深入的研究。4.由樣本來推估母體。来自元素(element):元素是指研究的基本單位,亦是蒐集資料的根據。2.母體(population):母體是研究中所有元素的集合,也是我們藉由樣本想要推論的標的。3.抽樣單位(samplingunit):抽樣單位是指被抽取樣本中的一個或是一組元素。抽樣專有名詞簡介来自樣本(sample):經過抽樣方法抽出的元素即為樣本,樣本為母體的一部份,唯有其與母體具有共同的特質,研究結果才有意義,故樣本必須具有代表性。5.抽樣架構(samplingframe):抽樣架構是元素(element)的集合名冊,描繪整個抽樣的情形。抽樣誤差(samplingerror):所謂抽樣誤差即是所選出的樣本並不能完全代表母體特質。抽樣專有名詞簡介来自結果的接受度(acceptanceofresults)普遍的可被接受尚好5.結果可概化性(generalizabilityofresults)良好較差資料來源:Davis&Cosenza(1993),“BusinessResearchforDecisionMarking”,3rdedition,p.22来自抽樣程序資料來源:參考WilliamG.Zikmund(1999),“BusinessResearchMethods”,6thedition,p.342.定義目標群體選擇抽樣架構選擇適當的抽樣方法決定樣本大小選擇抽樣元素實地進行抽樣蒐集来自機率抽樣抽樣的目的在於用樣本來解釋母體的特質。機率抽樣的基本要點是隨機選取(randomselection),即每一個元素被抽出的機率是相同的,且每次抽樣為獨立事件。一、簡單隨機抽樣(SimpleRandomSampling)二、系統抽樣(SystematicSampling)三、分層抽樣(StratifiedSampling)四、群集抽樣(ClusterSampling)来自我們將母體分成若干群(團體),而每一群內具有許多元素。但分群的方法是依據資料蒐集的可得性或者方便性而來。2.我們試著確保群內異質性高,群間同質性高,但是有時候我們所得到的資料卻是相反的,這時就要經過一些處理,以利下一步驟的進行。3.我們選擇群集抽樣是以隨機抽樣的方式進行,選擇某些團體,再對這些樣本內的全部元素進行調查。1.我們將母體分成若干層,而每一層內具有許多元素。但分層的依據是根據我們研究的相關重要變項而決定。2.我們試著確保層內同質性高,不同層間異質性高的原則去分層。3.我們隨機的從每一層中選取出適當的樣本。来自於學理上最精確。2.僅受隨機誤差影響。1.母體若很大時不易實施。2.需要母體全部的名冊方能實行。系統抽樣較隨機抽樣容易實施。若抽樣架構具有週期性則樣本可能不具代表性分層抽樣比前二者更具抽樣效率,研究者若想研究次母體特質時,是一個不錯的方法。正確的分層不是件很容易事,可能要花費許多成本群集抽樣1.節省研究時間與財力。2.抽樣架構中每個元素資料不易得到或不完整時,使用此法會較方便。1.群集的大小差異會影響抽樣正確性。2.依目的可能要抽樣二次上,例如先抽村里,再抽戶。發生抽樣錯誤的機率較高。資料來源:參考WilliamG.Zikmund(1999),“BusinessResearchMethods”,sixthedition,p.362来自非機率抽樣非機率抽樣的特點是無法估計母體中每一個元素被選入樣本的機會或機率,且也不能保證每個元素有機會被選入樣本。非機率抽樣相較於機率抽樣較節省成本,且應用較方便,但其缺點是所抽出的樣本可能較不具有代表性,因此若要由樣本去推估母體時,會有問題。来自非機率抽樣一、便利抽樣(ConvenienceSampling)二、配額抽樣(QuotaSampling)三、判斷抽樣(JudgmentSampling)四、雪球抽樣(SnowballSampling)来自不需要母體的名冊。2.快速、便利。1.正確性和估計偏差不能衡量或控制。2.研究者的主觀意識可能影響抽樣,選出的樣本可能不是很適合代表母體。配額抽樣1.較機率抽樣中的分層抽樣成本低。2.具有分層抽樣的效果。1.雖採用配額的方式抽樣,但在抽樣時若不是隨機選取,選出的樣本也會有誤差,而不能代表整個母體。2.在研究者將母體分類時,可能會產生偏誤。判斷抽樣1.在某種類型如選舉預測上很有用。2.在蒐集樣本時,較節省成本及時間。1.研究者在抽樣時可能會因主觀因素而影響了抽樣,造成偏差。2.由抽樣資料來推估母體時較不適合。雪球抽樣在尋找少數難以尋找的母體時,此法是一個很好的方法。1.因為抽樣單位不獨立,會產生較高的偏差。2.由抽樣資料來推估母體時較不適合。資料來源:參考WilliamG.Zikmund(1999),“BusinessResearchMethods”,sixthedition,p.362来自電話抽樣一、電話簿或名冊抽樣法‧簡單隨機抽樣法‧系統抽樣法二、隨機選取撥號(RandomDigitDialing,RDD)‧簡單隨機撥號法‧群集隨機撥號法三、混合法‧二位隨機撥號法‧加一撥號法来自6—2抽樣誤差大大小樣本數大圖6-2抽樣誤差與樣本數的關係来自非抽樣誤差在研究的各個步驟中均可能發生,這些誤差之來源可能是觀察性誤差,也有可能是非觀察性誤差。6抽樣誤差與非抽樣誤差来自一、非觀察性誤差(Non-observationalError)非觀察誤差是來自於從母體中抽樣取得資料時可能發生的誤差,這種誤差可細分成以下兩種:1.涵蓋性誤差(noncoverage)例如:名冊漏列2.回覆性誤差(nonresponse)例如:拒絕回答或回答人資格不符6抽樣誤差與非抽樣誤差来自二、觀察性誤差(ObservationalError)此種誤差有兩種可能的來源,一是樣本元素中蒐集到不正確的資料,二是資料在處理時或結果呈現時發生錯誤。1.資料蒐集誤差(data-collectionerrors)例如:拒答、敷衍或亂答2.研究室中處理過程誤差(officeprocessingerrors)例如:編碼錯誤、列表錯誤或資料解釋錯誤等6抽樣誤差與非抽樣誤差来自樣本大小的決定一、基本的統計概念簡介1.母體參數(populationparameter):是指母體中變項特質的總括性敘述。2.統計值(statistic):統計值是由樣本計算出的數值,用來推估母數之用。3.抽樣誤差(samplingerror):樣本的估計值與母體參數兩者的差即為樣本的抽樣誤差。4.信賴水準與信賴區間(confidenceinterval):信賴水準是用來表示樣本估計母體的正確性。来自二、平均值與標準差1.平均值假設母體中有N筆資料,而我們從母體N筆資料中抽出n個樣本,則其樣本平均數計算式如下2.標準差標準差為變異數的開方,變異數為每筆資料與平均數差距的平方和,通常我們使用σ表示母體的標準差,而樣本的標準差通常以S來表示。其計算式如下:nXn...211)(2nXXSi来自三、常態分配(NormalDistribution)如果資料以直方圖表示,其分配如鐘形一樣,中間高而往左右兩邊對稱下降,則我們稱此種分配呈常態分配。而當常態分配中μ=0,σ=1時,則稱為標準常態分配(standardnormaldistribution),其以Z~N(0,1)表示。在常態資料標準化後,才能藉標準常態分配來查表,而Z分數或稱為標準化值,其計算方式為SZSZSZ来自四、中央極限定理定義:從一個母體中抽出n筆資料,並且計算樣本平均數,如果n很大,則的分配會趨於常態分配,且的平均數仍為母體平均數μ,其以數學式表示為:),(~2nNXn1.通常要求n≥30,才能適用中央極限定理。2.中央極限定理不論原母體的分配為何,只要樣本數夠大,那分配會趨於常態分配。XXX来自樣本大小的決定一、簡單隨機抽樣分配樣本大小的決定1.以母體估計平均數求樣本大小(母體σ已知時)22/eZn来自樣本大小的決定例如:台灣電力於1978年12月舉辦「台灣地區家用電氣普及狀況調查研究」,在決定樣本大小時,是根據1977年該公司舉辦家用電氣普及狀況調查時所求得之當年1月份台電14個營業處3,082,502用戶平均用電量為142度,變異數47,078度,作為母體平均數及變異數,並限制樣本對母體之誤差不得超過4度,α=0.05,利用上列公式,計算出樣本數如下:10823)4(47078)96.1(22n来自為樣本比率,母體標準差為時,則其樣本大小在e固定時其樣本數為PPpn)P1(Pp22/2)1(ePPZn来自值為母體的真正比率,假設無法得知確切的p值,亦可採取保守估計,設定p=0.5,且我們希望真正p值與估計p值相差在3%以內,則,z=1.96、p=0.5,則樣本大小為:在e=0.03,n==256若e=0.02,其他條件不變,則n==576若e=0.01,其他條件不變,則n==230422