第7章抽樣分佈與估計式前言•抽樣的目的並不意味著我們關心的焦點是在樣本的資料上。樣本背後的母體才是關心的重點。•以樣本的統計量(statistic),如樣本平均數、樣本變異數等,來推論母體的參數(parameter),如母體平均數、母體變異數等。•要達到此目的,必須知道樣本的統計量的機率分佈,以及如何在眾多的統計量中,選擇最恰當的,以便估計母體參數。第一節抽樣誤差(1)•不針對母體進行普查的主要原因有:•1.母體太大,客觀條件限制。•2.無法確知母體的範圍。•3.破壞性檢測。•4.從樣本的結果已經可以有效推知母體。第一節抽樣誤差(2)•估計誤差•抽樣誤差(samplingerror):任何因為抽樣中的機遇(chance)所產生的變動。增加樣本數,可以降低抽樣誤差。使用恰當的樣本統計量來估計母體參數,也是降低抽樣誤差的方法之一。適當的抽樣方法,可以降低抽樣誤差。•非抽樣誤差(nonsamplingerror):一切不是因為抽樣所產生的誤差。例如樣本沒有代表性,在資料的蒐集、整理、分析時也可能產生誤差。第二節抽樣方法(1)•抽樣方法•隨機抽樣(randomsampling):依照隨機的方式,使母群體中的每一個份子都有可能被抽到。•非隨機抽樣(nonrandomsampling):取決於研究者主觀的想法或是參照客觀環境的限制,所設計出來的抽樣方法,因此母群體的某些份子完全沒有被抽到的機會。第二節抽樣方法(2)•隨機抽樣•1.簡單隨機抽樣(simplerandomsampling)•2.間隔抽樣(intervalsampling)•3.分層抽樣(stratifiedsampling)•4.集群抽樣(clustersampling)•5.分段抽樣(stagedsampling)•非隨機抽樣•1.配額抽樣(quotasampling)•2.判斷抽樣(judgmentsampling)第二節抽樣方法(3)•簡單隨機抽樣•先將母體加以編號,然後如抽籤般的抽出200位即可。也可以利用均勻分佈所產生的數值來代替抽籤。•如果母群體很大,將母體加以編號恐怕不切實際。有時研究者並不確知母群體的大小,簡單隨機抽樣並不見得可行。第二節抽樣方法(4)•間隔抽樣•每隔幾個就抽取一個。在工商界中,常用此方法進行抽樣,如每隔幾個上門的顧客就訪問一位,每隔幾個產品就抽樣一個。使用間隔抽樣時,必須確保樣本的資料並無規律性變化才可。第二節抽樣方法(5)•分層抽樣•先決定有哪幾個重要的層(strata),接著就依照母體分佈的比率,隨機抽樣。這樣一來可以保證樣本與母群體的分佈情形非常相近,因此所得到的調查結果比簡單隨機抽樣更能夠推論到母群體。•如果選擇一些不相干的層,就會一點效果都沒有。因此在實務上,通常只選取少數幾個最為重要的層而已。第二節抽樣方法(6)•集群抽樣•先將母群體分為數個相似的集群,然後隨機抽取數個集群,加以調查。•在集群抽樣裡,集群與集群間要非常相似,集群內則差異要大(越接近母群體的分佈越好)。在分層抽樣裡,層與層之間的差異要大,但層之內要非常相似。第二節抽樣方法(7)•分段抽樣•採用多種抽樣的方法。例如先集群抽樣,然後再簡單隨機抽樣。或先集群再分層抽樣。實務上,仍以兩階段和三階段的抽樣最為普遍。第二節抽樣方法(8)•配額抽樣•它和分層抽樣的概念非常類似,只不過在分層抽樣裡,研究者確知母群體中各層的比率,但在配額抽樣裡,事先並不完全知道母群體的分佈,但依照研究者的學識和判斷,研擬出配額的依據。第二節抽樣方法(9)•判斷抽樣•它必須仰賴研究者主觀的判斷來進行抽樣。判斷抽樣又比配額抽樣更為主觀。因為在配額抽樣中,研究者只是去估計母體的比例而已。但在判斷抽樣裡,研究者甚至判斷哪些份子較具代表性,以決定是否要對它進行調查。第三節抽樣分佈(1)•推論統計學就是利用樣本統計量來估計母體參數的一門學問。統計量的機率分佈稱為抽樣分佈理論(samplingdistributiontheory)。•基本上我們關心該分佈是何種機率分佈,平均數和變異數各為多少,藉以估計母體參數。第三節抽樣分佈(2)•定理7.1•令X1,…,Xn為獨立隨機變項,其平均數分別為m1,…,mn,其變異數分別為,…,。若令•Y的平均數和變異數分別為212niniiXaY1niiiYaYE1mm2122iniiYa第三節抽樣分佈(3)•例子1•令X1表示丟公平硬幣出現的點數,X2表示丟公平骰子出現的點數,則3X1–2X2的平均數和變異數分別是多少?•作法•公平硬幣出現的點數的平均數和變異數分別為0.5以及0.25。丟骰子出現的點數為間斷均勻分佈,平均數和變異數分別為3.5以及2.92。•X1和X2互為獨立,得3X1–2X2的平均數為3×0.5–2×3.5=-5.5,變異數為32×0.25+22×2.92=13.93。第三節抽樣分佈(4)•例子2•X和Y變項互為獨立,X變項的變異數為,Y變項的變異數為,aX+bY的變異數是多少?•作法•aX+bY的變異數為a2+b2。2X2Y2X2Y第三節抽樣分佈(5)•推論1•X1,…,Xn的平均數均為m,變異數均為,且ai都等於1/n:•的平均數會等於母體平均數m,變異數會等於母體變異數除以n,即2/n。即:2nXXnii/1XmmXnX22第三節抽樣分佈(6)•定理7.2•令X1,…,Xn為來自常態分佈的獨立隨機變項,其平均數分別為m1,…,mn,變異數分別為•,…,。若令•則Y為常態分佈,平均數為和變異數分別為212niniiXaY1niiiYaYE1mm2122iniiYa第三節抽樣分佈(7)•推論1•令X1,…,Xn為來自常態分佈N(m,2)的獨立隨機變項,則樣本平均數•推論2•令X1,…,Xn為來自常態分佈N(m,2)的獨立隨機變項,則),(~/21nNnXXniim),(~21mnnNXYnii第三節抽樣分佈(8)•推論3•令X1,…,Xn為來自標準常態分佈N(0,1)的獨立隨機變項,則ZnXYnii~/1第三節抽樣分佈(9)•例子3•假設智商的分佈為N(100,225)。隨機抽樣25人調查其智商,並計算智商的樣本平均數。如果重複抽樣無數次,每次抽樣25人,並計算樣本平均數,則樣本平均數會成何分佈?其平均數和變異數各為多少?•作法•令這25人的智商分別為X1,…,X25。已知它們均服從常態分佈N(100,225),根據定理7.2得知,樣本平均數的抽樣分佈為N(100,225/25)。第三節抽樣分佈(10)•定理7.3•令Z1,…,Zn為標準常態分佈的獨立隨機變項,則•定理7.4•令X1,…,Xn為來自常態分佈N(m,2)的獨立隨機變項,且其樣本平均數為,樣本變異數為S2,則(1)和S2互相獨立,(2)2221~nnZZYX2122~1nSnX第三節抽樣分佈(11)•例子4•假設智商的分佈為常態分佈,平均數和變異數分別為100和225。如果隨機抽樣25人調查其智商,並計算智商的樣本變異數S2。如果重複抽樣無數次,每次抽樣25人,並計算樣本變異數,則樣本變異數S2會成何分佈?其平均數和變異數各為多少?第三節抽樣分佈(12)•作法•令這25人的智商分別為X1,…,X25,均服從常態分佈N(100,225),因此•由於卡方分佈的平均數是其自由度,變異數為2倍的自由度,因此的平均數是24,變異數是48。所以S2的平均數是225,變異數是4218.7(=48/(24/225)2)。2242~22524S225242S第三節抽樣分佈(13)•定理7.5中央極限定理•令X1,…,Xn為來自某平均數為m,變異數為2的母體的獨立隨機變項,當n趨近無限大時,其樣本平均數會趨近於N(m,2/n)。•在實用上,只要樣本數n夠大(如n25),樣本平均數就會很接近常態分佈。其實即使n小於25,只要母體分佈與常態分佈相去不遠,如類似單峰和左右對稱形狀,樣本平均數會近似常態分佈。第三節抽樣分佈(14)•例子5•已知丟骰子出現點數為間斷均勻分佈,平均數和變異數分別為3.5和2.92。現丟骰子25次,計算骰子點數的平均數。如果這樣無數次,每次均丟骰子25次,並計算骰子點數的平均數,則骰子點數的平均數會成何分佈?其平均數和變異數各為多少?•作法•根據中央極限定理,樣本平均數接近常態分佈,其平均數為母體平均數3.5,變異數為0.12(=2.92/25)。第三節抽樣分佈(15)•定理7.6•若由平均數為m1和m2,變異數為和的常態分佈母體抽隨機抽出樣本數為n1和n2的獨立樣本,則•如果母體並非常態分佈,只要樣本數n1和n2夠大(如均大於25),就可放心使用常態分佈了。2122),(~2221212121nnNXXmm第三節抽樣分佈(16)•例子6•丟硬幣25次,計算出現點數的平均數(正面一點,反正零點),也丟骰子25次,計算出現點數的平均數。然後將硬幣的平均數減骰子的平均數,得到兩平均數差異。如果重複這樣無數多次,這些無數多次的平均數差異成何分佈?平均數和變異數各式多少?第三節抽樣分佈(17)•作法•丟硬幣出現的點數的平均數和變異數分別為0.5以及0.25。丟骰子出現的點數的平均數和變異數分別為3.5以及2.92。•令為硬幣的平均數,為骰子的平均數,則的平均數為0.5–3.5=-3,變異數為根據中央極限定理,近似常態分佈。1X2X21XX13.02592.22525.021XX第四節估計式(1)•推論統計包括兩大部份:估計和假設檢定。估計分為點估計和區間估計。•母體參數的點估計:利用統計量的某一個值加以估計。例如用樣本平均數這個統計量的(大寫表示變項,小寫表示特定的數值)估計母體平均數m。•統計量又稱為估計式(estimator),以表明其估計母體參數的功用。同一個參數可以有好多個估計式。第四節估計式(2)•不偏性•令q為所欲估計的參數,(唸做thetahat)為其估計式。如果E()=q,那麼就具有不偏性。或謂是q的不偏估計式(unbiasedestimator)。•樣本平均數的期望值為母體平均數,因此樣本平均數是母體平均數的不偏估計式。qˆqˆqˆqˆmmmmnnnEXEXnnXEXEnnii111/1第四節估計式(3)•例子7•令X1,X2,X3,X4為隨機從母體抽出的4個值,樣本平均數是母體平均數m的不偏估計式,已如上述。但X1、、、是否也是母體平均數的不偏估計式?32211XXY2122XXY213XXY第四節估計式(3)•作法E(X1)=mmmm32332313221211XEXEXXEYEmmm22221212XEXEXXEYEmmm221213XEXEXXEYE第四節估計式(4)•例子8•樣本變異數S2是母體變異數2的不偏估計式嗎?•作法2122~1nSn222222222111111nnSnEnSnnESE第四節估計式(5)•有效性•假設q是所欲估計的參數,是眾多估計式中的一種。若E(-q)2在所有的估計式中最小,就是最有效的估計式。•在所有的估計式中,具有最小的均方誤,就是最有效的估計式。如果只限於從不偏估計式中挑選最有效的,那麼該估計式就是不偏的最小變異估計式。qˆqˆqˆ第四節估計式(6)•例子9•在例子7中,、X1、Y1、Y2都是母體平均數的不偏估計式。何者較為有效?•作法•X2222322959491211XXY22222254212XXY4//222nX221X第四節估計式(7)•一致性•如果樣本數n越大,估計式與母體參數q的誤差量越小。如果樣本數趨近於無限大,與q的差量小於微