1作業一中央極限定理之模擬實驗一、以twnvillage96vote.sav資料為母體。二、選擇一個變數(例如1996總統選舉各村里kmt得票數或得票率)。三、先偷看母體參數(如平均數,標準差)。四、以SRS方式抽出n=25個樣本。五、計算樣本平均數及樣本標準差。六、重複步驟四、五,做100次。七、檢驗這一百個樣本平均數是不是接近中央極限定理所說的:(一)樣本平均數的平均數等於母體平均數,(二)樣本平均數的標準差等於母體標準差除以根號n,(三)樣本平均數呈常態分布,其平均數是母體平均數,標準差是母體標準差除以根號n?(npartestchisquare)(四)有多少樣本平均數落在母體平均數加減兩倍的標準誤之間?(五)有多少區間估計會包含母體平均數?八、重複步驟四至七,但n=100。九、重複步驟四至七,但n=225。十、寫下此一模擬實驗的結論與心得。2執行程序(1)開始—程式集—SPSS—,開啟SPSS(2)在SPSS的視窗下,執行「File」—「Open」—「Data」d:\homework\twvillage96vote(圖1-1)圖1-1一、選擇一個數字資料變數(例如:dpp得票率)二、偷看母體參數(1)在「Analyze」下點選「Descriptivestatistics」→選擇「Descriptives」(圖1-2)3(2)點選「96dpp得票率」此變數(圖1-3)(3)最後點選「確定」,至output1-SPSS瀏覽器視窗,便可看到結果(圖1-4)。圖1-2圖1-3DescriptiveStatistics4DescriptiveStatistics7462.0055.3120.66188.336787462dpp96r96民進黨得票率ValidN(listwise)NMinimumMaximumMeanStd.Deviation圖1-4說明如(圖1-4)中,母體平均數μ=20.6618,標準差σ=8.33678『記得要將母體參數先抄下來喔』!三、以SRS方式抽出n=25個樣本。(sample25from7462)(1)回到SPSS畫面,在「Data」下點選「Selectcases」(圖1-5),(2)點選「Randomsampleofcases」,再點進入「Sample」(圖1-6),(3)點選第二行寫著「exactly」那一行,填入要抽樣的個數(25or100)以及母體總數(7462)(圖1-7),(4)點選「continue」後,再點選「OK」,則系統自動幫忙隨機抽出25個樣本(圖1-8)。5圖1-5圖1-66圖1-7圖1-8四、計算樣本平均數及樣本標準差(1)接下來我們再回到SPSS畫面,到「Analyze」下點選「Descriptivestatistics」→選擇「Descriptives」,選擇「96dpp得票率」之後,點選「確定」。(2)至output1可看到系統已計算出這25個樣本的統計資料(這是第一次抽出25個樣本數的結果,可稍稍和母體資料做比較)(圖1-9)。7DescriptiveStatistics25.8630.2919.72168.1964925dpp96r96民進黨得票率ValidN(listwise)NMinimumMaximumMeanStd.Deviation圖1-9五、重複三、四,做100次。(亦即複製語法99次,總共變成100次)(1)在output1可看到三、四的語法(圖1-10),並將其複製。(2)新開一個語法檔:在SPSS視窗選「File」→「New」→「Syntax」(圖1-11)。(3)將複製的語法貼上,共貼99次(圖1-12)。USEALL.doif$casenum=1.compute#s_$_1=25.compute#s_$_2=7462.endif.doif#s_$_20.computefilter_$=uniform(1)*#s_$_2#s_$_1.compute#s_$_1=#s_$_1-filter_$.compute#s_$_2=#s_$_2-1.else.computefilter_$=0.endif.VARIABLELABELfilter_$'25fromthefirst7462cases(SAMPLE)'.FORMATfilter_$(f1.0).FILTERBYfilter_$.EXECUTE.DESCRIPTIVESVARIABLES=dpp96r/STATISTICS=MEANSTDDEVMINMAX.圖1-108圖1-119圖1-12(2)複製完之後(應該會有抽樣99次的程式),點選「Run」→「All」(或是先選「Edit」中的「SelectAll」,再點選右上角有一個黑色箭頭()的符號,這個箭頭就是告訴SPSS要去run這些程式),接著電腦就會開始跑資料,時間長短隨抽出樣本數和電腦性能之不同而異(圖1-13)。圖1-13六、整理輸出檔(1)回到output1檔,就有已經跑好的99筆結果,加上第一筆共100筆,現在要將這結果輸出到excel。從「File」裡點選「Export」,右下角「FileType」請選excel檔,並選「Browse」將抽樣100次後的結果存至10d:\homework\25.txt(圖1-14)圖1-14(2)接下來回到儲存的地方打開該Excel檔,裡面已有所有的輸出內容,但我們要的只有那100個民進黨得票率的資料,故可用排序方式將那一列都找出來。先將格子全選,按右鍵,選「儲存格格式」(圖1-15)。(3)再選「對齊方式」,將裡面的「合併儲存格」該項勾勾取消,按「確定」(圖1-16)。11圖1-15圖1-16(4)再從Excel輸出檔,將格子全選,從「資料」→「排序」,選擇按主要鍵「欄A」(變數所在的那一欄)「遞增」排列(如圖1-17、圖1-18)。(5)則可將想要的資料排在一起了,再將多餘的格子刪除,僅留需要的數字(平均數、標準差),最後存檔,關掉excel。12圖1-17圖1-18(6)編輯完的結果如下(如圖1-19):13圖1-19七、將編輯完的資料匯至SPSS(1)再開啟一個新的SPSS視窗,選擇「File」→「Open」→「Data」,找到存檔之處,記得「檔案類型」要選擇excel檔,再選「開啟」(圖1-20)。14圖1-20(2)選擇開啟後會出現一個視窗,問你是否將第一列讀為變數名,請記得把勾勾取消,再選OK,則資料即出現(圖1-21)。圖1-21(3)定義變數從「VariableView」中點選更改變數名稱依序為:mean25,std25.(圖1-22)15★100個樣本:mean100;std100225個樣本:mean225,std225。(4)最後將這個修改過的檔案存成25.sav。圖1-22八、驗證中央極限定理(1)請到SPSS視窗下,點選「File」→「Open」→「Syntax」,開啟d:\homework\Cen25.sps。這個語法檔便是印證中央極限定理的所有語法(圖1-23,也可開啟一個新的語法檔將下列語法貼上)。(2)但因為每個人選擇的變數不相同,所以記得要在有加網底的地方,更改數據(母體平均數和標準差),如此才能跑出正確的資料出來。且第四行的標準差要自己計算!(變異數÷5or10or25)然後跑此語法檔,即出現結果。frequencevariable=mean25/format=notable/hist=normal.descmean25.npartest/k-s(normal)=mean25.npartest/k-s(normal,20.6618,1.667356)=mean25.computeup25=20.6618+2*(8.33678/5).computelow25=20.6618-2*(8.33678/5).computek=1.if((mean25gelow25)and(mean25leup25))k=2.freqk.computeup2502=20.6678+(8.33678/5).computelow2502=20.6678-(8.33678/5).16computek02=1.if((mean25gelow2502)and(mean25leup2502))k02=2.freqk02.computeest25up=mean25+2*(std25/5).computeest25low=mean25-2*(std25/5).computekk=1.if((20.6678geest25low)and(20.6678leest25up))kk=2.freqkk.computeest25p1=mean25+(std25/5).computeest25w1=mean25-(std25/5).computekk02=1.if((20.6678geest25w1)and(20.6678leest25p1))kk02=2.freqkk02.圖1-23說明如(圖1-4)中,母體平均數μ=20.6618,標準差σ=8.33678,所以我們這個語法主要是檢定抽100次的樣本結果,是否呈常態分布,即是否符合以中央極限定理檢定。根據中央極限定「當樣本數n很大時,其樣本平均減掉平均數,再除以標準差,將會趨近平均數為0,標準差為1的常態分佈」,用樣本平均數X來估計全體的平均數μ稱為點估計。點估計命中目標的機會是很低的,所以我們要用區間估計。根據中央極限定理和常態分布的特性我們知道Xn/這個區間包含著全體平均數μ的機會有68%,Xn2/的機會有95%,而Xn3/的機會有99.7%!在此實作中σ÷√n=8.33678÷√25=1.667356,語法第四行即填入20.6618,1.667356(圖1-23,有劃底限部分),即要求抽樣分配從小到大排列要符合平均數等於等於母體平均數(20.6618),標準差等於母體標準差除以根號n(1.667356)的情況下,比起上一句npartest/k-s(normal)=mean25.對常態分配的要求似乎又嚴格了一點。K是看有多少個Xbar落在母體平均數加減兩倍的標準差中,k02則是看一倍的部分;kk這部分的兩個語法,是看有多少個Xbar的區間估計會包含母體平均數,所以一樣的有加減兩倍、一倍(kk02)的樣本標準差部分。17九、最後輸出結果n=25Histogram24.000022.000020.000018.0000mean2514121086420FrequencyMean=20.718841Std.Dev.=1.5905318N=100Histogram圖1-24DescriptivesDescriptiveStatistics10017.348024.153620.7188411.5905318100mean25ValidN(listwise)NMinimumMaximumMeanStd.Deviation圖1-25說明圖1-25為每次抽樣25個樣本,抽100次以後,樣本數的平均數20.718841及標準差1.5905318,圖1-24為樣本數的分佈。18NParTestsOne-SampleKolmogorov-SmirnovTest10020.7188411.5905318.059.048-.059.589.879NMeanStd.DeviationNormalParametersa,bAbsolutePositiveNegativeMostExtremeDifferencesKolmogorov-SmirnovZAsymp.Sig.(2-tailed)mean25TestdistributionisNormal.a.Calculatedfromdata.b.NParTests圖1-26One-SampleKolmogorov-SmirnovTest10020.66181.66736.062.027-.062.624.831NMeanStd.DeviationNormalParametersa,bAbsolutePo