作业一中央极限定理之模拟-SitesDuke

jsdtzjhcom
3 ℃
2020-05-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1作業一中央極限定理之模擬實驗一、以twnvillage96vote.sav資料為母體。二、選擇一個變數（例如1996總統選舉各村里kmt得票數或得票率）。三、先偷看母體參數（如平均數，標準差）。四、以SRS方式抽出n=25個樣本。五、計算樣本平均數及樣本標準差。六、重複步驟四、五，做100次。七、檢驗這一百個樣本平均數是不是接近中央極限定理所說的：（一）樣本平均數的平均數等於母體平均數，（二）樣本平均數的標準差等於母體標準差除以根號n，（三）樣本平均數呈常態分布，其平均數是母體平均數，標準差是母體標準差除以根號n?（npartestchisquare)（四）有多少樣本平均數落在母體平均數加減兩倍的標準誤之間?（五）有多少區間估計會包含母體平均數?八、重複步驟四至七，但n=100。九、重複步驟四至七，但n=225。十、寫下此一模擬實驗的結論與心得。2執行程序（1）開始—程式集—SPSS—，開啟SPSS（2）在SPSS的視窗下，執行「File」—「Open」—「Data」d:\homework\twvillage96vote（圖1-1）圖1-1一、選擇一個數字資料變數（例如：dpp得票率）二、偷看母體參數（1）在「Analyze」下點選「Descriptivestatistics」→選擇「Descriptives」（圖1-2）3（2）點選「96dpp得票率」此變數（圖1-3）（3）最後點選「確定」，至output1－SPSS瀏覽器視窗，便可看到結果(圖1-4)。圖1-2圖1-3DescriptiveStatistics4DescriptiveStatistics7462.0055.3120.66188.336787462dpp96r96民進黨得票率ValidN(listwise)NMinimumMaximumMeanStd.Deviation圖1-4說明如（圖1-4）中，母體平均數μ＝20.6618，標準差σ＝8.33678『記得要將母體參數先抄下來喔』！三、以SRS方式抽出n=25個樣本。（sample25from7462）（1）回到SPSS畫面，在「Data」下點選「Selectcases」（圖1-5），（2）點選「Randomsampleofcases」，再點進入「Sample」（圖1-6），（3）點選第二行寫著「exactly」那一行，填入要抽樣的個數（25or100）以及母體總數（7462）（圖1-7），（4）點選「continue」後，再點選「OK」，則系統自動幫忙隨機抽出25個樣本（圖1-8）。5圖1-5圖1-66圖1-7圖1-8四、計算樣本平均數及樣本標準差（1）接下來我們再回到SPSS畫面，到「Analyze」下點選「Descriptivestatistics」→選擇「Descriptives」，選擇「96dpp得票率」之後，點選「確定」。（2）至output1可看到系統已計算出這25個樣本的統計資料（這是第一次抽出25個樣本數的結果，可稍稍和母體資料做比較）（圖1-9）。7DescriptiveStatistics25.8630.2919.72168.1964925dpp96r96民進黨得票率ValidN(listwise)NMinimumMaximumMeanStd.Deviation圖1-9五、重複三、四，做100次。（亦即複製語法99次，總共變成100次）（1）在output1可看到三、四的語法（圖1-10），並將其複製。（2）新開一個語法檔：在SPSS視窗選「File」→「New」→「Syntax」（圖1-11）。（3）將複製的語法貼上，共貼99次（圖1-12）。USEALL.doif$casenum=1.compute#s_$_1=25.compute#s_$_2=7462.endif.doif#s_$_20.computefilter_$=uniform(1)*#s_$_2#s_$_1.compute#s_$_1=#s_$_1-filter_$.compute#s_$_2=#s_$_2-1.else.computefilter_$=0.endif.VARIABLELABELfilter_$'25fromthefirst7462cases(SAMPLE)'.FORMATfilter_$(f1.0).FILTERBYfilter_$.EXECUTE.DESCRIPTIVESVARIABLES=dpp96r/STATISTICS=MEANSTDDEVMINMAX.圖1-108圖1-119圖1-12（2）複製完之後（應該會有抽樣99次的程式），點選「Run」→「All」（或是先選「Edit」中的「SelectAll」，再點選右上角有一個黑色箭頭（）的符號，這個箭頭就是告訴SPSS要去run這些程式），接著電腦就會開始跑資料，時間長短隨抽出樣本數和電腦性能之不同而異（圖1-13）。圖1-13六、整理輸出檔（1）回到output1檔，就有已經跑好的99筆結果，加上第一筆共100筆，現在要將這結果輸出到excel。從「File」裡點選「Export」，右下角「FileType」請選excel檔，並選「Browse」將抽樣100次後的結果存至10d:\homework\25.txt（圖1-14）圖1-14（2）接下來回到儲存的地方打開該Excel檔，裡面已有所有的輸出內容，但我們要的只有那100個民進黨得票率的資料，故可用排序方式將那一列都找出來。先將格子全選，按右鍵，選「儲存格格式」（圖1-15）。（3）再選「對齊方式」，將裡面的「合併儲存格」該項勾勾取消，按「確定」（圖1-16）。11圖1-15圖1-16（4）再從Excel輸出檔，將格子全選，從「資料」→「排序」，選擇按主要鍵「欄A」（變數所在的那一欄）「遞增」排列（如圖1-17、圖1-18）。（5）則可將想要的資料排在一起了，再將多餘的格子刪除，僅留需要的數字（平均數、標準差），最後存檔，關掉excel。12圖1-17圖1-18（6）編輯完的結果如下（如圖1-19）：13圖1-19七、將編輯完的資料匯至SPSS（1）再開啟一個新的SPSS視窗，選擇「File」→「Open」→「Data」，找到存檔之處，記得「檔案類型」要選擇excel檔，再選「開啟」（圖1-20）。14圖1-20（2）選擇開啟後會出現一個視窗，問你是否將第一列讀為變數名，請記得把勾勾取消，再選OK，則資料即出現（圖1-21）。圖1-21（3）定義變數從「VariableView」中點選更改變數名稱依序為：mean25,std25.（圖1-22）15★100個樣本：mean100；std100225個樣本：mean225,std225。（4）最後將這個修改過的檔案存成25.sav。圖1-22八、驗證中央極限定理（1）請到SPSS視窗下，點選「File」→「Open」→「Syntax」，開啟d:\homework\Cen25.sps。這個語法檔便是印證中央極限定理的所有語法（圖1-23，也可開啟一個新的語法檔將下列語法貼上）。（2）但因為每個人選擇的變數不相同，所以記得要在有加網底的地方，更改數據（母體平均數和標準差），如此才能跑出正確的資料出來。且第四行的標準差要自己計算！（變異數÷5or10or25）然後跑此語法檔，即出現結果。frequencevariable=mean25/format=notable/hist=normal.descmean25.npartest/k-s(normal)=mean25.npartest/k-s(normal,20.6618,1.667356)=mean25.computeup25=20.6618+2*(8.33678/5).computelow25=20.6618-2*(8.33678/5).computek=1.if((mean25gelow25)and(mean25leup25))k=2.freqk.computeup2502=20.6678+(8.33678/5).computelow2502=20.6678-(8.33678/5).16computek02=1.if((mean25gelow2502)and(mean25leup2502))k02=2.freqk02.computeest25up=mean25+2*(std25/5).computeest25low=mean25-2*(std25/5).computekk=1.if((20.6678geest25low)and(20.6678leest25up))kk=2.freqkk.computeest25p1=mean25+(std25/5).computeest25w1=mean25-(std25/5).computekk02=1.if((20.6678geest25w1)and(20.6678leest25p1))kk02=2.freqkk02.圖1-23說明如（圖1-4）中，母體平均數μ＝20.6618，標準差σ＝8.33678，所以我們這個語法主要是檢定抽100次的樣本結果，是否呈常態分布，即是否符合以中央極限定理檢定。根據中央極限定「當樣本數n很大時，其樣本平均減掉平均數，再除以標準差，將會趨近平均數為0，標準差為1的常態分佈」，用樣本平均數X來估計全體的平均數μ稱為點估計。點估計命中目標的機會是很低的，所以我們要用區間估計。根據中央極限定理和常態分布的特性我們知道Xn/這個區間包含著全體平均數μ的機會有68％，Xn2/的機會有95％，而Xn3/的機會有99.7％！在此實作中σ÷√n＝8.33678÷√25＝1.667356，語法第四行即填入20.6618,1.667356（圖1-23，有劃底限部分），即要求抽樣分配從小到大排列要符合平均數等於等於母體平均數（20.6618），標準差等於母體標準差除以根號n（1.667356）的情況下，比起上一句npartest/k-s(normal)=mean25.對常態分配的要求似乎又嚴格了一點。K是看有多少個Xbar落在母體平均數加減兩倍的標準差中，k02則是看一倍的部分；kk這部分的兩個語法，是看有多少個Xbar的區間估計會包含母體平均數，所以一樣的有加減兩倍、一倍（kk02）的樣本標準差部分。17九、最後輸出結果n＝25Histogram24.000022.000020.000018.0000mean2514121086420FrequencyMean=20.718841Std.Dev.=1.5905318N=100Histogram圖1-24DescriptivesDescriptiveStatistics10017.348024.153620.7188411.5905318100mean25ValidN(listwise)NMinimumMaximumMeanStd.Deviation圖1-25說明圖1-25為每次抽樣25個樣本，抽100次以後，樣本數的平均數20.718841及標準差1.5905318，圖1-24為樣本數的分佈。18NParTestsOne-SampleKolmogorov-SmirnovTest10020.7188411.5905318.059.048-.059.589.879NMeanStd.DeviationNormalParametersa,bAbsolutePositiveNegativeMostExtremeDifferencesKolmogorov-SmirnovZAsymp.Sig.(2-tailed)mean25TestdistributionisNormal.a.Calculatedfromdata.b.NParTests圖1-26One-SampleKolmogorov-SmirnovTest10020.66181.66736.062.027-.062.624.831NMeanStd.DeviationNormalParametersa,bAbsolutePo