社會統計Stata教學第一講資料整理社會統計打開Stata社會統計輸入資料的三種方法•在Stata中逐筆輸入社會統計打開dataeditor•工具列─data─dataeditor,看到下列視窗社會統計在dataeditor裡輸入資料•每輸入一格要enter社會統計為變數命名•Double-click“var1”跳出以下窗框•Name是變數名稱(最好在8個字元以內)•Label是變數標籤•Format是本欄格式:?社會統計Format格式•%w.dg數值的通用格式,w是本欄寬度(字元數),d是小數點以下位數。有時會出現科學記號(1.00e+07=1.00*107),呈現出來的數值並不畫一。•%w.df固定格式•%w.de科學記號格式社會統計為變數值加標籤社會統計為變數和變數值加標籤的command•renamevar1gender(這是為了方便識別,也可以留用stata內部指定的var1)•labelvariablegender“性別”•labeldefinesexlb11“男”2“女”•labelvaluesgendersexlb社會統計儲存Stata資料檔•在command視窗鍵入save檔名(Stata自動會加上.dta的附檔名)•如果先前已在同一個檔案夾裡輸入了一個同名的資料檔,可以用save,replace來取代原來的資料檔社會統計使用先前以存在的資料檔•首先要在command視窗裡用clear清除記憶體裡的檔案•再來可以在command視窗裡用use檔案路徑與檔案名來取用舊的資料檔•也可以在工作列裡選file-open或openrecent來使用既有的資料檔社會統計我的資料檔存在哪裡?•Save的指令讓資料檔存在既定的資料夾裡。•既定的資料夾可以在command視窗裡打入cd找到(預設為c:\data)•要更換既定的資料夾可以cd檔案要存放的路徑(例如cdc:\socstat2007\data)•如果要轉換成比較複雜的路徑(有空格還有像and這種Stata內部機碼)的話,可以把cd之後的路徑放在雙引號裡。Exp.cdC:\DocumentsandSettings\Ming-chiChen\桌面\•可以用dir看資料夾裡有什麼檔案•當然也可以用工作列上file-save或file-saveas來儲存社會統計察看資料檔的特性•Command視窗裡鍵入describe可以看所有資料檔變數的名稱、顯示形式、變數標籤和變數值標籤。•list可以察看全部的資料(如果檔案有很多的觀察值或很多的變數,那這個指令就不推薦了)•summarize可以把所有的數值變數的觀察值個數、均數、標準差、極值等顯現出來•但是如果是像性別這種類別變數,那就要用tab1的指令來察看了(後面會教)•工作列-data-describedata社會統計讀取ASCII格式儲存的資料•除了自己輸入資料以外,Stata也可以讀取用其他格式儲存的資料檔•讀取ASCII格式(往往以.txt或.raw存在)•.txt資料檔裡變數間已經有分隔了(空格、逗點或tab)•infile指定變數名稱using路徑和檔名社會統計如何得到有分隔的ASCII資料檔?在excel中輸入資料,選另存新檔社會統計文字格式資料的讀取儲存成檔名為book1.csv的檔案。在檔案類型中,選擇CSV(逗號分隔)(*.csv)或儲存為.txt檔(以Tab字元分隔社會統計文字格式資料的讀取•開啟stata,在指令視窗依序鍵入執行下列指令•infilev1-v10usingbook1.csv•List(小資料檔察看所有個案與變數)•Edit(打開dataeditor)社會統計如何處理社會變遷的大規模無間隔的資料檔?每五列為一筆資料,固定格式社會統計•infix5lines1:id11-3id21-7card8-9s.month10-11s.day12-13s.hour14-15s.min16-17v118v2y19-20…2:v21b10-11v2212v2313-14v2415v25.116-17…5:ty10-11tm12-13td14-15t116-18t219-21t322-24t425-27…usingemp.raw•以上不可換行•需要換行的話可以寫一個do-file,其中規定#delimit;這樣要等到Stata讀到「;」才會執行指令。•另外一個方法是寫一個dictionary社會統計Stata定義資料檔•infixusingsocch.dct•Dictionary寫法如下(可以用任何簡單的editor或Stata內建的window-dofileeditor來寫,記得存成.dct檔放在使用中的路徑裡)infixdictionaryusingsocch.txt{5lines1:id11-3id21-7card8-9…5:ty10-11tm12-13td14-15}社會統計STATAInsheet•利用stata來讀取EXCEL的資料:•(1)若資料量不大,直接以剪貼方式讀取。•(2)先將EXCEL儲存成TAB間隔的文字檔,然後在用STATA的insheet指令讀取。社會統計STATAInsheet啟動STATA啟動資料編輯視窗社會統計STATAInsheet待命社會統計STATAInsheet到excel中打開資料學生基本資料結果.xls社會統計STATAInsheet選取全部資料內容按滑鼠右鍵選「複製」社會統計STATAInsheet回到stata資料編輯視窗,將游標放在第一欄第一列,選取編輯將資料「貼上」社會統計CutandpastedatainSTATA變數名稱有怪字出現,這是因為excel裡第一列是用中文表示變數名稱,doubleclick這裡的變數標籤進去修改。社會統計貼完資料將資料編輯視窗關閉。社會統計貼完資料後,stata會將資料暫時存在記憶體中,此後的所有的動作,都適用到目前存在資料編輯視窗中的資料,直到資料使用完畢為止。社會統計可以用clear指令將所有暫存在資料編輯視窗的資料清除。社會統計•資料處理時,一般不建議以剪貼的方式來讀入資料。•理由:沒有留下任何可以追蹤的資訊。•我們可以先在excel當中將資料轉成stata可以直接讀取的文字格式。社會統計Insheet社會統計Insheet記得要用cd把預設路徑轉到你放置.txt檔案的地方社會統計Insheet上窗格是所下過的指令,下窗格則是資料檔的變數名稱使用中的路徑社會統計關閉stata的動作•每次離開stata系統,必須先清除暫時存在記憶體中的資料。•clear•Exit社會統計Stata教學第二講描述性統計社會統計用do-file來界定變數並加上標籤社會統計Do-file編輯器社會統計用do-file來界定變數和變數值標籤usestudent.dtarenamevar1genderrenamevar2hregistrenamevar3fethnicrenamevar4methnicrenamevar5religionrenamevar6heightrenamevar7nethourrenamevar8havepcrenamevar9mathrenamevar10socstatlabelvariablegender性別labelvariablehregist戶籍地labelvariablefethnic父親籍貫labelvariablemethnic母親籍貫labelvariablereligion宗教信仰社會統計用do-file來界定變數和變數值標籤labelvariableheight身高labelvariablenethour每週上網時數labelvariablehavepc住處有無電腦labelvariablemath自評數學程度labelvariablesocstat對社統的感覺labelvaluesgenderglb1labeldefineglb11男2女“labeldefineethlb11本省閩南人2本省客家人3大陸各省市4原住民5其他labelvaluesfethnicethlb1labelvaluesmethnicethlb1labeldefinehrlb1北北基2桃竹苗3中中彰投4雲嘉南5高高屏6花東宜蘭7金馬澎湖8其他labelvalueshregisthrlblabeldefinerellb1台灣民間信仰2佛教3基督教4天主教5沒有宗教信仰6其他社會統計用do-file來界定變數和變數值標籤labelvaluesreligionrellblabeldefineyesno1有2沒有labelvalueshavepcyesnolabeldefinedegree5很好4好3還可以2不好1很不好labelvaluesmathdegreelabeldefinefearlb1很害怕2害怕3沒有感覺4喜歡5很喜歡labelvaluessocstatfearlb社會統計•如果一行要寫很長,超過80字元的規定•可以用「#delimit;」這個指令來處理,取代原來的換行規定,Stata一直要讀到;才會執行指令•復原的話用「#delimitcr」社會統計儲存do-file社會統計執行do-file確認正確的路徑社會統計變數名稱改變了社會統計describe在command視窗打入describe,發現變數值也已經執行了社會統計data-browser•工具列-data-databrowser(只能瀏覽,不能改變)社會統計連續變數的直方圖•工具列-graphics-histogram輸入變數名稱選擇Y軸項目社會統計直方圖分組需調整社會統計summarize變數名稱,detail•為了調整分組,我們先看看身高的分佈狀況•summarizeheight,detail身高-------------------------------------------------------------PercentilesSmallest1%1531535%15515510%160160Obs2525%161160SumofWgt.2550%168Mean166.6LargestStd.Dev.7.58287575%17117590%178178Variance57.595%180180Skewness.240867499%181181Kurtosis2.19615社會統計重分組•150-185公分,每5公分為一組。每個直方以5公分為一組,最低一組的最小值為150分組從150到185為範圍150到185每5公分一組社會統計連續變數的直方圖社會統計間斷或類別變數的直方圖•工具列-graphics-histogram直方間要有間距每個直方頂上要標示次數(人數)社會統計調整X軸自行輸入變數值標籤社會統計間斷或類別變數的直方圖社會統計類別變數的次數分配表•Command視窗輸入•Tab1genderfethnicmethnicreligion社會統計Tab1的結果:次數分配表出現more表示尚有結果未呈現,按spacebar出現6,因為當初變數值6沒有給予標籤社會統計Tab1的結果:次數分配表社會統計Stata教學第三講Recode、missingvalue、假設檢定與信賴區間社會統計相關Stata指令•打開88q1-culture.dta這個社會變遷基本資料調查第三期第五次文化價值的Stata資料檔•因為中文相容性問題有一些亂碼,辨識不易•可以打開88q1_format.txt看變數名稱以及變數值名稱•以v26a為例•此題問受訪者「26a.您認為中國悠久的文化值得驕傲嗎?」社會統計•回答1很值得驕傲2值得驕傲3不太值得驕傲4不值得驕傲5無意見6不知道8不瞭解題意9不願意回答0缺漏“•我們想要了解回答的次數分佈•tabulatev26a•下面Stata的結果均經過編輯,以修改亂碼。社會統計26a.您認為中國悠久的文化值得驕傲嗎?Freq.PercentCum.很值得驕傲36518.7418.74值得驕傲94948.7267.4