一、建立stata数据集(dataset)1、用键盘建立小型数据集①input命令inputstr2sexageyx1-x3end②打开DataEditor,采用copy&paste方法二、数据管理1、显示当前数据(观测或变量)listsexyin1/102、变量排序sort三、描述统计1、tabulatetabsex2、histogram--Histogramshistogramy3、summarize--Summarystatisticssumx14、tabstat--Displaytableofsummarystatisticstabstatyx1,statistics(nmeansdvarq)二、数据管理6、egen--Extensionstogenerate三、单变量描述统计量——数字特征3、summarize--Summarystatistics常用描述量【Variable,Obs,Mean,Std.Dev.,Min,Max】summarizevarlist基本描述量【Percentiles(1%、5%、10%、25%、50%、75%、90%、95%、99%),Smallest,Largest,Obs,SumofWgt.,Mean,Std.Dev.,Variance,Skewness,Kurtosis】summarizevarlist,detail4、tabstat--Displaytableofsummarystatistics分位数和分位数差tabstatvarlist,statistics(minp1p5p10qp90p95p99maxrangeiqr)矩描述量tabstatvarlist,statistics(nsummeansdvariancecvskewnesskurtosissemean)三、单变量描述统计量——数字特征1、summarizesummarize[varlist][,options]2、tabstattabstatvarlist[,statistics(statname[...])]三、描述统计8、原始数据图示法——茎叶图stemvarname[,options]9、原始数据图示法——箱线图(盒须图)graphboxyvars[,options]10、数字特征(描述统计量)示意图graphbaryvar[,options]一、建立stata数据集(dataset)2、读*.txt文件中的数据建立数据集insheetx1-x20using“K:\insdata\Data\Dayhugp20070903.txt”,clear二、数据管理3、generate——由数学函数生成新变量genx1x2=x1*x2描述统计1、tabulate--forone-waytablesoffrequenciestabsex2、单变量描述统计——连续分布直方图histogramx,start(#)w(#)freqaddlabels单变量描述统计——数字型离散分布条形图histogramx,discretefreqaddlabelsgap(5)5、单变量描述统计——单项式单向次数分布表tab1varlist6、单变量描述统计——离散分布条形图twowaybaryvarxvar——displaysnumeric(y,x)dataasbars.Example:contractx,freq(xfreq)twowaybarxfreqx7、单变量描述统计——分类型离散分布条形图graphbaryvars,over(categories)——drawsverticalbarcharts.Inaverticalbarchart,theyaxisisnumerical,andthexaxisiscategorical.Example:genfrequency=1graphbar(count)frequency,over(categories)8、单变量描述统计——离散分布饼图graphpie,over(varname)1、简单随机样本:设X是有密度f(x)的随机变量,若n个随机变量X1、X2、…、Xn相互独立且有相同密度f(x),则称X1、X2、…、Xn是来自总体X的容量为n的简单随机样本,简称样本(sample)。simulation:随机样本(1)有限总体的简单随机重复抽样例1.常规理解:简单随机抽样,重复抽样,P99。例2.一般理解:简单随机抽样,重复抽样,P104。例3.Stata的(不重复)随机抽样:clearsetobs30generatevarvalue=1+int(428*uniform())sample40(2)无限总体的简单随机重复抽样clearsetobs1000从均值为500、标准差为75的正态总体随机抽取容量n为25的1000个样本观测。foreachvarofnewlistx1-x25{gen`var'=500+75*invnormal(uniform())}2、统计量(statistic):不含未知参数的样本的函数。如样本均值、样本方差、样本中位数、T统计量。设X1、X2、…、Xn是容量为n的简单随机样本,则称实函数ˆ(X1、X2、…、Xn)为统计量。统计量也是随机变量。若x1、x2、…、xn是样本的一组观测值,则ˆ(x1、x2、…、xn)为统计量的一个观测值。如求N(500,752)的容量为4的样本的样本均值、样本标准差、样本方差的1000个观测:egenm4=rowmean(x1-x4)egens4=rowsd(x1-x4)genv4=s4^23、抽样分布:统计量的概率分布。即抽取容量相同的所有可能样本后,统计量的所有可能值形成的分布。如样本均值的概率分布;样本方差的概率分布等。研究两个问题:(1)统计量服从什么形式的分布?(2)统计量的数字特征?两种研究方法:(1)求精确分布(小样本方法):在确定样本容量下,直接由总体分布导出统计量确切概率分布。(2)求渐进分布(大样本方法):在样本容量无限增大条件下,推导统计量极限分布或近似分布。ttest--Meancomparisontests1、Two-samplemeancomparisontestttestvarname1==varname2[,options1]2、Groupmeancomparisontestttestvarname,by(groupvar)[options2]3、Immediateformoftwo-samplemeancomparisontestttesti#obs1#mean1#sd1#obs2#mean2#sd2[,options3]options1description--------------------------------------------------------------------------unpairedtreatdataasunpairedunequalunpaireddatahaveunequalvarianceswelchuseWelch'sapproximationlevel(#)setconfidencelevel;defaultislevel(95)--------------------------------------------------------------------------*by(groupvar)variabledefiningthegroups--------------------------------------------------------------------------clearinputxgrpstr2factor571A1661A1491A1401A1341A1531A1441A1682A2392A2292A2452A2562A2512A2313A3493A3213A3343A3403A3444A4514A4654A4774A4584A4endonewayxgrponewayxfactoranovaxgrpanovaxfactorAnalysisofVariance(STATA)AnalysisofVariance(SAS)SourceSSdfMSFProbFSourceSSdfMSFValuePrFBetweengroupsWithingroups618.92598.0029309.4666.444.660.0409ModelError618.92598.0029309.4666.444.660.0409Total1216.9211110.63CorrectedTotal1216.9211110.63stata的相关分析命令1、Twowayscatterplotsscattervarlist2、Displaycorrelationmatrixorcovariancematrixcorrelatevarlist3、Displayallpairwisecorrelationcoefficientspwcorrvarlist,sig附录:时间序列分析的stata命令page328,chapter9timeseriesexercise61、正确输入或生成时间值,并向软件声明数据集为时间序列数据(默认数据集为截面数据)①严格按时间顺序输入变量y(工业增加值)的观测;clearinputy……end②自动生成变量time的值;gentime=m(1999m12)+_n③设定time为月份格式的时间变量。tssettime,m2、绘制时间序列线图④绘制变量y的时间序列线图。tsliney3、平滑分析⑤序列y的简单平均平滑序列A;genA=sum(y)/sum(y.)⑥y的12项移动平均平滑序列M12;tqCmoothm`M12=y,window(615)⑦对M12蟛行时间移正得䱅中移动平均平滑序列MA;tpsmoothmaMA=M12,window(11)⑧平滑参数=0.6,最初4项观测的平均值䘺初始帳滑值的一次指摰平滑序列E。tssmoothexponentialE=y,parms(.6)samp0(4)rePlacetslina5yAMAE