stata高统命令笔记

我是刘惟
1 ℃
2020-03-08

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

调整变量格式：formatx1%10.3f——将x1的列宽固定为10，小数点后取三位formatx1%10.3g——将x1的列宽固定为10，有效数字取三位formatx1%10.3e——将x1的列宽固定为10，采用科学计数法formatx1%10.3fc——将x1的列宽固定为10，小数点后取三位，加入千分位分隔符formatx1%10.3gc——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符formatx1%-10.3gc——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符，加入“-”表示左对齐合并数据：useC:\DocumentsandSettings\xks\桌面\2006.dta,clearmergeusingC:\DocumentsandSettings\xks\桌面\1999.dta——将1999和2006的数据按照样本（observation）排列的自然顺序合并起来useC:\DocumentsandSettings\xks\桌面\2006.dta,clearmergeidusingC:\DocumentsandSettings\xks\桌面\1999.dta,uniquesort——将1999和2006的数据按照唯一的（unique）变量id来合并，在合并时对id进行排序（sort）建议采用第一种方法。对样本进行随机筛选：sample50在观测案例中随机选取50%的样本，其余删除sample50,count在观测案例中随机选取50个样本，其余删除查看与编辑数据：browsex1x2ifx33（按所列变量与条件打开数据查看器）editx1x2ifx33（按所列变量与条件打开数据编辑器）数据合并（merge）与扩展（append）merge表示样本量不变，但增加了一些新变量；append表示样本总量增加了，但变量数目不变。one-to-onemerge：数据源自statatutorial中的exampw1和exampw2第一步：将exampw1按v001～v003这三个编码排序，并建立临时数据库tempw1clearuset:\statatut\exampw1.dtasu——summarize的简写sortv001v002v003savetempw1第二步：对exampw2做同样的处理clearuset:\statatut\exampw2.dtasusortv001v002v003savetempw2第三步：使用tempw1数据库，将其与tempw2合并：clearusetempw1mergev001v002v003usingtempw2第四步：查看合并后的数据状况：ta_merge——tabulate_merge的简写su第五步：清理临时数据库，并删除_merge，以免日后合并新变量时出错erasetempw1.dtaerasetempw2.dtadrop_merge数据扩展append：数据源自statatutorial中的fac19和newfacclearuset:\statatut\fac19.dtataregionappendusingt:\statatut\newfactaregion合并后样本量增加，但变量数不变茎叶图：stemx1,line(2)（做x1的茎叶图，每一个十分位的树茎都被拆分成两段来显示，前半段为0～4，后半段为5～9）stemx1,width(2)（做x1的茎叶图，每一个十分位的树茎都被拆分成五段来显示，每个小树茎的组距为2）stemx1,round(100)（将x1除以100后再做x1的茎叶图）直方图采用auto数据库histogrammpg,discretefrequencynormalxlabel(1(1)5)（discrete表示变量不连续，frequency表示显示频数，normal加入正太分布曲线，xlabel设定x轴，1和5为极端值，(1)为单位）histogramprice,fractionnorm（fraction表示y轴显示小数，除了frequency和fraction这两个选择之外，该命令可替换为“percent”百分比，和“density”密度；未加上discrete就表示将price当作连续变量来绘图）histogramprice,percentby(foreign)（按照变量“foreign”的分类，将不同类样本的“price”绘制出来，两个图分左右排布）histogrammpg,discreteby(foreign,col(1))（按照变量“foreign”的分类，将不同类样本的“mpg”绘制出来，两个图分上下排布）histogrammpg,discretepercentby(foreign,total)norm（按照变量“foreign”的分类，将不同类样本的“mpg”绘制出来，同时绘出样本整体的“总”直方图）二变量图：graphtwowaylfitpriceweight||scatterpriceweight（作出price和weight的回归线图——“lfit”，然后与price和weight的散点图相叠加）twowayscatterpriceweight,mlabel(make)（做price和weight的散点图，并在每个点上标注“make”，即厂商的取值）twowayscatterpriceweight||lfitpriceweight,by(foreign)（按照变量foreign的分类，分别对不同类样本的price和weight做散点图和回归线图的叠加，两图呈左右分布）twowayscatterpriceweight||lfitpriceweight,by(foreign,col(1))（按照变量foreign的分类，分别对不同类样本的price和weight做散点图和回归线图的叠加，两图呈上下分布）twowayscatterpriceweight[fweight=displacement],msymbol(oh)（画出price和weight的散点图，“msybol(oh)”表示每个点均为中空的圆圈，[fweight=displacement]表示每个点的大小与displacement的取值大小成比例）twowayconnectedy1time,yaxis(1)||y2time,yaxis(2)（画出y1和y2这两个变量的时间点线图，并将它们叠加在一个图中，左边“yaxis(1)”为y1的度量，右边“yaxis(2)”为y2的）twowayliney1time,yaxis(1)||y2time,yaxis(2)（与上图基本相同，就是没有点，只显示曲线）graphtwowayscattervar1var4||scattervar2var4||scattervar3var4（做三个点图的叠加）graphtwowaylinevar1var4||linevar2var4||linevar3var4（做三个线图的叠加）graphtwowayconnectedvar1var4||connectedvar2var4||connectedvar3var4（叠加三个点线相连图）更多变量：graphmatrixabcy（画出一个散点图矩阵，显示各变量之间所有可能的两两相互散点图）graphmatrixabcd,half（生成散点图矩阵，只显示下半部分的三角形区域）用auto数据集：graphmatrixpricempgweightlength,halfby(foreign,totalcol(1))（根据foreign变量的不同类型绘制price等四个变量的散点图矩阵，要求绘出总图，并上下排列】=具）其他图形：graphboxy,over(x)yline(.22)（对应x的每一个取值构建y的箱型图，并在y轴的0.22处划一条水平线）graphbar(mean)y,over(x)对应x的每一个取值，显示y的平均数的条形图。括号中的“mean”也可换成median、sum、sd、p25、p75等graphbara1a2,over(b)stack（对应在b的每一个取值，显示a1和a2的条形图，a1和a2是叠放成一根条形柱。若不写入“stack”，则a1和a2显示为两个并排的条形柱）graphdot(median)y,over(x)（画点图，沿着水平刻度，在x的每一个取值水平所对应的y的中位数上打点）qnormx（画出一幅分位-正态标绘图）rcharta1a2a2（画出质量控制R图，显示a1到a3的取值范围）简单统计量的计算：ameansx（计算变量x的算术平均值、几何平均值和简单调和平均值，均显示样本量和置信区间）meanvar1[pweight=var2]（求取分组数据的平均值和标准误，var1为各组的赋值，var2为每组的频数）summarizeyx1x2,detail（可以获得各个变量的百分比数、最大最小值、样本量、平均数、标准差、方差、峰度、偏度）***注意***stata中summarize所计算出来的峰度skewness和偏度kurtosis有问题，与ECELL和SPSS有较大差异，建议不采用stata的结果。summarizevar1[aweight=var2],detail（求取分组数据的统计量，var1为各组的赋值，var2为每组的频数）tabstatX1,stats(meannqmaxminsdvarcv)（计算变量X1的算术平均值、样本量、四分位线、最大最小值、标准差、方差和变异系数）概率分布的计算：（1）贝努利概率分布测试：webusequickbitestquick==0.3,detail（假设每次得到成功案例‘1’的概率等于0.3，计算在变量quick所显示的二项分布情况下，各种累计概率和单个概率是多少）bitesti10,3,0.5,detail（计算当每次成功的概率为0.5时，十次抽样中抽到三次成功案例的概率：低于或高于三次成功的累计概率和恰好三次成功概率）（2）泊松分布概率：displaypoisson(7,6).44971106（计算均值为7，成功案例小于等于6个的泊松概率）displaypoissonp(7,6).14900278（计算均值为7，成功案例恰好等于6个的泊松概率）displaypoissontail(7,6).69929172（计算均值为7，成功案例大于等于6个的泊松概率）（3）超几何分布概率：displayhypergeometricp(10,3,4,2).3（计算在样本总量为10，成功案例为3的样本总体中，不重置地抽取4个样本，其中恰好有2个为成功案例的概率）displayhypergeometric(10,3,4,2).96666667（计算在样本总量为10，成功案例为3的样本总体中，不重置地抽取4个样本，其中有小于或等于2个为成功案例的概率）检验极端值的步骤：常见命令：tabulate、stem、codebook、summarize、list、histogram、graphbox、graghmatrixstep1.用codebook、summarize、histogram、graphboxs、graphmatrix、stem看检验数据的总体情况：codebookyx1x2summarizeyx1x2,detailhistogramx1,norm（正态直方图）graphboxx1（箱图）graphmatrixyx1x2,half（画出各个变量的两两x-y图）stemx1（做x1的茎叶图）可以看出数据分布状况，尤其是最大、最小值step2.用tabulate、list细致寻找极端值tabulatecodeifx1==极端值（作出x1等于极端值时code的频数分布表，code表示地区、年份等序列变量，这样便可找出那些地区的数值出现了错误）listcodeifx1==极端值（直接列出x1等于极端值时code的值，当x1的错误过多时，不建议使用该命令）listin-20/l（