STATA软件操作(一)基础数据处理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

医学统计学实习课STATA软件的应用(1)1.Stata简介由美国计算机资源中心(ComputerResourceCenter)研制;现在为Stata公司的产品;目前最高版本11.0;操作灵活、简单、易学易用,同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点。STATA的用户界面命令回顾窗口变量名窗口命令窗口结果窗口STATA语法格式[特殊选项]关键词命令参数[,命令选项]STATA的运算Stata的加、减、乘、除及乘方运算符依次是+、-、*、/和^。Stata的关系运算符有:==(等于)、(大于)、=(大于等于)、(小于)、=(小于等于)、~=(不等于)Stata的逻辑运算符有:&(“与”)、|(“或”)、~(“非”)STATA的最基本操作list变量列表(缩写:l)列出内存中数据的内容display表达式(缩写:di)直接输出表达式的计算结果计算di2+3disqrt(5)运算操作di1*5di100*(100+1)/2di54di54&43di54&43di54|43di54&43di~54STATA的函数:helpfunctions数学函数abs(x),sqrt(x),exp(x),ln(x),log10(x)……统计函数norm(u),invnorm(p),ttail(df,t),invttaill(df,p)……字符串函数length(s),substr(s,n1,n2),string(x),real(s)……特殊函数int(x),max(x1,x2,…),autocode(x,k,min,max)……随机数函数uniform(seed),invnorm(uniform())STATA的变量STATA的变量名可以由英文字母,数字,下划线组成。大小写有区别A≠a关键字或系统变量不得用作变量名。系统变量_N_n_pi结果变量STATA的数据输入与储存数据输入直接从键盘输入;使用数据编辑窗口输入;打开已有数据文件和拷贝;粘贴方式交互数据。直接从键盘输入命令:input变量名列表数据输入以“end”结束不可重复输入变量inputxx1.12.23.34..5.66.end.inputxyxy1.122.343.564.4.5..86.877.end.inputxyxy1.12........6.877.end.inputxzxalreadydefinedr(110);使用数据编辑窗口输入进入数据编辑窗口直接输入“edit”在工具条上点击双击每一列的标题可以更改变量名每一行代表一条记录每一列代表一个变量打开已有数据文件与表格式文件交互粘贴与Excel,Word的表格等直接通过复制-粘贴的方式交互数据。STATA的数据输入与储存数据存储save命令FileSaveAs菜单方式命令方式STATA的数据打开数据打开use命令Fileopeninsheetusing“C:\data.txt”数据库的维护数据库的排序:sort变量清单gsort+/-变量清单sortx按变量x中数值从小到大进行排列gsortx按变量x中数值从小到大进行排列gsort-x按变量x中数值从大到小进行排列STATA数据库的删除操作删除变量或记录dropx1x2/*删除变量x1和x2dropx1-x5/*删除数据库中介于x1和x5间的所有变量(包括x1和x5)dropin10/12/*删去第10~12个记录dropifx0/*删去x0的所有记录dropifx==./*删去x为缺失值的所有记录dropifx==.|y==./*删去x或y之一为缺失值的所有记录dropifx==.&y==./*删去x和y同时为缺失值的所有记录drop_all/*删掉数据库中所有变量和数据STATA数据库的保留维护保留变量或记录keepin10/20/*保留第10~20个记录,其余记录删除keepx1-x5/*保留数据库中介于x1和x5间的所有变量(包括x1和x5),其余变量删除keepifx0/*保留x0的所有记录,其余记录删除STATA的变量赋值用generate产生新变量gen新变量=表达式genbh=_n/*将数据库的内部编号赋给变量bh。gengroup=int((_n-1)/5)+1/*按当前数据库的顺序,依次产生5个1,5个2,5个3……。直到数据库结束。geny=log(x)ifx0/*产生新变量y,其值为所有x0的自然对数值log(x),当x=0时,用缺失值代替。STATA的变量赋值egen[类型]新变量=fcn(argument)[,选择项]fcn是功能项:seq(),fill(),rsum(),rmean(),rmin(),rmax(),rfirst(),rlast()例:setobs12egena=seq()egenb=seq(),from(1)to(3)block(3)egenc=fill(24)egend=rsum(abc)egene=rmax(abc)STATA数据库的替换替换已存在的变量值replace变量=表达式replacebolck=6ifblock==0/*将block=0的数全部替换为6。replacez=.ifz0/*将所有小于0的z值用缺失值代替。replaceage=25in17/*将第17条记录中的变量age替换为25。STATA数据库的更名变量更名rename原变量名新变量名renamevar1x/*把var1更名为xSTATA数据库结构维护纵向连接数据库:appendusing文件名横向连接数据库:merge关键变量using文件名例x0x1id245014501210024002230038003159042004x0x1id355024501200024002300018003395032004380032505ex1ex2STATA数据库结构维护行列互换xpose,clear[varnameformat(%fmt)]选项:varname/*将原数据库中的变量名放在一个名为_varname的变量中format(%fmt)/*转换的同时,将所有变量转换为规定格式%fmt例:ex7xpose,clearformat(%9.1f)xpose,clearvarnameSTATA数据库结构维护列数据的接龙将一个或多个变量的值依次接到某个变量后stack变量名1变量名2…,into(新变量名)clearstack变量名1变量名2…,group(#)clear*/#必须能被变量数整除STATA数据库结构维护动态观察数据两种结构转换reshapelong变量,i(个体识别变量)j(时间变量)/*将横向结构数据转变为纵向结构数据reshapewide变量,i(个体识别变量)j(时间变量)/*将纵向结构数据转变为横向结构数据例:reshapelongh,i(no)j(time)reshapewideh,i(no)j(time)noh1h21156.6142.32148.8134.43133.1150.34140.7141.95139.2143.56140.2138.17134.9142.98141.4140.99138.5134.710148.9141.211144.4135.512145.4140.2reshapelongh,i(no)j(time)notimeh11156.612142.321148.822134.431133.132150.341140.742141.951139.252143.561140.262138.171134.972142.981141.482140.991138.592134.7101148.9102141.2111144.4112135.5121145.4122140.2ex8STATA数据库结构维护频数的展开expand命令例:expandf01092158ba数据库结构的转换频数的展开fab900501210811expandffab900501210811900900900900900900900900501501501501210811811811811811811811ex9STATA的作图作图命令graphgra[变量名][,图形类型通用选择项特殊选择项]图形类型histogram/*直方图,为缺省值。oneway/*一维散点图twoway/*二维散点图、线图matrix/*二维散点图阵bar/*条图、百分条图pie/*圆(饼)图box/*箱式图star/*星形图直方图人数身高(cm)124132140148156164010203040142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.9graph7x(version7)graph7x,bin(10)freqxlab(124,132to164)ylab(0,5to40)norml1(人数)b2(身高)xlab(124(8)164)ylab(0(10)40)bin(#)指定直方图中的分组数,缺省值为5freq指定以频数为纵轴画图,缺省时为以频率为纵轴xlab\ylab指定坐标轴刻度b2()\l1()在图形下方添加副标题\在图形左侧添加标题normal在直方图上加上正态分布曲线人数身高124132140148156164010203040练习输入数据包含变量exercise将变量更名为x,y将数据按y由大到小排序产生新变量id,使之等于每个观察对象的当前顺序产生新变量z,当y取值小于5时使z=0,当y大于等于5时,使z=1;删除y取值缺失的记录。练习某市1982年110名7岁男童的身高(cm),试画出频数分布图。112.4119.3120.1116.4117110.8125.1115.4122.5121.5118.3116.3126.2124.4112.7114.8123.2114.8126.1113.2119.8123.5110.3122.8124.4122113116.3120117.7121.5116.8132.5117.4114.9121.8119.7125.6118.4123.8130.5128118.1122.4118.4117.2114.3123121119.5129.11201

1 / 40
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功