SAS程序操作SAS8.2的界面中间是三个并排(或层叠)的窗口,那个叫做ProgramEditor的窗口(窗口标签为Editor)就是用来输入SAS语句的,编程操作的所有内容都是在该窗口内完成的。(一)数据集(dataset)和库统计学的操作都是针对数据的,SAS中容纳数据的文件称为数据集,数据集又包含在不同的库(暂且理解为数据库吧)中。SAS中的库分为永久性和临时性两种。顾名思义,存在于永久库中的数据集是永久存在的(只要你不去删除它),临时库中的数据集则在你退出SAS后自动被删除。至于SAS中库的概念,最简单的理解就是一个目录,一个存放数据集的目录。数据集的结构完全等同于我们一般所理解的数据表,由字段和记录所构成,在统计学中我们习惯将字段称为变量,在后面的内容中字段和变量我们就理解为同一种东西吧!建立数据集的方法很多,编程操作中有专门的数据读入方法来建立数据集,但需要将数据现场录入,费时费力。如果数据量大,我劝各位还是先以其它方法将数据集建好,否则程序语句的绝大部分会浪费在数据的输入上。(二)SAS程序概述和其它计算机语言一样,SAS语言(称为SCL语言,SASComponentLanguage)也有其专有的词汇(即关键字)和语法。关键字、名字、特殊字符和运算符等按照语法规则排列组成SAS语句,而执行完整功能的若干个SAS语句就构成了SAS程序。SAS程序包括多个步骤和一些控制语句,一般情况下均包括数据步和过程步,一个或多个、数据步或过程步,它们之间任何形式的组合均可成为一段SAS程序,只要能完成一个完整的功能。通常情况下SAS程序还包括一些全程语句,用以控制贯穿整个SAS程序的某些选项、变量或程序运行的环境。SAS程序的语句一般以关键字开始,以一个分号结束,一条语句可占多行(SAS每看到一个分号,就将其以前、上一个分号以后的所有东东当作一条语句来处理,而不管他们处在多少个不同的行中)。SAS语句对字母的大小写不敏感,你可以根据个人习惯决定字母的大写或小写。1.库名(库标记)的定义为了保存宝贵的数据和方便操作起见,我习惯于指定自己的库名及其路径(目录),因为SAS系统中已有的永久库(SASUSER)无论库名还是其对应的路径都太过繁琐,使用太不方便。程序中用到的数据,都可以永久的保存于该路径下,保证以后可以重复使用。指定库名的语句为全程语句,其格式如下:Libname库名‘路径’;例如我们指定的库名为“a”,路径为:“e:\data\”,SAS语句如下:libnamea‘e:\data\’;2.数据步SAS的数据步以data语句开始,用于创建和处理数据集。Data语句以关键字“data”开始,格式如下:data数据集名;例如:dataa.case;将创建在库a中名为case的SAS数据集,语句执行后你可在与库a对应的目录下看到刚刚建立的数据集文件case。Data语句所指定的数据集,一般都是以“库名.数据集名”的格式出现的,也可以单独的“数据集名”出现,此时的数据集系统默认为是临时库中的数据集,退出系统后将会被删除。data语句有两个重要的功能,标志数据步的开始和命名将要创建的SAS数据集。除data语句外,数据步一般情况下还包括infile语句、input语句以及datalines语句等。在不同的数据输入方式下对于它们的使用方式也不一样。SAS程序有两种常见的数据输入方式,即从外部文件读入和直接输入两种方式。(1)外部文件读入方式数据若已经包含在某个外部文件(文本文件或数据文件)中,可用此方法输入数据到数据集文件中。在以上介绍的data语句后,写入以下语句:infile‘外部文件的所在位置及名称’选项;input变量名1变量名2…变量名n;infile语句用于从外部文件读入数据,必须出现在input语句之前。它的功能是指定一个包含原始数据的外部文件。input语句用于向系统表明如何读入每一条数据记录。它的主要功能有:读入由语句指定的数据列,为相应的数据域定义变量名,确定变量的读入模式。例如:libnamea‘e:\data\’;dataa.student;infile‘e:\data\student.txt’;inputnameheightweight;以上程序将目录“e:\data\”下的文本文件“student.txt”中的数据输入数据集student中,该数据集存放于目录“e:\data\”下。(2)直接输入方式数据量较少或操作者意志力坚强的情况下采用此种输入方式,在data语句之后写入如下语句:input变量名1变量名2…变量名n;datalines;(在以前的版本下为cards,新版本下两者可通用)…………(数据行)…………(数据行)…………(数据行);datalines语句用于直接输入数据,标志着数据块的开始。注意:这里的数据行中数据之间以空格分隔,当然也可以其它东东如逗号等来分隔,这里大家先以空格来分隔好了。因为不同的分隔方式下input语句要采取相应的控制选项,这些我们以后再讨论,这里我们还是省省力气吧。另外数据行输完后不能像其它语句那样直接在后面加上分号,而要另起一行输入分号,这样SAS才认为这是在输入原始数据而不是在搞别的什么。例如:libnamea‘e:\data\’;dataa.student;inputname$heightweight;(name后面的$符号表示变量name为字符型变量)datalines;Linda17151Mary16850Selinna16949;以上程序将直接建立数据集文件student,该数据集文件存放于目录“e:\data\”下。3.过程步SAS程序的过程步表示一个处理过程,如排序、T检验、方差分析等等。过程步以关键字proc开始,后面紧跟着过程名,用以区分不同的程序步,并以关键字run结束。一般的格式如下:proc过程名选项列表;……(其它语句);……(其它语句);run;SAS程序中涉及的过程多达数百种,实现统计功能时常用的过程也有数十种之多,现将最为常用的过程名称及其所能实现的功能列入下表(表1.1),以便各位提前热热身。表1.1常用的过程名称及其功能过程名功能Sort将指定的数据集按指定变量排序Print将数据集中的数据列表输出tabulate将数据按照指定的分类变量以表格的形式分类汇总Means对指定的数值变量进行简单的统计描述Freq对指定的分类变量进行简单的统计描述Ttest对指定的变量做t检验Anova对指定的变量做方差分析npar1way对指定的变量做非参数检验Reg对指定的变量做回归分析Corr对指定的变量做相关分析Discrim对指定的变量做判别分析Cluster对指定的变量做聚类分析Chart绘出低分辨率的统计图4.几个常用的重要过程在进入一般统计学功能实现的内容之前,有关数据预处理和执行重要公共功能的过程大家有必要预先掌握,这里选出几个常用的和重要的过程进行讨论。(1)对SAS文件进行操作的datasets过程datasets过程是对数据文件进行管理操作的工具,利用它我们可以实现以下功能:将SAS文件从一个库中拷入另一个库中;对SAS文件进行重命名;修复损坏的SAS文件;删除SAS文件;列出某一SAS库中所有的SAS文件;列出一个SAS数据集的属性,如最后修改时间、数据是否压缩、数据是否索引等;对SAS文件进行设置密码的操作;向SAS数据集添加记录;对SAS数据集的属性以及数据集内变量的属性进行修改;创建或删除SAS数据集的索引;创建并管理SAS数据集的核查文件;创建或删除SAS数据集的完整性规则。datasets过程的一般格式如下:procdatasets选项列表;age当前文件名相关文件名列表/选项列表;appendbase=数据集名data=数据集名其它选项;audit文件名(操作密码);initiate;其它代码;change旧文件名1=新文件名1…旧文件名n=新文件名n选项列表;contentsdata=数据集名其它选项;copyout=库标记其它选项;exclude文件名其它选项;(该语句只能在copy语句后出现,不能和select语句同时出现)select文件名其它选项;(该语句只能在copy语句后出现,不能和exclude语句同时出现)delete文件名其它选项;exchange文件名1=交换文件名1…文件名n=交换文件名n选项列表;modify文件名选项列表;modify语句之从属语句;repair文件名选项列表;save文件名选项列表;run;是不是太繁琐了,我都有些不耐烦了。不过我还是得写,已经写了嘛!不忍心浪费掉,最起码可以用来充充数,扩大一下篇幅。至于各位,嫌烦的可以略过此部分,想用的时候再来温习也不迟。下面我就不厌其烦地向各位介绍一下各选项及各条语句的含义和用法。procdatasets语句后各选项的含义及用法见下表(表1.2)。表1.2procdatasets语句后各选项的含义及用法选项含义及用法alter=转换保护密码SAS文件设置有转换操作密码时用以验证操作的合法性,密码正确时代码才会被执行details/nodetails控制有关SAS文件的详细信息显示与否,前者为显示,后者不显示,默认值为后者force此选项具有两个功能:(1)在过程步的语句存在错误时仍然强制程序的执行;(2)在append语句中,两个数据集的变量不完全相同时仍然强制append语句的执行。gennum=控制对衍生数据集的处理方式,等号后可为all,hist,revert或某一整数kill此选项表示删除待处理的库中的所有文件,应慎用library=库标记用以指定所要处理的库memtype=成员类型指定处理所针对的库成员类型(文件类型),默认值为all(所有类型)nolist在日志文件中禁止对所处理文件目录的显示nowarn在语句中指定的文件不存在等情况下,禁止显示出错信息,强制程序继续执行pw=操作密码SAS文件设置操作密码时验证操作的合法性(包括读、写保护以及转换保护的文件)read=读保护密码SAS文件设置读保护密码时验证操作的合法性age语句用于批量地重命名文件,按照当前文件和相关文件的排列顺序,依次将后一个文件名重命名给前一个文件,结果是最后一个文件被删除,当前文件名被废弃。对此语句我所了解的就这么多,而且还是通过试验得出的结论,但总感觉还是理解的不对,哪位若有高见还请不吝赐教。append语句执行向数据集添加记录的功能,选项“base=数据集名”用以指定要添加记录的数据集,“data=数据集名”则指定所要添加的记录所在的数据集,此选项若省略则默认为当前数据集(最近一次操作的数据集)。audit语句用于对文件的核查,生成核查文件并对其进行管理;change语句以新文件名替换旧文件名;contents语句用于显示指定数据集或当前数据集的各种属性;copy语句用于将当前库中相应的文件拷贝到指定的库中,选项“out=库标记”用来指定文件要拷贝到的目标库;delete语句用于删除指定的文件;exchange语句的功能是将等号前后两个文件的文件名进行互换;modify语句用于修改文件各方面的属性;repair语句用于对指定的文件(受到过某种损坏)进行修复,使其恢复到可以使用的状态;save语句的功能是将其指定的文件保留,当前库中的其他所有文件则被删除。(2)对数据文件中记录进行排序的sort过程sort过程的功能是对指定数据集中的记录按照指定的变量进行排序。由于诸多过程有对数据集记录进行排序的需要,比如过程步中存在by语句(用以将数据文件分割为若干部分)的情况下,就需要按照by语句后的变量对数据先行排序,所以sort过程非常有用,而且非常常用。sort过程的一般格式如下:procsort选项列表;bydescending变量名1变量名2…变量名n;run;procsort语句后各选项含义及其用法见下表(表1.3)。表1.3procsort语句