SAS培训班讲义

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1课程名称:SAS培训班讲义讲师:赵坚毅网址:第一部分课程介绍培训内容:使学员掌握SAS的界面使用和基本编程使用,为学习和应用SAS的其他专业功能奠定坚实的基础。使用SAS进行数据分析和处理3推荐教材1.SAS系统的帮助以及在线文档,都是学习SAS的很好的工具。2.《SAS系统BaseSAS软件使用手册》高惠璇等编译,中国统计出版社19973.《SAS系统SAS/STAT软件使用手册》高惠璇等编译,中国统计出版社19974.《实用统计方法与SAS系统》高惠璇北京大学出版社20014数据类型a.横截面数据集(cross-sectionaldataset):即给定时点对个人、家庭、企业、国家或一系列其他单位采集的样本所构成的数据集(应该忽略细小的时间差别)名词术语1、数据集:数据的集合,由样本(行)和变量(列)组成5数据类型b.时间序列数据集(timeseriesdataset):是由一个或几个变量在不同时间的观测值所构成的。c.混合横截面数据集(pooledcrosssectiondataset):有些数据既有横截面数据的特点又有时间序列的特点,但每一时点的样本不同。6数据类型d.综列数据集(paneldataset):由横截面数据集中每个样本的一个时间序列组成。(定点长期调查)其他专门数据类型:1、离散数据(discretedata):通常在考察个人、家庭或企业的决策行为时,通过问卷调查获得,由此发展出“离散选择模型”。定量数据与定性数据7数据集类型2、持续数据(survivaldata):用于考察变量从开始到结束或调查终止前所经过的时间长度,如失业持续时间、罢工持续时间,股市牛熊市持续时间8使用SAS进行数据处理的应用实例商场应用:在美国大型超市WalMart(沃尔玛)发生的实例:在星期四,年轻夫妇为准备周末通常同时购买尿布和啤酒,因此把尿布和啤酒放在一起会提高效率。9数据处理的应用天文学(skicat系统处理天文数据发现类星体)生物学(人类基因组计划处理人体数据研究基因)市场营销(货篮分析)公司财务的处理(记流水帐)经济论文写作中的实证部分10数据处理的应用“今天,我们不得不生存在全球化和信息革命影响下的世界,我们只有两个选择:适应它,或者被它抛弃。”——英特尔公司主席安德鲁·格鲁夫1995年尼葛洛庞帝的《数字化生存》一书指明了即将到来的数字时代,而在未来一长段时间,数字化生存仍将是人类的主要生存方式,在经济学领域也不外如是。11第二部分SAS系统入门SAS系统概况大型集成、跨平台软件系统完备的数据访问(Access)、管理(manage)、分析(analyze)和呈现(present)及应用开发(develop)的功能在数据处理、统计分析和IT应用领域,SAS系统已经成为国际上的标准软件系统。12SAS的发展历程一1966年由美国北卡罗来纳州(NorthCarolina)州立大学开始研制1976年成立美国SAS软件研究所,并开始对SAS系统进行维护、开发、销售和培训等工作1985年推出了SAS/PC(6.02)版本13SAS发展历程二1989年推出SAS/PC(6.04)版本1997年下半年推出适用于多种操作系统的6.12版本2000年2月又正式推出SAS系统8版本2002年推出全新的SAS9版本14SAS在中国的发展SAS公司于1989年在北京成立了办事处1997年,SAS软件研究所正式宣布成立大中国区1999年3月在国内设立独资公司——赛仕软件(上海)有限公司。15SAS的成绩全球十大独立软件开发商之一世界六大洲近50个国家或地区设有分公司及分支机构应用遍及120多个国家和地区(包括中国)的31000多个机构中全球100家最大公司中的90多家都在应用SAS系统。16SAS模块介绍BaseSAS:1、数据管理功能2、基础统计计算功能3、报表生成和图形显示功能17SAS/STAT统计分析SAS/INSIGHT数据探索SAS/ASSIST面向任务的易学易用模块SAS/ETS时间序列处理SAS/OR运筹学和工程管理SAS/QC质量控制SAS/IML矩阵运算SAS/GRAPH绘图SAS/AF面向对象编程(OOP)的应用开发工具,拓展SAS的功能18SAS/EIS面向对象编程的开发工具,用于开发企业信息系统SAS/ACCESS数据访问SAS/TOOLKIT扩充工具,把用其他软件编写的程序转化成SAS的组成部分SAS/WarehouseAdministrator数据仓库管理SAS/EnterpriseMiner数据挖掘SAS/TextMiner文本挖掘SAS/SHARE数据库的并发式控制专门软件SAS/CONNECT使各平台SAS系统进行分布式处理,从而有效利用各平台机器资源19SAS/GIS地理信息系统与空间数据的显示分析SAS/SPECTRAVIEW数据可视化分析工具,用几何成像的方式来分析多维数据SAS/Intrnet提供构建基于SAS的企业内部网络支持SAS/FSP快速数据处理的交互式菜单系统SAS/CALC功能完善的多维电子表格软件SAS/ENGLISH提供利用自然英语获取信息的能力20SAS/SECURE网络传输加密SAS/OLAPSERVER多维数据存储及汇总结果呈现SAS/GENETICS:SAS公司的第一个科学研究应用软件,应用于遗传学,有5个分析过程SAS/High-PerformanceForecasting:提供快速高效的预测结果SAS/C,SAS/C++针对IBM大型机的开发工具SAS/LAB向导式的数据分析软件,特别针对day-to-day类型数据21SAS工作空间程序窗口(PROGRAMEDITOR)运行记录窗口(LOG)输出窗口(OUTPUT)22SAS程序第一例SAS/HelloWorld.sas注:以后程序文件省略后缀,直接简记为文件名称,如此例简记为HelloWorld,需要说明文件类型时才标明后缀。23SAS/Insight模块1、界面介绍2、Fillvalues功能3、Extract功能4、Edit/windows/tool菜单使数据探索色彩缤纷(注意选项设置)5、打开分布、拟合、多元等的窗口之后主菜单Tables、Graphs、Curves菜单才被开放。Fly,insurance数据集示例24Insight模块其他功能:1、分布(输出大多数常用的统计量)2、拟合(回归分析)3、多元(方差分析)25SAS程序的书写格式1、SAS程序由语句组成,语句用分号结束。2、SAS语句可以从某一行的任意位置开始;3、几个SAS语句可以写在同一行上,但每句要使用分号26SAS程序的书写格式4、一个语句也可以写成几行,只要语句中的单词不被断开就可以。在一个语句中各个单词之间至少要有一个空格。5、SAS程序中一般不区分大小写(字符串中要区分大小写)6、用/*注释的内容*/来对程序进行注释27SAS程序的结构SAS数据集样本(观测、记录)、变量(字段、域)、表(数据集)、数据库许多SAS语句都是以关键词开始并用它识别语句的类型(如data、input、proc)绝大部分的SAS语句都可分为两步:DATA步和PROC步28SAS的变量及格式变量属性(名称、类型、长度、输入格式、输出格式、标签)类型:数字型、字符串型输入格式:数据被SAS读取的格式输出格式:数据呈现给人们的格式29SAS程序第二例SAS/orange.sas输入数据-形成数据集-排序-打印显示30SAS文件及命名1、SAS数据集文件(后缀为sas7bdat)2、SAS程序文件(后缀为sas)3、SAS日志文件(后缀为log)4、SAS输出文件(后缀为list)31SAS文件及命名临时数据集和永久数据集SAS文件的2级命名方式:目录.文件名work目录和其他目录使用Libname语句创建永久数据集,libname自建目录名‘目录地址’;libname例32建立SAS数据集的5种方法1、data步自己输入数据建立。Orange例2、data步利用set语句建立。Set例3、从外部调入。Infile例4、利用“导入数据”功能建立。Id.xls例、data.txt例5、利用EFI(externalfileinterface)功能导入。Column.dat例、tests.dat例、comma.dat例Analyst分析家模块1、界面介绍2、浏览与编辑模式3、生成示例数据与抽样4、程序清单5、假设检验3334SAS运算符(operator例)算术运算符:+-*/**比较算符:=(EQ)^=(NE)(GT)(LT)=(GE)=(LE)in逻辑算符:&(AND)|(!)(OR)^(~)(Not)其它:(最小值)(最大值)||(!)(连接)35字符的比较(operator_char例)1、按机器使用的字符排列次序(ASCⅡ或Unicode)从左到右被比较。2、两个不等长的字符串被比较时,系统在较短的字符串后自动添上空格3、在比较符后加冒号,则只比较首字母36运算次序一在括弧里的表达式先计算第一级:**(+-)前缀^第二级:*/第三级:+-第四级:||第五级:其余比较算符第六级:&第七级:|37运算次序二对于相同优先级的算符,左边的运算先做。但有两个例外:1.对最高优先级,右边的运算先做2.当两个比较算符围着一个量时,这个表达式看成是有一个and出现一样被计算。如:12<age20,等价于:12<age&age2038SAS函数一(部分)数学函数:abs()、max()、min()、mod(x,y)、sign(x)、sqrt(x)、sum()、mean()、exp(x)、log(x)、log10(x)、log2(x)、sin(x)、arsin(x)截取函数:ceil(x)、floor(x)、int(x)、round(x,n)字符函数:index(S,S1)、substr(S,p,n)、scan(S2,n)、upcase(S)、compress(S,S1)39SAS函数二(部分)SAS系统存贮日期值为1960年1月1日到指定日期之间的天数SAS存贮时间值为从午夜开始到指定时间的秒数日期时间值存贮为1960年1月1日午夜到指定日期时间之间的秒数日期时间函数:weekday()、day()、month()、qtr()、year()40SAS函数三(部分)概率统计函数:probnorm(x)n(ofX1-Xn)、nmiss(ofX1-Xn),var(ofx1-xn)、std(ofx1-xn)随机数函数:rannor(seed)、ranuni(seed)Functions例41DATA步文件操作语句运行语句控制语句信息语句42DATA步流程DATA语句标志了数据步开始,并指定了数据步结束时要生成的数据集名字。每次读入一行数据,读入后执行数据步中的其它语句,循环数据步读取整个数据。_N_变量表示DATA步已经执行的次数_error_变量值为1时表示程序出错Flow例43DATA步流程(Flow1例)(*)读外部数据时,数据步迭代(即每一次)的开始把变量的值置为缺失值,有几种情况例外:1、retain语句提到的变量2、sum语句中创建的变量3、数组_temporary_中的数据元4、file和infile语句选项中创建的变量5、自动变量读sas数据集时,只在第一次迭代时把变量值置为缺失,以后变量保留其值直至新值写入44文件操作语句DATA语句DATA语句的选项DROP选项(不列出某些变量)KEEP选项(

1 / 151
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功