SAS简介SAS系统的功能.ppt

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据分析与统计软件复习课•SAS系统是大型集成应用软件系统,具有完备的以下四大功能:数据访问、数据管理、数据分析、数据呈现SAS简介SAS系统的功能SAS系统包含了众多的不同的模块,可完成不同的任务,主要模块有:SAS/BASE(基础)——初步的统计分析;SAS/STAT(统计)——广泛的统计分析;SAS/QC(质量控制)——质量管理方面的专门分析计算;SAS/OR(规划)——运筹决策方面的专门分析计算;SAS/ETS(预测)——计量经济的时间序列方面的专门分析计算;SAS/IML(距阵运算)——提供了交互矩阵语言;SAS/GRAPH(图形)——提供了许多产生图形过程并支持众多图形设备;SAS/ACCESS(外部数据库接口)——提供了与大多数流行数据库管理系统的方便接口并自身也能进行数据管理;SAS/ASSIST(面向任务的通用菜单驱动界面)——方便用户以菜单方式进行操作;SAS/FSP(数据处理交互式菜单系统)SAS/AF(面向对象编程的应用开发工具)另外SAS系统还将许多常用的统计方法分别集成为两个模块LAB和INSIGHT,供用户利用图形界面和菜单直接对数据进行统计分析显示管理系统显示管理系统窗口1显示管理系统(DisplayManager)三个主要窗口:PROGRAMEDITOR窗口:提供一个编写SAS程序的文本编缉器LOG窗口:显示有关程序运行的信息OUTPUT窗口:显示程序运算结果的输出永久的和临时的SAS数据集•SAS的存储方式有二种:•永久的SAS数据集•临时的SAS数据集•对永久SAS数据集的命名•使用LIBNAME语句来定义库标记;•若选择Study作为库标记,那么在DATA语句中你应该这样命名SAS数据:•libnamestudy‘d:\sas\mydir’;•datastudy.class;输入和输出格式•SAS数据集的数据值的内部存放格式并不一定与该数据值的输入和输出格式一致,这取决于SAS的两个重要功能:输入格式(Informats)和输出格式(Formats)。•输入格式指示SAS系统如何读入数据,而输出格式指示SAS系统如何输出数据。它们的一般形式如下:•输入格式:$informatw.d•输出格式:$formatw.d•其中$符号指示这是个字符输入输出格式,没有$符号表示是数值输入输出格式;•Informat是一个输入格式的名字,format是一个输出格式的名字;•w是宽度值,对许多输入输出格式这个值是输入输出数据的列数;•d在数值输入输出格式中是小数部分的长度;•点”.”是所有输入输出格式中必须包含的分隔符,作为名字的一部分。如果在格式中省略w和d值,SAS系统使用缺省的值。选择变量(即选择列)•使用DATA语句的DROP=和KEEP=选项可以控制从原始数据库中读出的变量是否被写入将要创建的数据集。•例如,假设我们要从CLASS2数据集中产生只包含ID、AVERAGE和TOTAL变量,而不包含TEST1、TEST2、TEST3、TEST4、TEST5变量的新数据集CLASS3。•有二种程序编法都能达到相同的目的:•一是使用DATA语句的DROP=选项,表示从原有变量中去掉DROP=中指明的变量;•二是使用DATA语句的KEEP=选项,表示从原有变量中只保留KEEP=中指明的变量。选择数据集的变量和观测•程序一:•Dataclass3(drop=test1test2test3test4test5);•Setclass2;•Procprintdata=class3;Run;•程序二:•Dataclass3(keep=idaveragetotal);•Setclass2;•Procprintdata=class3;•Run;•程序一和程序二的运行结果相同。拼接和合并数据集•在SAS数据步中用SET语句可以拼接数据集,而用MERGE语句可以合并数据集。•例如我们有二个数据集A和B,要拼接和合并成新的数据集C,二种不同方法的程序和结果见示意图所示:ABSAS数据集的连接DATAC;SETAB;RUN;DATAC;MERGEAB;RUN;ABAB作图•一PROCPLOT过程•使用PLOT过程可以在两个不同的坐标系中对两个变量作散布图、折线图和层次图。用于数据处理中,直观地了解数据的变化趋势和数据间的相互关系等。•它的一般形式为:•ProcPlotDATA=数据集/选项列表;Plot纵坐标变量Y*横坐标变量X……/选项列表;Run;PLOT语句•PLOT语句里首先要规定数据集中的哪两个变量作为图形中的垂直变量和水平变量,以及在图形中用于画点的作图字符。•PLOT语句的几种使用格式如下:•ploty*x;•ploty*x=’+’;•ploty*x=符号变量;•ploty*x$标记变量=’+’;•ploty*x=’+’b*a=’*’/overlay;2PROCGPLOT过程•生成高分辨率图形的PROCGPLOT过程的一般使用格式如下:PorcGplotDATA=数据集;Plot纵坐标变量Y*横坐标变量X……/选项列表;Symboln选项列表;Axisn选项列表;Run;•在PROCGPLOT过程中,可使用SYMBOLn语句和AXISn语句。3用SYMBOLn语句定义线和符号•一些主要选项如下:•V=数据点图形符号——数据点的符号有NONE(没有)、PLUS(缺省值加号)、STAR(星号)、SQUAR(小方块)、DIAMOND(小菱形)、TRANGLE(三角形)、CIRCLE(小圆圈)。•I=数据点间连接方式——常用的连接有NONE(没有)、JOIN(直线)、SPLINE(平滑)、NEEDLE(从数据点到横坐标画垂直线)、HILOC(最高、最低、收盘价)、RL(直线回归线)、BOX25(盒形线)。•W=连线的线宽——例如w=5。•H=图形符号的高度——例如h=2.5。•C=定义颜色——例如c=red。•FONT=定义一种字体——例如font=swissb。程序如下:Libnamestudy‘d:\sasdata\mydir’;Datastudy.line;don=1to200by1;weight=40+60*ranuni(1);height=1*weight+100+5*normal(1);output;end;Procregdata=study.line;modelheight=weight;outputout=study.lineregp=predict;procgplotdata=study.linereg;plotheight*weightpredict*weight/overlay;symbol1v=dotc=redi=none;symbol2v=nonec=bluei=spline;Run;永久数据库Model:MODEL1DependentVariable:OXYGENAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProbFModel6721.97421120.3290422.3160.0001Error24129.407335.39197CTotal30851.38154RootMSE2.32206R-square0.8480DepMean47.37581AdjR-sq0.8100C.V.4.90137ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob|T|TypeISSTypeIISSINTERCEP1102.23833912.453047198.2100.000169578363.432659AGE1-0.2199160.09959154-2.2080.037078.98822726.291488MAXPULSE10.3047350.137224722.2210.0361142.35542626.590540RSTPULSE1-0.0008440.05863130-0.0140.988682.4478650.001118RUNPULSE1-0.3731640.12068038-3.0920.005098.36406551.555411RUNTIME1-2.6805160.37488355-7.1500.0001310.368687275.671437WEIGHT1-0.0723800.05467334-1.3240.19809.4499429.449942从参数的估计值容易得到拟合的回归方程为:oxygen=102.238339-0.219916age+0.304735maxpulse-0.000844rstpulse-0.373164runpulse-2.680516runtime-0.072380weightP=0.00010.05,说明模型参数不为0.均方根误差(扰动项标准差)回归分析CorrelationAnalysis1'WITH'Variables:Y1'VAR'Variables:XSimpleStatisticsVariableNMeanStdDevMedianMinimumMaximumY1095.00000067.905163102.5000000200.000000X05.5000003.0276505.5000001.00000010.000000SpearmanCorrelationCoefficients/Prob|R|underHo:Rho=0/N=10XY0.733330.0158Spearman等级相关系数为0.73333,是一个比较大的正相关系数。这个相关系数为0的原假设检验结果是p=0.01580.05,因此我们拒绝相关系数为0的原假设,接受了这个0.73333等级相关系数。1、Inputname5.2;表明变量a为_________变量,有_________位小数。2、Doi=1to10by2;则该循环进行___________次,最后的变量i为_______。3、如果要实现对某个变量进行正态性检验,则在SAS中可以使用univariate过程的_________________选项来实现。SAS程序基本语句:datafit;inputweightwaistpulsechinssitupsjumps;cards;19136505162601893752211060………………1383368211043;run;

1 / 21
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功