SAS系统介绍23组:竺金鹏SAS系统•几大模块SAS语言SAS/BaseSAS/StatSAS/graphSAS/IMLSAS/INSIGHT(交互数据分析系统)SAS/AnalystSAS/Base•SAS/Base:是SAS系统的核心,它负责数据管理,交互应用环境管理,进行用户语言处理,调用其它SAS产品。BaseSAS对SAS系统的的数据库提供丰富的数据管理功能,还支持用标准SQL语言对数据进行操作。BaseSAS能够制作从简单列表到比较复杂的统计报表和用户自定义的式样的复杂报表。BaseSAS可进行基本的描述性统计及变量间相关系数的计算,进行正态分布检验等。同时它还支持长数据名,并具有强化了的Web功能。SAS/STAT•SAS/STAT:•覆盖了所有的实用数理统计分析方法,是国际统计分析领域的标准软件。SAS/STAT提供十多个过程可进行各种不同模型或不同特点数据的回归分析,如正交回归、响应面回归、logistic回归、非线性回归等,且具有多种模型选择方法。可处理的数据有实型数据、有序数据和属性数据,并能产生各种有用的统计量和诊断信息。在方差分析方面,SAS/STAT为多种试验设计模型提供了方差分析工具。SAS/GRAPH:•SAS/GRAPH:•强有力的图形软件包SAS/GRAPH可将数据及其包含着的深层信息以多种图形生动地呈现出来,如直方图、圆饼图、星形图、散点相关图、曲线图、三维曲面图、等高线图及地理图等等。SAS/GRAPH提供一个全屏幕编辑器;提供多种设备驱动程序,支持非常广泛的图形输出以及标准的图形交换文件。SAS/ETS•SAS/ETS:•提供丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具。它提供方便的模型设定手段、多样的参数估计方法。几个主要窗口介绍editor(编辑)窗口log(日志)窗口output(输出)窗口results(结果)窗口explorer(浏览器)窗口sas首页图通过描述统计介绍SAS\Base中的部分过程•描述统计是把观测数据本身包含的•信息加以总结概括、整理简化。例如频数•表、频数分布直方图及描述统计量的计算•都属于描述性统计描述统计量表示位置的特征量(均值、众数、中位数、•百分位数)表示分散程度的特征量(方差、标准差、极•差、四分位极差、变异系数、标准误差)•表示分布形状的特征量(偏度、峰度)•统计图:直方图、条形图、饼形图、星星图、盒形图、茎叶图、散点图、P-P图、Q-Q图等。•统计表:频数表、频率表、列联表。在SAS中百分位数的具体计算方法:•规定:(1)百分之0的分位数为最小值;•百分之100的分位数为最大值;•(2)第t百分位数的计算公式100100)1()(100)1(,2ntntjjntjtjjxxjxy其中变异系数(CoeffVariation)变异系数是衡量资料中各观测值变异程度的另一个统计量(1)1,2,3,4(2)1001,1002,1003,1004•方差和标准差不能反映两组数据的不同的离散程度•变异系数特点:•无量纲的量,可以用于两个或两个以上数据组的离散程度的比较。(%)100xsCv标准误(StdErrorMean)•样本均值的标准差的估计值。•特点:•反映多次试验下样本均值的离散程度,标准误小说明每次试验得到的样本均值波动小,样本均值估计总体均值较准确。nssm偏度(Skewness):度量数据关于均值的对称性。331)()2)(1(sxxnnngi延伸;的数据左边比右边更为或者说偏离均值位置左边的数据更为分散,,此时在均值负偏,称为有左偏态若延伸;的数据右边比左边更为或者说偏离均值位置右边的数据更为分散,,此时在均值正偏,称为有右偏态若称的;,则可以认为分布是对若)(0)(00111ggg峰度(Kurtosis)即尾巴粗细的度量。4224()(1)3(1)(1)(2)(3)(2)(3)ixxnnngnnnsnn数据较少。,表示均值两侧的极端若;粗尾或称一沉重的尾巴极端数值,此时分布有远离均值的,表示数据中含有较多若布差不多;,则认为分布与正态分若0)(00222ggg标准偏度系数:度量数据的对称性。•特点:(1)消除了量纲的影响;•(2)当时,g1渐近标准正态分布。•标准峰度系数:度量数据的分散程度•特点:(1)消除了量纲的影响;•(2)当时,g2渐近标准正态分布。31116niixxgns4211324niixxngns例1.1.1给出了15名同学体重的数据,分别用编程的方法和菜单系统计算简单统计量•dataW15;•inputw@@;•cards;•75.064.047.466.962.262.258.763.5•66.664.057.069.056.950.072.0•;•procmeansdata=W15;•varw;•run;••偏度g1=-0.4299561峰度g2=0.096539471、建立数据集•dataMM;•inputa$bc;•m=b+c;•n+1;•/*直接声明一个变量n,数据为累加型•定义时不需要等号*/•labelm='results';•cards;•aa12•bb34•cc56建立数据集•bydescendingm;•run;•procprintdata=MM;•var_numeric_;•var_character_;•title'chulijieg';•run;•注意:•整体步骤为先生成数据集,然后再排序;最后输出结果;•Var之后要有空格;•排序时,bydesecendingm;必须用变量名m,不可用标签result;•A为字符串时,需在后面加符号$,不规定字节数的话不用加点;•数据输入时,每个对象须单独起一行;•数据输入结束时,分号必须另起一行;•下划线的输入:减号;•若varnumeric在先,则输出时数字列在前;若character在先,则输出时字符列在先;2、生成空数据集•datat2;•lengthname$8.percent8.;•/*定义两个变量name、perceng的类型、长度,各参数均不可省略*/•stop;•/*没有stop的话会生成缺省变量*/•run;3.@的应用(将数据拆分为多列)•dataa;•inputtype$@;•/*@表示下面的操作均在这一行进行*/•iftype='c'theninputcourse$prof$;•/*then后面需用input命令*/•elseiftype='s'theninputname$id3.2;•cards;•cmathzxs•szhao58888•;•procprint;•run;3.@的应用(读取指定数据)•Dataa;•input@1x5.2@6y2.1+2z#2xx;•/*@1置于变量前,表示从第一列开始读*/•/*5.2共占五位,小数点后占两位*/•/*+2置于变量前,表示向后跳两列读取。注意,是在将要读取的列上向后跳,而不是以已读完的列为基点向后跳*/•/*#2从第二行开始读取*/•cards;•12345678912345•234•;谢谢观赏n