复习武汉大学计算机学院武汉大学计算机学院题型单选2*15填空1*20分析结果题、问答题(18+12+20)考试范围:1-6章(SAS宏、协方差分析、逻辑回归不考)武汉大学计算机学院第一章SAS的组成与特点,SAS的主要界面,SAS对数据文件的管理,SAS操作基础武汉大学计算机学院对于常用的一些统计分析方法,SAS系统中的如下三种方法可以达到同样的目的:INSIGHT(“交互式数据分析”)Analyst(“分析家”)直接编程使用SASInsight和分析家不要求具体的步骤。命令方式中比如建库,建立数据集.武汉大学计算机学院子窗口SAS子窗口有十几个,但初始状态下能见到的是最常用的五个子窗口:●Explorer窗口:资源管理器窗口●Editor窗口:增强的程序编辑器。●Log窗口:记录程序的运行情况。●Output窗口:显示SAS程序中各过程的运行结果。●Results窗口:管理SAS程序的输出结果。1.3.3SAS基本窗口武汉大学计算机学院SAS每次启动时会自动指定5个逻辑库Work,Sasuser,Sashelp,Gismaps,MapsSasuser库保存与用户个人设置有关的文件Sashelp库保存与SAS帮助系统、例子有关的文件。1.3.4SAS对数据文件的管理武汉大学计算机学院逻辑库和SAS文件Libnameaa“e:\sasdata”;Dataaa.class;....SAS数据集SAS逻辑库aaE:\sasdataSas中数据集aa.ClassWindows下文件Class.sas7bdat定义一逻辑库aa新建一数据集class....武汉大学计算机学院SAS数据集的组成观测、变量数据集的结构1.4SAS基本操作武汉大学计算机学院SAS的名字SAS的名字(数据集名、变量名、逻辑库名等等)有以下命名规则:1)由英文字母、数字、下划线组成;2)第一个字符必须是字母或下划线;3)不区分大、小写字母。另外,SAS逻辑库名最多用8个字符;数据集和变量的名字最多用32个字符。1.1.3SAS对数据文件的管理name,aBC,x1,student_1,class-1,12abs,stu$武汉大学计算机学院变量分为两种类型:字符型变量和数值型变量。在INSIGHT中,为了区分变量在分析中的不同作用,又按变量的测量水平分为两类(P22)●区间型变量(intervalvariable):区间型变量必须是数值型变量,可以对其观测值进行四则运算,计算各种统计量;●列名型变量(nominalvariable):列名型变量可以是数值型的,也可以是字符型的,在INSIGHT中常起分类作用。武汉大学计算机学院第二章数据步及语句,主要输入输出格式,过程步及常用过程步语句,常用过程(SAS宏不考)武汉大学计算机学院第二章数据步及语句,主要输入输出格式,过程步及常用过程步语句,常用过程(SAS宏不考)武汉大学计算机学院SAS程序概述1.数据步与过程步SAS程序包括多个步骤和一些控制语句,一般情况下由两种类型的程序步(steps)组成:数据步(DATAsteps)和过程步(PROCsteps)。有时SAS程序还包括一些全程语句,用以控制贯穿整个SAS程序的某些选项、变量或程序运行的环境。武汉大学计算机学院2.SAS语言书写规则一个SAS语句有两个重要特征:•由SAS关键词(keyword)开始;•总是以分号“;”结束;•所有的标点符号必须采用英文半角的输入方式Sas程序文件的扩展名(sas)、执行与输出SAS程序概述武汉大学计算机学院例如:dataf2005;inputnumbername$;cards;200541001zhao200541002qian200541003sun200541004li;run;数据集名变量名数据步CARDS语句表明后面是数据行;1.cards必须与input配合使用;2.在一个data步中只能使用一个cards;3.Cards必须是data步中最后一个语句;4.分号单独使用一行,或者省略;武汉大学计算机学院例如:dataf2005;inputnumbername$@@;cards;200541001zhao200541002qian200541003sun200541004li;run;武汉大学计算机学院Input语句:自由格式、列标识方式、格式输入赋值语句Set、merge过程武汉大学计算机学院计算中心IF语句IF表达式;或IF表达式THEN语句A;[ELSE语句B;]分支语句表达式1N语句B语句AY武汉大学计算机学院计算中心SELECT(选择表达式);WHEN(值列表)语句;WHEN(值列表)语句;……OTHERWISE语句;END;其中“选择表达式”是一个取数值、字符型值的变量或表达式,“值列表”为一项或者若干项,多项之间逗号分开,每项可以是一个与选择表达式相同取值类型的表达式。“语句”可以是单个语句或复合语句。执行SELECT结构时,先计算出选择表达式和值列表中的所有值,然后把选择表达式值由前向后与值列表中的值相比,发现相等值则执行对应的语句,然后退出SELECT结构(不再查看后面的值列表).如果选择表达式的值不等于任何值列表中的值则执行OTHERWISE对应的语句,这种情况下没有OTHERWISE语句会出错。选择语句表达式1表达式2表达式3表达式n-1语句n语句n-1...语句3语句2语句1...真真真真假假假假武汉大学计算机学院计算中心Do计数变量=起始值to结束值by步长;循环体……;END;在方差分析中,需要使用循环语句创建数据集。P54例2-24P184例5-9(书上的程序有点错,请参考课件中的程序)循环语句武汉大学计算机学院SAS过程步的一般形式为:PROC过程名[DATA=输入数据集][选项];过程语句/选项;过程语句/选项;RUN;各个过程步的功能一定要很清楚SAS过程步的一般形式武汉大学计算机学院过程步的一般格式?Var语句的含义?By和class语句的区别?过程步中Output语句的含义?Where语句功能?如何写条件?(and、or的使用)Format语句的格式(输出格式)print过程武汉大学计算机学院(5)FORMAT语句过程步中的FORMAT语句可以为变量输出规定一个输出格式,比如:procprintdata=c200501;formatmath9.1chinese9.1;run;使得列出的数学、语文成绩宽度占9位,带一位小数。日期格式的作用例如:yymmdd10.武汉大学计算机学院第3章统计学的基本概念,用insight、分析家及编程计算统计量,用insight、分析家及编程进行统计绘图(重点GPLOT和GCHART过程)武汉大学计算机学院参数与统计量参数(parameter):参数是用来描述总体特征的概括性值。如总体平均值(μ)、总体方差(2)等。统计量(statistics):统计量是用来描述样本特征的概括性值。如样本均值()、样本方差(s2)等。x会得出并识别85页的常用统计量武汉大学计算机学院1.均值(Mean)2.中位数(Median或Med)3.众数(Mode)4.百分位数(Percentile)表示数据位置的统计量武汉大学计算机学院表示数据分散程度的统计量1.极差(Range)与半极差(Interquartilerange)2.方差(Variance或Var)3.标准差(Standarddeviation或StdDev)4.变异系数(CoefficientofVariation或CV)武汉大学计算机学院选择选项矩统计量和分位数,取消默认的选项:“BoxPlot/MosaicPlot”和“Histogram/BarChart”,单击“OK”按钮,即可得到变量Income按“R_Id”分组的各种矩统计量(Moments)和分位数(Quantiles),如图所示。用INSIGHT计算统计量武汉大学计算机学院定量变量的图形表示1.直方图2.盒形图3.散点图4.线图主要了解各种图形的组成,Freq过程、means过程、univariate过程的功能武汉大学计算机学院第4章参数估计和假设检验的基本概念,TTEST过程,单样本、两样本(独立样本及配对样本)的假设检验,分布检验武汉大学计算机学院第4章概念:区间估计、置信度、置信区间、显著性水平置信区间与显著性水平之间的关系?假设检验的基本思想?零假设、备选假设Ttest过程区分匹配样本和独立样本两组样本数不一样时,如何创建数据集。会根据分析结果下结论武汉大学计算机学院假设检验的基本思想小概率原理:概率很小的事件在一次试验中几乎不会发生,若小概率事件在一次事件中发生了,就被认为是不合理的。基本思想:首先假设原假设是真的成立,然后考虑在原假设成立的条件下,已经观测到的样本信息出现的概率,如果这个概率很小,这就表明一个概率很小的事件在一次试验中发生了,这与小概率原理相违背,表明原来的假设有问题,应予以否定,即拒绝这个假设。“概率很小”:一般在检验之前都事先指定,比如概率为0.05,0.01等,用α表示,称为显著性水平或检验水平。武汉大学计算机学院武汉大学计算机学院武汉大学计算机学院概率P值实际的显著性水平:概率P值SAS系统根据样本分布和样本数据自动计算一个实际的显著性水平:概率P值Pα,说明实际计算的显著性水平比理论的显著性水平更小,小概率事件在一次实验中发生的几率更小(比理论设定的概率还小)。此时在P值的显著性水平条件下,如果还能够观测到小概率事件发生,则说明假设更加不可靠,应拒绝原假设;P>α,在P值的显著性水平条件下,如果能够观测到小概率事件发生,则说明假设可能没有任何问题。因为观测一个概率比较大的事件,其发生的可能性本来就比较大,故不能对假设做出否定的判断。因此,在SAS系统中进行假设检验,往往从P值入手武汉大学计算机学院配对设计资料t检验的基础理论配对设计主要有四种情况:同一受试对象处理前后的数据;同一受试对象两个部位的数据;同一样品用两种方法(仪器等)检验的结果;配对的两个受试对象分别接受两种处理后的数据。配对t检验的实质同于单样本t检验,可将此类资料看成是差值的样本均数所代表的未知总体均数与已知总体均数=0的比较,其检验统计量构造如下:1,//0nnSdnSdSdtdddddd0武汉大学计算机学院武汉大学计算机学院使用TTEST过程•TTEST过程可以执行单样本均值的t检验、配对数据的t检验以及双样本均值比较的t检验。1.语法格式PROCTTEST选项列表;[CLASS分组变量名;][VAR分析变量名列表;][PAIRED变量名列表;][BY分组变量名;]RUN;•其中,PROCTTEST和RUN语句是必须的,其余语句都是可选的,而且可调换顺序。武汉大学计算机学院P123procttest过程P129procttest过程例4-7数据集的创建P135procttest过程例4-11数据集的创建P143procttest过程P145univariate过程(P149)武汉大学计算机学院使用UNIVARIATE过程•在PROCUNIVARIATE语句中加上NORMAL选项可以进行正态性检验。procunivariatedata=Mylib.yczlnormal;varweight;run;武汉大学计算机学院第5章方差分析的原理及基本假定,用sight,分析家及编程做单因素、双因素方差分析,均值估计与多重比较(协方差分析不考)武汉大学计算机学院什么是方差分析?为什么要用方差分析?因素?水平?方差分析的原理?方差分析的原假设?备选假设?方差分析中的基本假定有哪些?在创建数据集时,需要注意什么问题?Anova过程会从分析结果中得出结论武汉大学计算机学院5.