畜禽场育种数据统计分析——SAS应用初步王楚端郑江霞一、SAS系统简介—SAS(StatisticalAnalysisSystem)是当前使用最为广泛的统计分析软件YSTAT)之一;—1966年美国NorthCarolina州立大学开始开发—目前国际上最流行的一种大型统计分析系统—统计分析的标准软件—其基本部分是SAS/BASE软件,在此基础上可根据需要加上SAS系统的其他模块SAS/STAT(统计分析);SAS/ETS(经济预测或时间序列分析);SAS/QC(质量控制管理);SAS/OR(运筹学);SAS/IML(矩阵运算);SAS/GRAPH(绘图)等—信息存储简单(能读取任何形式的数据)—语言编程能力强—对数据连续处理—统计分析方法丰富,使用简单—SAS过程傻瓜系统……SAS系统的组成系统管理程序功能程序库SAS/BASE-SAS/STATSAS/GRAPHSAS/QCSAS/ORSAS/ETSSAS/IMLSAS/ASSISTSAS系统二、SAS系统的启动与关闭(一)启动在WINDOWS操作系统中,直接用鼠标双击桌面上SAS系统的快捷键图标,即进入SAS系统。☼SAS系统软件有时间租期限制,因此只有机器时间在软件有效期内才能运行OUTPUT(SAS结果输出窗口)LOG(SAS日志窗口,随着SAS语句的执行,显示出SAS系统的信息和已执行的语句)PGM(SAS程序编辑窗口)(二)退出•安装:农大资源cc12345.cau.edu.cn仅供学习启动fileeditviewtoolssolutionswindowhelp退出四、SAS程序结构•(一)程序结构在SAS系统中任何一个完整的处理过程均可分为两大步——数据步和过程步•数据步——将不同来源的数据读入SAS系统建立起SAS数据集。由DATA语句开始,以RUN语句结束。•—数据可以由外部或过程读入;或者由CARDS语句开始,直接输入数据,数据输入完后提行单独加“;”结束简单运行样例•假设我们有一个班学生的数学成绩和语文成绩,数学满分为100,语文满分为120,希望计算学生的平均分数(按百分制)并按此排名,可以在程序窗口输入此程序:title'0401班学生成绩排名';datac0401;inputname$sex$mathchinese;avg=math*0.5+chinese/120*100*0.5;cards;李明男9298张红艺女89106王思明男8690张聪男98109刘颍女80110;run;procprint;run;procsortdata=c0401;bydescendingavg;run;procprint;run;如果数据要永久保存…•libnamea'd:\SAS82\SAS82\SAS\MYWORK\';•/*mywork子目录已事先存在*/•dataa.aaaa;•inputx@@;•cards;•12345•;•procprint;•varx;•run;过程步——调用SAS系统中已编好的各种过程来处理和分析数据集中的数据。—每一个过程步均以PROC语句开始,RUN语句结束,并且每个语句后均以“;”结束。•(二)程序的输入、修改调试和运行SAS程序只能在PGM窗口输入、修改,可在各行的任何位置开始SAS语句的书写。一个语句可以连续写在几行中,一行中也可以同时写上几个语句,但每个语句后面必须用“;”隔开。当一个程序输入完后,发送程序的命令为F10功能键或SUBMIT。当程序发送到SAS系统后,PGM的程序语句全部自动清除,LOG窗口将逐步记下程序运行的过程和出现的错误信息(用红色提示错误)。—如果过程步没有错误,运行完成后,通常会在OUTPUT窗口打印出结果—如果程序运行出错,则需要在PGM窗口用RECALL(或F9)命令调回已发送的程序进行修改。保存SAS程序及其他窗口内容–激活相应窗口,然后选择:•方式一:鼠标点击“存盘”工具按钮•方式二:执行菜单命令【File】→【Save】/【Saveas】–可保存程序、数据文件、运行结果、日志等。–SAS保存成纯文本格式文件。打开已保存的文件–只能在ProgramEdit窗口打开文件,选择:•方式一:鼠标点击“打开”工具按钮•方式二:执行菜单命令【File】→【Open】–可打开以前保存的程序、数据文件、运行结果、日志等文件及其他文本格式的文件。•对于定量资料的统计描述和简单推断,SAS提供了三个强有力的程序步,它们是:MEANS过程提供单个或多个变量的简单描述,对于多个变量,它的输出格式紧凑,便于阅读。UNIVARIATE过程提供单个变量的详细描述和对其分布类型的检验。TTEST过程对变量进行t/u检验。四、定量资料的统计描述和t检验PROCMEANS[选择项]计算描述统计量的MEANS过程VAR变量表BY变量表CLASS变量WEIGHT变量OUTPUT选择项FREQ变量1.N13.STDERR2.NMISS14.T3.MEAN15.PRT4.STD16.SUMWGT5.MIN17.SKEWNESS6.MAX18.KURTOSIS7.RANGE8.SUM9.VAR10.USS11.CSS12.CVPROCUNIVARIATE[选择项]描述统计量的UNIVARIATE过程VAR变量表BY变量表FREQ变量WEIGHT变量OUTPUTOUT=1.DATA=SAS数据集2.PLOT做茎叶图、盒式图、正态概率图3.FREQ做频数分布表4.NORMAL进行正态性检验/*LT3*/DATAA;INPUTYIELD@@;CARDS;17721519797123159245119119131149152167104161214125175219118192176175951361991161652149515883137801381511871261961342061379897129143179174159194136108101141148168163176102158145173751301491501611551112051311899114214015415216312318714915513120918397119181149254131215111186118150155197116184239160172179151198124179135151168169173181188211197175122159171166175143190213192231163159158159177147194227141169124165;PROCMEANSMEANSTDCVSTDERRMAXDEC=2;PROCCHART;VARYIELD;PROCFREQ;PROCUNIVARIATENORMALPLOT;RUN;数值保留两位小数t检验1、样本平均数与总体平均数的差异显著性检验DATAA;INPUTy@@;y=y-4.50;cards;4.334.623.894.144.784.644.524.484.554.26;PROCMEANSNMEANSTDERRTPRT;RUN;程序说明:样本平均数与总体平均数的差异显著性检验可调用MEANS过程。DATA语句产生临时数据集A,表明数据步的开始;INPUT语句指明读取变量y,@@表示读入一条观测值后不换行,连续读入数据,减少数据输入行;CARDS语句表明以下为数据行,数据行下的“;”表示数据行结束;PROCMEANS语句指明调用MEANS过程对数据集A进行分析,输出样本含量N、平均数MEAN、平均数的标准误STDERR、学生氏T值和t值概率PRT;RUN语句表示过程步结束,开始运行过程步。2、配对试验资料的t检验DATAB;INPUTIDx1x2;d=x1-x2;CARDS;137.837.9238.239.0338.038.9437.638.4537.937.9638.139.0738.239.5837.538.6938.538.81037.939.0;PROCMEANSMEANSTDERRTPRT;VARd;RUN;3、非配对试验资料的t检验DATAC;INPUTbreedy@@;CARDS;1572891120236110128211372501119239111723211042571732821532961682311118;PROCTTEST;CLASSbreed;VARy;RUN;五、方差分析•固定模型•随机模型•混合模型常用的方差分析模型表达•主效应模型•Y=ABC•互作效应模型•Y=ABCA*BA*CB*CA*B*C•嵌套效应模型•Y=AB(A)3、方差分析SAS过程对于一般的方差分析(平衡资料,即各处理重复数相等)可用ANOVA过程;对于非平衡资料(各处理重复数不等)的方差分析可用GLM过程。ANOVA过程调用格式•PROCANOVA;•CLASS效应名;•MODEL因变量名=效应名;•MEANS效应列表/选项;LSD最小显著差数法SNK最小显著极差法DUNCN邓肯氏均数比较检验T两两T检验ALPHA=0.05检验显著水平GLM过程调用格式•PROCGLM;•CLASS效应名;•MODEL因变量名=效应名;•MEANS效应表/选项;•LSMEANS效应表/选项;•RANDOM;STDERR最小二乘均数标准误TDIFF最小二乘均数差异显著性检验1.单因素试验(各处理重复数相等)DATAE;INPUTTR$y@@;cards;A115A116A115A117A118A245A242A250A238A239A330A335A329A331A335A431A428A420A425A430A540A535A531A532A530;PROCanova;CLASSTR;modely=TR;MEANSTR/T;RUN;•ClassLevelsValues•TR5A1A2A3A4A5•Numberofobservations25•DependentVariable:y•Sumof•SourceDFSquaresMeanSquareFValuePrF•Model41905.440000476.36000034.32.0001•Error20277.60000013.880000•CorrectedTotal242183.040000•R-SquareCoeffVarRootMSEyMean•0.87283812.303793.72558730.28000•SourceFAnovaSSMeanSquareFValuePrF•TR41905.440000476.36000034.32.0001•tTests(LSD)fory•NOTE:ThistestcontrolstheTypeIcomparisonwiseerrorrate,nottheexperimentwiseerrorrate.•Alpha0.05•ErrorDegreesofFreedom20•ErrorMeanSquare13.88•CriticalValueoft2.08596•LeastSignificantDifference4.9151•Meanswiththesameletterarenotsignificantlydifferent.•GroupingMeanNTR•A42.8005A2•B33.6005A5•B•B32.0005A3•C26.8005A4•D16.2005A1DATAF;INPUTBREED$y@@;cards;B121.5B119.5B120.0B122.0B118.0B120.0B216.0B218.5B217.0B215.5B220.0B216.0B319.0B317.5B320.0B318.0B317.0B421.0B418.5B419.0B420.0B515.5B518.0B517.0B516.0;PROCGLM;CLASSBREED;modely=BREED;MEANSBREED/T;RUN;2.单因素试验(各处理重复数不等)•ClassLeve