1SAS基础与金融计算游家兴厦门大学经济学院计统系2描述统计中的单变量分析UNIVARIATE过程该过程除可以完成类似MEANS过程的基本统计量的计算外,它还可以计算以下统计量:描述变量极端值的情况;计算分位数,如中位数;生成若干个描述变量的分布图;生成频率表;对数据进行正态性检验;对数据进行t检验和秩和检验。3该过程由下列语句控制:PROCUNIVARIATE[options];VARvariables;BYvariables;OUTPUT[out=SAS-data-set][output-statistics];Run;4PROCUNIVARIATE语句详解PROCUNIVARIATE[options];用于UNIVARIATE过程语句的可选项有(与MEANS过程相同用法的选项略去说明):DATA=SAS-data-setFREQ:要求生成包括变量值、频数、百分数和累计频数的频率表。NORMAL:要求计算关于变量服从正态分布的假设检验统计量,这个检验统计量相应的概率也被输出。5PLOT:要求生成茎叶图、盒形图和正态概率图。PCTLDEF=value:规定计算百分位数的方法,值取为1,2,3,4,5。缺省时为5。6OUTPUT语句OUTPUT语句的用法与MEANS过程中类似,下面指出两点不同之处:output-statistics选项中可用的关键词除了在MEANS过程中已介绍过的以外,还有:NOBS,MEDIAN,MODE,P1,P5,P10,P90,P95,P99,MSIGN(符号统计量),PROBN(正态性检验统计量对应的概率),SIGNRANK,NORMAL,Q1,Q3,QRANGE(四分位差)。7PCTLPTS=percentiles:规定在该过程中不能自动提供而用户又希望计算的百分位数。例如要计算第33分位数值,必须选择此项。PCTLPRE=prefix-names:该选项规定要求计算的百分位数的输出变量名的前缀。PCTLNAME=suffix-names:该选项规定要求计算的百分位数的输出变量名的后缀。8以上三个选项往往结合起来使用,如:Procunivariatedata=;varageweightheight;outputpctlpts=33.366.7pctlpre=awhpctlname=p33_3p66_7;Run;9例:我们利用前面建立的数据集student来看看Univariate过程的输出结果。Datastudent;inputclasssex$ageweightheight;cards;1f15461561f14411491m13481552m16551652f17501602f16601652m17651753f18651653m18701803m1768176;Run;Procunivariatedata=student;varheight;Run;Procunivariatedata=studentnormal;varheight;Run;Procunivariatedata=studentplot;varheight;Run;10MomentsN15SumWeights15Mean163.2SumObservations2448StdDeviation9.1354881Variance83.4571429Skewness0.28385259Kurtosis-0.5095875UncorrectedSS400682CorrectedSS1168.4CoeffVariation5.59772555StdErrorMean2.35877289BasicStatisticalMeasuresLocationVariabilityMean163.2000StdDeviation9.13549Median162.0000Variance83.45714Mode160.0000Range31.00000InterquartileRange14.00000NOTE:Themodedisplayedisthesmallestof2modeswithacountof3.11ExtremeObservations----Lowest--------Highest---ValueObsValueObs149216511150517071554175101561176151601218013TestsforLocation:Mu0=0Test-Statistic------pValue-----Student’stt69.18852Pr|t|.0001SignM7.5Pr=|M|.0001SignedRankS60Pr=|S|.0001Quantiles(Definition5)QuantileEstimate100%Max18099%18095%18090%17675%Q317050%Median16225%Q115610%1505%1491%1490%Min14912TestsforNormalityTest--Statistic--------pValue------Shapiro-WilkW0.961232PrW0.7138Kolmogorov-SmirnovD0.155234PrD0.1500Cramer-vonMisesW-Sq0.042367PrW-Sq0.2500Anderson-DarlingA-Sq0.259036PrA-Sq0.2500Normal(1)当样本量小于2000时,应选用Shapiro-Wilks的W检验。W值愈接近于1,说明该变量愈接近正态分布;(2)当样本量大于2000时,应选用Kolmogorov-Smirnov正态性检验。D值越大,P值越小,说明该变量愈不服从正态分布;D值越小,P值越大,说明该变量愈服从正态分布。Procunivariatedata=studentnormal;varheight;Run;13为什么要进行正态检验?正态分布是许多统计方法的理论基础。t检验、方差分析、相关和回归分析等多种统计方法均要求分析的变量服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。如果变量不服从正态分布,那么以正态分布为假设所获得的结论就不可靠。14Procunivariatedata=studentplot;varheight;Run;获得三个图:1、茎叶图2、箱线图3、正态概率图15茎叶图茎叶图,类似直方图,但又与直方图不同,它的思路是将数组的数按位数进行比较,将数大小基本不变或变化不大的位作为一个主杆(茎),将变化大的位的数作为分枝(叶),列在主杆的后面,这样就可以清楚地看到每个主杆后面的几个数,每个数具体是多少。16茎叶图有三列数:(1)最左边的一列表示茎,也就是变化不大的位数;(2)中间的是数组中的变化位,它是按照一定的间隔将数组中的每个变化的数一一列出来,象一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图;(3)右边的一列数为统计数,表示该组的单位个数。StemLeaf#180117562170116555316000241556215011491MultiplyStem.Leafby10**+117箱线图箱线图,也称盒须图,由一个箱子(或盒子)和两条线段组成。其绘制的方法是,求出总体的五个数量特征值:极大值、极小值、中位数、上四分位数、下四分位数,连接上四分位数和下四分位数画出箱体,再将两个极值点与箱体相连。StemLeaf#Boxplot1801|17562|1701+-----+165553||1600024*--+--*15562+-----+1501|1491|----+----+----+----+MultiplyStem.Leafby10**+118NormalProbabilityPlot182.5+*+++++|**++++++|*+++++|**+*++|***+*+|*+*+++|++*+++147.5+++*+++----+----+----+----+----+----+----+----+----+----+-2-10+1+2纵轴为实测值标度,横轴按标准正态分布U值标度。图中的“+”号标记标准正态u值的参考直线,“*”号标记实际数据点。如果样本来自正态总体,则观测值数据“*”构成的直线与参考直线基本重合,表明观测值数据服从正态分布。正态概率图19Procunivariatedata=studentfrep;varheight;Run;生成包括变量值、频数、百分数和累计频数的频率表。20本次课上机作业对数据集finance进行如下操作:1、画出股票收益率正态概率图,并判断它是否服从正态分布?2、剔除股票收益率和市盈率在1%和99%分位数之外的观测值,将结果生成新的数据集(test);3、用Univariate过程对test数据集中的股票收益率进行描述性统计分析,将结果生成新的数据集(stat),要求该数据集包含均值、标准差、中位数、上10分位数和下10分位数等统计量。