SAS基础与金融计算6

324546554
2 ℃
2018-11-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1SAS基础与金融计算游家兴厦门大学经济学院计统系2描述统计中的单变量分析UNIVARIATE过程该过程除可以完成类似MEANS过程的基本统计量的计算外，它还可以计算以下统计量：描述变量极端值的情况；计算分位数，如中位数；生成若干个描述变量的分布图；生成频率表；对数据进行正态性检验;对数据进行t检验和秩和检验。3该过程由下列语句控制：PROCUNIVARIATE[options];VARvariables;BYvariables;OUTPUT[out=SAS-data-set][output-statistics];Run;4PROCUNIVARIATE语句详解PROCUNIVARIATE[options]；用于UNIVARIATE过程语句的可选项有（与MEANS过程相同用法的选项略去说明）：DATA=SAS-data-setFREQ：要求生成包括变量值、频数、百分数和累计频数的频率表。NORMAL：要求计算关于变量服从正态分布的假设检验统计量，这个检验统计量相应的概率也被输出。5PLOT：要求生成茎叶图、盒形图和正态概率图。PCTLDEF=value：规定计算百分位数的方法，值取为1，2，3，4，5。缺省时为5。6OUTPUT语句OUTPUT语句的用法与MEANS过程中类似，下面指出两点不同之处：output-statistics选项中可用的关键词除了在MEANS过程中已介绍过的以外，还有：NOBS，MEDIAN，MODE，P1，P5，P10，P90，P95，P99，MSIGN（符号统计量），PROBN（正态性检验统计量对应的概率），SIGNRANK，NORMAL，Q1，Q3，QRANGE（四分位差）。7PCTLPTS=percentiles：规定在该过程中不能自动提供而用户又希望计算的百分位数。例如要计算第33分位数值，必须选择此项。PCTLPRE=prefix-names：该选项规定要求计算的百分位数的输出变量名的前缀。PCTLNAME=suffix-names：该选项规定要求计算的百分位数的输出变量名的后缀。8以上三个选项往往结合起来使用，如：Procunivariatedata=;varageweightheight;outputpctlpts=33.366.7pctlpre=awhpctlname=p33_3p66_7;Run;9例：我们利用前面建立的数据集student来看看Univariate过程的输出结果。Datastudent;inputclasssex$ageweightheight;cards;1f15461561f14411491m13481552m16551652f17501602f16601652m17651753f18651653m18701803m1768176;Run;Procunivariatedata=student;varheight;Run;Procunivariatedata=studentnormal;varheight;Run;Procunivariatedata=studentplot;varheight;Run;10MomentsN15SumWeights15Mean163.2SumObservations2448StdDeviation9.1354881Variance83.4571429Skewness0.28385259Kurtosis-0.5095875UncorrectedSS400682CorrectedSS1168.4CoeffVariation5.59772555StdErrorMean2.35877289BasicStatisticalMeasuresLocationVariabilityMean163.2000StdDeviation9.13549Median162.0000Variance83.45714Mode160.0000Range31.00000InterquartileRange14.00000NOTE:Themodedisplayedisthesmallestof2modeswithacountof3.11ExtremeObservations----Lowest--------Highest---ValueObsValueObs149216511150517071554175101561176151601218013TestsforLocation:Mu0=0Test-Statistic------pValue-----Student’stt69.18852Pr|t|.0001SignM7.5Pr=|M|.0001SignedRankS60Pr=|S|.0001Quantiles(Definition5)QuantileEstimate100%Max18099%18095%18090%17675%Q317050%Median16225%Q115610%1505%1491%1490%Min14912TestsforNormalityTest--Statistic--------pValue------Shapiro-WilkW0.961232PrW0.7138Kolmogorov-SmirnovD0.155234PrD0.1500Cramer-vonMisesW-Sq0.042367PrW-Sq0.2500Anderson-DarlingA-Sq0.259036PrA-Sq0.2500Normal（1）当样本量小于2000时，应选用Shapiro-Wilks的W检验。W值愈接近于1，说明该变量愈接近正态分布；（2）当样本量大于2000时，应选用Kolmogorov-Smirnov正态性检验。D值越大，P值越小，说明该变量愈不服从正态分布；D值越小，P值越大，说明该变量愈服从正态分布。Procunivariatedata=studentnormal;varheight;Run;13为什么要进行正态检验?正态分布是许多统计方法的理论基础。t检验、方差分析、相关和回归分析等多种统计方法均要求分析的变量服从正态分布。许多统计方法虽然不要求分析指标服从正态分布，但相应的统计量在大样本时近似正态分布，因而大样本时这些统计推断方法也是以正态分布为理论基础的。如果变量不服从正态分布，那么以正态分布为假设所获得的结论就不可靠。14Procunivariatedata=studentplot;varheight;Run;获得三个图:1、茎叶图2、箱线图3、正态概率图15茎叶图茎叶图，类似直方图，但又与直方图不同，它的思路是将数组的数按位数进行比较，将数大小基本不变或变化不大的位作为一个主杆（茎），将变化大的位的数作为分枝（叶），列在主杆的后面，这样就可以清楚地看到每个主杆后面的几个数，每个数具体是多少。16茎叶图有三列数：（1）最左边的一列表示茎，也就是变化不大的位数；（2）中间的是数组中的变化位，它是按照一定的间隔将数组中的每个变化的数一一列出来，象一条枝上抽出的叶子一样，所以人们形象地叫它茎叶图；（3）右边的一列数为统计数，表示该组的单位个数。StemLeaf#180117562170116555316000241556215011491MultiplyStem.Leafby10**+117箱线图箱线图，也称盒须图，由一个箱子（或盒子）和两条线段组成。其绘制的方法是，求出总体的五个数量特征值：极大值、极小值、中位数、上四分位数、下四分位数，连接上四分位数和下四分位数画出箱体，再将两个极值点与箱体相连。StemLeaf#Boxplot1801|17562|1701+-----+165553||1600024*--+--*15562+-----+1501|1491|----+----+----+----+MultiplyStem.Leafby10**+118NormalProbabilityPlot182.5+*+++++|**++++++|*+++++|**+*++|***+*+|*+*+++|++*+++147.5+++*+++----+----+----+----+----+----+----+----+----+----+-2-10+1+2纵轴为实测值标度，横轴按标准正态分布U值标度。图中的“+”号标记标准正态u值的参考直线，“*”号标记实际数据点。如果样本来自正态总体，则观测值数据“*”构成的直线与参考直线基本重合，表明观测值数据服从正态分布。正态概率图19Procunivariatedata=studentfrep;varheight;Run;生成包括变量值、频数、百分数和累计频数的频率表。20本次课上机作业对数据集finance进行如下操作：1、画出股票收益率正态概率图，并判断它是否服从正态分布？2、剔除股票收益率和市盈率在1%和99%分位数之外的观测值，将结果生成新的数据集（test）；3、用Univariate过程对test数据集中的股票收益率进行描述性统计分析，将结果生成新的数据集（stat），要求该数据集包含均值、标准差、中位数、上10分位数和下10分位数等统计量。