第二章.数学基础和SAS软件基础2.1统计学与概率论基础知识1.随机变量随机变量的含义离散型连续型密度函数分布函数随机变量在某个区间[]上的取值的概率也可以表示为。xdxxfxXXPxF)()()(ba,)|(21XXXXP)()(aFbF第二章.数学基础和SAS软件基础2.随机变量的数值特征期望值常用表示期望值的概念方差标准差niiipxxE1)()(xEniiirErp122)]([miirErm122)]([12/1m12)(iiiRRp2/1m12)(1iirrm第二章.数学基础和SAS软件基础协方差:测算两个随机变量之间相互关系的统计指标相关系数a.完全正相关b.完全负相关c.完全不相关)])([(jjiiijrrrrEjiijij1ij1ij0ijr=第二章.数学基础和SAS软件基础偏度:衡量随机变量的概率分布围绕其均值是否对称,公式定义为正偏态:负偏态:偏度系数:峰度:反映的是随机变量概率密度函数尾部的厚尾(或称为宽度)的统计量,通常用于判断某个随机变量是否服从正态分布])[(3xxE0])[(3xxE0])[(3xxE33])[(xxES第二章.数学基础和SAS软件基础峰度系数:若随机变量服从正态分布,则峰度近似等于3.若峰度显著大于3,则概率分布的尾部要比正态分布的尾部厚,分布密度曲线在距均值较远地方位于正态分布曲线的上方,称为尖峰厚尾现象43])[(xxEK-5.4-3.6-1.8-0.01.83.65.40.00.10.20.30.40.5第二章.数学基础和SAS软件基础3.概率分布正态分布记作:密度函数:的正态分布称为标准正态分布,记作累计概率分布函数:正态分布)2/()(2221)(xexf),(~2NXf(x)x1,0)1,0(NzzzdzedzzfzF2/221)()(第二章.数学基础和SAS软件基础若随机变量服从均值为、标准差为的正态分布,则其值在区间内的概率为95%。即:一般正态分布的接收域和拒绝域f(x)95%0.0250.0251.961.96xXx]96.1,96.1[95.0)96.196.1()96.196.1(XPXP第二章.数学基础和SAS软件基础分布:若,则下标k为的自由度,分布只取正值,并且是偏斜分布。偏度取决于自由度的大小,自由度越小越右偏,随着自由度的增多,分布逐渐对称,接近正态分布。当N无限大时,近似存在:分布随自由度的变化情况2)1,0(~NXZ212~Z222221~kkZZZX222k=41.00.5k=2k=8)1,0(~12222NNZ2第二章.数学基础和SAS软件基础t分布:若Z是一个变量,而变量X独立于Z,且X服从自由度为k的分布,则服从自由度为k的t分布对称性期望值为0方差为t分布的尾部比正态分布的尾部更厚自由度较大时,t分布趋从于标准正态分布)1,0(N2kXZkt/)()2/(kkf正态分布t-分布F(x)(1.961.96)0.95Pt第二章.数学基础和SAS软件基础F分布:若两个服从分布的随机变量相互独立,其自由度分别为和,则服从自由度为的t分布。不同自由度的F分布密度函数21k2k221221//),(21kkkkFkk),(21kkF(2,2)1.00.5F(100,100)F(20,2)0.51.01.52.02.51.52.0第二章.数学基础和SAS软件基础二项式分布:如果进行n次贝努里试验,取得成功次数为的概率可用下面的二项分布概率公式来描述n为独立的贝努里试验次数,为成功的概率,(1-)为失败的概率,X为在次贝努里试验中出现成功的次数,表示在n次试验中X出现的各种组合情况,在此称为二项系数。记为:),,1,0(nXXXnXXnXP)1(~)(Xn),(~nBX第二章.数学基础和SAS软件基础2.2SAS软件基础1.常用金融计量软件网址软件名称网址SAS简介模块:BASESAS为基本模块SAS的系统核心SAS/ETSSAS/GRAPHSAS/QCSAS/ETSSAS/FSPSAS/AF等特点:统计功能强大简捷具有功能强大的宏功能将数据处理与统计分析融为一体适应性强应用面广3.SAS中的几个基本概念窗口和文件类型:编辑器工作日志输出数据浏览器结果窗口第二章.数学基础和SAS软件基础逻辑库:将电脑硬盘中的“f:\fe”目录定义为SAS中的逻辑库“data”.libnamedata‘f:\fe’;SAS数据文件的命名方式临时性文件:一级文件名datareturn;永久性文件:两极文件名Datadata.size长方形的SAS数据结构:SAS的基本要素有观测、变量、变量值变量名,建议数据文件整理成长方形结构,更易于数据的处理和分析SAS程序的可控分段运行:将需要运行的程序段选黑,然后点击运行按钮第二章.数学基础和SAS软件基础如图:分段执行SAS程序“运行”命令按钮第二章.数学基础和SAS软件基础日志文件中的信息阅读:原数据文件出错的程序datadata.p;infile'f:\fe\chap2-2-1p.csv'delimiter=','MISSOVERDSDlrecl=32767;inputdate$p;run;/*此段程序的文件名有误,系统将报错,请在执行此段程序后观察日志文件*/在这段程序运行后,在日志文件中出现这样的信息:ERROR:物理文件f:\fe\chap2-2-1p.csv不存在。NOTE:SAS系统由于错误而停止了该步的处理。WARNING:数据集DATA.P可能不完整。该步停止时,共有0个观测和2个变量。NOTE:“DATA语句”所用时间(总处理时间):实际时间0.04秒CPU时间0.01秒第二章.数学基础和SAS软件基础根据错误进行修改后再次执行,得到下面日志信息NOTE:从Infile‘f:\fe\chap2-2-1p.csv’中读取了403条记录。最小记录长度是10。最大记录长度是14。NOTE:数据集DATA.P有403个观测和2个变量。NOTE:“DATA语句”所用时间(总处理时间):实际时间0.10秒CPU时间0.00秒数据文件的浏览和直接编辑:双击文件,则可以打开数据文件浏览4.SAS语句:由SAS关键词、用户提供信息构成,SAS语句以分号(;)结束,如:inputxy;第二章.数学基础和SAS软件基础5.SAS中的data步和proc步data步:将外部数据转化为SAS数据文件对原SAS文件进行修改,包括长生新变量、选择观测和选择变量合并两个或多个已有的数据集合,产生新的数据集将SAS数据集转化为外部数据例:将外部数据‘f:\fe\chap2-2-1p.csv’转化为SAS数据文件,该数据文件在逻辑库data中,根据”libname”语句的定义,逻辑库data和电脑文件目录‘f:\fe’是对应的libnamedata'f:\fe';datadata.p;infile'f:\fe\chap2-2-1p.csv'delimiter=','MISSOVERDSDlrecl=32767;inputdate$p;run;第二章.数学基础和SAS软件基础产生一个新的数据文件data.r,根据原始价格计算对数收益率r,剔出不需要的变量和观测。lag函数是取一阶时滞函数,lag(p)表示上一期的价格。由于第一个观测(即2006年1月4日这个观测)没有上一期的数值,SAS系统对这个观测的r给出了空值“.”。在数据处理上,可以将这个观测剔除。datadata.r;setdata.p;r=log(p)-log(lag(p));/*addavariable*/keepdater;/*choosevariables*/ifr=.thendelete;/*chooseobservations*/run;datadata.rm;setdata.index;rm=log(index)-log(lag(index));/*addavariable*/dropindex;/*choosevariables*/ifrm=.thendelete;/*chooseobservations*/run;第二章.数学基础和SAS软件基础将两个数据data.r和data.rm按照时间进行合并,由merge语句来完成,by变量date的功能是将两个原数据文件中date相同的观测合并到新数据data.co中的同一观测中。datadata.co;mergedata.rmdata.r;bydate;/*byvariables*/run;SAS内部数据也可输出为外部数据data_null_;setdata.co;file'f:\fe\co.txt';putdater1rm;run;第二章.数学基础和SAS软件基础proc步:对已有数据文件进行统计分析,并输出结果,最常见的是排序、打印和求单变量的统计量等下面对文件data.co执行排序,排序的关键变量为dateProcsortdata=data.co;bydate;Run;SAS程序包括:(1)将外部数据集合变成SAS数据集;(2)执行data步,对于数据集进行一定的变换、删除等预处理,将同一时间、同一对象的自变量和应变量放入到同一个观测中。(3)执行proc步(回归、时间序列等),生成结果;(4)对结果进行分析,提取有用信息,形成最后的报表。第二章.数学基础和SAS软件基础6.主要BASESAS程序排序过程sort:将数据按照一个或者多个变量排序,排序后的数据替代原数据,例如将数据return按照date和code排序procsortdata=return;bydatecode;/*第一排序变量date,第二排序变量code*/run;反向排序变量后加入“descending”选项procsortdata=return;bydatedescendingcode;run;将排序后的数据写入新数据集合procsortdata=returnout=return1;bydatedescendingcode;run;第二章.数学基础和SAS软件基础单变量过程UNIVARIATE:对上例中变量rm画直方图,并填充颜色。在左上角插入正态性检验结果,添加拟合曲线,在右上角加入均值和标准差的图标。procunivariatedata=demo.rm;varrm;histogramrm/cfill=ltgraynormal(color=yelloww=3percents=20406080midpercents);insetmeanstd=StdDev/pos=neformat=6.3cfill=ywh;insetnnormal(ksdpval)/pos=nwformat=6.3;run;输出结果如下:rm的直方图和拟合曲线的输出结果-0.105-0.09-0.075-0.06-0.045-0.03-0.01500.0150.030.0450.060510152025303540Percentrm第二章.数学基础和SAS软件基础在上面的收益率数据中,需要按月输出日收益率的均值,标准差和t统计量(均值=0)。程序如下:datadata.rm_month;setdata.rm;month=substr(date,1,6);run;procunivariate