金融时间序列分析陆贵斌2012年10月建模过程内容第1部分ARMA建模第2部分ARIMA建模第3部分ARCH建模第4部分协整建模一、ARMA建模建模步骤模型识别参数估计模型检验模型优化序列预测建模步骤平稳非白噪声序列计算样本相关系数模型识别参数估计模型检验模型优化序列预测YN计算样本相关系数样本自相关系数样本偏自相关系数nttkntkttkxxxxxx121)())((ˆDDkkkˆˆˆ模型识别基本原则选择模型拖尾P阶截尾AR(P)q阶截尾拖尾MA(q)拖尾拖尾ARMA(p,q)kkˆk模型定阶的困难因为由于样本的随机性,样本的相关系数不会呈现出理论截尾的完美情况,本应截尾的或仍会呈现出小值振荡的情况由于平稳时间序列通常都具有短期相关性,随着延迟阶数,与都会衰减至零值附近作小值波动当或在延迟若干阶之后衰减为小值波动时,什么情况下该看作为相关系数截尾,什么情况下该看作为相关系数在延迟若干阶之后正常衰减到零值附近作拖尾波动呢?kkˆkkˆkˆkkˆkˆkkˆ样本相关系数的近似分布BarlettQuenouillennNk,)1,0(~ˆnnNkk,)1,0(~ˆ模型定阶经验方法95%的置信区间模型定阶的经验方法如果样本(偏)自相关系数在最初的d阶明显大于两倍标准差范围,而后几乎95%的自相关系数都落在2倍标准差的范围以内,而且通常由非零自相关系数衰减为小值波动的过程非常突然。这时,通常视为(偏)自相关系数截尾。阶数为d。22ˆPr0.9522ˆPr0.95kkknnnn例2选择合适的模型ARMA拟合1950年——1998年北京市城乡居民定期储蓄比例序列。序列自相关图序列偏自相关图拟合模型识别自相关图显示延迟3阶之后,自相关系数全部衰减到2倍标准差范围内波动,这表明序列明显地短期相关。但序列由显著非零的相关系数衰减为小值波动的过程相当连续,相当缓慢,该自相关系数可视为不截尾偏自相关图显示除了延迟1阶的偏自相关系数显著大于2倍标准差之外,其它的偏自相关系数都在2倍标准差范围内作小值随机波动,而且由非零相关系数衰减为小值波动的过程非常突然,所以该偏自相关系数可视为一阶截尾所以可以考虑拟合模型为AR(1)例2美国科罗拉多州某一加油站连续57天的OVERSHORT序列序列自相关图序列偏自相关图拟合模型识别自相关图显示除了延迟1阶的自相关系数在2倍标准差范围之外,其它阶数的自相关系数都在2倍标准差范围内波动。根据这个特点可以判断该序列具有短期相关性,进一步确定序列平稳。同时,可以认为该序列自相关系数1阶截尾偏自相关系数显示出典型非截尾的性质。综合该序列自相关系数和偏自相关系数的性质,为拟合模型定阶为MA(1)例31880-1985全球气表平均温度改变值差分序列序列自相关图序列偏自相关图拟合模型识别自相关系数显示出不截尾的性质偏自相关系数也显示出不截尾的性质综合该序列自相关系数和偏自相关系数的性质,可以尝试使用ARMA(1,1)模型拟合该序列参数估计待估参数个未知参数常用估计方法矩估计极大似然估计最小二乘估计2pq211,,,,,,,pq矩估计原理样本自相关系数估计总体自相关系数样本一阶均值估计总体均值,样本方差估计总体方差111111ˆ(,,,,,)ˆ(,,,,,)pqpqpqpq1ˆniixxn22212212ˆˆˆ1ˆˆ1ˆxqp例4:求AR(2)模型系数的矩估计AR(2)模型Yule-Walker方程矩估计(Yule-Walker方程的解)ttttxxx22112112121112121ˆˆ1ˆ1ˆ212122ˆ1ˆˆˆ例5:求MA(1)模型系数的矩估计MA(1)模型方程矩估计11tttx2201111220111(1)11211ˆ2ˆ411ˆ例6:求ARMA(1,1)模型系数的矩估计ARMA(1,1)模型方程矩估计1111ttttxx11111120111211()(1)1211221221121ˆˆ21,2,242,24ˆ,ˆˆˆccccccc对矩估计的评价优点估计思想简单直观不需要假设总体分布计算量小(低阶模型场合)缺点信息浪费严重只用到了p+q个样本自相关系数信息,其他信息都被忽略估计精度差通常用作极大似然估计和最小二乘估计迭代计算的初始值极大似然估计原理在极大似然准则下,认为样本来自使该样本出现概率最大的总体。使得似然函数(即联合密度函数)达到最大的参数值},,,);~(max{)~,;ˆ,,ˆ,ˆ(21121kkxpxxL似然方程0)~;~(~0)~;~(2xlxl对极大似然估计的评价优点充分应用了每一个观察值所提供的信息,估计精度高优良的统计性质:估计的一致性、渐近正态性和渐近有效性缺点需要假定总体分布最小二乘估计原理使残差平方和达到最小的那组参数值即为最小二乘估计值ntqtqtptpttxxxQQ121111)(min)~(min)ˆ(对最小二乘估计的评价优点最小二乘估计充分应用了每一个观察值所提供的信息,因而它的估计精度高缺点需要假定总体分布模型检验模型的显著性检验整个模型对信息的提取是否充分参数的显著性检验模型结构是否最简模型的显著性检验目的检验模型的有效性(对信息的提取是否充分)检验对象残差序列判定原则一个好的拟合模型:能够提取观察值序列中几乎所有的样本相关信息,即残差序列应该为白噪声序列反之:残差序列中还残留着相关信息未被提取,拟合模型不够有效假设条件原假设:残差序列为白噪声序列备择假设:残差序列为非白噪声序列0120,1mHm:mkmHk,:至少存在某个1,01检验统计量LB统计量221ˆ(2)()~()mkkLBnnmnk例检验1950年——1998年北京市城乡居民定期储蓄比例序列拟合模型的显著性残差白噪声序列检验结果延迟阶数LB统计量P值检验结论65.830.3229拟合模型显著有效1210.280.50501811.380.8361参数显著性检验目的检验每一个未知参数是否显著非零。删除不显著参数使模型结构最精简假设条件检验统计量mjHHjj10:0:10)(~)~(ˆtmntQamnjjjj例检验1950年——1998年北京市城乡居民定期储蓄比例序列极大似然估计模型的参数是否显著参数检验结果检验参数t统计量P值结论均值46.120.0001显著6.720.0001显著1例:对OVERSHORTS序列的拟合模型进行检验残差白噪声检验参数显著性检验检验参数t统计量P值结论均值-3.750.0004显著10.600.0001显著延迟阶数LB统计量P值结论63.150.6772模型显著有效129.050.61711模型优化问题提出当一个拟合模型通过了检验,说明在一定的置信水平下,该模型能有效地拟合观察值序列,但这种有效模型并不是唯一的。优化的目的选择相对最优模型例:拟合某一化学序列序列自相关图序列偏自相关图拟合模型一根据自相关系数2阶截尾,拟合MA(2)模型参数估计模型检验模型显著有效三参数均显著ttBByield)31009.032286.01(17301.512拟合模型二根据偏自相关系数1阶截尾,拟合AR(1)模型参数估计模型检验模型显著有效两参数均显著Byieldtt42481.0126169.51问题同一个序列可以构造两个拟合模型,两个模型都显著有效,那么到底该选择哪个模型用于统计推断呢?解决办法确定适当的比较准则,构造适当的统计量,确定相对最优AIC准则最小信息量准则(AnInformationCriterion)指导思想似然函数值越大越好未知参数的个数越少越好AIC统计量)(2)ˆln(2未知参数个数nAICSBC准则AIC准则的缺陷在样本容量趋于无穷大时,由AIC准则选择的模型不收敛于真实模型,它通常比真实模型所含的未知参数个数要多SBC统计量))(ln()ˆln(2未知参数nnSBC例用AIC准则和SBC准则评判两个拟合模型的相对优劣结果AR(1)优于MA(2)模型AICSBCMA(2)536.4556543.2011AR(1)535.7896540.2866序列预测线性预测函数预测方差最小原则10titiixCx()ˆ()min()tlxttVarelVarelMA序列分解111111ˆ()()tltltlltltltttxGGGGelxl预测误差预测值)]([),,()(ˆ),,(11leVarxxxVarlxxxxEtttltttlt误差分析估计误差期望方差1111)(tlltlttGGle1022)]([liitGleVar0)]([leEtAR(p)序列的预测预测值预测方差95%置信区间)(ˆ)1(ˆ)(ˆ1plxlxlxtpt22121)1()]([ltGGleVar12221112ˆ()1tlxlzGG例已知某超市月销售额近似服从AR(2)模型(单位:万元/每月)今年第一季度该超市月销售额分别为:101,96,97.2万元请确定该超市第二季度每月销售额的95%的置信区间12100.60.3,~(0,36)tttttxxxN例:预测值计算四月份五月份六月份12.973.06.010)1(ˆ233xxx432.973.0)1(ˆ6.010)2(ˆ333xxx5952.97)1(ˆ3.0)2(ˆ6.010)3(ˆ333xxx例:预测方差的计算GREEN函数方差01102112010.60.360.30.66GGGGGG6416.64)()]3([96.48)()]2([36)]1([222212032212032203GGGeVarGGeVarGeVar例:置信区间公式估计结果))]([96.1)(ˆ,)]([96.1)(ˆ(3333leVarlxleVarlx预测时期95%置信区间四月份(85.36,108.88)五月份(83.72,111.15)六月份(81.84,113.35)例北京市城乡居民定期储蓄比例序列拟合与预测图MA(q)序列的预测预测值预测方差qlqllxqliiltit,,)(ˆqlqlleVarqlt,)1(,)1()]([222122121例已知某地区每年常驻人口数量近似服从MA(3)模型(单位:万):最近3年的常驻人口数量及一步预测数量如下:预测未来5年该地区常住人口的95%置信区间3212.06.08.0100tttttx年份统计人数预测人数200210411020031081002004105109例随机扰动项的计算4109105)1(ˆ8100108)1(ˆ611010