基于不同ARCH模型的中国股市波动性预测----以上证综指为例摘要:本文采用上证综合指数2000年1月4日到2010年5月31日的每日收盘价对数百分收益率为样本,通过拉格朗日检验(LM),发现上海股市的日收益率服从ARCH过程。在此基础上,本文检验和对比四种ARCH模型对于我国上海股票市场波动性的预测能力,并利用三种预测误差度量指标比较了这四种模型的样本内及样本外预测能力。结果发现:TGARCH对于市场波动的预测结果是最佳的,而EGARCH和PARCH模型的预测结果也要好于GARCH(1,1)。这表明我国上海股票市场受坏消息的负面影响大于同等程度好消息的正面影响,而运用单边非对称的GARCH模型将更利于提高波动性预测的准确性。关键词:波动性;条件方差;预测;GARCH模型;预测误差度量指标一、前言现代的金融体系,有着成千上万的参与者,因此由其自身所决定的某种均衡,势必会变得不规则。金融市场的这种干扰项,或称波动,成为了许多研究的目标。从资产定价理论来看,收益被表现为风险的函数,而波动程度经常被当作对风险的度量;并且准确的波动预测也是大多数金融衍生物的重要定价标准。而对于投资者而言,一个正确的波动性预测能控制风险获得良好收益。因此计量股市波动性的模型,一直以来受到了金融学者和证券投资者的相当关注。在Engle(1982)的学术研究以前,人们一直以样本方差和协方差来度量股票收益的不确定性。而这种传统的假定波动性恒定不变的度量方法受到了挑战,首先从事股票价格、收益的研究者发现,股票收益时间序列的峰态明显大于正态分布的峰态,且收益的波动性不是长时间恒定不变的,大(或小)的收益接下来的是大(或小)的收益,也就是说大(或小)的波动是成群出现,而高(或低)的市场波动总是会持续一段时期。在Black(1976)对此现象的研究之后,现在已被公认为“杠杆效应”。波动的这种差异特征很可能是由于金融市场的波动受谣言、政局变动、政府货币与财政政策变化等因素的影响。Engle(1982)运用时间序列工具刻画条件方差的时变性,提出自回归条件异方差模型(ARCH)。Engle(1982)的ARCH和之后Bollerslev(1986)提出的GARCH模型认为市场的波动是有条件的,而基于条件波动性的GARCH模型解决了股市收益分布峰态过大的问题。而之后随着GARCH模型的发展,包括Glostenetal.(1991)的ThresholdGARCH(TGARCH)和Nelson(1991)ExponentialGARCH(EGARCH)模型等模型的出现,又帮助解释股市收益分布的另一显著特征:即分布的偏态问题。尽管有广泛的对发达市场(如美国、英国股市)的条件波动性的建模和预测,并且众多研究者认为股市的波动是可预测的,但迄今为止尚未就某种波动预测技术的优良性达成共识。如LudgerHentschel(1995)曾应用各种GARCH模型(即GARCH、EGARCH、TGARCH)对美国股市的非对称特征进行了分析。新兴市场作为同时具备高风险及高收益之显著特征的市场,无论为了国际分散投资或是高收益投机的目的,都日益吸引了全球投资者的兴趣,因此建模和检验这些市场的波动性也尤为重要。包括中国在内的国际资本新兴市场常具有比发达市场更高的收益,但同时又具有比发达市场更高的市场波动性。同时由于新兴市场中的金融产品比较单一,往往缺少包括各种金融衍生物在内的风险规避工具,这就使得对于作为市场风险重要衡量指标的市场波动性的进行准确预测显得尤为重要,进而能够采取相应的风险规避措施。我国的万建强、文洲(2001)曾以ARIMA模型与ARCH模型对香港股指预测能力进行比较,认为ARIMA模型与ARCH模型在应用中并不存在绝对优劣的问题,而应在不同时期择拟合优度佳者用之。邹建军、张宗益、秦拯(2003)认为GARCH(1,1)模型比RiskMetrics和移动平均法能更准确地反映我国上海股市的风险。郑周(2004)在四种不同的分布假设(Normal、Student-t、GED)和SkewedStudent-t)下,对上证指数波动性进行了GARCH(1,1)模型预测能力的实证比较研究。本文采用上证综合指数2000年1月4日—2010年5月31日的每日收盘价对数百分收益率为样本,运用应用四种不同的ARCH模型(GARCH(1,1)模型、TGARCH、EGARCH和PARCH模型)来检验我国的上海股市收益的波动性,并通过对未来一段时间的数据进行预测,检验和对比这些模型在中国市场的预测能力。最后利用三种预测误差度量指标比较了这四种模型的样本内及样本外预测能力。二、数据来源说明和模型的建立本文中采用上证综合指数为研究对象,时间跨度为2000年1月4日起至2010年5月31日,数据来源于Wind资讯股票交易系统,并已经过复权处理。收益率指数采用对数百分收益率,即:1()100*(lnln)ttRtPPtP和1tP分别是t日和第t-1日指数的收盘价格,收益率指数总共有2514个数据。为了对GARCH和其他三种模型(TGARCH、EGARCH和PARCH模型)进行评价和比较,我们将整个样本分成模型估计样本和预测评价样本两部分。模型估计样本(样本期内)的时间跨度为2000年1月4日—2008年4月23日,计2000个数据用于模型估计,预测评价样本(样本期外)的时间跨度为2008年4月24日—2010年5月31日,514个数据用于模型预测波动性能力的评价。作为市场风险重要指标之一的市场波动性的度量值有2种,即标准差或方差2。通过计算我们得到2514个收益率数据,下面我们考察该收益序列的统计特性。图1上证综指收益率的柱图与相关统计量图2上证综指收益率的KernelDensity图上证综指的直方图如图1所示,结合图形2可初步判断上证综指的收益率分布基本上略微左偏,同时比正态分布明显偏高的峰态。具体分析相关统计量,偏度(Skewness)=-0.0901740,峰度(Kurtosis)=6.8673183,因此与标准正态分布相比较,上证综指收益率呈现左偏、尖峰的分布形态。另外,由图1的最后两项是Jarque-Bera检验结果。该检验的零假设是样本服从正态分布。检验的统计量为:221[(3)]64nmJBSK式中,S和K样本序列的偏度和峰度;m是产生样本序列时用到的估计系数的个数。在零假设下,JB统计量服从2(2)分布。根据Eviews给出的拒绝零假设犯第一类错误的概率(Probability)可以判断拒绝零假设。这个概率值是检验的相伴概率,由图1可知,P值为0,表明至少可以在99.99%的置信水平下拒绝零假设,即序列不服从正态分布。为了实事求是地反映金融资产所暴露的风险情况,正确计算VaR,研究者们提出了许多刻画分布的尾部特征的方法,稳态分布就是其中的一种稳态分布能较好地描述金融资产收益变化的尾部特点,但由于其密度函数在一般情况下不存在闭型,所以稳态分布参数的估计是非常困难的。因此,大多数人只是把它作为理解市场的基础,而用于市场预测的技术则是标准线性方法、模糊逻辑、神经网络等。近几年来的理论与实证研究都说明许多经济变量的时间序列,尤其是金融时间序列的非正态性都有着深厚的异方差根源,在这个前提下,用GARCH模型来反映收益的分布是合适的。这里我们先利用简单的描述统计方法观察沪市指数收益率的波动情况。图3是上证综指日收益率的序列图,图中横轴表示以日为单位的时间,为简便起见,以序列号代替;纵轴表示每日收益率的数值(以下同类型图表的格式与本图相同)。图3上证综指的日收益率由图3可见,上证综指的收益率在2007年2月26日到2009年8月28日这段时间里表现出较大的波动性,而在另外一段时间里的波动性较小,波动率随时间出现连续偏高或偏低的情况,呈现明显的易变性聚类(volatilityclustering)。用单位根检验时间序列的平稳性由表1可知检验统计量值是-49.52613,比显著性水平为1%的临界值都小。所以接受原假设,故认为收益率序列在这三种显著性水平下都是平稳的。NullHypothesis:SZZZhasaunitrootExogenous:ConstantLagLength:0(AutomaticbasedonSIC,MAXLAG=26)t-StatisticProb.*AugmentedDickey-Fullerteststatistic-49.526130.0001Testcriticalvalues:1%level-3.4327595%level-2.86249010%level-2.567321*MacKinnon(1996)one-sidedp-values.表1ADF检验进而我们对上证综指的日收益的条件异方差性进行统计检验(取q=1):HeteroskedasticityTest:ARCHF-statistic41.19758Prob.F(1,2511)0.0000Obs*R-squared40.56485Prob.Chi-Square(1)0.0000表2ARCH效应检验结果利用拉格朗日乘数法(LM)计算得到的结果表1可知,第二行LM统计量Obs*R-squared值以及检验的相伴概率为0.000,小于显著性水平0.0001,因此拒绝零假设,认为上证的日收益率服从ARCH过程。CRESID(-1)^2RESID(-2)^2RESID(-3)^2GARCH(1,1)0.0069884290.093940894GARCH(2,1)0.0072351830.0844769990.012042122GARCH(2,2)0.0074905090.08478440.015010969GARCH(3,3)0.0151349980.0799055720.0135070490.089984296GARCH(-1)GARCH(-2)GARCH(-3)LoglikelihoodAICGARCH(1,1)0.897805006-2547.6244632.029931952GARCH(2,1)0.894959355-2547.514762.030640222GARCH(2,2)0.8600406380.031327492-2547.5150082.031435965GARCH(3,3)0.862670421-0.9158934620.849427362-2544.1886732.030380806表3上证指数的日收益率的试算结果表2为试算结果,从中可知随着滞后阶数的增大,AIC也逐渐增大。因此,对该样本而言,GARCH(1,1)模型最优。三、检验与预测结果对于一个金融预测模型而言,最重要的是它的预测能力,所以我们根据在样本内建的模型在样本外进行预测,预测值和真值最为接近即预测误差最小的模型就可判断为最佳模型。衡量预测误差值的指标有很多种,在本文中采用的是在各种财经文献中广泛使用的3种:均方根误差(RMSE),平均绝对误差(MAE)平均相对误差(MAPE)。它们具体的计算公式如下:其中,2t代表的是市场在时间t时的波动“真值”,而2t则是时间t时相应的预测值。21()tntttRMSEn1tntttMAEn1100tnttttMAPEn为便于比较,我们在图4、5、6、7中分别给出了运用GARCH(1,1)模型、TGARCH、EGARCH和PARCH模型估计出的沪两市的波动率。图4基于GARCH模型的预测波动率图5基于TARCH模型的预测波动率图6基于EGARCH模型的预测波动率图7基于PGARCH模型的预测波动率我们分别使用GARCH(1,1),TGARCH和EGARCH模型对上证综指日收益在样本内建模而后在样本外进行预测,最后再根据这些预测值计算出了3个预测误差衡量指标值.这些衡量指标值分别列于表3:预测模型GARCH(1,1)TGARCHEGARCHPGARCHRMSE测试值0.7498710.7498930.7498770.749873