基于ARIMA模型的工业总产值时间序列分析摘要:工业的发展情况能在某种程度上反映当地的经济水平,对大量的工业总产值数据进行定性与定量的分析,能够在一定程度上刻画数据变化的规律,并根据得出的规律建立适当的数学模型,从而预测以后的工业总产值数据。本模型以某地1990年--1997年的工业总产值历史数据为基础,基于Eviews以及spss的分析与检验,对数据进行了变化特征的分析处理,在此基础上进行了差分和取对数等数据处理后,得到平稳序列。除此之外,本文还运用Eviews软件分离出季节因子之后,同时求出季节因子,并建立了适当的ARIMA模型,然后再对模型进行检验。最后将预测结果与真实值进行比较,结果表明拟合度较好,具有一定的实用性。关键词:时间序列工业产值季节因子EViewsSPSSARIMA模型1一、问题重述在科学技术迅速发展的当今时代,一个国家的工业化水平是衡量一个国家的综合国力大小强弱的重要指标。它直接影响这个国家的政治经济的发展。所以每个国家都在积极发展自己的工业,提高工业化的水平跻身于世界工业强国之列。对工业总产量进行研究,找出其内在规律,预测未来,从而能根据预测数据提出相关政策建议,对促进工业乃至整个国家的经济发展具有重大的意义。根据所给的某地工业总产值的历年数据(数据见附录1),从而来探究以下的问题:1)根据数据分析当地工业总产值的变化特征.2)根据变化特征试建立合理的模型描绘这种特征..3)若有季节性变化,试分离出季节性变化因子,求出季节性因子.二、数据处理1)我们来用Excel软件求出来各年度的工业总产值之和,平均数以及各个月份的平均数据,并画出来相关图像(见附录2)。另外,我们还运用了SPSS软件对个年份之间的数据进行相关性分析[1],找出个年份工业总产值之间的关系。表1生产总值的年度数据表2各个月份的平均数据2)根据表中工业总产值的数据,我们先生成时间序列图进行分析,利用Eviews程序得到图1。21,0002,0003,0004,0005,0006,00019901991199219931994199519961997Y图1原始工业生产总值数据图观察图形,发现序列具有明显的增长趋势,由此初步判断使用时间序列模型来进行建模分析。三、问题分析根据所给的总产值数据,我们分别对各个年份和各个月份之间的数据进行计算和分析,再分析各年份数据之间的相关性,以便分析当地工业总产值的变化特征。由我们所分析的数据结果和所得到的原始数据图像,我们必须综合各方面来进行建模。对于问题1)我们运用相关软件结合图像和相关理论知识分析数值特点。对于问题2)工业生产总值数据是时间序列数据[2],在原始数据的基础上建立出平稳的时间序列,再根据自相关和偏相关图像确定相关模型的阶数,利用Eviews做出ARMA模型的参数估计[3],最终确定所合理的模型来描绘数据的变化特征。对于问题3)在问题2)的基础上,再结合附录2中的图2,我们认为该组数据有季节变化的因素,运用季节乘法模型离出季节性变化因子,求出季节性因子。四、模型假设1)假设表1的工业总产值数据都准确无误、真实。2)假设工业总产值不会受其他因素的影响,只受季节性的影响。3)假设在获取数据的途中,没有太大的影响因子导致数据大幅度的变化。3五、符号说明y----工业总产值的月份数据。sy----年度工业总产值之和。ay----年度平均工业总产值。dy----工业总产值的月份数据取对数后再进行一阶差分。sd----数据dy消除季节性因子后的数据。六、模型建立1)关于问题1的求解:分析表1中的数据和附录2中的图1,我们可以很直观地看到年度工业总产值是在逐年增长的,并且1997年的年度工业总产值为53805.72,是1990年工业总产值19737.20的2.7倍,在七年内,该地区的工业总产值将近翻了两倍,说明工业发展速度之快。再观察1990年--1997年八年内各个月份的平均数据,结合相关图像如下:2,2002,4002,6002,8003,0003,2003,4003,6003,800123456789101112AY图2各月平均数据图我们可以看到该数据在各个月份的分布是不均匀的,在1到2月份总产值普遍较低,其中2月份总产值为12个月中的最低值2309.98,之后开始逐渐上升,而到了7月份左右,有了相对的下降趋势,直到9月份又开始回升,其中12月份的工业总产值达到全年最高3739.844875。接下来,我们又通过spss软件[4]找出表1工业总产值之间的相互关系,对4其进行二元变量的相关分析[1]。结果如下:x0x1x2x3x4x5x6x7x0Pearson相关性1.766(**).625(*).676(*).639(*).663(*).719(**).663(*)x1Pearson相关性.766(**)1.938(**).818(**).944(**).922(**).909(**).956(**)x2Pearson相关性.625(*).938(**)1.922(**).996(**).981(**).896(**).976(**)x3Pearson相关性.676(*).818(**).922(**)1.930(**).954(**).878(**).897(**)x4Pearson相关性.639(*).944(**).996(**).930(**)1.990(**).924(**).986(**)x5Pearson相关性.663(*).922(**).981(**).954(**).990(**)1.940(**).985(**)x6Pearson相关性.719(**).909(**).896(**).878(**).924(**).940(**)1.939(**)x7Pearson相关性.663(*).956(**).976(**).897(**).986(**).985(**).939(**)1表3各年份数据变量之间的相关性注:0x代表1990年,1x代表1991年,2x代表1992年,3x代表1993年,4x代表1994年,5x代表1995年,6x代表1996年,7x代表1997年。**在0.01水平(双侧)上显著相关。*在0.05水平(双侧)上显著相关。在表3中,每个行变量与列变量交叉单元格处是二者的相关统计量。1990年工业总产值与1992年、1993年、1994年、1995年、1997年工业总产值之间的相关系数依次为0.625、0.676、0.639、0.663、0.663,1990年工业总产值与这几年的工业总产值虽然有一定的正相关关系,但相关系数普遍较低。而自从1991年开始,各个年份之间的相关系数都是明显显著的,具有高度的正相关关系。特别地,1992年工业总产值与1994年工业总产值的相关系数为0.996,说明这两年的工业总产值之间具有非常密切的关系。这些结果提供的信息与实际情况基本一致,反映了1990年的工业总产值可能是因为机器设备不完善、技术水平落后、管理机制不合理等一系列原因导致的,从1991年开始可能由于机器的购置,人才的引入,管理机制的改善等原因,造成与1900年工业总产值之间的一定程度的差异。2)关于问题2的求解:把原始数列看成一个随时间推移而形成的随机时间序列,分析时间序列的特征,对工业总产值数据y进行ARMA模型的拟合。根据时间序列的折线图(图1),可以看出序列是非平稳的。根据软件,我们可以分离出该序列的长期趋势图如下:51,5002,0002,5003,0003,5004,0004,5005,00019901991199219931994199519961997X_TC图3某地的工业总产值的长期趋势图为了消除趋势同时减小序列的波动,便于能够对序列进行分析,要对数据做平稳化处理。常用的有两种方法:取对数法和差分法,本文采用的是两者结合的方法,对序列进行处理。我们先定义了一列新的数据dy,为原始数据取对数后一节差分后所得,即dy=log(y)-log(y(-1),并得到了相关折线图(图4),根据图像,我们可以很清楚地看到该序列趋于平稳,大部分数据在水平线上下浮动。-.5-.4-.3-.2-.1.0.1.2.3.419901991199219931994199519961997DY图4原始数据取对数后一节差分后的数据图像由于谬误相关和谬误回归问题的存在,检验变量的非平稳性就显得十分重要了,用相关图可以判断时间序列的非平稳性,通过图形也可以直观地判断,但相6比之下,运用统计量进行统计检验将会更为准确。以下我们将用统计检验中最为普遍应用的一种检验方法,也是检验序列平稳性的标准方法:单位根检验法。所以我们对dy序列数据进行了ADF检验结果,如图5所示。图5dy序列的ADF检验检验结果表明t统计量的值是-3.990087均小于1%、5%、10%下的检验值,且其p值0.0023也小于0.05。所以,至少可以在99%的置信度下拒绝原假设,认为该时间序列dy(dy=log(y)-log(y(-1)))不存在单位根,即dy为一个平稳的时间序列。ARMA(p,q)模型的识别与定阶可以通过样本的自相关与偏自相关函数的观察获得。log(y)一阶差分后自相关与偏自相关系数如图6图6dy的自相关与偏自相关图其自相关与偏自相关图显示序列的趋势已经基本消除,dy序列的自相关系数在滞后二期后呈衰减趋于零,表现为拖尾性;在偏自相关分析图中,滞后五期的偏自相关系数显著不为零,但之后逐渐衰减趋于零,也可以认为序列的偏自相关系数也具有拖尾性。所以我们初定AR的阶数为5,MA的阶数为2,建立ARMA(5,2)模型,其参数估计如下:7图7ARMA(5,2)模型的参数估计另外,我们还进行了ARMA(5,1)、ARMA(5,0)、ARMA(4,2)、ARMA(4,1)和ARMA(4,0)等模型分别作了参数估计,其结果见附录3,综合以上六种模型的参数估计,我们根据比较可知,ARMA(5,2)模型的所有系数都通过了假设检验,且拟合优度比其他五个模型都大,故初步选择ARMA(5,2)模型更合适。为了检验该模型的合理性,我们还作了模型检验,首先画出来ARMA(5,2)模型的残差序列图如下:-.3-.2-.1.0.1.2.3-.6-.4-.2.0.2.41990199119921993199419951996ResidualActualFitted图8ARMA(5,2)模型的残差序列图8同时我们还对ARMA(5,2)模型做残差序列检验,残差相关系数如下:图9ARMA(5,2)模型的残差相关系数结果显示,检验统计量Q值均小于对应自由度卡方分布的检验值,且Prob列读出拒绝原假设的概率较大,均大于0.05,所以残差序列为白噪声序列[2],即ARMA(5,2)模型通过检验,所以最终选择ARMA(5,2)模型。因此从图7ARMA(5,2)模型的参数估计可知,ARMA(5,2)模型为:1234ln()1.090ln()1.31ln()0.78ln()0.72ln()tttttyyyyy5120.48ln()1.020.97tttyuu去掉差分后形式为:1234ln0.090ln0.22ln0.53ln0.06lntttttyyyyy56120.24ln0.48ln1.020.97ttttyyuu将对数形式化为指数形式,得到最终的模型是:123456120.090ln0.22ln0.53ln0.06ln0.24ln0.48ln1.020.97ttttttttyyyyyyuutye3)关于问题3的求解:由于图2各月平均数据图可以观察到,该列时间序列的数据是存在季节性因素的,于是我们将图6的自相关和偏自相关系数的阶数扩大为25后,我们得到如下图像:9图10dy的25阶自相关与偏自相关图由图10可以看出,取对数一阶差分后序列的自相关系数并没有呈衰减趋于零;在偏自相关分析图中,滞后的偏自相关系数显著不为零,也可以认为序列的