-1-时间序列分析在人口预测问题中的应用摘要时间序列分析是研究动态数据的动态结构和发展变化规律的统计方法。以1949年至2004年中国大陆人口自然增长率为例,用时间序列分析和统计学软件R建立模型,并对人口进行预测,取得较好的效果。说明时间序列分析在人口预测问题上是有效的。关键词:ARMA模型;R软件;平稳性;可逆性-2-ApplicationoftimeseriesanalysisinpopulationpredictionAbstractTimeseriesanalysisisastatisticmethodstudyingdynamicstructureofdynamicdataandthelawofde-velopmentandchange.Basedontheexampleofpopulationgrowthratebetween1949and2004inthemainlandofChina,mathematicmodelswereestablishedwithtimeseriesanalysismethodandstatisticsoftwareR,andpopulationwaspredictedwithit.Itreceivedagoodresult.Thereforetheapplicationoftimeseriesanalysisiseffectiveinpopulationprediction.Keywords:ARMAmodel;Rsoftware;stability;invertibility-3-一.时间序列概述1.概念所谓时间序列就是按照时间的顺序记录的一列有序数据。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析时间序列分析有着非常广泛的应用领域。2.定义在统计研究中,常用按时间序列排列的一组随机变量…,12,,tXXX…,,…来表示一个随机事件的时间序列,简记为{,}tXtT或{}tX。3.主要分析方法时间序列分析方法主要有描述性时序分析和统计时序分析。描述性时序分析主要通过直观数据比较或绘图测绘,统计时序分析主要有频域分析方法以及时域分析方法。常用的是时域分析法,时域分析法的基本思想是源于事件的发展通常具有一定的惯性,这种惯性用统计语言来描述就是序列值之间存在一定的相关关系,而这种关系具有某种统计规律。我们分析的重点就是找寻这种规律,选取合适的数学模型拟合,进而预测该事件发展走向。4.研究意义事件序列分析具有现实意义,在金融经济、气象水文、信号处理、机械振动等众多领域具有广泛的应用。二.时间序列的预处理通常得到一个观察值序列后首先要对其进行平稳性以及纯随机性进行检验。根据检验结果的不同我们有不同的处理方法1.平稳性时间序列的平稳性分为严平稳与宽平稳(1)严平稳定义设{}tX一时间序列。对任意整数m,任取12,,mttt…,T,对任意整数,有1212,,,12,,,12(,,,)(,,,)mmtttmtttmFxxxFxxx,则称序列{}tX为严稳序列。-4-其中F为分布函数。(2)宽平稳定义如果{}tX满足:①任取tT,有2tEX;②任取tT,有tEX,为常数;③任取,,tskT,且ktsT,有(,)(,)tskkst;则称{}tX为宽平稳序列。其中(,)ts表示tX与sX的自相关系数。(3)平稳性的检验平稳性检验主要有时序图检验以及自相关图检验。2.纯随机性(1)纯随机性定义如果时间序列tX满足以下性质:①任取tT,有tEX,为常数;②任取,tsT,有2,(,)0,tststs则称序列为纯随机序列,也称为白噪声(whitenoise)序列。(2)纯随机性检验构造检验统计量,主要是Q统计量以及LB统计量。三.时间序列分析的主要方法及模型1.平稳时间序列分析的模型(1)AR模型(autoregressionmodel)具有如下结构的模型称为p阶自回归模型,记为AR(p):01120()0,(),()0,0,ttptptptttsstxxxEVarEstExst(2)MA模型(movingaverage)-5-具有如下结构的模型称为q阶移动平均模型,记为MA(q):112220()0,(),()0,ttttqtqqtttsxEVarEst(3)ARMA模型(autoregressionmovingaverage)具有如下结构的模型称为自回归移动平均模型,记为ARMA(p,q):0111120,0()0,(),()0,0,ttptpttqtqpqtttsstxxxEVarEstExst若00,该模型称为中心化ARMA(p,q)模型。2.非平稳序列分析事实上在自然界中绝大部分序列都是非平稳的,因而对非平稳序列的分析更普遍更重要。对非平稳时间序列的分析法通常分为确定性时序分析和随机时序分析。这里简要介绍常用确定性时序分析方法。(1)趋势分析有些时间序列具有非常显著的趋势,我们分析的目的就是要找到序列中的这种趋势,并利用这种趋势对序列对序列的发展做出合理的预测。(2)季节效应分析在日常生活中我们可以看到许多有季节效应的时间序列,如四季气温等等。凡是呈现出固定的周期性变化的时间,我们都称其有季节效应。(3)综合分析既有趋势起伏变动又有季节效应的复杂序列的分析方法,常用模型有:①加法模型ttttxTSI②乘积模型ttttxTSI③混合模型-6-a.ttttxTSIb.()ttttxTSI式中,tT代表序列的长期趋势波动;tS代表序列的季节性(周期性)变化;tI代表随机波动。3.非平稳序列的模型事实上,许多非平稳序列差分后会显示出平稳序列的性质,称之为差分平稳序列。对差分平稳序列可以用ARIMA模型拟合。具有如下结构的模型称为求和自回归移动平均(autoregressiveintegratedmovingaverage)模型,简记为ARIMA(p,d,q)模型:2()()()0,(),()0,()0,dtttttsstBxBEVarEstExst式中:(1)ddB;1()1ppBBB,为平稳可逆ARMA(p,q)模型的自回归系数多项式;1()1qqBBB,为平稳可逆ARMA(p,q)模型的移动平滑系数多项式;{t}为零均值白噪声序列。由上式可知ARIMA模型的实质就是差分运算与ARMA模型的组合。当序列具有非常显著的确定性趋势或季节效应时,人们会怀念确定性因素分解方法对各种确定性效应的解释,但又因为它对残差信息的浪费而不敢轻易使用。为了解决这个问题人们构造了残差自回归(auto-regressive)模型。Auto-Regressive模型的构造思想是首先通过确定性因素分解方法提取序列中主要的确定性信息:ttttxTS式中,tT为趋势效应拟合,tS为季节效应拟合。考虑到因素分解方法对确定性信息的提取可能不够充分,因而需要进一步检验残差序列{}t的相关性。如果检验结果显示残差序列自相关性不显著,说明确定性回归模型对信息提取比较充分,可以停止分析。如果检验结果显示残差序列-7-自相关性显著,这时可以考虑对残差拟合自回归模型,进一步提取相关信息:11ttptpta这样构造的模型:112()0,(),(,)0,1ttttttptptttttixTSaEaVaraCovaai称为残差自回归模型。四.实例本文以中国大陆人口自然增长率(1949—2004年)为样本进行分析,数据(数据来自2005年统计年鉴)见表1。表1中国大陆人口自然增长率年份人口自然增长率%1940161950192020232420.3220.523.2317.2410.191960-4.743.7826.9933.3327.6428.3826.2225.5327.3826.08197025.8323.3322.1620.8917.4815.6912.6612.061211.61198011.8714.5515.6813.2913.0814.2615.5716.6115.7315.04199014.3912.9811.611.4511.2110.510.4210.069.148.1820007.586.956.456.015.87第一步:原数据的平稳性检验为判断一个序列是否平稳,我们主要通过时序图以及自相关图进行检验。因为用到ARIMA模型的拟合和检验,所以在程序的开头会载入tseries。首先绘出时序图、自相关图、偏自相关图(如下):-8-TimeV1010203040500102030051015-0.20.20.61.0LagACFV151015-0.40.00.40.8LagPartialACFSeriespr图1原数据的时序图、自相关图、偏自相关图通过观察时序图,序列有递减趋势,所以我们基本可以判断该序列非平稳。第二步:差分并检验新序列的平稳性,完成序列的定阶TimeV11020304050-1001020051015-0.50.00.51.0LagACFV151015-0.40.00.2LagPartialACFSeriese-9-图21阶差分后的时序图、自相关图、偏自相关图为了增加说服力,我们再次使用单位根检验对1阶差分后的的序列进行验证。结果如下:AugmentedDickey-FullerTestdata:dDickey-Fuller=-4.8992,Lagorder=3,p-value=0.01alternativehypothesis:stationaryWarningmessage:Inadf.test(d):p-valuesmallerthanprintedp-value从上可以看出,p值等于0.01,远远小于0.05,因此拒绝原假设。所以可以认定1阶差分后的序列基本平稳,模型定阶结束。第三步:拟合模型并通过AIC准则检验在ARIMA模型拟合过程中中,模型为一阶差分,p和q分别取0到3并依次验证,取AIC值最小者。PQAIC01308.8902309.6203303.7910319.7111310.512304.9613305.3120305.8721307.6722305.5723307.1430307.8331308.85-10-32307.4133309.12从上面的表格可以看出,当p取0,q取3的时候,AIC函数的值最小。因此,模型初步定为ARIMA(0,1,3)。第四步:残差检验Timer01020304050-15-10-50510图3残差的时序图Box-Piercetestdata:rX-squared=0.0017,df=1,p-value=0.9673由于p值远大于0.05,则该序列为白燥声,故模型最终定为ARIMA(0,1,3)。第五步:画出qq图-11--2-1012-15-10-50510NormalQ-QPlotTheoreticalQuantilesSampleQuantiles从qq图的效果可以看出,二者还是比较吻合的,但是右侧头部和左侧尾部偏离期望的正态分布。第六步:预测并比较结果如下:$predTimeSeries:Start=57End=58Frequency=1[1]6.6461747.601378$seTimeSeries:Start=57End=58Frequency=1-12-[1]3.5213586.133766因此我的未来2年预测结果分别是6.646174,7.601378。原论文的预测结果为:两个预测结果进行比较,略有差距,其中的原因可