1ARIMA模型在总人口预测中的应用【摘要】人口发展与社会经济的发展是密不可分的,研究我国总人口的发展,对我国人口数进行分析和预测,有利于及时控制人口的增长调节人口平衡,利于政府及时了解发展趋势并做出反应对策使我国人口发展步入健康的轨道。本文利用时间序列建模原理和思路,并结合R3.2.1软件对1962年——2014年我国年底总人口数据做分析和预测。找到对原始数据有着较好的拟合度和较高的预测精度的模型。利用此模型可对我国年底总人口进行合理的预测。【关键词】ARIMA目录2一、引言...........................................................31.1研究背景....................................................31.2研究现状....................................................4二、模型建立.......................................................52.1模型识别....................................................52.2模型的参数估计..............................................82.3模型的诊断.................................................102.模型的预测..................................................12三、模型的优缺点及推广............................................133.1模型的优缺点...............................................133.2模型的推广.................................................13结束语.............................................................14【参考文献】........................................................15附录...............................................................16一、引言1.1研究背景3我国是世界上人口最多的国家,自1980年开始,年末中国大陆总人口就已经超过了10亿,并一直保持约占世界总人口的五分之一,亚洲人口的三分之一。中国人口的发展同中国社会的发展一样经过了漫长而曲折的道路。在世纪的进程中,目前我国进入了一个全新的时代,要想在21世纪——这个充满竞争与挑战的时代中变的富强、屹立于世界民族之林,实现我们的中国梦,这全取决于人。能否顺利解决人口现状等问题,是我国乃自世界共同面临的问题,由于地球的资源是有限的,它不可能无限制的容纳人口,当人口过多,会由于经济跟不上,工作岗位欠缺,医疗等水平不足,从而导致整个社会处于一种动荡之中;然而如果人口过少,又会由于人员不足,导致各方面人力资源不足,无法正常完成各项必须社会活动,这也会极大地限制一个国家的发展,因此,对人口的研究是具有相当的意义的。我国由于幅员广阔,民族众多,各民族发展水平不一,同时作为世界第一人口大国,我国的耕地面积却相对不足,因此我国每年都需要从国外大量进口粮食,由于过分依赖于进口这对我国的发展影响巨大,为此甚至有国外反华势力叫嚣只要断绝给中国供粮,三五年之内中国必定大乱。当然那只是敌对势力的一厢情愿与恶意诋毁,但我们自己却必须认识到在由于人口的问题而导致的一系列问题,关于人口问题我国必须重视,并根据其趋势做出反应对策。因此,认真分析我国当前人口现状,从中发现其变化的趋势,并对未来总人口进行短期预测,及时采取必要4的政治及经济措施来解决人口发展问题,对树立未来的发展目标很有必要。总之,人口是构成社会的主体,在我国社会主义现代化建设中,人口问题始终是极为重要的问题,而人口问题的本质是发展问题。人口发展与社会经济的发展也是密不可分的。基于此,我们利用时间序列中的ARMA模型对我国人口进行预测,对人口的控制起到指导作用,有利于政府采取必要的政治及经济措施来进行调控。所以,对其进行分析和测试是非常有意义的工作。1.2研究现状在对人口问题的研究上,国内外学者做了相当多的工作。在国内程等利用自限模型对我国的人口增长进行了预测,认为中国在2010年-2019年人口数依次会缓慢增加,2016年突破14亿大关,且未来15年人口净增加量不会超过1亿;蒋慧基于多元统计模型对广西人口增长进行了分析,得出了人口增长的综合因子,并提出了稳定人口增长的建议;丁明等运用相空间重构神经网络模型对我国人口增长进行预测,很好的解决了非线性的问题,为我国人口增长预测提供了一种新的方法;王保等,利用Logistic模型进行人口预测,并检验了2005年—2007年的数据误差,取得了理想的效果。在国外,Rosen利用Malthusian模型对人口进行研究,也取得了不错的成绩。本文基于时间序列在研究时间相关问题上的优势,以1949年-2014年的年末总5人口数据,利用时间序列知识建模,找到适合人口增长的过程的时间序列模型(模型识别),然后利用参数估计估计出模型的参数(参数估计),再对模型进行诊断,判断模型的好坏(模型诊断),最后利用已经建立的模型对未来的给定的时间进行预测(预测)。二、模型建立2.1模型识别首先需要对数据进行预先的处理,观察其时间序列图是否为平稳序列,可以用R软件完成(具体程序见于附录1),可得到时间序列图为:图1:人口时间序列图Time年末总人口.万人.19601970198019902000201070000900001100001300006由图一可以看出,年底总人口数随着时间增加的同时也在逐年上涨,有着明显的上升趋势。因此可得出这列数据是不平稳的、方差也是不平稳的结论。并且数据大致是呈线性变化的,因此可以考虑做差分变换。先对数据做一阶差分变换后再观察序列是否平稳,可运用R软件编程得其变换后的序列及变换后序列的自相关图和偏自相关图(具体程序见附录2):图二:一阶差分序列图及其ACF、PACF图Time年末总人口.万人.197019801990200020101000200051015-0.50.5Seriesdiff(x,difference=1)LagACF51015-0.20.4LagPartialACFSeriesdiff(x,difference=1)7由图二可知,对原始数据在进行一阶差分之后的时间序列图显示并不算平稳,并且一阶差分后的ACF图仍呈现出近似直线下降趋势,因此可以考虑再做一次差分运算。通过编程可以得到(具体程序见附录3):图三:对数二阶差分序列图及其ACF、PACF图Time年末总人口.万人.19701980199020002010-40020051015-0.30.00.3Seriesdiff(x,difference=2)LagACF51015-0.30.0LagPartialACFSeriesdiff(x,difference=2)8再观察其二阶差分后的时间序列图,基本上趋于平稳,而其自相关图(ACF)和偏自相关图(PACF)呈现出明显的拖尾形式,且PACF图在滞后6阶比较显著,ACF在滞后1,3,6阶相对较显著,由此可以认为原序列基本上可以用ARIMA(1,2,1),ARIMA(1,2,2),ARIMA(1,2,3),进行拟合。对ARIMA(1,2,1)模型序列满足:Yt+Yt−2−2Yt−1=∅(Yt−1+Yt−3−2Yt−2)+et−∑θiet−i6i=1①由①式可以得到:Yt=(2+∅)Yt−1+(1−2∅)Yt−2−∅Yt−3+et−θet−1②同理可以得到ARIMA(1,2,2)模型:Yt=(2+∅)Yt−1+(1−2∅)Yt−2−∅Yt−3+et−∑θiet−i2i=1③ARIMA(1,2,3)的模型为:Yt=(2+∅)Yt−1+(1−2∅)Yt−2−∅Yt−3+et−∑θiet−i3i=1④2.2模型的参数估计根据2.1节,已经找到几个可能用于拟合的模型,分别为ARIMA(1,2,1),ARIMA(1,2,2),ARIMA(1,2,3),那么接下来就应该对其进行参数估计,在9对模型进行参数估计时有多种方法可以选择,这里选择用最小二乘估计,通过R编程序可以得到如下结果(具体程序见于附录4):Call:arima(x=x,order=c(1,2,1),method=CSS)Coefficients:ar1ma1-0.47940.5150s.e.0.10330.1901sigma^2estimatedas21752:partloglikelihood=-327.05Call:arima(x=x,order=c(1,2,2),method=CSS)Coefficients:ar1ma1ma2-0.52160.8442-0.3147s.e.0.00090.09120.1014sigma^2estimatedas16939:partloglikelihood=-320.67Call:arima(x=x,order=c(1,2,3),method=CSS)Coefficients:ar1ma1ma2ma3-0.52030.7646-0.11110.3405s.e.0.00080.13270.14350.1278sigma^2estimatedas15191:partloglikelihood=-317.89由上面的输出可以确定在②式中的系数,并且由估计值的误差项se判断该系数是否显著(通过判定在0是否在区间[∅−2se,∅+2se]内,若在则系数不显著,如不在则显著)。从而代入②可以确定ARIMA(1,2,1)模型为:Yt=1.5206Yt−1−0.0412Yt−2−0.4794Yt−2+et−0.515et−1⑤类似代入③式得ARIMA(1,2,2)表达式为:Yt=1.4784Yt−1+0.0432Yt−2−0.5216Yt−2+et+0.8442et−1−0.3147et−2⑥10代入④式得ARIMA(1,2,3)模型的表达式:Yt=1.4797Yt−1+0.0406Yt−2−0.5203Yt−2+et+0.7646et−1−0.3405et−3⑦2.3模型的诊断在对模型完成了识别和参数估计之后,需要对模型进行诊断,诊断模型是否具有对原时间序列数据的很好的拟合效果。主要进行拟合模型的残差分析和分析过度参数化;对模型进行过度参数分析主要看在进行差分时是否出现过度差分的状况,而对残差进行分析主要需要做以下几个方面的工作:⑴,检验残差是否是随机的,一个模型如果能很好的拟合,那么拟合后的残差基本上是随机的,残差是应该围绕在某条平行于x=0这一条直线上下波动的,并且波动的幅度不会很大,这可以用做残差序列图观察得到;⑵,检验残差是否呈正态性,一个模型如果能很好的拟合,那么其残差应该是呈正态性的,这里用残差QQ图和S-W正态性检验(原假设为:H0:数据是呈正态性的)进行;⑶,判断残差之间是否是相互独立的,一个模型如果能很好的拟合,那么其残差之间相对是比较独立的,这里主要用残差的自相关序列图和L-B检验(原假设为:H0:原数据的残差之间是不相关的)进行。诊断ARIMA(1,2,1)模型,用R软件编程序(具体程序见于附录5)输出为:11图4:ARIMA(1,2,1)模型残差的序列图、ACF图和QQ图Shapiro-WilknormalitytestW=0.93417,p-value=0.00592Box-LjungtestX-squared=23.846,df=23,p-value=0