第2章--时间序列的预处理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第2章时间序列的预处理在时间序列建模之前,对所研究的时间序列进行认真检查和科学地处理,是做好时间序列模型的基础。2.1时间序列的建立我们把获取时间序列以及以及对其进行检查、整理和预处理等工作,称为时间序列的建立。选择合适的采样间隔是建立时间序列的关键。实践中是在不过分减少信息损失和不过分增加数据量之间作出合理的选择。2.2非平稳时间序列平稳化的处理时间序列的预处理,一方面能够使序列的特征体现的更加明显,利于分析模型的选择;另一方面也使数据满足模型的要求。例如通过对序列取对数以及对序列进行标准化、中心化、归一化处理等方法进行数据变换,使偏态分布的序列变成对称的分布,消除序列中的异方差性,使变量间的非线性关系转换成线性关系,在时间序列数据数量很大的时候会起到显著改善计算精度的作用。时间序列往往具有明显的长期趋势和不规则变动叠加于随机波动之上,因此,大部分时间序列都是非平稳的时间序列,只有通过各种数据处理方法将数据的非平稳特性从序列中分离出来,才能将其转换为平稳的时间序列。因此,时间序列的平稳化处理是时间序列分析的重要步骤。时间序列非平稳性表现出多样性和复杂性。一个均值平稳过程其方差和自协方差可能是非平稳的;而一个均值非平稳过程也可能是方差和自协方差非平稳过程。因而时间序列平稳化的方法也是多种多样的。多于不同形式的非平稳性,应采取不同的平稳化方法。方差非平稳序列的平稳化处理可采用BOX—COX变换,该方法最早由BOX和COX于1964年提出。如果序列的方差同序列的发展水平成比例,可对原序列做对数变换。但对数变换有时候可能会对某些序列产生过度的修正数据,这时候常采用BOX—COX变换。变换方法如下式,0,1,0,ln)(tttxxx(2.1)其中为变换参数。均值分平稳序列的平稳化处理,往往采用差分的方法对原序列进行预处理。下面我们介绍三种常用的方法。2.2.1差分差分是通过逐项相减消除前后期数据相关性的方法,可剔除序列中的趋势性,是非平稳序列的均值平稳化的预处理。差分运算可用后移算法B或者差分算子以及相应的阶数d表示。1阶差分ttttXBXXX)1(1,2阶差分tttttXBXXXX2212)1(2,一般地,d阶差分tdtdXBX)1(,其中d称为d阶差分算子,ddddddddddBBCBCBCB)1()1(1)1(111221,其中)!(!!kdkdCkd。下面从实例出发,对差分这一方法做进一步的分析。比如中国1998年—2006年房地产销售价格指数序列tX(季度数据),做一次差分后记为tX,则1tttXXX.(2.2)表2.1中国1998—2006年房地产价格指数(逐列排列)101.399.9101.9104107.7106.1102.1100.7102.5103.5109.1106.5101.3100.7102.7104.8109.9105.5101101.1101.8105110.8105.799.7101.5104.3104.1109.8105.599.6101.2102.8105.110819982000200220042006200898100102104106108110112199820002002200420062008-2-1.5-1-0.500.511.522.53图2.1中国房地产销售价格指数图2.2中国房地产销售价格指数一阶差分tX和tX的趋势图如图2.1和图2.2所示。可以看出tX具有线性上升趋势,而其差分后的序列tX则可以认为是稳定在零点附近。一般而言,若某序列具有线性的趋势,则可以通过对其进行一次差分而将线性趋势剔除掉(这一点从线性函数的性质是不难理解的),然后对差分后的序列拟合ARMA模型进行分析与预测,最后再通过差分的反运算得到tX的有关结果。由(2.3)式可得1tttXXX,(2.4)因而1ˆˆtttXXX.(2.5)若序列tX具有d阶多项式趋势,则通过d阶差分后可变为平稳序列,当差分阶数为d时,最后的数据就会损失d个。下面讨论tX与ttdWX的关系。当2d时,有21122tttttttXXXXXXW,(2.6)因而212ttttXXWX.(2.7)一般有dktkkdktdtdtXBCXBXW1])1(1[)1(,(2.8)因而dkktkdkttXCWX1)1(.2.2.2季节差分反映经济现象的序列,不少都具有周期性。设tX为一含有周期为S的周期性波动序列,则,,,2StSttXXX为各相应周期点的数值,它们则表现出非常相近或呈现某一趋势的特征,如果把每一观察值同下一周期相应时刻的观察值相减,这就叫季节差分,它可以消除周期性的影响。季节差分常用S表示,StttSXXX,其中S为周期。例如,某市1985年—1994年各月工业生产总值见表2.2,如图2.3所示,可以看出对应的时间序列tZ具有明显的周期性,做一次差分,12tttZZY,tY如图2.4所示,周期性明显被消除掉。表2.2某市1985—1993年各月工业生产总值(单位:万元)obsGY1985.0110.939.3411.0010.9811.2911.841985.0710.6210.9012.7712.1512.2412.301986.019.9110.2410.4110.4711.5112.451986.0711.3211.7312.6113.0413.1414.151987.0110.8510.3012.7412.7313.0814.271987.0713.1813.7514.4213.9514.5314.911988.0112.9411.4314.3614.5714.2515.861988.0715.1815.9416.5416.9016.8818.101989.0113.7010.8815.7916.3617.2217.751989.0716.6216.9617.6916.4017.5119.731990.0113.7312.8515.6816.7917.5918.511990.0716.8017.2720.8319.1821.4023.761991.0115.7313.1417.2417.9318.8219.121991.0717.7019.8721.1721.4422.1422.451992.0117.8816.0020.2921.0321.7822.511992.0721.5522.0122.6823.0224.5524.671993.0119.6117.1522.4623.1923.4026.261993.0722.9124.0323.9424.1225.8728.251994.0120.9917.0423.1624.9626.227.891994.0724.7726.3226.7526.5128.5731.141985199019955101520253035198619881990199219941996-2-1012345图2.3某市各月工业生产总值数据图图2.4某市工业生产总值数据季节差分图2.2.3对数变换与差分运算的结合运用如果序列tX含有指数趋势,则可以通过取对数将指数趋势转化为线性趋势,然后再进行差分以消除线性趋势。图2.5是我国1952年—2005年社会消费品零售总额(见表2.3)数据图。可以看出,有一定指数趋势。取对数后如图2.6(a)所示,具有明显的非线性增长趋势,前期和后期增长速度较快,而中期稍慢。一阶差分后如图2.6(b)所示,前期和后期数据偏大,而中期较小。具有一定的非平稳性。二阶差分后如图2.6(c)所示,tXln2基本平稳。表2.3我国社会消费品零售总额obsSHXZ1951262.7328.8356.1364.01956424.0441.6481.2556.5595.41961537.7543.7544.8572.7590.11966632.8679.1649.2698.2728.81971776.9853.5917.7967.41046.419761099.01174.31264.91476.01794.019812002.52181.52426.12899.23801.419864374.05115.06534.67074.28300.119919415.610993.714270.418622.923613.8199628360.231252.933378.135647.939105.7200143055.448135.952516.35950167176.6195019601970198019902000201001234567x104图2.5我国1952—2005年社会消费品零售总额19502000205056789101112195020002050-0.15-0.1-0.0500.050.10.150.20.250.3195020002050-0.2-0.15-0.1-0.0500.050.10.15图2.8(a)tXln(b)tXln(c)tXln2画图的Matlab程序如下clc,clearxt=textread('data23.txt');xt=xt';xt=nonzeros(xt);yt=log(xt);zt1=diff(yt);zt2=diff(zt1);t=[1952:2005]';plot(t,xt)figure,subplot(131),plot(t,yt)subplot(132),plot(t(2:end),zt1)subplot(133),plot(t(3:end),zt2)2.3异常值的处理离群点(Outlier)也称之为奇异值或野值,是指一个时间序列中,远离一般水平的极端大值和极端小值。如图2.9所描述的是1949年到2005年间,我国的人口自然增长率(tX)。从图形中可以直观地看出,1960年的人口自然增长率大大低于其它年份的自然增长率。从序列来看,12X(即1960年的观察值)远离了序列tX,我们称12X为异常值。表2.4我国1949—2005年人口自然增长率(逐列排列)1610.1926.0811.6115.048.1819-4.5725.8311.8714.397.58203.7823.3316.6112.986.952026.9922.1615.7311.66.452333.3320.8915.0411.456.012427.6417.4814.3911.215.8720.3228.3815.6914.2610.555.8920.526.2212.6615.5710.4223.2325.5312.0616.6110.0617.2427.381215.739.1419401950196019701980199020002010-505101520253035图2.9我国1949—2005年人口自然增长率数据图离群点是由于系统受外界的干扰而产生的。首先可能是采样中的误差,如记录仪出现偏误、工作人员出现笔误、计算误差等;其次可能是研究现象本身受各种偶然的非正常的因素影响而造成的。离群点的作用(1)离群点会直接影响模型的拟合精度,甚至会产生一些虚假信息,所以往往被分析人员看成是一个“坏值”。(2)离群点不仅提示我们认真检查采样中是否有差错,在进行时间序列分析之前认真确认序列,而且当确认离群点是由于系统受外部突发因素刺激而引起时,它会提供系统稳定性、灵敏性等重要信息。离群点的检验方法1:将序列值与平滑值进行比较,检测其是否显著地大(或小)。用2tX表示先对tX平滑再平方,2tX表示先对tX平方再平滑,222tttXXS表示样本方差,tS表示标准差。如果tttttkSXXkSX1,(2.9)则认为1tX是正常的,否则认为1tX是一个离群点。其中,k一般取3-9的整数,开始时可取6k。如果1

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功