1第二讲时间序列分析21时间序列成分分析1.1时间序列的构成因素时间序列中的数据(也称为观测值),总是由各种不同的影响因素共同作用所至;换一句话说,时间序列中的数据,总是包含着不同的影响因素。我们可以将这些影响因素合并归类为几种不同的类型,并对各种类型因素的影响作用加以测定。对时间序列影响因素的归类,昀常见的是归为3类:z长期趋势(SPSS的名称为SmoothedTrend-Cycle,3缩写stc),长期趋势是一种对事物的发展普遍和长期起作用的基本因素。受长期趋势因素的影响,事物表现出在一段相当长的时期内沿着某一方向的持续发展变化。这种变化昀常见的是一种向上的发展,对于经济现象而言,通常由各种经济投入(如技术进步、劳动力、资金等)所引起,因此,长期趋势有时也可视作经济成长的因素。4z季节周期因子(SPSS的名称为SeasonFactorsComponent),缩写saf,季节周期也称为季节变动,是一种现象以一定时期(如一年、一月、一周等)为一周期呈现较有规律的上升、下降交替运动的影响因素。通常表现为现象在一年内随着自然季节的更替而发生的较有规律的增减变化(如某些季节性商品的销售额、旅游客流量、各月的降雨量等)。形成季节周期的原因,5除了自然因素,也有人为和社会因素。z不规则变动因子(SPSS的名称为IrregularComponent,缩写err)。不规则变动是一种偶然性、随机性、突发性因素。受这种因素影响,现象呈现时大时小、时起时伏、方向不定、难以把握的变动。这种变动不同于前三种变动,它完全无规律可循,无法控制和消除,例如战争、自然灾害等。【例】1993年1月至2000年12月社会消费品月零售总额的各成分图如下。x01000200030004000time01JAN9301JUL9301JAN9401JUL9401JAN9501JUL9501JAN9601JUL9601JAN9701JUL9701JAN9801JUL9801JAN9901JUL9901JAN0001JUL0001JAN011993年1月至2000年12月社会消费品月零售总额曲线图6T0100020003000time01JAN9301JUL9301JAN9401JUL9401JAN9501JUL9501JAN9601JUL9601JAN9701JUL9701JAN9801JUL9801JAN9901JUL9901JAN0001JUL0001JAN01长期趋势成分7I9596979899100101102103104time01JAN9301JAN9401JAN9501JAN9601JAN9701JAN9801JAN9901JAN0001JAN0101JAN02不规则变动因子图8S90100110120130time01JAN9301JAN9401JAN9501JAN9601JAN9701JAN9801JAN9901JAN0001JAN0101JAN02季节因子图91.2时间序列的组合模型若以Y代表时间序列中的数据(观测值),则Y由上述四类因素所决定的组合模型为:Y=T+S+I(加法模型)在加法模型中,各种影响因素是相互独立的,均为与Y同计量单位的绝对量。加法模型中,各因素的分解是根据减法进行(如Y–T=S+I)。10××Y=TSI(乘法模型)11×在乘法模型中,只有长期趋势是与Y同计量单位的绝对量;其余因素均为以长期趋势为基础的比率,表现为对于长期趋势的一种相对变化幅度,通常以百分数表示。乘法模型中,各因素的分解是根据除法进行(如Y/T=SI)。乘法模型是时间序列构成因素分析的主要模型形式。1.3SPSS时间序列成分分解的实现及输出结果(一)SPSS时间序列成分分解的实现为了简单起见,我们先来看一个简单的时间序列例子。表121是1984年到1988年某机场每个季度通过安全检测门的人数,单位:万人。第一步:将数据输入SPSS的表格,记住现在只有一个变量序列,按时间顺序输成一列;第二步:定义时间。通过DATA的菜单,选择DefineDates定义时间变量(图1)。选中后得如下的对话框(图2),选择时间序列的频率,如年度数据,季度数据和月度数据等。表184到88年某机场季度过安全检测门的人数13t一季度二季度三季度四季度19843183803584231985379394412439198641345849249319874614685295751988441548561620图1操作图14图2操作图1516第三步:进行时间序列的成分分解。通过Analyze(分析)的菜单,选择Time-Series(时间序列),再在Time-Series的菜单选择SeasonalDecomposition(季节分解)。如图3。图3操作图17选中后有如下的对话框出现,如图4。图4操作图1819昀后,在【Variable(s)】(变量)处选择要分析的变量在【Model】(模型)选择Multiplicative(乘法模型)或Additive(加法模型)在【MovingAverageWeight】选择Allpointsequal(等权移动平均)和EndpointsWeightedby.5(端点为0.5为权数的移动平均)在【Displaycesewiselisting】处选中,要求列出中间20计算结构。完成后,数据文件增加了一些附加变量,如图5。图52122(二)输出结果的解释和展示4个新的附加变量序列分别是不规则成分(err_1)、季节调整后的序列(SAS_1)、季节因子(saf_1)和去掉季节和不规则变动的趋势循环成分(stc_1)。(1)saf_1是用12×2的移动平均方法求出长期趋势的估计,然后用长期趋势去除X,得到的季节因子1;(2)sas_1等于x除以saf_1(x/saf_1);1方法可以参看统计学的书籍。统计学书中的时间序列一章均会介绍该方法。(3)stc_1是由如下的公式给出2[]2111()()2()3()2()()9ttttttstcsassassassassas−−++=++++,22,3,4,tn=−[]211()()()s23()3)tcsassassas=++[]121()()()s1()3nnnn)tcsassassas−−−=++2公式比较复杂,作为资料的完整性的需要,给出这些公式,初学的者可以不看。23[]1221()()()())2stcstcstcstc=+−3[]111()()()2()2nnnstcstcstcstc−−−=+−)n(4)err_1等于SAS_1除以stc_1(SAS_1/stc_1)。(5)作图24CaseNumber10987654321ValueX70060050040030020191817161514131211图6时间序列原始数据x图25CaseNumber10987654321ValueSeasfactorsforXfromSEASON,MOD_1MULEQ20191817161514131211U1.081.061.041.021.00.98.96.94.92图7季节因子saf图26CaseNumber1110987654321ValueTrend-cycleforXfromSEASON,MOD_1MULEQ201918171615141312U600500400300图8趋势循环stc成分图27CaseNumber1110987654321ValueErrorforXfromSEASON,MOD_1MULEQU41.11.0.9.8201918171615141312图9不规则因子err图281.4如何应用这些数据进行预测2911.499t+从长期趋势数据stc的图形可以看出,随着时间的变化,呈现出直线的趋势,可以利用趋势数据stc和t,建立线性回归模型,预测出趋势的预测值。337.329stc=表2预测结果时间stct趋势的预测值1984.1354.096951348.828561984.2359.049972360.32792301984.3374.441393371.827281984.4388.221554383.326641985.1395.975795394.826001985.2403.624966406.325361985.3409.907707417.824721985.4421.924218429.324081986.1440.512409440.823441986.2458.2431210.452.32280311986.3471.6861111463.822161986.4476.1133712475.321521987.1483.8562813486.820881984.2495.2908014498.320241987.3506.6012615509.819601987.4515.4881516521.318961988.1519.6657417532.818321988.2538.0829018544.31768321988.3565.6197619555.817041988.4583.0471820567.316401989.1.21578.815761989.2.22590.315121989.3.23601.814481989.4.24613.31384578.81576,590.31512,601.81448和613.31384分别是1989年一季度到四季度的趋势预测值,再根据季节因子一季33度到四季度的季节因子0.94519,0.98155,1.01254和1.06072,便可以比较快捷地估计出1989一季度到四季度的过安全检查门的人数。1989第一季度的预测值=578.81576×0.945191989第二季度的预测值=590.31512×0.981551989第三季度的预测值=601.81448×1.012541989第四季度的预测值=613.31384×1.06072341.5练习和理解下表是北京市1997年1月到2003年8月接待海外旅游人数(单位:万人)。表3北京市接待海外旅游人数(单位:万人)年1月2月3月4月5月6月7月8月9月10月11月12月199719981999200020019.411.316.819.820.318.820.924.924.724.319.418.69.611.715.819.919.517.817.823.321.424.520.115.910.112.917.721.021.020.421.925.829.329.823.616.511.426.019.625.927.624.323.027.827.328.532.818.511.526.420.426.128.928.025.230.828.728.122.220.7352002200313.729.723.128.929.027.426.032.231.432.629.222.915.417.123.511.61.782.618.816.2完成下面的工作:1、练习输入数据和定义时间变量。2、作图,并观测数据在何处出现了非常值。3、去掉2003年的SPSS数据,做季节变动分析,请思考为何要去掉2003年的数据。4、观测输出的结果,给出12个月的季节因子。5、如果其趋势是直线,预测2003年1月到8月的可能人数,36并计算由于非典的原因,2003年1月到8月,到北京的海外旅游人数可能共计少了多少人。372平稳时间序列的ARMA模型2.1平稳性一类描述时间序列的重要随机模型受到了人们的广泛关注,这就是所谓的平稳模型。这类模型假设随机过程在一个不变的均值附近保持平衡。其统计规律不会随着时间的推移发生变化。平稳的定义分为严平稳和宽平稳。定义1(严平稳)设X(t)(t∈T)是一个随机过程,X(t)是在不同的时刻t的n个变量x1,x2,…xn组成的,在不同的时刻t是不同的随机变量,任取n个值t1,t2,…tn和任意的实数h,随机过程X(t)(t∈T)n维分布函数满足关