1时间序列分析考虑…•何为科学?•何为统计?•统计是科学吗?•什么是数学?•统计是数学吗?•能够证明某些模型或理论是正确的吗?2Stat153,XizhiWu自然现象引入模型--拟合模型或理论到数据解释和预测统计•归纳:从部分到总体,从特殊到一般的推理.•演绎:基于假定,公理的严格的证明链.3Stat153,XizhiWu时间序列的例子。从图形你会想到:数据会是什么样子的,可能的模式及它们的意义,可能的预测,如何点图,……4Stat153,XizhiWuExamples:EconomicandfinancialtimeseriesBeveragewheatpriceannualindexseriesfrom1500-1864T01.RBeveridgewheatpriceannualindexseriesfrom1500to1864Timewheatpriceindex150016001700180001002003005Stat153,XizhiWuExamples:EconomicandfinancialtimeseriesBeveragewheatpriceannualindexseriesfrom1810-1864T01.RBeveridgewheatpriceannualindexseriesfrom1810to1864Timewheatpriceindex18101820183018401850186018701502002503003506Stat153,XizhiWuExamples:PhysicaltimeseriesAverageairtemperature(degC)atRecife,Brazil,insuccessivemonthsfrom1953-1962T01.RAverageairtemperature(degC)atRecife,Brazil,insuccessivemonthsfrom1953-1962YearTemperature(degC)1954195619581960196224252627287Stat153,XizhiWuExamples:MarketingtimeseriesSalesofanindustrialbeaterinsuccessivemonthsfromJanuary1965toNovember1971.T01.RSalesofanindustrialbeaterinsuccessivemonthsfromJanuary1965toNovember1971YearNumberofsales196519661967196819691970197119722004006008008Stat153,XizhiWuExamples:FinanceThePercentageofBeijingResidents'Long-termDepositOvertheTotalBalanceT01.RThePercentageofBeijingResidents'Long-termDepositOvertheTotalBalanceyearLong-TermDebositRatio195019601970198019906570758085909Stat153,XizhiWuExamples:ProcesscontroldataT01.R050100150200-4-2024NormalProcessTimeProcessVariable050100150200-4-2024AbnormalProcessTimeProcessVariable10Stat153,XizhiWuExamples:BinaryprocessT01.R05101520-0.20.00.20.40.60.81.01.211Stat153,XizhiWuExamples:PointprocessT01.R05101520Time12Stat153,XizhiWu你有时间序列的例子吗?13Stat153,XizhiWu术语•连续时间序列•离散时间序列•通常是等间距的:•抽样的序列•即时的或整合的•通常不是独立的•确定的或随机的(精确预测是不可能的)14Stat153,XizhiWu看看这个时间序列PassengersinChina’sAirportsNumberofPassengersinAirportsofChina,Jan1995-Mar2003TimeNumberofPassengers19961998200020020500000100000015000002000000250000015Stat153,XizhiWu看看这个时间序列PassengersinChina’sAirportsNumberofPassengersinAirportsofChina,Jan1995-Dec2003TimeNumberofPassengers199619982000200220040500000100000015000002000000250000016Stat153,XizhiWu17横截面数据时间序列数据•人们对统计数据往往可以根据其特点从两个方面来切入,以简化分析过程。一个是研究所谓横截面(crosssection)数据,也就是对大体上同时,或者和时间无关的不同对象的观测值组成的数据。•另一个称为时间序列(timeseries),也就是由对象在不同时间的观测值形成的数据。•前面讨论的模型多是和横截面数据有关。这里将讨论时间序列的分析。我们将不讨论更加复杂的包含这两方面的数据。18时间序列和回归•时间序列分析也是一种回归。•回归分析的目的是建立因变量和自变量之间关系的模型;并且可以用自变量来对因变量进行预测。通常线性回归分析因变量的观测值假定是互相独立并且有同样分布。•而时间序列的最大特点是观测值并不独立。时间序列的一个目的是用变量过去的观测值来预测同一变量的未来值。也就是说,时间序列的因变量为变量未来的可能值,而用来预测的自变量中就包含该变量的一系列历史观测值。•当然时间序列的自变量也可能包含随着时间度量的独立变量。19例15.1(数据:Tax.txt,Tax.sav)某地从1995年1月到2005年7月的税收(单位:万元)。该数据有按照时间顺序的按月记录,共127个观测值。图15.1就是由该数据得到的一个时间序列图。TimeTax199619982000200220042e+054e+056e+058e+051e+0620例15.1(数据:Tax.txt,Tax.sav)从这个点图可以看出。总的趋势是增长的,但增长并不是单调上升的;有涨有落。大体上看,这种升降不是杂乱无章的,和季节或月份的周期有关系。当然,除了增长的趋势和季节影响之外,还有些无规律的随机因素的作用。这个只有一种随着时间变化的变量(税收)的序列一般称为纯粹时间序列(puretimeseries)。下面将通过该例子对纯粹时间序列进行介绍。21时间序列的组成部分•从该例可以看出,该时间序列可以有三部分组成:趋势(trend)、季节(seasonal)成分和无法用趋势和季节模式解释的随机干扰(disturbance)。•例中数据的税收就就可以用这三个成分叠加而成的模型来描述。•一般的时间序列还可能有循环或波动(Cyclic,orfluctuations)成分;循环模式和有规律的季节模式不同,周期长短不一定固定。比如经济危机周期,金融危机周期等等。22时间序列的组成部分•一个时间序列可能有趋势、季节、循环这三个成分中的某些或全部再加上随机成分。因此,•如果要想对一个时间序列本身进行较深入的研究,把序列的这些成分分解出来、或者把它们过虑掉则会有很大的帮助。•如果要进行预测,则最好把模型中的与这些成分有关的参数估计出来。•就例中的时间序列的分解,通过SPSS软件,可以很轻而易举地得到该序列的趋势、季节和误差成分。23去掉季节成分,只有趋势和误差成分的例15.1的时间序列。TimeTimeSeriesWithoutSeasonal199619982000200220040e+004e+058e+0524例15.1的时间序列分解出来的纯趋势成分和纯季节成分两条曲线TimeTrendandSeasonal199619982000200220040e+002e+054e+056e+0525例15.1的时间序列分解出来的纯趋势成分和纯误差成分两条曲线TimeTrendandRemainder199619982000200220040e+002e+054e+056e+0526指数平滑•如果我们不仅仅满足于分解现有的时间序列,而且想要对未来进行预测,就需要建立模型。首先,这里介绍比较简单的指数平滑(exponentialsmoothing)。•指数平滑只能用于纯粹时间序列的情况,而不能用于含有独立变量时间序列的因果关系的研究。•指数平滑的原理为:当利用过去观测值的加权平均来预测未来的观测值时(这个过程称为平滑),离得越近的观测值要给以更多的权。•而“指数”意味着:按照已有观测值“老”的程度,其上的权数按指数速度递减。27指数平滑•以简单的没有趋势和没有季节成分的纯粹时间序列为例,指数平滑在数学上这实际上是一个几何级数。这时,如果用Yt表示在t时间的平滑后的数据(或预测值),而用X1,X2,…,Xt表示原始的时间序列。那么指数平滑模型为1(1),(01)tttYXY或者,等价地,0(1)kttkkYX这里的系数为几何级数。因此称之为“几何平滑”比使人不解的“指数平滑”似乎更有道理。28指数平滑•自然,这种在简单情况下导出的公式(如上面的公式)无法应对具有各种成分的复杂情况。•后面将给出各种实用的指数平滑模型的公式。•根据数据,可以得到这些模型参数的估计以及对未来的预测。在和我们例子有关的指数平滑模型中,需要估计12个季节指标和三个参数(包含前面公式权重中的,和趋势有关的g,以及和季节指标有关的d)。•在简单的选项之后,SPSS通过指数平滑产生了对2005年6月后一年的预测。下图为原始的时间序列和预测的时间序列(光滑后的)。下面为误差。2930例15.1时间序列数据的指数平滑和对未来的预测TimeTax1996199820002002200420060200000600000100000031x=scan(d:/booktj1/data/tax.txt)tax=ts(x,frequency=12,start=c(1995,1))ts.plot(tax,ylab=Tax)#plot(x1,ylab=Sales)a=stl(tax,period)#分解a$time.series#分解结果(三列)ts.plot(a$time.series[,1:3])b=HoltWinters(tax,beta=0)#Holt-Winters滤波指数平滑predict(b,n.ahead=12)#对未来12个月预测pacf(tax);acf(tax)w=arima(tax,c(0,1,1),seasonal=list(order=c(1,2,1),period=12))predict(w,n.ahead=12)w$residuals#残差acf(w$resi)pacf(w$resi)w$coef#估计的模型系数w$aic#aic值32Box-Jenkins方法:ARIMA模型•如果要对比较复杂的纯粹时间序列进行细致的分析,指数平滑往往是无法满足要求的.•而若想对有独立变量的时间序列进行预测,指数平滑更是无能为力。•于是需要更加强有力的模型。这就是下面要介绍的Box-JenkinsARIMA模型。•数学上,指数平滑仅仅是ARIMA模型的特例.33ARIMA模型:AR模型•比指数平滑要有用和精细得多的模型是Box-Jenkins引入的ARIMA模型。或称为整合自回归移动平均模型(ARIMA为AutoregressiveIntegratedMovin