1第一章时间序列分析基本知识中山大学医学统计与流行病学系张晋昕2统计分析的数据静态数据(staticdata)动态数据(dynamicdata)3时间序列分析(timeseriesanalysis)建立数学模型,从数量上揭示某现象的发展变化规律或者从动态的角度刻画某现象与其他现象之间的内在数量关系,以便认识客观事物、预测其未来的变化趋势。有时还可以依据事物相互作用机制,作出针对性的调整,从而达到改造客观之目的。4时间序列的定义医学科研工作中,按一定时间间隔(常为等间距)对客观事物进行动态观察,由于随机因素的作用,各次观察的指标都是随机变量,这种按时间顺序排列的随机变量(或其观测值)就是时间序列。,,,,,321ixxxx5C40050060070080090010001100120013001400150016001700DATEMAR1979NOV1981AUG1984MAY1987FEB1990NOV1992AUG1995MAY1998JAN2001图1.1某医科大学附属医院1980年~1999年逐月出院患者数6时间序列与随机过程一般来说,时间序列中各变量值无法用确定的函数形式表达,各时刻的观测结果可视作随机因素作用下的变量,当时,变量集合,常被称作随机过程,实际工作中的实测值序列则被称作随机过程的一次实现。其中,参数t可以是时间,也可以是其他有序变量,如空间位置、温度水平等。),(battx7(1)预测(2)序列间的关系(3)序列分解(4)模型的适用性检验(5)干预分析时间序列分析的用途81.1时间序列的分解(1)趋势性(Trend)(2)季节性(SeasonalFluctuation)(3)随机性(IrregularVariation)9“加法式”与“乘法式”迭加分离出趋势项和周期项后,时间序列往往表现为平稳波动。ttttISTX,,2,1t10借助时间序列进行预测的依据平稳化后的时间序列历史值中往往含有的信息,这就使得利用历史样本预测所关心指标将来的取值水平成为可能。nXXX,,,211nXnxxx,,,21111.2指数平滑法对于事物未来发展的水平,新近观测值比早期观测值的预测价值更大,因而在预测时,新近观测值应比早期观测值具有更大的权重。12典型案例1988年某药品公司一种抗生素的出厂数量(单位:千箱)时间1月2月3月4月5月6月7月8月9月10月11月12月数量371.5267.4372.4368.2349.4362.8420.9380.4385.6335.0338.5306.6试用指数平滑法预测1989年1月份的出厂数量。13指数平滑预测的通式St——第t期平滑值(t0);——平滑系数(取值范围);xt——第t期实际观察值。1)1(tttSxS14拟合过程S1=355.19S2=0.2×x1+0.8×S1=0.2×371.5+0.8×355.19=359.17S3=0.2×x2+0.8×S2=0.2×267.4+0.8×359.17=340.82……(怎样选?)15指数平滑法用于某药品生产公司一种抗生素的出厂数量预测(单位:千箱))1(ˆ1tx时间(年/月)数量=0.2=0.5=0.71988/1375.1355.19355.19355.192267.4359.17365.15369.133372.4340.82316.27297.924368.2347.13344.34350.065349.4351.35356.27362.766362.8350.96352.83353.417420.9353.33357.82359.988380.4366.84389.36402.629385.6369.55384.88387.0710335.0372.76385.24386.0411338.5365.21360.12350.3112306.6359.87349.31342.041989/1……349.21327.95317.2316当前平滑结果与历史值的关系……代入下式,211)1(tttSxS322)1(tttSxS1)1(tttSxS17当时,,系数之和→1。01133221)1()1()1()1()1(SxxxxxSttttttttttt)1()1(1)1(1)1()1()1()1(12t0)1(t18不同历史值获得的权重值递减情形权重值与t的间隔时间=0.3=0.2=0.110.30.20.120.210.160.0930.1470.1280.08140.10290.10240.072950.072030.081920.0656160.0504210.0655360.05904970.0352950.0524290.05314480.0247060.0419430.04783090.0172940.0335540.043047100.0121060.0268440.03874219指数平滑法实现预测的本质意义)(11ttttSxSS1)1(tttSxS平滑预测值=历史对当前的预测值+α×当前预测的误差20权重系数的特点α界于(0~1.0)之间。如果要求模型有较高灵敏度,能够迅速跟踪新数据的变化,权重系数可取?一些;如果要求模型不要被随机扰动影响太大,权重系数可选?一些,使预测结果更主要地取决于历史情形。平滑预测值=历史对当前的预测值+α×当前预测的误差21平滑系数α的确定——误差极小原则一期预测误差平方平均平方误差平均绝对误差nittSxSSE121)(nSxMSEnttt121nSxMAEnttt1122=拟合效果与预测效果对历史值的拟合效果好对未来值的预测效果好?231.3ARIMA模型ARIMA模型是由Box和Jenkins(1970)提出的一套比较成熟的时间序列建模方案,他们定义了建模的三个主要阶段:识别估计诊断24“时序”建模的三个阶段(1)模型识别就是根据时间序列的特点,选择一个已有的模型类别来描述,然后确定选入模型的参数数量和种类,以及它们的组合方式。(2)参数估计就是估计模型中的参数,并作假设检验,使模型与实际数据相匹配。(3)模型诊断检验模型与实际数据的匹配程度。25典型案例某地20年某种疾病的发病率(1/10万)年次t发病率xt年次t发病率xt14.20113.6325.80125.1836.90137.1147.62148.2655.57157.9663.34166.7872.00175.0781.70185.0492.02196.02102.71207.6126时间序列的平稳性——严平稳),,;,,,(),,,;,,,(1212121nnnnnnttxxxFtttxxxF27时间序列的平稳性——宽平稳仅要求一阶矩、二阶矩与时间的变化无关。28平稳性的判断(1)数据图检验法(2)自相关、偏自相关函数检验法(3)特征根检验法(4)参数检验法(5)逆序检验法(6)游程检验法29(1)数据图检验法平面直角坐标系中将所研究的时间序列绘成线图,观察其是否存在周期性或趋势性。若周期性和趋势性均不明显,就认为序列是平稳的。这种方法具有简单、直观、运用方便等优点,但是对图形的观察要靠实际经验,不同的分析者可能得出不同的结论。30(2)自相关、偏自相关函数检验法一个零均值平稳序列的自相关函数和偏自相关函数要么是截尾(cutoff)的,要么是拖尾(tailoff)的。因此,一个序列零均值化以后的自相关函数和偏自相关函数既不截尾,又不拖尾,便可以判断该序列是非平稳的。31YLagNumber16151413121110987654321ACF1.0.50.0-.5-1.0ConfidenceLimitsCoefficientYLagNumber16151413121110987654321PartialACF1.0.50.0-.5-1.0ConfidenceLimitsCoefficient32Y_D12LagNumber16151413121110987654321ACF1.0.50.0-.5-1.0ConfidenceLimitsCoefficientY_D12LagNumber16151413121110987654321PartialACF1.0.50.0-.5-1.0ConfidenceLimitsCoefficient33(3)特征根检验法这种方法是先对时间序列拟合某个适宜的模型,然后求由该模型的参数组成的特征方程的特征根,若所有的特征根都满足平稳性条件则可以认为该序列是平稳的,否则该序列就是非平稳的。134例某时间序列适宜的模型为,试判断平稳性。ttttayyy1225.4125.424,25.02135模型表达式qtqtttptptttaaaayyyy2211221136后移算子使用后移算子,可使模型形式大大简化。qtqtttptptttaaaayyyy22112211qtqtttttByyByyByy,,,221qqppBBBBBBBB2212211)(,1)(ttaByB)()(37差分一阶差分:二阶差分:1tttZZZ2121122tttttttttZZZZZZZZZ38差分的应用目的一阶差分可以消除线性趋势,二阶差分可以消除二次曲线趋势。更高阶的差分虽然也可以使部分序列平稳化,但是,高阶差分并无专业意义的合理解释,且难以进一步改善前瞻性预测结果时,提示可能实施了过度差分(over-differenced)。39季节差分对于观察时间的间隔为季度的时间序列,且波动呈现年度周期性时,以下的一阶季节差分变换就可以消除该周期性StttSZZZ44tttZZZ40OBS120100806040200X_T4003002001000某股票的走势图41OBS120100806040200X_D11086420-2-4-642OBS120100806040200X_D23210-1-2-343OBS120100806040200Y3020100某市1985-1994年各月的工业生产总值ty44OBS120100806040200Y_D12543210-1-245YLagNumber16151413121110987654321ACF1.0.50.0-.5-1.0ConfidenceLimitsCoefficientYLagNumber16151413121110987654321PartialACF1.0.50.0-.5-1.0ConfidenceLimitsCoefficient46Y_D12LagNumber16151413121110987654321ACF1.0.50.0-.5-1.0ConfidenceLimitsCoefficientY_D12LagNumber16151413121110987654321PartialACF1.0.50.0-.5-1.0ConfidenceLimitsCoefficient47最终选定的模型形式为ARIMA(1,1,0)(0,1,0)sAIC=6.4085938250.0,50114.1100330.1248Y_D12LagNumber16151413121110987654321PartialACF1.0.50.0-.5-1.0ConfidenceLimitsCoefficient和的假设检验N/96.1pp,,,22