时间序列分析的基本概念平稳过程的特征及检验特殊数据点处理平稳性检验特征统计量平稳时间序列的定义平稳时间序列的统计性质平稳时间序列的意义平稳性的检验特征统计量均值方差自协方差自相关系数)(xxdFEXttt)()()(22xdFxXEDXttttt))((),(ssttXXEststDXDXstst),(),(平稳时间序列的定义严平稳严平稳是一种条件比较苛刻的平稳性定义,它认为只有当序列所有的统计性质都不会随着时间的推移而发生变化时,该序列才能被认为平稳。宽平稳宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定,所以只要保证序列低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。平稳时间序列的统计定义满足如下条件的序列称为严平稳序列满足如下条件的序列称为宽平稳序列),,,(),,,(21,21,2121mtttmtttxxxFxxxFmm有,正整数,正整数Ttttmm,,,,21TtskksttskkstTtEXTtEXtt且,为常数,,,),(),()3,)2,)12严平稳与宽平稳的关系一般关系严平稳条件比宽平稳条件苛刻,通常情况下,严平稳(低阶矩存在)能推出宽平稳成立,而宽平稳序列不能反推严平稳成立特例不存在低阶矩的严平稳序列不满足宽平稳条件当序列服从多元正态分布时,宽平稳可以推出严平稳平稳时间序列的统计性质常数均值自协方差函数和自相关函数只依赖于时间的平移长度而与时间的起止点无关延迟k自协方差函数延迟k自相关系数)0()(kk为整数kkttk),,()(若{Xt}为平稳序列,假定EXt=0,由于令s=t-k,于是我们就可以用以下记号表示平稳序列的自协方差函数,即:)0,(),(ststkttktktttkXEXEXXEXXE))((相应的,自相关函数记为:0kk自相关系数的性质规范性对称性非负定性非唯一性1)2()1(0kkkkkk平稳时间序列的意义时间序列数据结构的特殊性可列多个随机变量,而每个变量只有一个样本观察值平稳性的重大意义极大地减少了随机变量的个数,并增加了待估变量的样本容量极大地简化了时序分析的难度,同时也提高了对特征统计量的估计精度平稳性的检验(图检验方法)时序图检验根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界、无明显趋势及周期特征自相关图检验平稳序列通常具有短期相关性。该性质用自相关系数来描述就是随着延迟期数的增加,平稳序列的自相关系数会很快地衰减向零例题例2.1检验1964年——1999年中国纱年产量序列的平稳性例2.2检验1962年1月——1975年12月平均每头奶牛月产奶量序列的平稳性例2.3检验1949年——1998年北京市每年最高气温序列的平稳性例2.1时序图例2.1自相关图例2.2时序图例2.2自相关图例2.3时序图例2.3自相关图非参数检验法:游程检验(1)什么是游程一个游程定义为一个具有相同符号的连续串,在它前后相接的是与其不同的符号或完全无符号。例如,观察的结果用加、减标志表示,得到一组这样的记录顺序:++---+----++-+这个样本的观察结果共有7个游程。(2)用游程检验方法检验时间序列平稳性的基本思想..,,,},{程数并可求出这个序列的游序列这样就形成了一个符号号的观察值记为大比号小的观察值记为对序列中比设其样本均值为对于一个时间序列xxxxt如果符号序列是随机的,那么“+”和“-”将随机出现,因此它的游程数既不会太多,又不会太少;反过来说如果符号序列的游程总数太少或太多,我们就可以认为时间序列存在某种趋势性或周期性。.)1,0()()(:)15()1()12(2)(12)(::,,212212121212121服布渐近服从有大于或在大样本情况下的期望和方差分别如下数游程总明,对于随机序列可以证总数为出现的次数,游程与为记号序列中分别和设序列长度为NrDrErZNNNNNNNNrDNNNNrErrNNNNNN(3)检验方法a.小样本情况零假设:H0:加号和减号以随机的方式出现检验方法:取显著性水平α(一般取0.05),查单样本游程检验表,得出抽样分布的临界值rL、rU判定:若rLrrU则不能拒绝零假设,即不能拒绝序列是平稳的;若rrU或rrL则拒绝零假设,序列是非平稳的。b.大样本情况零假设:H0:加号和减号以随机的方式出现检验方法:给定显著性水平α(一般取0.05)查标准正态分布表,得出抽样分布的临界值-zα,+zα。并计算统计量:)()(rDrErZ判定:若-zαz+zα,则不能拒绝零假设,即不能拒绝序列是平稳的;否则拒绝零假设,序列是非平稳的。非参数检验可以很方便的通过SPSS软件进行,实例:用游程检验S&T数据的平稳性;步骤如下:1.打开SPSS输入数据2.依次单击Analyze—NonparmetricTests—Runs;打开Runs对话框。3.在源变量对话框中选择变量进入“TestVariablelist”栏内4.选中“cutpoint”栏中“mean”选项5.单击“OK”按纽,开始进行统计分析。RunsTest288.9746102921944-13.532.000TestValueaCasesTestValueCases=TestValueTotalCasesNumberofRunsZAsymp.Sig.(2-tailed)STPOORMeana.输出结果分析:因为P值(sig.)极小,所以拒绝零假设,故原序列是非平稳的。纯随机性检验纯随机序列的定义纯随机性的性质纯随机性检验纯随机序列的定义纯随机序列也称为白噪声序列,它满足如下两条性质TststststTtEXt,,,0,),()2(,)1(2标准正态白噪声序列时序图白噪声序列的性质纯随机性方差齐性各序列值之间没有任何相关关系,即为“没有记忆”的序列方差齐性根据马尔可夫定理,只有方差齐性假定成立时,用最小二乘法得到的未知参数估计值才是准确的、有效的00k(k),)0(2tDX纯随机性检验检验原理假设条件检验统计量判别原则Barlett定理如果一个时间序列是纯随机的,得到一个观察期数为的观察序列,那么该序列的延迟非零期的样本自相关系数将近似服从均值为零,方差为序列观察期数倒数的正态分布0,)1,0(~ˆknNkn假设条件原假设:延迟期数小于或等于期的序列值之间相互独立备择假设:延迟期数小于或等于期的序列值之间有相关性1,0210mHm:mkmHk,:至少存在某个1,01mm检验统计量Q统计量LB统计量)(~ˆ212mnQmkk)(~)ˆ()2(212mknnnLBmkk判别原则拒绝原假设当检验统计量大于分位点,或该统计量的P值小于时,则可以以的置信水平拒绝原假设,认为该序列为非白噪声序列接受原假设当检验统计量小于分位点,或该统计量的P值大于时,则认为在的置信水平下无法拒绝原假设,即不能显著拒绝序列为纯随机序列的假定21()m121()m1例2.4:标准正态白噪声序列纯随机性检验样本自相关图检验结果LBQLBQ延迟统计量检验统计量值P值延迟6期2.360.8838延迟12期5.350.9454由于P值显著大于显著性水平,所以该序列不能拒绝纯随机的原假设。例2.5对1950年——1998年北京市城乡居民定期储蓄所占比例序列的平稳性与纯随机性进行检验例2.5时序图例2.5自相关图例2.5白噪声检验结果延迟阶数LB统计量检验LB检验统计量的值P值675.460.00011282.570.0001◆上机指导(平稳性与纯随机性检验)1.绘制时序图2.平稳性检验3.纯随机性检验平稳性检验(1)时序图判断(检验)标准根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界、无明显趋势及周期特征(2)自相关图判断(检验)标准平稳序列通常具有短期相关性。该性质用自相关系数来描述就是随着延迟期数的增加,平稳序列的自相关系数会很快地衰减向零纯随机性检验(判别原则)拒绝原假设当检验统计量大于分位点,或该统计量的P值小于时,则可以以的置信水平拒绝原假设,认为该序列为非白噪声序列接受原假设当检验统计量小于分位点,或该统计量的P值大于时,则认为在的置信水平下无法拒绝原假设,即不能显著拒绝序列为纯随机序列的假定21()m121()m12.3特殊数据点处理离群点是指一个时间序列中,远离序列一般水平的极端大值和极端小值,也成为奇异值或野值。形成离群点的原因是多种多样的,例如由于数据传输过程、采样及记录过程中发生信号失真或丢失等而产生,又如研究现象本身由于受各种偶然非正常的因素影响而形成离群点等等。离群点的主要影响:1、对于系数的估计值将不准确。2、会使得的预测值不准确3、比真实的要大tttyy11ty2离群点的判断:比较两个数值的差异:代表先对序列值取平方然后平滑得到的数值1X代表先平滑序列值然后取平方得到的数值2X若两个序列不存在差异即不是离群点,否则为离群点。例如:最简单平滑法适用条件:适用大体呈水平变动趋势的时间序列平滑公式:)(1)(1)(1)(1)1(12111)1(NtttNttNtttNttttyyNMyyNyyyNyyyNM移动平均项数N的确定:若序列的随机性较大,N取较大;否则,N应取较小。若存在周期变动,N应取周期长度。如果想得到长期趋势,就做期数较大的移动平均,如果想密切关注序列的短期趋势,就应该做期数较小的移动平均。离群点的分类1、加性离群点2、更新离群点3、水平移位离群点4、暂时变更离群点阅读文献:〈在统计分析中如何识别极端值〉《江苏统计》1999、11郭莉1、四分展步法2、3法3、茎叶图法缺损值的补足缺失值填充方法:1、seriesmean全体序列的均数,默认值2、meanofnearbypoints相邻若干点的均数3、medianofnearbypoints:相邻若干点的中位数4、lineartrendatpoint.该点的线性趋势,将记录号作为自变量,序列值作为应变量回归,求得该点的估计值。