时序数据分析方法综述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1/20时间序列数据分析方法综述一、时间序列数据的相关概念1、时间序列{,}tXtT:指被观察到的依时间为序排列的数据序列。(Atimeseriesisacollectionofobservationsmadesequentiallyintime.)2、时间序列的特点:(1)时间序列是指同一现象在不同时间上的相继观察值;(2)前后时刻的数据一般具有某种程度的相关性;(3)形式上由现象所属的时间和现象在不同时间上的观察值两部分组成;(4)排列的时间可以是年份、季度、月份或其他任何时间形式。3、时间序列的主要成分:趋势性(Trend)、季节性(Seasonality)、周期性(Cyclity)、随机型(Random)4、时间序列的分类:(1)平稳序列(stationaryseries):基本上不存在趋势的序列,各观察值基本在某个固定的水平上波动,或虽有波动,但不存在某种规律,其波动可看成随机。(2)非平稳序列(non-stationaryseries):一般包括有趋势的序列,或包括趋势、季节、周期性的复合型序列。5、时间序列分析的内涵:依据不同应用背景,时序分析有不同目的:(1)系统描述:揭示支配时间序列的随机规律;(2)系统预测:通过此随机规律,理解所要考虑的动态系统,预报未来的事件;(3)干预和决策:通过干预来控制未来事件。6、时间序列分析的内容:(1)通过对样本的分析研究,找出动态过程的特性;(2)找到最佳的数学模型;(3)估计模型参数;(4)利用数学模型进行统计预测7、时间序列数据的特征:时间属性和数据属性时间属性:时间隐含内在的周期性特征,例如季节的更迭。时间还具有确定型和不确定性的特征。数据属性:按照统计尺度分为定性和定量特征;按照参照标准可分为空间和非空间特征;按变量个数分为单变量和多变量特征。二、时间序列分析的历史发展时间序列分析主要经历了描述性时序分析、统计性时序分析、频域分析、时域分析、时间序列数据挖掘几个主要发展阶段。2.1描述性时序分析在早期的自然科学中发挥着重要的作用。最早可以追溯到7000年前古埃及人对尼罗河涨落情况的长期观察和记录他们发现在天狼星第一次和太阳同时升起后的两百天左右尼罗河开始泛滥,洪水大约持续七八十天,此后土地肥沃适于农业种植。巴比伦天文2/20学家根据星星和卫星相对位置的数据序列预测天文学事件对卫星运动的观察是开普勒三大定律的基础。Graunt在探究病人和死亡在时间上的模式关系时提出了一阶差分的萌芽思想,首次提出生命表的概念,并对人口问题进行预测与估计,并对黑死病大流行的两个年份1603年和1625年中有关数据的可信性提出怀疑,并进行处理。虽然他的具体计算方法比较简单和粗糙,但其关于时间序列的萌芽思想,为现代时间序列分析打下了基础。但受到当时科学发展的限制,这些使人们发现了重要规律的早期时序分析主要依赖于对数据的直观比较或者是简单的绘图观测。随着研究领域的逐渐拓宽和研究问题的复杂化,这种单纯的描述性分析不能满足需要、概率理论中随机变量的发展以及统计数学中一些结论和方法的提出,使研究重心从对表面现象的总结,逐渐转移到分析随机序列内在本质的相关关系上,从而开辟了统计时序分析的时代。2.2统计性时序分析17世纪当帕斯卡(BlaisePascal,1623~1662)和费马(PiersedeFermat,1601-1665)等学者以机会游戏为基础讨论稳定的概率比率时,欧洲的商人没有借鉴这些自然哲学家的数学方法而是借助不同的定量推理计算自己在市场变化中的利益得失。他们利用商人的独特方法分析市场波动情形无意中为商业实践转入统计性时序分析奠定了基础。19世纪的数学家正是在欣赏并应用上述金融算术的过程中逐步开始讨论对时间现象的建模问题。他们处理数据的工具主要是一阶差分指数和滑动平均等。这些基本概念都经历了从金融算术到政治算术最后进入科学算术阶段及现代化数学领域的发展过程。他们最初只是金融家进行贸易猜测、欺骗大众和掩盖真相的工具。有两条主线贯穿统计性时序分析的历史发展明线是技术工具从商业实践转入时间序列分析的过程暗线,是对这些概念从描述性直观说明到严格定量推理的发展过程。2.3频域分析的发展时间序列分析旨在从系统模式或行为中分离随机白噪声,通过分析数据,最终发现序列的真实过程或现象特征,如平稳性水平、季节性长度、振幅频率和相位等。其中振幅频率和相位属于时间序列的频域性质,对他们的研究常称为频域分析或谱分析。谱概念与物理学的渊源关系历史悠久。物理学中常用余弦曲线方程cos()Awt表示系统的振动时间序列,可视为振幅频率和相位互不相同的正余弦波的叠加。因此时间序列的频域发展首先源于1807年法国数学家傅里叶(JeanBaptisteJosephFourier,1768-1830)宣称“任何级数可用正、余弦项之和逼近”的思想,随着Fourier理论的发展,任何时间序列也被展开成无限逼近于该序列的正余弦项之和1122()cossinijijttXtaibjTT。Fourier级数实际上却存在许多问题,如不容忍白噪声、包含正弦余弦项的数量、如何指定周期T的值、如何估计定积分等。而没有白噪3/20声的序列几乎是不存在的。幸运的是,随着科学理论的发展,德国学者舒斯特(ArhturSchuster,1851-1934)以Fourier级数理论为基础创造了新的方法。1906年,Schuster创建了周期图模型,用于考察1750-1900年间的太阳黑子序列,成功解决了太阳黑子的周期问题。随着概率和统计技术这些外围理论的发展,以及对估计和预测精度需求的提高,周期图方法进一步得到发展,但缺陷也逐渐暴露。后来,美国数学家丹尼尔1946年提出了平滑周期图概念,Bartlett和美国统计学家图基分别于1948年、1949年使用平滑周期图研究谱估计,开创了频域分析的近代理论。2.4时域分析的发展时域分析首先研究平稳过程。这个根源于19世纪生物学家高尔基、皮尔逊的遗传学工作,首次提出了回归与相关系数的概念。英国统计学家尤尔针对事件相关问题的困惑,最终创立了平稳线性自回归模型,开辟了时间序列时域分析的现代发展。1927年,Yule在研究太阳黑子数、探讨受扰动序列的周期时,Yule首创AR(2)模型和AR(4)模型。该方法的提出对原来将时间序列普遍看作是时间函数的一种修正和改进,逐步取代了Schuster的周期图分析法,开始了长达30多年的时域分析方法。1927年,Slutsky对时间序列中的随机成分感兴趣,提出了针对随机成分的MA(h)模型。1931年,Walker在研究印度达尔文港口的大气压力时,在Yule提出的模型基础上,拓展为AR(s)模型。1938年,Wold以离散平稳随机过程为研究对象,证明了隐周期模型为线性自回归过程的极限情形,也严格证明了离散平稳过程由隐周期和线性回归组成,奠定了ARMA模型拟合平稳序列的基础。1970年,Box和Jenkins讨论了非平稳自回归移动平均ARIMA模型,以及整套的建模、估计、检验和控制方法,使时间序列的理论和实践得到了飞速发函。1982年,Engle提出了自回归条件异方差ARCH模型,对非线性参数自回归模型开启了研究。2.5时序数据挖掘的发展20世纪90年代,时间序列数据挖掘(Timeseriesdatamining,TSDM)开始出现并受到广泛关注,得到了迅速的发展。TSDM发展至今,其研究内容已经涉及到多门学科的交叉研究,并细化出多个研究方向[2][4]。通过查阅研究现有的文献,当前时间序列数据挖掘的研究热点主要包括:时间序列的模式表示、相似性度量、分类、聚类、模式发现、预测、可视化等。(1)时间序列的模式表示是为了减小时间序列维度高、结构复杂、噪声大等特点对数据挖掘算法的准确性和可靠性的影响而提出的,在新的层次上对时间序列进行重新表示。4/20(2)相似性度量是为了测定时间序列是否与“模式序列”具有相似的行为曲线,它必须具有完备性,防漏报性。然而时间序列往往具有多种变形,因此对于相似性度量是时间序列数据挖掘的一项最基本也是最棘手的工作,也是当前时间序列数据挖掘的研究热点[3][5]。(3)时间序列分类是在传统的静态分类基础上,用时间序列替代原本的静态数据,目的是测定时间序列所属于的离散标记。时间序列分类主要包括两类算法[6][7]:1)领域无关分类算法。它通过设计准确的相似性度量方法,度量时间序列对象之间的相似性,当序列之间越相似,属于同一种类别的可能性越大。2)领域相关分类算法。它通过特征提取、模型匹配等其他技术将时间序列数据转化为特征表示或模型参数,再对时间序列数据进行分类。已有文献说明当训练数据较少时适用于使用领域相关分类算法,而领域无关分类算法受噪声的影响较小[6][8]。(4)时间序列的聚类研究主要分为两种情况,一种是修改现有的聚类算法使之适用于时间序列数据,聚类过程直接在初始序列上进行,因而称为基于初始数据的聚类。另一种是将时间序列数据转化为静态特征或模型参数,运用传统的聚类算法对时间序列数据进行聚类[9],因而被称为基于模型或特征的聚类方法。(5)时间序列的模式发现是指通过对不同时间段的序列进行关联关系分析,发现不同阶段频繁出现的周期变化模式或极少出现的异常模式。按照发现的模式分类,一般分为频繁模式[10]、异常模式[11]和周期模式[12]发现等,它们分别适用于不同的场景或目的。比如在医疗心电图诊断中,通过异常模式发现,可以发现病人的异常心电图序列,从而进行诊断和治疗。(6)时间序列的预测是通过分析现有的时间序列数据,估测之后的一个或几个时刻的数据,即通过结合事物的发展规律和发展趋势,对事物的未来进行预测,它在各领域都有着广泛的应用[3][6][13]。三、时间序列数据预测的研究综述时间序列数据预测主要包括确定型时间序列预测和随机型时间序列预测,以下主要针对这两种预测方法的研究进展。3.1确定型时间序列预测确定型时间序列预测方法已经相对成熟,其基本步骤为:1)确定时间序列的成分;2)选择预测方法;3)预测方法的评估。针对不同的成分,确定型时间序列预测会选择不同的方法。1、平滑法预测当序列中既不存在趋势成分,也不存在季节成分时,使用平滑法进行预测。平滑法主要包括简单平均法、移动平均法和指数平滑法。(1)简单平均法:用已有的观察值的平均值作为下一时刻的预测值。5/2011211(...)/tttiiFYYYtYt简单平均法适合对较为平稳的时间序列进行预测,但该方法将远期和近期的数值看作同等重要,但从预测角度上看近期的数值要比远期的数值有更大的作用,预测结果不准确,尤其是当序列中存在趋势或季节变动时。(2)移动平均法移动平均法是对简单平均法的一种改进方案,通过对时间序列逐期递移求取平均值作为预测值。移动平均法包括简单移动平均法和加权移动平均法。简单移动平均法是使用最近的k期数据平均值作为下一期的预测值:1211t...tktktttYYYYFYk简单移动平均法对每个观察值都给予先相同的权数,每次计算时间隔都为k,主要适合对较为平稳的序列进行预测。但不同步长的选择,准确性不同。加权移动平均法:是对近期和远期的观察值赋予不同的权重值。当序列波动较大时,近期赋予较大的权重,较远时期观察值权重赋予较小值;当序列波动较小时,各期观察值则相近。当权重值均为1时,即为简单移动平均法。但该方法的移动间隔和权数的选择一般需要通过均方误差预测精度来调整。(3)指数平滑法指数平滑法是加权移动平均法的一种特殊形式,是指观察值越远,权数随时间呈指数下降。主要有一次指数平滑、二次指数平滑、三次指数平滑等。方法主要表示为:1(1)tttFYF其中,tY为第t期的实际观察值,tF为第t期的预测值,(01)为平滑系数。当序列变动较大时,选择小,序列变动较大时,选择大。但该方法的主要问题的关键是平滑系数的选择,一般通过选择最小预测误差的值进行预测。2、趋势预测法当序列中存在趋势成分,不存在季节成分时,选

1 / 20
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功