时间序列分析方法

红狼祭酒
2 ℃
2020-04-13

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

深圳大学研究生课程论文题目对时间序列分析方法的学习报告成绩专业软件工程(春)课程名称、代码数据库与数据挖掘142201013021年级2013姓名朱文静学号20134313005时间2014年11月任课教师傅向华1时间序列分析方法及其应用综述1.1时间序列分析概念时间序列分析(Timeseriesanalysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法，研究随机数据序列所遵从的统计规律，以用于解决实际问题。时间序列是按时间顺序的一组数字序列。时间序列分析就是利用这组数列，应用数理统计方法加以处理，以预测未来事物的发展。时间序列分析是定量预测方法之一，它的基本原理：一是承认事物发展的延续性。应用过去数据，就能推测事物的发展趋势。二是考虑到事物发展的随机性。任何事物发展都可能受偶然因素影响，为此要利用统计分析中加权平均法对历史数据进行处理。该方法简单易行，便于掌握，但准确性差，一般只适用于短期预测。时间序列预测一般反映三种实际变化规律:趋势变化、周期性变化、随机性变化。时间序列分析是根据系统观测得到的时间序列数据，通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法（如非线性最小二乘法）进行。时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。1.2时间序列分析特点时间序列分析预测法是根据市场过去的变化趋势预测未来的发展，它的前提是假定事物的过去会同样延续到未来。事物的现实是历史发展的结果，而事物的未来又是现实的延伸，事物的过去和未来是有联系的。市场预测的时间序列分析法，正是根据客观事物发展的这种连续规律性，运用过去的历史数据，通过统计分析，进一步推测市场未来的发展趋势。市场预测中，事物的过去会同样延续到未来，其意思是说，市场未来不会发生突然跳跃式变化，而是渐进变化的。时间序列分析预测法的哲学依据，是唯物辩证法中的基本观点，即认为一切事物都是发展变化的，事物的发展变化在时间上具有连续性，市场现象也是这样。市场现象过去和现在的发展变化规律和发展水平，会影响到市场现象未来的发展变化规律和规模水平；市场现象未来的变化规律和水平，是市场现象过去和现在变化规律和发展水平的结果。由于事物的发展不仅有连续性的特点，而且又是复杂多样的。因此，在应用时间序列分析法进行市场预测时应注意市场现象未来发展变化规律和发展水平，不一定与其历史和现在的发展变化规律完全一致。随着市场现象的发展，它还会出现一些新的特点。因此，在时间序列分析预测中，决不能机械地按市场现象过去和现在的规律向外延伸。必须要研究分析市场现象变化的新特点，新表现，并且将这些新特点和新表现充分考虑在预测值内。这样才能对市场现象做出既延续其历史变化规律，又符合其现实表现的可靠的预测结果。时间序列分析预测法突出了时间因素在预测中的作用，暂不考虑外界具体因素的影响。时间序列在时间序列分析预测法处于核心位置，没有时间序列，就没有这一方法的存在。虽然，预测对象的发展变化是受很多因素影响的。但是，运用时间序列分析进行量的预测，实际上将所有的影响因素归结到时间这一因素上，只承认所有影响因素的综合作用，并在未来对预测对象仍然起作用，并未去分析探讨预测对象和影响因素之间的因果关系。因此，为了求得能反映市场未来发展变化的精确预测值，在运用时间序列分析法进行预测时，必须将量的分析方法和质的分析方法结合起来，从质的方面充分研究各种因素与市场的关系，在充分分析研究影响市场变化的各种因素的基础上确定预测值。时间序列预测法因突出时间序列暂不考虑外界因素影响，因而存在着预测误差的缺陷，当遇到外界发生较大变化，往往会有较大偏差，时间序列预测法对于中短期预测的效果要比长期预测的效果好。因为客观事物，尤其是经济现象，在一个较长时间内发生外界因素变化的可能性加大，它们对市场经济现象必定要产生重大影响。如果出现这种情况，进行预测时，只考虑时间因素不考虑外界因素对预测对象的影响，其预测结果就会与实际状况严重不符。一个时间序列通常由4种要素组成：趋势、季节变动、循环波动和不规则波动。趋势：是时间序列在长时期内呈现出来的持续向上或持续向下的变动。季节变动：是时间序列在一年内重复出现的周期性波动。它是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。循环波动：是时间序列呈现出得非固定长度的周期性变动。循环波动的周期可能会持续一段时间，但与趋势不同，它不是朝着单一方向的持续变动，而是涨落相同的交替波动。不规则波动：是时间序列中除去趋势、季节变动和周期波动之后的随机波动。不规则波动通常总是夹杂在时间序列中，致使时间序列产生一种波浪形或震荡式的变动。只含有随机波动的序列也称为平稳序列。1.3时间序列分析建模时间序列模型建立在随机序列平稳性和白噪声激励的假设之上，这是因为实际的随机系统的数据大多都符合平稳性条件（期望为常数、相关函数只与间隔有关）。即线性平稳模型以随机差分方程为特点，意义为以白噪声作为激励通过线性滤波器的输入输出结果。随机差分方程可以写成此时的数据与所有时刻的白噪声的线性组合，也可以写成历史时刻的数据与此时刻的白噪声的线性组合，以差分算子为基础可以写成代数方程（也可以理解为Z变换）。但是上述表示方法包含无穷多个参量，不具有实际意义，选择有限参数作为常用模型，包括：AR模型、MA模型、ARMA模型等（Auto-regress-moving-average）。由于时间序列模型的自相关函数、功率谱密度、偏相关函数、格林函数、逆格林函数是时间序列模型的特征函数。通过对随机差分方程计算自相关函数可以将随机序列转化为确定的（关于自相关函数）差分方程，就可以采用确定的差分方程进行求解。而模型的功率谱密度同数字信号处理的Z变换，将差分算子B替换为e(-jw),再取模的平方即可。偏相关函数与自相关函数是互逆的，格林函数是冲激响应，表示历史噪声对响应的影响，或者理解为记忆深度与强度。对于不满足线性平稳的统计模型，可以通过平稳化处理，再利用之前的线性平稳模型进行处理。通过求d阶差分，将数据平稳化，得到ARIMA、IMA、ARI模型等。在选定某种模型如AR、MA、ARMA、ARIMA模型后，需要对模型的未知参数进行估计，估计的方法与数理统计中的参数点估计方法类似，有相关矩估计、最小二乘估计、最小方差估计、极大似然估计、最大熵估计等。时间序列建模包含以下几个部分，识别模型类型、估计模型参数、模型定阶等。（1）模型识别针对平稳的数据，可采用自相关系数和偏相关系数的形态来识别模型类别。截断、拖尾现象。可通过统计判别或经验来判别是否截断和拖尾。针对ARMA模型的定阶，可采用p,q任选的方式，也可以使得q=p-1限制。针对季节性数据，可采用ARIMA模型，可通过试探或实际背景得到阶数d。针对趋势性数据，可以通过拟合来得到，如一次、高次、指数、周期趋势、组合等针对含有异常的数据，通过外推可识别异常值。可通过去掉异常值或修正它再利用原来的模型，或者采用稳健性高的模型。（2）BJ建模方法（先平稳化再相关分析）根据样本的自相关和偏相关函数的特性，初步判定模型的滑动平均、自回归阶数。第一步：根据样本的自相关和偏相关函数的截断或拖尾识别模型第二步：去掉趋势项第三步：由低阶到高阶遍历进行拟合，参数定阶和估计（3）PW建模方法（先建模再处理）从系统特新出发，由于线性时不变系统可以用ARMA(N,N-1)模拟，且每次参数增加2（有多种原因：物理背景，特征根，计算量），减少了模拟次数，在得到模型之前，不要进行平稳化，而是先建模再检验是否平稳。流程：第一步：从模型ARMA(2,1)开始，每次增加2第二步：用F准则，看残差是否显著降低（4）长自回归、白噪声建模只采用AR模型，这样计算简单，优势明显。第一步：建立长自回归模型AR，第二步：求残差检验独立性第三步：定阶和参数估计，计算ARMA的参数2时间序列分析方法的应用实例2.1实例数据说明现有的通信业运营指标，是根据一定的计算公式，通过对计算变量进行运算处理得到。比如，彩信业务的话单计费处理完整率(MO_04_KSF_03_01_06_DAY):这个指标，由一天的实际输出话单量/应该输出话单量*100%实际输出话单量=∑(每30分钟的详单规整出口话单量)应输出话单量=∑(每30分钟预处理入口话单量)-∑(每小时的预处理无效话单量)-∑(每小时的重单量)-∑(每小时的错单量)-∑(每小时的无主单量)转换成公式，是：MO_04_KSF_03_01_06_DAY=(sum(CC_014_06)/(sum(Medt_002_06)-sum(Medt_003_06)-sum(Medt_006_06)-sum(CC_002_06)-sum(CC_003_06)))*100数据补漏，可以对sum(Medt_002_06)的结果，进行处理。即根据实际到达的数据，依据周期数据频率，进行数据补齐处理。2.2实例算法说明简单算法：3点加权法。对缺失的点，用其昨天的值x50%+前天的值X30%+上前天的值X20%来进行估算。而昨天，前天和上前天，可以顺序推算，唯一要求的，是真实检测值，不能是估算的数据。复杂算法：时间序列分析法即对缺失的点，采用2天内的0点，到缺失点的前一时点数据为基准，应用winters方法，进行缺失点的数据估算。由于参考了近2日的时间趋势和最近数据走势，所以时间序列分析方法的可信度整体上比3点加权法高。2.3实例结果说明图是对10月2日sum(Medt_002_06)，进行3点加权和时间序列分析对比。黄色的是时间序列分析。3点加权，在下午3点到晚上8点间，差异稍大。3点加权，采用实际数据，是用昨天前的数据，顺推的3点。时间序列方法，在采样时，对于历史上的缺失数据，需要同点剔除。比如，对30MI周期数据，现在是缺10:30的数据，则需要10:00的数据。如果今天、昨天和前天，无论哪天缺10:00的数据，则三天的10:00都必须从样本中剔除。如果昨天的18:30数据缺失，则前天的18:30数据也不能加入。此外，当时间序列分析的样本数据个数少于周期值时，需要顺序往前推，至少取得两个周期的样本数据为准。对于01HR的数据，样本周期为24，则至少需要48个真实数据点。2.4实例总结原则上，尽量采用时间序列分析的Winters方法，进行补点处理。但是，当数据连续缺失的时候，可能主要以3点加权法进行预测。尤其是当发生2天以上的连续缺失时，则近1-2天的补充数据都相等。所以，首先尽量的补充数据。即当过了capes变量的计算时间时，也将数据采集上来为后续预测做准备。然后，再根据实际情况，进行调整。3数据挖掘课程学习体会数据挖掘就是从大量繁杂的数据中获取隐含中其中的信息，比如说对顾客分类，聚类，欺诈甄别，潜在顾客识别等，现在应用领域很广的，设计了，零售，金融，银行，医疗，政府决策，企业财务，商业决策。数据挖掘技术已经形成很广泛的应用空间，而目前JDMP的版本也在完善当中，大多数数据挖掘开发工具涌现出来。各种相关的框架如Hadoop也如雨后春笋纷纷出现。这些现象的出现，正是因为数据挖掘的发展会有越来越广泛的天空。然而数据挖掘还是有很多需要面临并且急需解决的问题„„而我们也希望其越来越深刻的研究和改进。对于数据挖掘的学习，还是要注重算法的研究和开发。目前我还很欠缺这一块知识。包括统计学、概率论，机器学习等。数据挖掘是个繁复的过程，需要我们长此以往的研究！4其他数据挖掘相关主题数据挖掘综合了各个学科技术，有其他很多的功能：1、数据总结：继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩，给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲，多维分析也可以归入这一类。2、分类：目的是构造一个分类函数或分类模型（也常常称作分类器），该模型能把数据库中的数据项映射到给定类别中