股市预测模型

艾雷希亚
1 ℃
2019-12-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

股市预测模型基于混合ARMA模型和支持向量机摘要：股市预测在以往的文献中已经吸引了大量的研究兴趣。传统上，ARMA模型已经成为时间序列中应用最为广泛的线性模型之一。但是，ARMA模型不能够轻易的捕捉非线性模式。并且最近的研究表明，人工神经网络（ANN）方法比传统的统计的人实现了更好的性能。人工神经网络方法在泛化（generalization）方面经历了一定的困难，但是其生产模式可以过度拟合数据。支持向量机（SVM）一种新型的神经网络技术，在解决非线性回归估计问题上已经得到成功的应用。因此，此次调查提出了在股市预测问题的支持向量机模型上，利用ARMA模型的独特优势试图向用户提供更好的解释力模型的混合方法。股市的真实数据集被使用来研究该模型的预测精度。计算的测试结果是很有前景的。关键字：BP神经网络，金融时间序列，预测，支持向量机1.引言股市预测因其高波动和不规则性被认为是具有挑战性的任务。因此，许多模型已经被描绘为投资者提供更精确的预测。尤其是，人工神经网络（ANN）方法在以前的文献中最为频繁被使用，因为其已知的预测的效率优于其他模型。然而，由于解释神经网络的难度，大多数应用神经网络的研究集中在预测精度。在文献中已被报道，利用人工神经网络模型，以很少的努力提供对破产预测过程更好的理解。此外，由于神经网络的过度拟合在泛化方面具有困难，并且完全取决研究人员的经验或是知识，用于选择大量的包括相关的输入变量，隐含层的大小，学习率以及动量控制参数的预处理。最近，在1995年首次由Vapnik提出的支持向量机（ＳＶＭ）方法近来被使用在一系列应用中，包括金融股市预测。支持向量机（ＳＶＭ）的基础已经被Ｖａｐｎｉｋ开发，由于许多吸引人的特点以及在广泛的问题上优异的泛化性能使其越来越受欢迎。该制定（formulation）体现了结构风险最小化（SRM）原则被常规神经网络采用，且已被证明优于传统的经验风险最小化原则。SRM泛化误差上限的最小化，用术语来说，就是在训练数据中误差最小化。此外，SVM的解决方案可能是全局最优解，而其他神经网络模型往往会陷入局部最优解。一般来说，支持向量机技术被广泛认为是艺术分类的状态（thestateofartclassifier），并且以往的研究表明，SVM预测方法优于神经网络的方法。最初为解决分类问题开发的SVM技术可以成功地在回归中应用。与模式识别问题只需输出是离散值不同，支持向量回归处理（dealswith）实值函数。SVR起源于结构风险最小化原则通过最小化泛化误差上限去估计一种功能。以往的研究报道了SVM已经成功地在许多领域解决了预测问题。然而，提高预测的精度性仍然是预测领域关注的首要问题。特别是对股市的预测，即使在预测精度上轻微的改进也可能对投资的利润产生积极的影响。据报道，混合系统针对传统的系统在预测和分类中取得了较高的性能水平。张【２２】在预测上结合了ARIMA和前馈神经网络模型。这项研究提出了用ARMA和支持向量机的混合模型区解决股票价格预测问题。2.用于预测的混合模型2.1自回归滑动平均模型ARMA模型已经被波克斯（Box）和詹金斯（Jenkins）提出了为了时间序列的描述把自回归和滑动平均模型混合。在（Arp）p阶的自回归模型中，每个单独的值Tx可以表示为P以前的值和白噪声，Tz的有限和：xt=α1xt−1+…+αpxt−p+zt(1)参数ai可以被尤尔·沃克方程估计，从自相关系数角度来说，尤尔·沃克方程是一组线性方程。在（MAq）q阶的滑动平均模型中，现值xt可以表示为Q以前的值Tz的有限和：xt=β0zt+β1zt−1+βqzt−q(2)在这个方程中，zi是测量和预测值X在时间实例I上的白噪声的残差。模型参数βi就自相关而言通常是由一组非线性方程组来确定。Z的值通常被缩放（scaled），使得β0=1。在过去，滑动平均模型特别被使用在受如罢工和政府决策等随机事件影响的经济指标的计量经济学领域。（P,Q）阶的ARMA模型是Arp和MAq模型的混合，计算公式如下：Xt=α1xt-1+…+αpxt-p+β1zt-1+…+…+βqzt-q(3)使用后移算子B，上一个方程可以写为：φ(B)xt=θ(B)zt(4)其中φ(B)和θ(B)分别是P,Q阶的多项式，使得：φ(B)=1−α1B−…−αpBθ(B)=1−β1B+…+βqBq(5)ARMA模型基本上是改编自数据本身的结构的面向数据的方法。然而，任何显著的非线性数据集限制ARMA。因此，所提供的混合模型使用支持向量机来处理非线性数据模式。2.2股市预测中的支持向量机理论考虑一组训练数据{(x1,y1),....,(xl,yl)},其中每一个xi⊂R表示样本的输入空间并且有相应的目标值yi⊂Ri=1…l,其中l对应于训练数据的大小。回归问题的想法是要确定可以准确的逼近未来值的函数。SVR估计函数一般形式为：f(x)=(w⋅Φ(x))+b(6)其中w⊂Rn,b⊂R，Φ表示Rn高维空间的线性转换。我们的目标是通过最大限度地降低风险回归确定x的值找到w和b的值：Rreg(f)=C∑Γ(f(xi)–(yi)+1/2‖w‖2(7)其中Γ(⋅)是一个成本函数，C是常数，w是变量，就数据点而言可以写成：w=∑(αi-αi*)Φ(xi)(8)通过把（3）式代入（1）式，一般方程可以改写为：f(x)=Σ(αi–αi*)(Φ(xi)·Φ(x))+b=Σ(αi–αi*)k(xi,x)+b(9)等式（4）的点积可以用被称之为核函数的k(xi,x)来代替。核函数使点积能够在高维特征空间在不知道转换Φ下使用低维空间数据来执行。所有的核函数必须满足Mercer条件就是对应一些特征空间的内积。径向基函数(RBF)是常用的内核回归：k(xi,x)=exp{-γ｜x−xi｜2}(10)一些常见的内核可以在表1中所见。在我们的研究中，我们已经试验了这三个内核。表1.常见核函数内核函数线性的x·y多项式[(x∗xi)+1]d径向基函数exp{-γ｜x−xi｜2}ε的不敏感损失函数是最被广泛使用的成本函数。该函数的形式为：Γ（f(x)-y）={︱()︱ε︱()︱ε(11)通过求解（12）式的二次优化问题，（7）式的回归风险和（11）式ε的不敏感损失函数可以最小化为∑(-)()()∑(ε)(ε)符合以下条件：∑,[]拉格朗日乘子和表示上述的二次问题作为力推实现目标值的预测解决方案。（12）式中的拉格朗日乘子仅为非零值时支持向量在预测回归线时才能够被使用。对于内部所有的ε-tube点，拉格朗日乘子等于零并不有助于回归函数。只有当要求函数︱f(x)-y︱ε(见图1)被满足，拉格朗日乘子可以是非零值，并被用作支持向量。等式（13）被采用的常数C确定为估计误差的罚因子。大C对误差分配更多的罚因子以至于当小C对误差分配较少用较低的泛化使回归训练最小化。这使得误差幅度最小化，从而得到更高的泛化能力。如果C变为无限大，SVR不允许任何产生任何误差从而导致一个复杂的模型，而当C变为零时，结果将产生更大量的误差而且模型更为复杂。yx图1.支持向量回归以适应管的半径的数据和积极的松弛变量ζ去测量位于管外的点现在，我们已在拉格朗日乘子方面解决了w的值。对于变量b,可以通过应用库恩塔克（KKT）条件来计算，在这种情况下，意味着拉格朗日乘子和约束的积等于零：(ε+())(ε())(13)(C)(C)(14)其中松弛变量和是用来测量ε-管外的误差。因为，=0，=0，当（，),b可被如下的方程计算得：b=()ε()()ε,()(15)通过计算上面所有的式子，在没有变换的条件下可以使用SVM好SVR。2.3混合方法外债风险的行为不能很容易的抓获。因此，具有线性和非线性建模能力的混合策略是预测外债风险的一个很好的选择。ARMA和SVM都具有不同的功能，以捕捉线性或非线性域中的数据特性，所以在本研究中提出的混合模型是由ARIMA和SVM部分组成的。因此，混合模型通过提高整体的预测能力改造线性和非线性的模式。混合模型可以表示如下：（16）其中是混合模型的线性部分，是非线性部分。和都被数据集估计。是ARMA模型在时刻t的预测值。让表示从ARMA模型在时刻t获得的残差；得：=̃(17)残差是由支持向量机建模的，并且可以用如下方程表示：ε(εε)（18）其中f是被SVM建模的非线性函数，而为随机误差。因此，该混合预测为：̃̃̃值得注意的是，̃是（17）式的预测值。3.实验和比较3.1数据描述在实验中，两只股票标准普尔500指数和日经指数200都是每日从数据流中获得的。整个数据集涵盖的时间段是从2000.01.01~2004.12.31。该数据集被分为两个阶段：第一个阶段是从2000.01.01~2013.12.31，第二个阶段则从2004.01.01~2004.12.31。第一阶段中则用于网络学习和训练，且数据集已被转让给样品估计。第二阶段是给出来的样品估计的保留。为了简洁，原始数据没有在纸中列出，以及详细的数据可以从来源获得。3.2性能标准该预测结果的检查是在该模型预测效果的关键，因为我们能获得不同预测方法特性的信息，这对选择并使用多种预测方法的人是非常有用的。预测性能使用以下统计指标进行评估，即，平均绝对误差（MAE），平均绝对误差百分比（MAPE），均方误差（MSE）和均方根误差（RMSE）。如下所述的这些标准定义：(1)平均绝对误差（MAE）MAE=∑｜｜i,j=1,2,…n(19)(2)平均绝对误差百分比（MAPE）MAPE=∑｜Xiyjxi｜i,j=1,2,…n(20)(3)均方误差（MSE）MSE=∑()2(21)(4)均方根误差（RMSE）RMSE=√∑()2(22)四个指数的值越小，其精度就越高。其中表示实际值；表示预测值；n表示样品的数目。3.3参数的选择在这项研究中，ARMA模型有三个阶段：模式识别，参数估计和诊断检查。确定ARMA模型的合适参数后，检查所提出的模型是如何紧密配合给定的时间序列是非常重要的。自相关函数（ACF）被计算来验证参数。图表2.股票指数的自相关函数。图表3.股票指数的偏相关函数。图表4.自相关函数的残差估计并且表示这残差不是自相关的。在图表5.中显示，这局部的自相关函数偏相关函数，也是被用来检查残差和表示该残差是不相关的。图表2.股票指数的自相关函数图表3.股票指数的偏相关函数图表4.自相关函数的残差估计对于支持向量机（SVM）模型的三个参数，δ，ε和C是在验证集的基础上进行调整。众所周知的是支持向量机（SVMs）的推广性能（估计精度）依赖于云参数参数C和内核参数的良好环境。最佳参数选择的问题更复杂比SVM模型的复杂性（以及它的泛化性能）完全取决于三个参数的事实。SVM回归的现有软件的实现通常把SVM的云参数看作是用户的自定义输入。选择一个特定的核型（kerneltype）和核函数的参数通常是基于应用知识领域，并反映训练数据输入值（x）的分布。图表5.偏相关函数的误差估计图表6.对ARMA模型SVM估计使用建议参数选择参数C确定模型复杂性（平坦度）和程度之间的交易的偏差比在优化规划例子中ε较大，如果C过大（无穷大），在不考虑优化规划复杂这一部分，则目标仅是最小化风险经验。参数ε控制着不敏感区域ε的宽度，用于拟合训练数据。ε的值可以影响用于构建回归函数支持向量的数目。ε越大，支持向量越少被选中。另一方面，更大的ε值导致更多的‘平的’估计。因此，C和ε的值都影响模型的复杂性（但是用不同的方式）。3.4实验结果当数据准备好时，我们就开始训练混合模型。在这些实验中，我们准备了5年的每日数据。我们使用前4年的数据来训练和验证网络，并且使用最后一年的数据来测试预测性能。为了进行比较，标准的三层的BP神经网络被用作基准模型。本研究改变在隐藏层和用于训练停止准则的节点的数目。在这项研究中，因为BP网络没有确定隐藏节点最佳数目的一般规则，每个停止准则有5,10,20个节点。对于BP神经网络的停止准则，这项研究采用了500,1000,2000和4000的学习时期。对于标准的BP神经网络模型，学习率设定