预测股票走势的方案

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

股票预测的方案1股票预测Wrapper方法的研究与应用摘要:近年来股票市场预测研究一直较受欢迎。大量研究者尝试基于多种数学模型的技术指数及机器学习技术预测股票价格或指数。尽管现有方法展示了较满意的预测成就,但是股票市场是升还是降的预测准确性很少被分析。用Wrapper方法从由23个技术指标构成的原始特征集中选择最优特征子集,然后用混合不同分类算法的投票法来预测两股票市场的趋势。实验结果表明Wmpper方法比常用的Filter式特征选择算法如一统计,信息增益,ReliefF,对称不确定性,和CFS能有更好的性能。此外,提出的投票法超越单一的分类器如SVM,K最邻近,BP神经网络,决策树和Lc~stic回归。关键词:股票预测;Wrapper;投票;特征选择;分类1绪论股票市场预测被认为是金融时间序列预测的一项有挑战性的任务。在这一领域有很多用人工神经网络的研究。许多成功的应用显示人工神经网络是时间序列建模和预测的一个非常有用的工具,早期的研究者集中在用人工神经网络预测股票市场,最近的研究趋向杂交好几种人工智能技术。后来提出了遗传算法来进行特征离散化,人工神经网络连接权的决定来预测股票价格指数,这些方法减少了特征空间的维数,加强了预测性能。可是,这些研究中有些表明人工神经网络在学习模式上有些缺陷,因为股票市场数据有巨大的噪声和复杂的维数。因此,人工神经网络在噪声数据上展示了不一致和不可预测的性能。然而,BP神经网络,最流行的神经网络模式,在选择大量的包括相关输入变量、隐层的大小学习速率和动量常数的控制参数上遇到了困难。最近,发明了一种新的神经网络法,SVM。许多传统的神经网络模式落实了实证风险最小化原则,而SvM落实了结构风险最小化原则。前者寻求最小化误分类错误或与训练数据的正确解决方案的偏离程度,而后者寻求最小化一个上界泛化误差。此外,SVM的解决方案可能是全局最优的,而其他神经网络模式可能趋向落入局部最优的解决方案。因此,SVM不可能发生过拟合uJ。Kim(2O03)提出了一种SVM方法来预测股票价格的方向。在Ki丌1(2003)中l1个技术指标被用做输入量,最好的预测率达到了59%。为了对付这一挑战,我们尝试用一种合适的特征选择方法从23个常用指标中选择最相关的技术指标,然后将选择的技术指标转化成SVM分类器来预测两地未来的股票趋势。此外,提出了一种新的投票法,该方法将不同的分类算法与由每个分类器的Wrapper方法选择的特征集相结合。普通的投票法间的不同叫做堆叠,笔者提出的投票法就是普通的堆叠方案仅结合几种不同的分类器来达成共识,在该方法中,进一步用Wrapper特征选择算法来为投票法中采用的每一个指定分类找到最好的特征集[2~5]。股票预测的方案22方法的研究(1)Filter特征选择方法在许多实际情况下,有太多与股票趋势分类相关的特征了。从机器学习领域的角度,它们当中有些是不相关的,有些是多余的。人所共知包含不相关的和多余的信息可能引起一些机器学习算法的不正确的结果-6J。特征子集选择能被看作通过特征子集空间的一种搜索。在文献中有很多特征选择方法提出来,如:(1)一统计:这种方法通过计算与类相关的一统计值来测量特征的重要性。cFS:一~/七—十走(一:;1)f,这里,CFS是含有k个特征值的一特征子集的分数,,是类相关的平均特征(厂∈s),_fr是特征相关的平均特征。一般的filter算法和CFS间的区别在于当一般的过滤器为每一个特征独立地提供分数时,CFS给出特征子集的启发式“优点”,并报道它找到的最好的子集。(2)Wrapper方法加投票机技术2.1Wmp~r特征选择算法Wrapper方法寻找适于特别算法的最优特征子集,而Filter方法尝试测量来自数据集的特征值。Wrapper方法的概念列在图1中,在Wrapper方法中,特征子集选择由像一个黑箱的归纳算法来进行。特征子集选择算法用归纳算法自身作为评估函数的一部分来寻找一个好的子集,感应分类器的准确性由准确评估技术来估计,分类算法自身用来决定属性子集。因为Wrapper方法在消除特征值时优化分类算法的评估测量,它大多导致比1部分描述的所谓的Filter方法更大些的准确性。(2)信息增益:这种方法通过测量与类相关的信息增益来测量特征的重要性。(3)对称不确定性:这种方法通过测量与类相关的对称不确定性来测量特征的重要性。(4)Relie:这种算法是一种对特征互动敏感的特征加权算法。ReliefF的关键思想是根据它们的值在不同类的例子中区别如何及它们聚类同一类的例子如何来类比特征值。为此,ReliefF不断地从数据中随机地选择单一的例子,然后找到同类的最近的实例及属于不同类的最近的实例。这些例子的特征值被用来更新每一特征的分数。(5)CFS(Correlationbasedfeatureselection):CFS通过考虑每个特征的个体预测能力及它们中的随机程度来评估特征子集:图lWrapper方法(3)投票机技术投票是人所共知的结合选民的不同意见达成共识的聚集程序,在投票方法的最简单的形式中,每一个数据条目被分给很多票。因为不同的分类算法有各自的优缺点,因此尝试结合SVM,K最近邻,BP神经网络决策树和Logistic回归形成投票法来预测每天的股票价格指数的变化方向L7J。同时,为不同的分类算法采用由Wra~er方法选择的不同的特征值,因为为不同的算法用同一特征集可能是不合适的J。(4)SVM支持向量机SVM的基本思想是通过内积函数定义的非线性变换将输入空间变换到一个更高维空间,SVM在这个更高维的空间中找一个线性的超平面,这个超平面在这个空间中具有最大的分类间隔。它的指导原则是同时优化经验风险和模型复杂度,在解决有限样本学习股票预测的方案32Wrapper方法加投票机技术Wrapper方法寻找适于特别算法的最优特征子集,而Filter方法尝试测量来自数据集的特征值。Wrapper方法的概念列在图1中,在Wrapper方法中,特征子集选择由像一个黑箱的归纳算法来进行。特征子集选择算法用归纳算法自身作为评估函数的一部分来寻找一个好的子集,感应分类器的准确性由准确评估技术来估计,分类算法自身用来决定属性子集。因为Wrapper方法在消除特征值时优化分类算法的评估测量,它大多导致比1部分描述的所谓的Filter方法更大些的准确性。3实验结果首先比较Wrapper方法和其他的Filter特征选择算法,包括一统计,信息增益,Re】je,对称不确定性和CFS来评估特征选择算法。采用的预测方法是SVM。接下来,为了评估所提出的投票法,比较了投票法与每个单一的分类算法,包括SVM,KNN,BP,C4.5I)T和logistic回归。Wrapper方法被用来决定每个单个分类器的特征集。表l~表3显示了实验结果。股票预测的方案44总结文中表明在许多特征选择算法,如Wrapper,2统计,信息增益,ReliefF,对称不确定和CFS中,Wrap—per方法能像期望的那样从特征集中找到最相关的特征。实验结果表明投票法加Wrapper方法的准确性达到了80.28%的准确预测率。同时,实验结果也表明当不同的分类器组合成投票方案时表现更好。在以后的工作中,将尝试不同的分类器组合,如加权投票制,及找到除通用的技术指标外的其他有用的特征,以在股票市场趋势预测应用中达到更好的表现。参考文献:[1]HastieT,TibshiraniR,FriedmanJ.统计学习基础——数据挖掘、推理与预测[M].范明,译.北京:电子工业出版社,2004.[2]CristianiniN,Shawe—TaylorJ.支持向量机导论[M].北京:电子工业出版社,2004.[3]李蓉,叶世伟,叶忠植.SVM—KNN分类器——一种提高SVM分类精度的新方法[J】.电子学报,2002,30(5):745—753.[4]黄超.基于特征分析的金融时间序列挖掘若干关键问题研究[D].上海:复旦大学,2005.[5]邓乃扬,田英杰.数据挖掘中的新方法——支持向量机[M].北京:科学出版社,2004.

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功