基于神经网络的股票预测系统研究

airfox009
1 ℃
2020-03-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基金项目：教育部留学回国人员科研基金（编号：2002498）人工智能及识别技术文献标识码：A中图分类号：TP311基于神经网络的股票预测系统研究孟慧慧叶德谦刘娜（青岛理工大学中德信息技术研究所，青岛266033）摘要本文设计了一种基于粗集理论和神经网络的股票操作支持系统。系统根据对股票历史数据分析，预测股价未来一段时间内的走势，进而对投资者进行股票操作支持。指导投资者在投入资金一定的情况下，如何操作才会使总收益为最大。本系统首先利用粗集理论对预测数据进行属性约简等处理，然后把处理过的数据作为神经网络的输入。这样不仅减小了神经网络的规模,同时通过消除对象冗余减少了网络的训练和学习负担。与采用单技术的预测系统相比，本决策支持系统的可信度也有了较大的提高。关键词多层前馈神经网络粗集理论属性约简遗传算法TheResearchofStockForecastingSystemwhichisBasedonNeuralNetworksMengHuihui,YeDeqian,LiuNa(ICDZ,QingdaoTechnologicalUniversity,Qingdao266033)AbstractThepaperisastudytoastockoperationsupportsystemwhichisbasedonneuralnetworksandroughsettheory.Accordingtotheanalysistothehistorydataofthestock,thesystemcanforecastthestock’strendinfutureandguidesthestockholdersoperateonthestock.Itcanalsomakethestockholdersknowhowtooperatetomaketheprofitmostundertheconditionthattheassetsisfixed.First,thesystemusesroughsettheorytodealwiththedatatobeforecastedwithreductionofattributes.Second,itusesthedisposeddataastheinputsofneuralnetworks.Itreducesthescaleoftheneuralnetworksaswellasthetrainingandstudyingloadofneuralnetworkswitheliminatingobjectredundancy.Comparedwiththesystemswhichadoptthesingletechnique,thesystemalsomakesthedecisionsupportconfidenceenhancedgreatly.Keywordsmulti-layerfeed-forwardneuralnetworks,roughsettheory,reductionofattributes,geneticalgorithm针对股票市场表现出的不同特点，人们提出了几个常用的预测方法，即证券投资分析法，时间序列分析法，神经网络预测法和数据挖掘法。相比之下，神经网络作为一种大规模并行分布处理的非线性系统，具有高度的非线性运算能力和良好的自学习能力，具有任意函数逼近能力，在预测领域得到了广泛的应用。但是由于技术本身限制，其决策可信度还不是很高[1]。为此本文提出了一种两者相结合的方法,通过粗集进行属性约简，去噪和消除冗余对象,减小了神经网络规模和训练学习及测试的负担,提高了网络的预测准确率。1粗集理论1.1粗集理论的基本概念粗集理论是波兰Z.Pawlak教授提出的一种数据分析理论。该理论为发现重要数据结构和复杂对象的分类提供了强有力的基础。目前已经在数据挖掘、模式识别、人工智能和分类领域等有很广泛的应用。它的核心内容之一就是属性约简。一个信息系统是一个四元组：fVRUS,,,，其中，xxxnU,,,21是一组对象的有限集合,称论域；R是属性的有限集合，它又可分为不相交的两个集合：条件属性集C和决策属性集D，即DCR,且DC；V是一组属性值的集合，VUaaV，Va是基金项目：教育部留学回国人员科研基金（编号：2002498）属性a的值域；f为信息函数，有Vaaxf,，f指定U中每一个对象的属性值。把具有条件属性和决策属性的知识表达系统称为决策表。若RB且B，则B中所有等价关系的交集B也是一个等价关系，称为B上的不可区分关系，记为BIND，且有)(,,,ybxbBbUUyxyxBIND,在给定的知识表达系统fVRUS,,,，对UX和BIND，X的上近似集XB和下近似集XB分别定义为：XUxxXBxB:(1)IXUxxXBxB:(2)如果令为一簇等价关系，R，若RINDIND，则称R为中可省的（或可约简的）属性，否则称R为中不可省的（或不可约简的）属性。如果对R都是不可省的，称集合是独立的，否则称集合是相关的。若是独立的，且INDIND则称是的一个简化。中所有不可省属性的集合称为的核，记为core。从上边的定义可以看出,所谓属性约简，就是在保持信息系统分类能力不变的条件下，删除其中的冗余属性。一般地讲，一个信息系统的属性约简不是唯一的。人们期望找到具有最少属性的约简，即最小约简。所有约简的交集称为粗糙集的核。由此知道核这个概念的用处有两方面：首先它可以作为所有约简的计算基础，因为核包含在所有的约简之中，并且计算可以直接进行；其次可解释为在属性约简时它是不能消去的属性特征集合[2]。1.2粗集理论在股票预测过程中的应用[3]从知识论的角度而言,粗集模拟人类的逻辑思维,神经网络类似人类的形象思维,两者的结合就是人类定性和定量、清晰和隐含、串行和并行相互交叉的常规思维机理的体现。为此粗集与神经网络的结合,已引起了许多学者的关注。(1)Jelonek等和陈遵德提出的利用粗集进行属性优选,确定属性最少的网络输入,减少网络规模,提高训练速度。其缺点是粗集对数据集的约简仅仅是属性约简,未涉及到样本中对象的约简。神经网络训练样本中的对象冗余和噪声极大影响了其性能。(2)Hashemi等研究了粗集作为神经网络预处理的二维约简方法,即同时对决策表的水平和垂直方向约简。水平方向的约简就是方法(1)中传统的属性约简;垂直方向的约简就是消除样本中的冗余对象。所谓冗余对象是指条件属性和决策属性都相同的样本数据,它对于预测的精度没有影响却增加了训练学习的负担。由于在方法(1)基础上进一步减少了训练样本的数据,不仅网络规模减小,训练速度较之方法(1)得到了进一步的提高。其缺点是没有考虑不一致对象对网络性能的影响。(3)Ahn等同样采用二维约简方法在决策表的水平和垂直方向进行约简,但与(2)不同的是垂直方向的约简是指消除样本中的不一致对象(噪声),而非冗余对象,预测精度由此得到较大提高。其缺点是没有消除样本中的冗余对象,增加了训练学习的负担。为此,本文考虑一种更为合理的二维约简方法,针对上述几种模型取长补短。具体做法是基金项目：教育部留学回国人员科研基金（编号：2002498）同时利用粗集进行属性约简、消除样本中噪声(不一致对象)和消除样本中冗余对象,之后把处理的样本数据输入神经网络进行训练。通过上述处理后较之于上述几种方法其优点不言而喻,不仅减小了网络的规模,同时通过消除对象冗余减少了网络的训练和学习负担,另外通过消除噪声提高了神经网络预测的精度。2利用神经网络预测股票神经网络是仿效生物处理模式来获得智能信息处理功能的理论。在众多的神经网络结构中，多层前馈神经网络（也称为BP网络）是目前应用最广泛也是最成熟的一种网络结构，本文采用这种结构。2.1遗传算法与BP网络的结合遗传算法是一种全局优化算法，它借用了生物遗传学的观点，通过自然选择、遗传、变异等作用机制，实现各个体适应性的提高。传统的BP算法解决了许多实际问题，但也存在一些缺陷。将BP网络与遗传算法结合既弥补了遗传算法局部搜索能力不足的问题，又克服了其执行过程中容易过早收敛的问题。同时，前馈神经网络收敛速度过慢的问题也得到了很好的改善。前向网络的学习过程实质上是在权空间中搜索最优权值集合的过程。由于含一个隐层的三层前向网络能够以任意精度逼近有界非线性函数。因此，本文采用三层前向网络[4]。隐层及输出层的激活函数均取为xexg11)(，不考虑神经元的阈值，并将网络权值限制在[-1,1]。其具体实现方法如下：(1)编码方案采用实数编码遗传算法。实数编码方案取消了编码、解码的过程，提高了算法的速度和精度，加强了空间的搜索能力。采用隐层节点个数及网络权值混合编码的方法，将同一隐层节点所连接的权值排在一起，则基因串长度为1)(hoinnnl，其中包括隐层节点个数和网络连接权[5]。(2)初始化种群结合隐层节点数的经验选择公式：lnnnoih。其中，l为1~10之间的一个整数。种群中一部分个体的权值用零均值的正态随机数，而另一部分个体的权值则用权值取值范围内的随机数，保证初始种群个体权值部分在权值取值范围内的多样性和均匀分布性。隐层节点数不同，导致种群中基因串长度不同，这为遗传操作带来了困难。为此，我们以最长基因串长度作为种群个体的统一长度，便于进行遗传操作。(3)适应度函数的设计在神经网络优化设计过程中，期望在保证样本逼近精度的前提下网络结构尽可能简单。为此，构造了网络性能评价指标hbnrEE。性能指标越大，网络性能越差，个体的适应能力也越差，即适应度越小，因此采用如下适应度函数表达式：hbnrEf1(3)式中：r是一个控制参数，称为网络复杂性系数。将由基因串表示的每个个体反编码为相应的三层前向网络，用所有训练样本对其进行前向计算，获得每个样本对应的输出，再根据样本的期望输出，计算出整个样本集的均方误差，根据式(3)确定出个体适应度。(4)遗传算子选择算子采用轮盘赌选择策略从当前代选择较优个体。每一代运行过程中个体被选中的概率与其在种群中的相对适应度成正比。交叉算子采用自适应凸交叉算子。X、Y为父代染色体，则两个子代染色体为：XYX)1('(4)基金项目：教育部留学回国人员科研基金（编号：2002498）YXY)1('(5)式中，是一个由进化代数决定的变量，每一代令tt99.01。变异算子采用动态变异算子进行变异。若父代染色体为X，则子代染色体为：)1,('XtXX或)1,('XtXX(6)),(yt随代数t增加而趋于0，其形式如式(7)。bTtryyt)1(),((7)式中，y是x的最大变化范围，r是0到1之间的值，T为最大代数，b为参数。函数),(yt返回[0,y]之间的一个值，并且),(yt随t增加而趋于0(t是代数)。选择函数采用交叉和变异并行处理的方式，在交叉子代、变异子代和父代较优个体库中选出较优个体形成新的子代种群。这样，既充分保留了父代个体好的基因模式，保持了交叉寻优的速度，又降低了变异算子的破坏力，同时保证种群多样性，提高GA的寻优性能[6]。2.2主要功能图1参数设置为了方便起见，取Seetherrent为本系统的名称。它由两个单词“Seethe”与“Torrent”合并而成，表示股市的变化无常与资金的大量运作。(1)数据读取与管理由于本系统只针对单一的股票，因此采取网上读取数据的形式。程序将自动连接站点并分析网页源代码，提取历史或实时的股票价格。(2)参数设置与训练参数的设置是网络训练的必要步骤也是最重要的一步，本系统提供了各种参数的设置及算法的选取功能，如图1所示。3.结论本文首先介绍了粗集理论的一些基本概念以及在股票预测前期如何利用粗集理论对数据进行处理，