数据挖掘在股票投资中的应用摘要:研究股票价格预测,由于股票价格具有非线性、随机性等变化规律,同时股票市场与国内外经济政治变化有关,因此通过简单的单个模型分析是很难准确有效的对股票价格进行预测,更准确的估价预测需要分层进行各类模型分析,本文运用spssclementine系统通过ARIMA法对股票价格进行整体的预测即股指预测,接着利用神经网络对乐视股票价格进行涨跌预测。摘要:ARIMA;神经网络;乐视股票一、背景及意义进行股票投资是为了获得更大的收益,然而由于股票市场具有较大的动态特性,股票投资的收益与风险往往是成正比的,投资收益越高,存在的风险则越大。有效地进行股票价格的预测,最大程度规避股票风险,增加投资收益,是股票投资者最关注的热点问题。随着市场经济的不断发展和中国股市的规范化、正规化,股票投资不断兴起,股票市场在金融投资领域占有越来越重要的地位,成为不可缺少的组成部分。股票价格的变化直接反映出股票市场的状态,如果能够很好的预测股票价格的走势,将不但对我们日常生活产生巨大影响,而且还会对国家的经济发展提供有价值的参考。所谓对股票进行预测,主要是在研究股票指数过去的信息后,找到适合其数据特点的科学方法对其预测,进而得到股市未来价格。但是影响股票价格的因素有很多,如政策、经济状况、股票投资者心理因素等,并且这些因素相互交错,彼此存在约束,仅应用线性分析会含有误差。因此,如何较为准确的预测股票短期内发展趋势以及长期内的大体走向已经成为当今较为关注的热点之一。股市具有高收益与高风险并存的特性,如何最大程度的获得高收益,规避高风险成为人们热切关心的问题。因此股市的建模预测研宄对金融建设及其经济的发展具有极其重要的意义。在现实的经济活动过程中,股价序列的变化呈现出随机性和时变性等特性。所以如何把握股价变动的规律,一直是当今社会经济研宄中的一个极其重要的问题。由于股票价格序列可以看做是含有白噪声的时间序列,所以可以通过建立估价序列的适应或最有统计模型对股价的变化作出分析与预测。二、国内研究现状在证券领域,早在1993年Agrawal就提出了通过客户的交易数据挖掘其中的项集间的关联规则的方案,随后吸引了诸多相关领域的研究人员对如何挖掘关联规则进行研究,通过引入随机采样、并行等方法对原有的算法进行优化,关联规则挖掘也得到推广。在其基础上,徐晓峰提出了针对证券交易中单交易项数据挖掘的频繁模式链表关联规则挖掘方法,可以有效的提高客户的个性化服务质量。董泽坤则针对关联规则的挖掘算法,提出了ES-Apriori算法,对关联规则分析过程中的数据库扫描次数进行了简化。周昌乐基于BP神经网络容易陷入局部最小解和网络只有一个隐含层的缺陷,提出一种新的部分神经进化网络,增加了网络的隐层数,将预测效果提升了很多。对于非线性时间序列的研究是一个难点,王上飞在充分学习滑动窗口技术的基础上,将其与RBF神经网络联系起来对国际商业机器公司(IBM)公司股票进行预测,最终得到的股票数据走势基本相同,曲线拟合效果很好。针对股价数据非平稳、非线性的特点,崔建福,李兴绪分别建立GARCH模型与BP网络模型对比分析两个模型的预测效果。得到结论:对于波动幅度大的时间序列,神经网络以其较强的泛化能力,使得从非线性角度建模效果优于非平稳角度建模,但BP网络也存在训练时间长、易陷入局部极小值的问题。三、数据挖掘(一)数据挖掘的概念、社会需求数据挖掘概念最早是由UsamaFayaad1995年加拿大蒙特利尔的第一届知识发现和数据挖掘国际会议上提出的,它的提出是与计算机科学、人工智能相关的机器学习等发展分不开的,数据挖掘一般是指在数据库中,利用各种分析方法与技术,将过去所累积的大量繁杂的历史数据中,进行分析、归纳与整合等工作,以萃取出有用的信息,找出有意义且用户有兴趣的模式,提供企业管理阶层在进行决策时的参考依据。随着计算机技术,特别是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,必将导致“数据包扎但知识贫乏”的现象。例如,股票经纪人如何从日积月累的大量股票行情变化的历史记录中发现其变化规律,预测未来趋势,从而决定未来投资方向;大型卖场的决策人员怎样才能根据过去几年的销售记录来判断分析顾客的消费习惯和行为,及时变换营销策略?金融领域的经纪人需要从顾客的消费习惯中判断正常消费,减少金融诈骗的发生,等等。数据挖掘能为决策者提供重要的有价值的信息或知识,产生不可估量的效益。目前,数剧挖掘产品尚不常熟,但市场份额却日益扩大。其原因就是越来越多的大中型企业开始利用数据挖掘工具来分析公司的数据,为决策层做出辅助决策,以便于在市场竞争中领先,从而立于不败之地。(二)数据挖掘过程数据挖掘的过程大致分为:问题定义、数据收集与预处理、数据挖掘实施,以及挖掘结果的及时与评估。(1)问题定义数据挖掘是为了从大量数据中发现游泳的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也最重要的一个阶段。在这个过程中,必须明确数据挖掘任务的具体要求,同时确定数据挖掘所需要采用的具体方法。(2)数据收集与预处理这个过程主要包括:数据选择、数据预处理和数据转换。数据选择的目的就是确定数据挖掘任务所涉及的操作数据对象(目标数据),也就是根据数据挖掘任务的具体需求,从相关数据源中抽取出于挖掘任务相关的数据集。数据预处理通常包括消除噪音、遗漏数据处理、消除重复数据、数据类型转换等处理。数据转换的主要目的就是消减数据集合的特征维数(简称降维),即从初始特征中筛选出真正与挖掘任务相关的特征,以便有效提高数据挖掘效率。(3)数据挖掘实施根据挖掘任务定义及已有的方法(分类、聚类、关联等)选择数据挖掘实施算法。其间主要考虑:数据特定和结果知识描述方式。(4)结果解释与评估实施数据挖掘所获得的挖掘结果,需要进行评估分析,以便有效发现有意义的知识模式。因为数据挖掘所获得的初始结果中可能存在冗余或无意义的模式,也可能所获得的模式不满足挖掘任务的需要,这时就需要退回到前面的挖掘阶段,重新选择数据、采用新的数据变换方法、设定新的参数值,甚至换一种数据挖掘算法等。此外还需要对所发现的模式进行可视化,表示将挖掘结果转换为用花移动的另一种表示方法。数据挖掘的实施,仅仅是整个数据挖掘过程中的一个步骤。影响数据挖掘质量的两个因素分别是:所采用数据挖掘方法的有效性;用于数据挖掘的数据质量和数据规模。如果选的数据集合不合适,或进行了不恰当的转换,就不能获得好的挖掘结果。三、时间序列模型与神经网络(一)时间序列模型1、时间序列时间序列,也叫时间数列、历史复数或动态数列。它是将某种统计指标的数值,按时间先后顺序排到所形成的数列。时间序列预测法就是通过编制和分析时间序列,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的水平。其内容包括:收集与整理某种社会现象的历史资料;对这些资料进行检查鉴别,排成数列;分析时间数列,从中寻找该社会现象随时间变化而变化的规律,得出一定的模式;以此模式去预测该社会现象将来的情况。2、时间序列预测法的步骤:第一步:收集历史资料,加以整理,编成时间序列,并根据时间序列绘成统计图。时间序列分析通常是把各种可能发生作用的因素进行分类,传统的分类方法是按各种因素的特点或影响效果分为四大类:(1)长期趋势;(2)季节变动;(3)循环变动;(4)不规则变动。第二步:分析时间序列。时间序列中的每一时期的数值都是由许许多多不同的因素同时发生作用后的综合结果。第三步:求时间序列的长期趋势(T)季节变动(s)和不规则变动(I)的值,并选定近似的数学模式来代表它们。对于数学模式中的诸未知参数,使用合适的技术方法求出其值。第四步:利用时间序列资料求出长期趋势、季节变动和不规则变动的数学模型后,就可以利用它来预测未来的长期趋势值T和季节变动值s,在可能的情况下预测不规则变动值I。然后用以下模式计算出未来的时间序列的预测值Y:加法模式T+S+I=Y乘法模式T×S×I=Y如果不规则变动的预测值难以求得,就只求长期趋势和季节变动的预测值,以两者相乘之积或相加之和为时间序列的预测值。如果经济现象本身没有季节变动或不需预测分季分月的资料,则长期趋势的预测值就是时间序列的预测值,即T=Y。但要注意这个预测值只反映现象未来的发展趋势,即使很准确的趋势线在按时间顺序的观察方面所起的作用,本质上也只是一个平均数的作用,实际值将围绕着它上下波动。(二)神经网络神经网络是一门活跃的边缘性交叉学科,是在人脑组织结构和运行机制的认识理解基础之上模拟其智能行为的一种工程系统。神经网络既是高度非线性动力学系统,又是自适应组织系统,可用来描述认知、决策及控制的职能行为,其中心问题是对智能的认知和模拟。神经网络理论是巨量信息并性处理和大规模并行计算的基础。1、人工神经网络模型人工神经网络是大量简单元件广泛相连接而成的复杂网络系统,它是现代神经科学成果的基础下提出的,反映了人脑功能的若干基本特征,但并非神经系统的逼真描写,而只是一种抽象的数学模型。人工神经网络其实质是一门非线性科学,它具有并行处理、容错性、自学习功能,有别于传统方法,己在模式识别、自动化控制等领域取得了惊人的成就。在国外,人工神经网络已经成为了投资公司及基金经理的强力工具与高效助手。国内起步虽晚,但对于基于神经网络的股票预测系统也有一定的研究。人工神经网络的应用按照面向的预测对象可分为这三类。第一类为通过将股票分类为强势股与弱势股来预测股票表现为优秀股,一般股,较差股。这类人工神经网络应用做出的决策只提供能否盈利,并不提供期望的价格及期望的盈利。第二类对股票价格进行预测,这些系统基于之前的股价及相关的金融系数尝试预测未来一天或几天的价格。第三类重要的人工神经网络在股票市场中的应用是对股票表现建立模型及预测。这类应用不仅预测股票的未来价格,也估算重要影响因素,可能影响结果的变量的敏感度分析,以及其他相关性分析。2、人工神经元模型神经网络由大量的节点构成,这些节点也称为神经元或单元。节点之间相互连接,并且具有不同的权重。每一个节点都具有其特点的输出函数,称之为激活函数。其原理可以表示如图所示。图1人工神经元模型其中𝑋1−𝑋𝑛为输入信号,𝑊𝑖𝑗为神经元i及j之间的连接权重,θ为阀值。所以神经元i的输出和输入一般可以表示为:𝑦𝑖=𝑓(∑𝑊𝑖𝑗𝑋𝑗−𝜃𝑛𝑗=1)四、实证分析(一)神经网络模型预测1、数据来源数据来源于Wind金融终端,研究对象是上证指数从2015年7月24日至2016年5月31日以来的收盘价序列数据。其中变量date是日期,变量price是上证指数的收盘价的序列数据。选择输入变量与预测变量,输入变量包括当日最高价,当日最低价,当日成交量,当日成交额,5日移动均线序列数据,7日移动均线序列数据,,输出变量为当日收盘价。2、变量的重要性图2由图可以看出当日最低价对收盘价的影响最大,其次是当日最高价。5日移动均线序列数据与成交量对收盘价的影响差不多。7日移动均线序列数据对收盘价的影响是最小的。3、预测图3由预测与实际价格的拟合图可以看出预测的估价走势与实际估价走势大致相同,但预测的偏高。(二)时间序列的预测1、数据来源数据来源于Wind金融终端,研究对象是上证指数从2015年7月24日至2016年5月31日以来的收盘价序列数据。其中变量date是日期,变量price是上证指数的收盘价的序列数据。2、实证分析(1)序列的平稳性图4收盘价的趋势图由图可以看出收盘价是非平稳的且有一定的下降趋势,没有明显的季节性。(2)建立模型表1图5表1是建立的时间序列模型,由P值均小于0.05得出模型成立,图5是收盘价的残差自相关函数图,可以看出残差平稳。(3)预测图6图6