1基于数据挖掘技术的股票预警摘要:数据挖掘技术是近几年内迅速发展起来一门交叉学科,涉及数据库、统计学、人工智能和机器学习等多个领域。计算机普及应用产生了大量数据,数据挖掘就是利用上述学科技术进行大量数据处理。数据挖掘应用领域非常广泛,从电子商务到生物科学,从金融领域到商业应用,数据挖掘技术对未来社会各个领域都起到越来越重要作用。本文首先阐述了以往分析股票价格分析方法以及数据挖掘技术在证券市场中应用状况,分析了时间序列模型和神经网络模型如何对股票价格进行预警,利用采集最新十只股票数据,然后借助SQLServer2008操作平台,应用数据挖掘技术,对股票数据进行处理,建立预警模型。通过时间序列、神经网络模型对股票价格进行建模,利用前1日股票开盘价、收盘价、成交量及当日开盘价等诸多变量对今日股票收盘价进行预警。之后,通过比较各只股票预警值与真实值之间差距以及相对误差率高低,说明不同预警方法之间优劣,对证券市场中股票价格预警具有较为深远意义。关键词:数据挖掘股票价格时间序列神经网络预警BasedondataminingtechnologyofsharepricepredicteAbstract:Dataminingtechnologyisdevelopedrapidlyinrecentyears,involvingacrosssubjectDatabase,Statistics,ArtificialintelligenceandMachinelearning,andotherfields.Thepopularizationofcomputerapplicationproducedalotofdata,dataminingistousethetechnologyofthedisciplineofdataprocessing.Dataminingapplicationfieldisverywide,frome-commercetobiologicalsciences,fromthefinancialsectorintocommercialapplication,dataminingtechnologytothefuturesocietytoeveryfieldofplayanincreasinglyimportantrole.Thisarticleelaboratestheanalysisofpreviousanalysismethodandstockpricedataminingtechnologyinthesecuritiesmarket,analyzestheapplicationconditionsoftimeseriesmodelandneuralnetworkmodelforpredictionofstockprice,theprincipleofusingthelatesttenstockdatacollectedbySQLServer2008,thenoperationplatform,applicationofstockdataminingtechnology,dataprocessing,establishforecastingmodel.Throughthetimeseries,neuralnetworkmodelforthepriceofastockismodeled,withtheformer1opening,closingprice,stockvolumeandthesamedayopeningprice,andmanyothervariablesfortoday'sclosingpriceofstocksare2predicted.Later,bycomparingthestockandtherealvaluepredictedthegapbetweentheheight,andrelativeerrorratefordifferentbetweentheforecastmethod,andthecombinationofinferiorityinthesecuritiesmarketanalysisandforecastofstockpriceshavemoremeaningful.KeyWords:DataminingSharepriceTimeseriesNeuralnetworkPrediction1绪论1.1论文背景金融市场就是以金融资产为交易工具形成供求和交易机制总和,简言之即是金融商品交易场所。随着经济市场化程度提高,市场运作体制机制不断完善,我国股票市场发展也会逐渐步入理性运行区间,非理性震荡将大幅减少或消失。2008年股市暴跌、投资者信心受挫,既有股权全流通因素,也有国内经济形势波动以及国际金融动荡因素,但其中也有我国特殊国情因素,毕竟,证券市场对于我们这样一个新兴市场经济体而言,仍然算不上底蕴深厚,我们在股权文化上缺失不是几年可以弥补。1.2论文研究目与意义作为市场经济重要特征股票市场,从诞生那天起就牵挂着数以千万投资者心。高风险高回报是股票市场特征,因此投资者们时刻在关心股市、分析股市、试图预警股市发展趋势。一百多年来,一些分析方法随着股市产生和发展逐步完善起来,如:道氏分析法、K线图分析法、柱状图分析法、点数图分析法、移动平均法,还有形态分析法、趋势分析法、角度分析法、神秘级数与黄金分割比螺旋历法、四度空间法等,随着计算机技术在证券分析领域普及与应用,不断推出新指标分析法。然而,严格讲这些方法仅仅是分析手段,还不能直接预警股市动态。此外,人们也试图用回归分析等统计手段建立模型来预警股市。然而,利用传统预警技术进行股市预警有一个最根本困难,那就是待处理数据量非常巨大。3由于股市行情受到政治、经济等多方面因素影响,其内部规律非常复杂,某些变化规律周期可能是一年甚至是几年,因此需要通过对大量数据分析才能得到,而传统预警技术预警效果并不理想。近十年间,数据挖掘技术研究工作取得了很大进展,各种数据挖掘技术应用极大地推动了人们分析、处理大量数据信息能力,并为人们带来了很好经济效益,因此可以预见数据挖掘技术在股市预警中将会有很大潜力。2数据挖掘分析2.1数据挖掘概念、社会需求数据挖掘概念最早是由UsamaFayaad1995年加拿大蒙特利尔第一届知识发现和数据挖掘国际会议上提出,它提出是与计算机科学、人工智能相关机器学习等发展分不开,数据挖掘一般是指在数据库中,利用各种分析方法与技术,将过去所累积大量繁杂历史数据中,进行分析、归纳与整合等工作,以萃取出有用信息,找出有意义且用户有兴趣模式,提供企业管理阶层在进行决策时参考依据。随着计算机技术,特别是数据库技术快速发展和广泛应用,各行各业积累数据量越来越大。激增数据背后隐藏着许多重要信息,人们希望能够对其进行更高层次分析,以便更好地利用这些数据。目前数据库系统可以高效地实现数据录入、查询、统计等功能,但无法发现数据中存在关系和规则,无法根据现有数据预警未来发展趋势。缺乏挖掘数据背后隐藏知识手段,必将导致“数据包扎但知识贫乏”现象。例如,股票经纪人如何从日积月累大量股票行情变化历史记录中发现其变化规律,预警未来趋势,从而决定未来投资方向;大型卖场决策人员怎样才能根据过去几年销售记录来判断分析顾客消费习惯和行为,及时变换营销策略?金融领域经纪人需要从顾客消费习惯中判断正常消费,减少金融诈骗发生,等等。数据挖掘能为决策者提供重要有价值信息或知识,产生不可估量效益。目前,数剧挖掘产品尚不常熟,但市场份额却日益扩大。其原因就是越来越多大中型企业开始利用数据挖掘工具来分析公司数据,为决策层做出辅助决策,以便于在市场竞争中领先,从而立于不败之地。42.2数据挖掘过程数据挖掘过程大致分为:问题定义、数据收集与预处理、数据挖掘实施,以及挖掘结果及时与评估。(1)问题定义数据挖掘是为了从大量数据中发现游泳令人感兴趣信息,因此发现何种知识就成为整个过程中第一个也最重要一个阶段。在这个过程中,必须明确数据挖掘任务具体要求,同时确定数据挖掘所需要采用具体方法。(2)数据收集与预处理这个过程主要包括:数据选择、数据预处理和数据转换。数据选择目就是确定数据挖掘任务所涉及操作数据对象(目标数据),也就是根据数据挖掘任务具体需求,从相关数据源中抽取出于挖掘任务相关数据集。数据预处理通常包括消除噪音、遗漏数据处理、消除重复数据、数据类型转换等处理。数据转换主要目就是消减数据集合特征维数(简称降维),即从初始特征中筛选出真正与挖掘任务相关特征,以便有效提高数据挖掘效率。(3)数据挖掘实施根据挖掘任务定义及已有方法(分类、聚类、关联等)选择数据挖掘实施算法。其间主要考虑:数据特定和结果知识描述方式。(4)结果解释与评估实施数据挖掘所获得挖掘结果,需要进行评估分析,以便有效发现有意义知识模式。因为数据挖掘所获得初始结果中可能存在冗余或无意义模式,也可能所获得模式不满足挖掘任务需要,这时就需要退回到前面挖掘阶段,重新选择数据、采用新数据变换方法、设定新参数值,甚至换一种数据挖掘算法等。此外还需要对所发现模式进行可视化,表示将挖掘结果转换为用花移动另一种表示方法。数据挖掘实施,仅仅是整个数据挖掘过程中一个步骤。影响数据挖掘质量两个因素分别是:所采用数据挖掘方法有效性;用于数据挖掘数据质量和数据规模。如果选数据集合不合适,或进行了不恰当转换,就不能获得好挖掘结果。53时间序列预警模型与神经网络模型3.1时间序列预警模型时间序列,也叫时间数列、历史复数或动态数列。它是将某种统计指标数值,按时间先后顺序排到所形成数列。时间序列预警法就是通过编制和分析时间序列,根据时间序列所反映出来发展过程、方向和趋势,进行类推或延伸,借以预警下一段时间或以后若干年内可能达到水平。其内容包括:收集与整理某种社会现象历史资料;对这些资料进行检查鉴别,排成数列;分析时间数列,从中寻找该社会现象随时间变化而变化规律,得出一定模式;以此模式去预警该社会现象将来情况。时间序列预警法步骤:第一步:收集历史资料,加以整理,编成时间序列,并根据时间序列绘成统计图。时间序列分析通常是把各种可能发生作用因素进行分类,传统分类方法是按各种因素特点或影响效果分为四大类:(1)长期趋势;(2)季节变动;(3)循环变动;(4)不规则变动。第二步:分析时间序列。时间序列中每一时期数值都是由许许多多不同因素同时发生作用后综合结果。第三步:求时间序列长期趋势(T)季节变动(s)和不规则变动(I)值,并选定近似数学模式来代表它们。对于数学模式中诸未知参数,使用合适技术方法求出其值。第四步:利用时间序列资料求出长期趋势、季节变动和不规则变动数学模型后,就可以利用它来预警未来长期趋势值T和季节变动值s,在可能情况下预警不规则变动值I。然后用以下模式计算出未来时间序列预警值Y:加法模式T+S+I=Y乘法模式T×S×I=Y6如果不规则变动预警值难以求得,就只求长期趋势和季节变动预警值,以两者相乘之积或相加之和为时间序列预警值。如果经济现象本身没有季节变动或不需预警分季分月资料,则长期趋势预警值就是时间序列预警值,即T=Y。但要注意这个预警值只反映现象未来发展趋势,即使很准确趋势线在按时间顺序观察方面所起作用,本质上也只是一个平均数作用,实际值将围绕着它上下波动。3.2神经网络模型神经网络是一门活跃边缘性交叉学科,是在人脑组织结构和运行机制认识理解基础之上模拟其智能行为一种工程系统。神经网络既是高度非线性动力学系统,又是自适应组织系统,可用来描述认知、决策及控制职能行为,其中心问题是对智能认知和模拟。神经网络理论是巨量信息并性处理和大规模并行计算基础。3.2.1人工神经网络模型人工神经网络是大量简单元件广泛相连接而成复杂网络系统,它是现代神经科学成果基础下提出,反映了人脑功能若干基本特征,但并非神经系统逼真描写,而只是一种抽象数学模型。人工神经网络其实质是一门非线性科学,它具有并行处理、容错性、自学习功能,有别于传统方法,己在模式识别、自动化控制等