流数据挖掘技术在金融领域的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第1页/共8页流数据挖掘技术在金融领域的应用摘要:作为一种新的数据形态,流数据对数据挖掘提出了诸多挑战。学者们已提出大量处理流数据的挖掘算法。本文对这些算法进行了综述。首先介绍了国内外流数据挖掘技术发展情况,然后给出了流数据挖掘算法中常用的技术。最后,以当今流行的算法交易为例,分析了流数据挖掘技术在金融领域的应用。关键词:流数据;数据挖掘;关键技术;金融应用一、流数据挖掘概况流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。它具有数据实时到达;数据到达次序独立,不受应用系统所控制;数据规模宏大且不能预知其最大值;数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵等特点。由于流数据具有以上一系列特点,使得引入流数据上的数据挖掘技术显得非常重要且必要。近年来,流数据挖掘技术已发展成为现代数据库技术研究的一个重要方向,引起了众多科研学者的关注和进一步研究。在当前的金融领域,许多公司纷纷将流数据挖掘技术应用到金融领域的数据分析中,数据挖掘在金融领域的应用根据金融领域特点和业务领域分为算法交易、行情分析、客户价值分析、券商经营分析和风险分析等根据运用的数据挖掘模型不同分为时间序列分析、关联分析、聚类分析、偏差异常分析和进化遗传模拟等。其中,模型策略研究分析是金融领域数据挖掘的主要运用领域之一,也是当今流行的算法交易的基础,用数据挖掘的方法进行金融领域中模型策略研究分析,具有重要的理论意义和现实意义。二、国内外技术发展情况(一)国外技术现状目前流数据的研究主要可分为两个应用层面,对流数据的管理以及对流数据第2页/共8页的挖掘。流数据相关算法可以分为三大类:作为管理及挖掘基础的数据摘要生成算法;主要面向管理的流数据统计查询算法;以及流数据分类、高频项挖掘、聚类、变化等挖掘算法。Babcock等人完整地阐述了流数据的各种相关问题,之后的流数据相关文献基本围绕其展开。分类是数据挖掘研究中重要的研究方向,目前主要的分类方法有决策树分类、贝叶斯分类和基于规则的分类等。流数据上的分类与传统分类算法相比,它的难点在于:对数据只能扫描一次,因为数据是不断流入的,有限的内存空间使得不可能保存所有的数据,所以随着数据的不断流入,只能存储部分有用的信息来构造分类器;另一方面,数据的分布在很多情况下都会发生变化,所以构造出的分类器应具有自动调整性,即它应该能够自动检测数据分布的变化,从而自动调整以适应变化来保持较高的精确性。近年来研究者们提出了几种流数据上的分类方法,如FLOAR分类算法、VFDT和CVFDT分类算法、ensembleclassifiers分类算法等。聚类分析(clustering)同样是一种重要的数据挖掘方法。将物理或抽象的数据集合分成相似的对象类的过程称为聚类。簇是数据对象的集合,同一个簇中的对象彼此相似,而不同簇内的对象差别较大。传统的聚类算法往往需要多遍扫描数据集,因此不能直接应用到流数据上。研究者已提出一些流数据上的聚类算法,如LOCALSEARCH算法、STREAM算法、CLUSTREAM算法、CD-STREAM算法、HPStream算法等。流数据管理系统的建立主要集中在流数据管理系统及相关技术,如流数据连续查询,内存管理和系统调度,以及实现和发展。一些研究机构已进行了SDMS的研究,并建立了相应的流数据管理系统如斯坦福大学的流系统、AT&T实验室的Hancock系统、布朗大学和麻省理工学院的Aurora系统、俄勒冈州的研究机构和威斯康星大学麦迪逊分校互联网查询处理系统、伯克利的加利福尼亚大学的TelegraphCQ系统以及乔治亚大学的可维持触发器和视图的opencg系统等;流数据挖掘在线分析,包括多个流数据的挖掘和一个单一的流数据的挖掘,聚类,分类,频繁项集挖掘和可视化。学者取得了大量的流数据的挖掘算法和流数据挖掘系统的发展成果。如UIUC的MAIDS(MiningAlarmingIncidentsFromDataStreams)是一组查询,聚类,分类,挖掘频繁项,处理结果可视化五个功能为一第3页/共8页体的流数据挖掘系统。(二)国内技术现状目前,国内关于流数据挖掘方面的研究和应用尚在初始阶段,研究理论、算法和技术不多也不太成熟,应用也处于探索阶段,有学者已经提出了相关理论的具体应用前景,但应用成果还比较欠缺。总体看来,主要包括:金融业的传统的和电子商务中的交易行为分析、市场营销、客户关系管理和风险管理;信息检索和搜索引擎;生物信息学;智能交通运输工程;电信电话记录监测、电子邮件、电力、石油等行业数据库安全管理与监测、网络安全等领域的异常挖掘等方面。三、流数据挖掘难点及关键技术(一)流数据挖掘目前仍存在的自身问题和难点首先,由于流数据具有动态性,数据每时每刻应该都是变化的。从前一时刻抽取数据挖掘出来的模型可能并不能反映这一时刻的问题,在数据挖掘中也很难对这个趋势做应有的考虑和评价。其次,对不同的模型如何应用,应用产生的效果如何评价,是一个带有浓厚的主观色彩的问题。同样的数据,不同教育背景、工作背景的人利用其进行挖掘,结果可能会产生差异,甚至截然不同。这就涉及到最终可靠性的问题。再次,数据挖掘可能会带来诸如信息安全和侵犯隐私等问题。对于客户来讲,将他们的账户信息、交易信息、资产信息、协议信息作为数据挖掘的数据源来进行分析展示,无疑也是一种隐私的暴露。(二)金融领域中流数据挖掘算法应用涉及的关键技术1、概要数据结构在流数据处理系统中,由于数据量远大于可用内存,系统无法在内存中保存所有扫描过的数据,而流数据查询与挖掘经常会要求读取这些数据。为了避免代价昂贵的磁盘存取,流数据处理系统必须在内存维持一个概要数据结构,以保留扫描过的信息。第4页/共8页目前,主要的方法产生的数据流,包括抽样,柱状图(直方图),小波变换,Sketching,Loadshedding和哈希方法。其中,抽样方法,数据项在数据流中提取汇总数据结构在一定的概率。直方图根据发生数据的数据项的值或频率分为桶,对每桶压缩。小波对原始数据的小波变换方法,并会保留一些保存汇总的原始数据的小波参数。Sketching垂直采样的数据。加载负载脱落是太大,直接丢弃一些数据散列方法,通过一组哈希函数,大量的数据被映射到少量的桶中。2、滑动窗口技术使用滑动窗口的需求来自于算法和应用。在算法方面,滑动窗口减少了算法需要处理的数据量,并对挖掘变化的数据流提供支持。在应用方面,有些应用只对最近的数据感兴趣,要求算法对以当前时间为终点的某个滑动窗口内的数据进行处理。在滑动窗口上进行数据挖掘最大的困难在于过期数据的移除。随着数据的流入,滑动窗口中最早到达的数据将滑出窗口的范围,算法需要消除这些数据对滑动窗口上的目标计算所造成的影响。解决这个问题的最直接的做法是保存滑动窗口内的所有数据,当某个数据滑出窗口时,根据这个数据的值,将其从计算结果中消除。目前,多个采用滑动窗口模型的挖掘算法使用这种方法实现滑动窗口上的计算,如CVFDT。这种方法可以精确地对滑动窗口内的计算结果进行增量式地更新。但是,由于要保存窗口内的所有数据,对于其大小超过可用内存空间的滑动窗口,仍然需要进行磁盘存取。为减少滑动窗口内数据所占用的空间,另一种方法以降低滑动窗口上计算的精度为代价,使用小于滑动窗口内数据体积的空间,支持滑动窗口上计算的增量式更新。这种方法将数据流划分为小的固定长度的段(bucket,或basicwin2dow),对每个段,仅保存段内数据的概要信息,如StaS2tream。滑动窗口在这些段上滑动。当流入的数据积累成一段时,抽取这一段的概要信息,将其加入滑动窗口,并从滑动窗口中删除最早的段。这样,内存中就只需要保存滑动窗口中多个段的概要信息。此时,滑动窗口的增量式更新粒度由一个数据项增大为一个数据段。这种方法通常只支持大小为段大小的整数倍的滑动窗口上的计算。通过保存每个段的数据的离散傅立叶变换系数,能支持任意窗口大小内的数据流关联系数计算。第5页/共8页3、多窗口技术基于滑动窗口的方法一般都要求用户事先指定窗口大小,算法在运行过程中只能给出此滑动窗口上的计算结果。而在很多应用中,用户可能在线提出某个窗口上的挖掘请求,此窗口的大小没有事先确定,而且窗口的终点可能也不是当前时刻。为了支持这样的应用需求,学者们提出一种多窗口方法,支持用户的在线挖掘请求。多窗口技术在内存或磁盘中保存数据流上多个窗口内数据的概要信息。在有些算法中,每个窗口的范围都是从数据流起始点到窗口建立的时刻点,窗口中的数据存在重叠,如CluStream所使用的pyramidal时间框架。另一类多窗口技术将数据流划分为多个固定长度的段,每个段都形成一个窗口。当内存中的窗口数达到一定数目时,就将这多个窗口合并,形成概要层次更高的窗口。随着数据流的流入,概要层次不同的多个窗口形成一个层次结构。此时,每个窗口相当于对数据流上两个预定义的时间戳之间数据的一个快照。4、衰减因子除了滑动窗口技术,另一种可被用来消除历史数据对当前计算结果的影响的方法是使用衰减因子。在这种方法中,每个数据项都被赋予一个随时间不断减小的衰减因子,数据项的值与衰减因子相乘后再参与计算。因此,数据项对计算结果的影响随时间的推移逐渐减小。这种方法的实现很简单,但是,与滑动窗口技术相比,其计算结果的意义不是非常明确。在使用滑动窗口的算法中,用户明确地知道他是在对哪些数据进行处理。而在使用衰减因子的方法中,每项数据都只是部分地参与了计算,用户无法确定计算结果到底由哪些数据得到。5、近似技术由于数据流处理严格的时间与空间限制,确定且精确的流数据算法比较少见。对于大多数算法,只能以降低计算结果的精度为代价,换取算法时空复杂度的降低。理论上保证近似程度的算法是比较理想的近似算法。目前,有多种近似技术可用来降低算法的时空复杂度。例如,基于概要数据第6页/共8页结构的算法都是近似算法。这是因为在构建概要数据结构时,不可避免地存在着信息的损失,概要数据结构只能近似还原原有数据。基于多窗口技术和衰减因子的算法也是近似算法。除了使用这些通用的压缩技术,也可针对具体的挖掘任务,设计相应的近似算法。6、自适应技术由于数据流是动态变化的,处理数据流的算法必须能够根据数据分布的变化以及数据流流速的变化自动调节算法的处理策略。动态系统中的自适应技术根据系统的反馈自动调节系统参数。目前,在处理变化的数据流时,算法通常将分类器的分类精度作为反馈,在精度下降时重新建立分类模型。四、流数据挖掘技术在金融领域的应用算法交易是证券公司投资业务中的重要平台之一。证券公司实施算法交易的目标是减少对市场价格造成冲击,降低交易成本,帮助机构投资者快速增加交易量,以期获得更大的投资收益。要实现以上目标,可以借助数据挖掘等技术,充分利用市场行情、金融资讯等信息,发现潜在的,有用的规则和模式,建立金融模型,优化算法交易。模型策略是程序化交易的核心,直接决定了最后投资收益率。为寻找优秀的策略模型需要进行大量的模拟、检验,对证券研究分析、交易与策略、损益分析与评估等技术系统提出了很高的要求。模型策略的研究需要一套整合的技术系统体系为算法交易的策略研究与实战进行服务。算法交易策略研究分析系统是针对程序化、策略化交易特点,集行情及指标采集与发布、策略模型研究分析、跟踪模拟、策略交易、损益分析于一体的证券算法交易策略研究分析系统。系统采用多层体系结构设计,面向对象的开发技术和高容错负载均衡的运行方式,具有充分的扩展性、缩放性、稳定性和高效性。流数据挖掘技术在算法交易中具有广泛的用途主要有:1、加载行情资讯和交易信息。这一阶段主要是进行数据清理,将预处理后的数据进行直线化分割,以消除行情数据的非线性,将连续的无限空间转换为离散的数据点空间,定义时间序列模式,将模式库存放于数据中心标准层,进行模第7页/共8页式的相似性匹配和提取,进行股票的相关性计算,更新相关性矩阵,周期性地将相关性矩阵中的数据写回到数据中心标准层中,如果相关度不为零,则说明股票间存在依赖

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功