论文题目数据挖掘技术及其应用姓名学科、专业指导教师学号数据挖掘技术及其应用摘要:数据挖掘技术作为一个新兴的技术在许多领域都取得了成功的应用,它是一个很有应用价值的课题,它融合了数据库、人工智能、机器学习等多个领域的理论和技术。据挖掘技术是一门综合多个学科的从数据中寻找规律的技术,该技术已经成功地应用于金融分析、市场分析、客户关系管理等多个行业。本文介绍了数据挖掘技术的基本情况及其应用,最后展望了数据挖掘技术的发展和今后的研究工作。关键词:数据挖掘;数据分类;关联规则;机器学习随着现代信息技术、通讯技术和计算机技术的高速发展,数据库应用的范围、深度和规模不断扩大。传统的信息系统大部分是查询驱动的,数据库作为历史知识库对于一般的查询过程是有效的,但当数据和数据库的规模急剧增长时,传统的数据库管理系统的查询检索机制和统计分析方法已远远不能满足现实的需求,它迫切要求能够自动、智能和快速地从数据库中挖掘出有用的信息和知识。数据挖掘技术就是为迎合这种要求而产生并迅速发展起来的,它为研究现代信息处理提供了一种新的方法和研究领域。1数据挖掘技术概述1.1数据挖掘的定义数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。1.2数据挖掘系统的体系结构数据挖掘系统由各类数据库、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块组成,这些模块的有机组成就构成了数据挖掘系统的体系结构。数据挖掘系统的体系结构图数据清理集成抽取转换挖掘前处理模块挖掘结果评估模式评估模块系统外数据库数据挖掘处理挖掘操作模块知识输出知识输出模块数据库管理模块各类数据库数据仓库挖掘知识库模式用户2数据挖掘技术从功能上分,数据挖掘技术主要有验证型、发现型以及综合型3种:验证型用来验证某一种想法,发现型用来发现一些未知的规律,而综合型则是前两者的结合。数据挖掘的目的是为了发现数据之间的某种对应关系,如根据历史资料预报某个顾客的信用;或者是数据的分布情况,如发现某些商品的摆放可能影响到商家的营业额等等[2]。公认的数据挖掘技术主要有如下类型:(1)人工神经网络和遗传算法。数据挖掘技术中使用的人工神经网络主要有MLP(MultiLayerPerception,多层感知器)和Koho-noen聚类网络等网络模型,主要用来完成非线性映射以及聚类分析。在使用MLP时,由于可能存在网络结构和网络的初始参数难以确定等问题,因此,有些使用者把神经网络与遗传算法相结合,对网络的结构和网络的初始参数进行优化,从而使网络更为适用于所需解决的问题。在实际中,使用神经网络和遗传算法的困难是这两种方法都比较耗费时间。(2)决策树。用树型结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。典型的决策树方法有分类树和回归树,目前比较流行的决策树有CART树、CHARD树、ID树等。(3)规则归纳。相对来讲,它是数据挖掘特有的技术。这种技术在大型数据库或数据仓中搜索和挖掘以往不知道的规则和规律,它大致包括以下的形式。关联规则:例如,“在购买了啤酒的顾客中,有15%也购买了尿布”;顺序规则:例如,“出现过故障A的某些设备中,有65%在一个月内也出现了故障B”;相似时间序列:例如,“事件A与事件B在某一季节内有类似的波动规律”;IF-THEN规则:例如,“如果A、B和C同时发生,则D发生的概率为75%”;转移规则:在特定的情况下,如购买力有限,候选人数固定并且数据是时序数据情况下,它可以弥补关联规则的不足[2]。(4)统计学方法。统计学中的多元分析、回归分析等方法可以广泛地应用于数据挖掘技术中,尤其是多维图形在数据挖掘技术中的应用,可使人们对数据的分布特性有一个直观的认识。(5)聚类、分类以及模式识别。聚类分析是由统计学发展起来的,是数据挖掘中的一个重要技术。数据挖掘中的聚类分析主要是根据数据之间的相似程度,把不同相似程度的数据聚集成不同的类的方法。在统计学中,主要的聚类方法有系统聚类法和动态聚类法,另外,模糊聚类和神经网络聚类方法也是在实际中应用较多的聚类方法。分类与聚类的主要不同在于聚类是一个没有导师的学习过程,而分类则是一个有导师的过程。(6)基于事例的推理(CBR,Case-BasedRea-soning)。这是一种人工智能学习方法,在数据挖掘中可以用来进行基于数据的推理。(7)可视化。采用直观的图形方式将信息显示给人们,以便更为直观地使用通过种种挖掘方法得到的规律。(8)粗集方法。这种技术是利用粗集理论对数据进行客观而有效的处理,从而更迅速地获得知识。具体地说它有4方面的优点:首先是提供一套数学方法,从数学上严格处理数据分类问题,尤其是当数据具有噪声、不完全性或不精确性时。其次,粗集合仅仅分析隐藏在数据中的事实,并没有校正数据中所表现的不一致性,而是一般将所生成的的规则分为确定与可能的规则。第三,粗集理论包括了知识的一种形式模型,这种模型将知识定义为不可区分关系的一个族集,这就使得知识具有一种清晰定义的数学意义,并且可使用数学方法来分析处理。最后,粗集不需要关于数据的任何附加信息[3]。(9)进化计算。使用进化计算的目的是为了优化,该算法由于其仿效自然界的达尔文进化论而得名。以上是数据挖掘常用的技术,实际上对一个具体的数据挖掘过程,往往不是用其中的一种技术,而是同时用二种或多种技术。3数据挖掘技术在国外的应用现状在北美,数据挖掘技术已经成功地应用于社会生活的方方面面,如政府管理决策、商业经营、科学研究和企业决策支持等领域,都可以采用数据挖掘技术解决一些问题。(1)比较活跃的应用方向市场营销预测顾客的购买行为,划分顾客群体,使用交互式询问技术、分类技术和预报技术,更精确地挑选潜在的顾客;技术上使用神经网络、规则归纳和鲁棒的专家系统进行一些目标量预报以及辨识影响目标变量的重要因素等等;寻找描述性的模式,以便更好地进行市场分析;进行关联分析,以便更好地进行货架摆设。银行业侦测信用卡的欺诈行为;客户信誉分析;使用预报模型(如统计回归模型和神经网络模型)技术对一些感兴趣的量进行预报,主要关心预报精度和过拟合问题;生产、销售和零售业预测销售额;决定库存量;批发点分布的规划和调度;物流管理。制造业工业制造和生产领域是一个十分有潜力的使用数据挖掘技术的市场,如质量控制、预测机器故障、挖掘影响生产力的关键因素等[3]。(2)应用实例美国钢铁公司和神户钢铁公司利用数据挖掘技术开发的ISPA系统,能分析产品性能规律和进行质量控制,取得了显著效果。通用电器公司(GE)与法国飞机发动机制造公司(SNECMA),用数据挖掘技术研制了CAS-SIOPEE质量控制系统,被3家欧洲航空公司用于诊断和预测波音737的故障,带来了可观的经济效益。市场研究公司,如美国的A.CNelson和In-formationResources,欧洲的GFK和InfractsBurke等纷纷开始使用数据挖掘技术来处理迅速增长的销售和市场信息数据。商家的激烈竟争导致了市场的快速饱和,产品的迅速更新使得经营者对市场信息的需求格外强烈。利用数据挖掘对市场进行的有效预测,使这些市场研究公司获得巨大的效益。英国广播公司(BBC)也应用数据挖掘技术来预测电视收视率,以便合理安排电视节目时刻表。信用卡公司AmericanExpress自采用数据挖掘技术后,信用卡使用率增加了10%~15%。总之,从数据挖掘诞生之日起,许多学科和行业都迅速地进行了研究和应用,并取得了可喜的理论结果和数据挖掘产品,应用数据挖掘产品的行业也获得了较好的利益。为了给用户带来更大的利益,我们应该建立数据仓库,为数据挖掘提供更强大的容纳大量信息的场所[3]。6结束语数据挖掘是近年兴起的一项新的技术,它在许多领域中取得了成功的应用。作为一个新兴的领域,数据挖掘还面临着许多挑战和未解决的问题,如在高抽象层次上获得多类知识的挖掘算法研究,面向对象数据库、多媒体数据库、Internet信息系统中数据挖掘等算法的研究,数据挖掘中私有数据安全性的研究等。另外,由于现实世界的复杂性、数据的多样性和不同的应用目标,还不能形成一个通用的数据挖掘系统适应于所有的情况,对于不同的应用要建立不同的数据挖掘系统[4]。对于同一个应用,不同的数据挖掘系统可能产生不同的结果,对其的评价有赖于实际经验,还没有一个较完善的理论体系。不管如何,作为适应时代需要而产生的一项新技术,数据挖掘技术在理论和实际应用上还有待于进一步的发展和完善,其在生产决策、经营管理、金融预测、工业控制等许多领域都有着广泛的应用价值和理论研究前景[5]。参考文献[1]张汛来,张明杰。数据挖掘技术的几种实现方法[J]。计算机科学,2014,10专刊:156-157。[2]王珊。数据仓库技术与联机分析处理[M]。北京:科学出版社,2010[3]王泽明。基于数据仓库的综合决策支持系统[J]。电脑开发与应用,2011.6.[4]程韦,苏志同数据挖掘技术在现代信息管理系统中的研究与分析[J]北京工业职业技术学院学报