数据挖掘研究及发展现状

yamastone
4 ℃
2020-05-02

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据挖掘技术的研究现状及发展方向摘要：数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展方向。关键词：数据挖掘；神经网络；决策树；粗糙集；模糊集；研究现状；发展方向ThepresentsituationandfuturedirectionofthedataminingtechnologyresearchAbstract:Dataminingtechnologyishotspotinthefieldofcurrentdatabaseandartificialintelligence.Fromthedefinitionofdatamining,thepaperintroducedconceptsandadvantagesanddisadvantagesofneuralnetworkalgorithm,decisiontreealgorithm,geneticalgorithm,roughsetmethod,fuzzysetmethodandassociationrulemethodofdatamining,summarizeddomesticandinternationalresearchsituationandfocusofdataminingindetails,andpointedoutthedevelopmenttrendofdatamining.Keywords:datamining,neuralnetwork,decisiontree,roughset,fuzzyset,researchsituation,developmentdirection0引言随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识金砖，从而达到为决策服务的目的。在这种情况下，一个新的技术——数据挖掘(DataMining，DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。数据挖掘通常又称数据库中的知识发现（KnowledgeDiscoveryinDatabases），是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。1数据挖掘算法数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。数据选择：确定发现任务的操作对象,即目标对象；预处理：包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等；转换：消减数据维数或降维；数据开采：确定开采的任务，如数据总结、分类、聚类、关联规则发现或序列模式发现等，并确定使用什么样的开采算法；解释和评价：数据挖掘阶段发现的模式，经过用户和机器的评价，可能存在冗余或无关的模式，这时需要剔除，使用户更容易理解和应用。十大经典算法如图2：目前，数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。数据目标数据转换数据预处理数据知识模式选择预处理转换数据开采解释评价图1数据挖掘过程十大经典算法SVMEMPageRankAprioriK-meansKNNAdaboostCartNaiveBayesC4.5是机器学习算法中的一种分类决策树算法，它是决策树核心算法ID3的改进算法是一种最有影响的挖掘布尔关联规则频繁项集的算法支持向量机（SupportVectorMachine）。一种监督式学习的方法，广泛运用于统计分类以及回归分析中是一种聚类算法。它与处理混合正态分布的最大期望算法很相似，因为它们都试图找到数据中自然聚类的中心最大期望算法（ExpectationMaximization）。是在概率模型中寻找参数最大似然估计的算法K-最近邻域分类算法(K-NearestNeighbor)。是一个理论上比较成熟的的方法，也是最简单的机器学习方法之一是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来，构成一个更强的最终分类器是google算法的重要内容。PageRank根基网站的外部链接和内部链接的数量和质量，衡量网站的价值应用最广泛的两种分类模型有决策树模型和朴素贝叶斯模型，理论上与其它算法比，它具有最小的误差。分类与回归树，在分类树下有两个关键的思想，第一个是关于递归地划分自变量空间的想法，第二个是用验证数据进行减枝图2十大经典算法1.1神经网络法神经网络法是模拟生物神经系统的结构和功能，是一种通过训练来学习的非线性预测模型，可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能，对复杂情况能得到精确的预测结果；缺点是不适合处理高维变量，不能观察中间的学习过程，具有/黑箱0性，输出结果也难以解释；其次是需较长的学习时间。神经网络法主要应用于数据挖据的聚类技术中。1.2决策树法决策树是通过一系列规则对数据进行分类的过程，其表现形式是类似于树形结构的流程图。最典型的算法是J.R.QUINLAN于1986年提出的ID3算法[5]，之后在ID3算法的基础上又提出了极其流行的C4.5算法[6]。采用决策树法的优点是决策制定的过程是可见的，不需要长时间构造过程、描不需要长时间构造过程、描述简单，易于理解，分类速度快；缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型数据，而且特别适合大规模的数据处理。1.3遗传算法遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是/适者生存0原理，具有隐含并行性、易于和其它模型结合等性质。主要的优点是可以处理许多数据类型，同时可以并行处理各种数据，对问题的种类有很强的鲁棒性；缺点是需要的参数太多，编码困难，一般计算量比较大。遗传算法常用于优化神经元网络，解决其它技术难以解决的问题。1.4粗糙集法粗糙集法也称粗糙集理论，是一种新的处理含糊、不精确、不完备问题的数学工具，可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单，不需要关于数据的任何预备的或额外的信息；缺点是难以直接处理连续的属性，须先进行属性的离散化。因此，连续属性的离散化问题是制约粗糙集理论实用化的难点[7]。粗糙集理论主要应用于近似推理、数字逻辑分析和化简、建立预测模型等问题。1.5模糊集法模糊集法利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性[7]。系统的复杂性越高，模糊性就越强。1.6关联规则法关联规则反应了事物之间的相互依赖性或关联性。其最著名的算法是R.AGRAWAL等人提出的Apriori算法。最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。在这个意义上，数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。2数据挖掘研究现状2.1国外研究现状知识发现[8](KnowledgeDiscoveryinDatabases，KDD)与DM是数据库领域中最重要的课题之一。KDD一词是在1989年8月于美国底特律市召开的第十一届国际人工智能会议上正式形成的。1995年在加拿大蒙特利尔召开的首届KDD&DataMining国际学术会议上，把数据挖掘技术分为科研领域的知识发现与工程领域的数据挖掘[9]。之后每年召开一次这样的会议，经过十几年的努力，数据挖掘技术的研究已经取得了丰硕的成果。目前，对KDD的研究主要围绕理论、技术和应用这三个方面展开。多种理论与方法的合理整合是大多数研究者采用的有效技术。目前，国外数据挖掘的最新发展主要有对发现知识的方法的进一步研究，如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和改进提高；KDD与数据库的紧密结合；传统的统计学回归方法在KDD中的应用。在应用方面主要体现在KDD商业软件工具从解决问题的孤立过程转向建立解决问题的整体系统，主要用户有保险公司、大型银行和销售业等。许多计算机公司和研究机构都非常重视数据挖掘的开发应用，IBM和微软都相继成立了相应的研究中心[10]。美国是全球数据挖掘研究最繁荣的地区，并占据着研究的核心地位。由于数据挖掘软件市场需求量的增大，包括国际知名公司在内的很多软件公司都纷纷加入到了数据挖掘工具研发的行列中来，到目前已开发了一系列技术成熟、应用价值较高的数据挖掘软件。以下为目前最主要的数据挖掘软件：(1)KnowledgeStudio：由Angoss软件公司开发的能够灵活地导入外部模型和产生规则的数据挖掘工具。最大的优点：响应速度快，且模型、文档易于理解，SDK中容易加入新的算法。(2)IBMIntelligentMiner：该软件能自动实现数据选择、转换、发掘和结果呈现一整套数据挖掘操作；支持分类、预测、关联规则、聚类等算法，并且具有强大的API函数库，可以创建定制的模型。(3)SPSSClementine：SPSS是世界上最早的统计分析软件之一。Clementine是SPSS的数据挖掘应用工具，它可以把直观的用户图形界面与多种分析技术如神经网络、关联规则和规则归纳技术结合在一起。该软件首次引入了数据挖掘流概念，用户可以在同一个工作流环境中清理数据、转换数据和构建模型。(4)CognosScenario：该软件是基于树的高度视图化的数据挖掘工具，可以用最短的响应时间得出最精确的结果。此外，还有由美国Insightful公司开发的I-Miner、SGI公司和美国Standford大学联合开发的Minset、Unica公司开发的AffiniumModel、加拿大SimonFraser大学开发的DBMiner、HNC公司开发的用于信用卡诈骗分析的DatabaseMiningWorkstation、NeoVista开发的DecisionSeries等。2.2国内研究现状与国外相比，国内对数据挖掘的研究起步稍晚且不成熟，目前正处于发展阶段。最新发展：分类技术研究中，试图建立其集合理论体系，实现海量数据处理；将粗糙集和模糊集理论二者融合用于知识发现；构造模糊系统辨识方法与模糊系统知识模型；构造智能专家系统；研究中文文本挖掘的理论模型与实现技术；利用概念进行文本挖掘。我国也有不少新兴的数据挖掘软件：(1)MSMiner：由中科院计算技术研究所智能信息处理重点实验室开发的多策略通用数据挖掘平台[11]。该平台对数据和挖掘策略的组织有很好的灵活性。(2)DMiner：由上海复旦德门软件公司开发的具有自主知识产权的数据挖掘系统。该系统提供了丰富的数据可视化控件来展示分析结果，实现了数据查询结果可视化、数据层次结构可视化、多维数据结构可视化、复杂数据可视化。(3)ScopeMiner：由东北大学开发的面向先进制造业的综合数据挖掘系统。(4)iDMiner：由海尔青大公司研发的具有自主