数据挖掘综述1、产生背景随着计算机的产生和大量数字化的存储方法的出现,我们借助计算机来收集和分类各种数据资料,但是不同存储结构存放的大量数据集合很快被淹没,便导致了结构化数据库以及DBMS的产生。但是随着信息时代的到来,信息量远远超过了我们所能处理的范围,从商业交易数据、科学资料到卫星图片、文本报告和军事情报,以及生活中各种信息,这也就是“数据爆炸但知识贫乏”的网络时代,面对巨大的数据资料,出现了新的需求,希望能够更好的利用这些数据,进行更高层次的分析,从这些巨大的数据中提取出对我们有意义的数据,这就是知识发现(KDD,KnowledgeDiscoveryinDatabases),数据挖掘应运而生。2、数据库系统技术的演变1)20世纪60年代和更早这个时期是数据收集和数据库创建的过程,原始文件的处理2)20世纪70年代---80年代初期有层次性数据库、网状数据库、关系数据库系统3)20世纪80年代中期—现在高级数据库系统,可以应用在空间、时间的、多媒体的、主动的、流的和传感器的、科学的和工程的。4)20世纪80年代后期—现在高级数据分析:数据仓库和数据挖掘5)20世纪90年代—现在基于web的数据库,与信息检索和数据信息的集成6)现在---将来新一代的集成数据域信息系统3、数据挖掘概念数据挖掘(DataMining),就是从大量数据中获取有效的、新颖的、潜在的有用的,最终可以理解的模式的非平凡过程。数据挖掘,又称为数据库中知识发现(KDD,KnowledgeDiscoveryinDatabases),也有人把数据挖掘作为数据库中知识发现过程的一个基本步骤。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库等。4、数据挖掘特点和任务4.1数据挖掘具有以下几个特点:1)处理的数据规模十分庞大,达到GB,TB数量级,甚至更大2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。3)在一些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以即时提供决策支持。4)数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有效。因此,利用数据挖掘技术可能会发现大量的规则。5)数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。4.2数据挖掘的主要任务数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。数据挖掘一般有一下四类主要任务数据总结数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。利用OLPA技术实现数据的多维查询也是一种广泛使用的数据总结的方法。分类分类的主要功能是学会一个分类函数或分类模型,该模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有的数据,并预测新数据将属于哪一个组。关联分析数据库中的数据一般都存在关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两种。简单关联,例如:购买面包的顾客中有90%的人同时购买牛奶。时序关联,例如:若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%。它在关联中增加了时间属性。关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,,即使知道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。聚类当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。5、数据挖掘系统分类如今有很多现有的或者正在开发的数据挖掘系统,其中有些是专门用于给定或局限于有限的数据源的系统,有些相比则更加灵活和全面。根据不同标准可以将数据挖掘系统分类。(1)根据数据源类型分类。有空间数据、多媒体数据、时间序列数据、文本数据、Web数据等数据挖掘系统。(2)根据数据模型分类。基于关系数据库、面向对象数据库、数据仓库、事务数据库的数据挖掘系统。(3)根据挖掘的知识类型分类,即根据数据挖掘的功能分类,如特征化、比较、关联和相关分析、分类、预测、聚类、孤立点分析、偏差分析。一个综合的数据挖掘系统通常集成多种数据挖掘功能。(4)根据所用的技术类型分类。这些技术可以根据用户交互程度(例如自动系统、交互探查系统、查询驱动系统)或所用的数据分析方法(例如面向数据库或面向数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络等)描述。复杂的数据挖掘系统通常采用多种数据挖掘技术。6、数据挖掘步骤数据库中的数据挖掘是一个多步骤的处理过程,一般分为:问题定义,了解相关领域的有关情况,熟悉背景知识,弄清用户要求.数据提取,根据要求从数据库中提取相关的数据.数据预处理,主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补.知识提取,运用选定的知识发现算法,从数据中提取用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式.知识评估,将发现的知识以用户能理解的方式呈现,如某种规则,再根据实际情况对知识发现过程中的具体处理阶段进行优化,直到满足用户要求.6.1数据挖掘核心步骤7、数据挖掘方法7.1神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。7.2遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。7.3决策树方法决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵的ID3算法。414粗集方法粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。7.5覆盖正例排斥反例方法它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。比较典型的算法有Michalski的AQ11方法、洪家荣改进的AQ15方法以及他的AE5方法。7.6统计分析方法在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。7.7模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型)))云模型,并形成了云理论。8、数据挖掘现在和展望数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。总之,数据挖掘是一个很好的数据处理工具,但由于挖掘效果不能预期,受到许多诸如数据、工具、技术人员水平等因素影响。所以数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的释。数据挖掘的理论基础和挖掘算法还有很大的空间有待发展和完善。数据挖掘的个人稳私和信息安全问题也是急需关注和解决的。参考文献:[1]沈清,汤霖.模式识别导论.长沙:国防科技大学出版社,1993[2]阎平凡,黄端旭,人工神经网络一模型,分析与应用.合肥:安徽教育出版社,1993[3]李德毅,史雪梅,孟海军.隶属云和隶属云发生器「J〕.计算机研究和发展,1995,32(6):15一20.[4]M.S.Chen,J.Han,andP.S.Yu.Datamining:AnoverviewfromadatabasePerspective[M].IEEETrans.KnowledgeandDataEngineering,1996,8(06):866-883.[5]朱廷肋,高文.KDI]:数据库中的知识发现.计算机科学,1997,24(6):5一9[6]孙增沂,张再兴,邓志东,智能控制理论与技术〔M〕.北京:清华大学出版社,1997.[7]王珊,等.数据仓库技术与联机分析处理.北京:科学出版社,1998[8]HanJ.T()wardSOn一LinelalicalMiniinrgeDatabases.SIGMO【)R姗rd,1998,27(l):97一107[9]边肇棋,张学工,等.模式识别.北京:清华大学出版社,1999[10]邸凯昌.空间数据发掘与知识发现〔M〕.武汉:武汉大学出版社,2000.[11]Hanjw,MiehelineK.数据挖掘概念与技术仁M〕.范明,孟晓峰译.北京:机械工业出版社,2001.[12]钟晓.数据挖掘综述[J]。模式识别与人工智能200103[13]薛薇.数据挖掘概述[J].统计与精算,2001,3.[14]罗可.蔡碧野.数据挖掘及其发展研究[J].计算机工程与应用,2002,14,182-184[15]朱晓华.浅析数据挖掘技术在图书馆自动化中的应用[J〕.图书馆学研究,2002,(5):41一45.[16]黄解军.数据挖掘技术的应用研究[J].计算机工程与应用,2003,(2):45一48.[17]MehmedKantardzic.DATAMINING[M].北京:清华大学出版社,2003.[18]RichardJ.RoigerMichaelW.Geatz著数据挖掘基础教程[M].清华大学出版社,2003.12.[19]田艳.数据挖掘技术的应用及发展[J].统计与信息论坛,2004,(7):18一21.[20]陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2004.[21]王光宏、蒋平.数