知识发现与数据挖掘——浅谈数据挖掘方法姓名:xxx专业:计算机应用技术学号:xxxxxxxx2012年8月20日浅谈数据挖掘方法一、数据挖掘的概念数据挖掘是KKD中的重要技术,就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。二、数据挖掘分类数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、数理统计、可视化、并行计算、机器学习、模式识别、统计学、遗传算法、专家系统、神经网络、模糊数学、人工智能等领域。其中数理统计、人工智能和数据库是其三大支柱。其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘涉及的学科领域和方法很多,有多种分类法。图1是根据挖掘对象的分类,图2是根据挖掘方法的分类,图3是根据挖掘任务的分类。图1根据挖掘的对象分类图2根据挖掘方法分类图3根据挖掘任务分类三、数据挖掘技术和算法数据挖掘技术和算法很多,且各有其适用的领域,下面就常用的数据挖掘方法进行概述,并分析各自的适用范围和优缺点。(一)决策树决策树,又称判定树,是一种类似二叉树或多叉树的树结构。决策树是用样本的属性作为结点,用属性的取值作为分支,也就是类似流程图的过程,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。它对大量样本的属性进行分析和归纳。根结点是所有样本中信息量最大的属性,中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性,决策树的叶结点是样本的类别值。从树的根结点出发,将测试条件用于检验记录,根据测试结果选择适当的分支,沿着该分支或者达到另一个内部结点,使用新的测试条件或者达到一个叶结点,叶结点的类称号就被赋值给该检验记录。决策树的每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程。决策树算法能从一个或多个的预测变量中,针对类别因变量,预测出个例的趋势变化关系。算法通常有CHAD,CART,ID3,C4.5,SPRINT,SLIQ等。这些算法都适合于分类问题,其中一些算法速度很快也适用于回归问题。决策树的主要优点是描述简单、分类速度快,特别适合大规模的数据处理。但当决策树在信息缺乏的情况下使用时,就意味着在训练文件中未把大量主要潜在的规则考虑在内,因而这种方法可能漏掉未发现的有价值的规则。ID3算法是借用信息论中的互信息(信息增益)作为单一属性分辨能力的度量,试图减少树的平均深度,忽略了叶子数目的研究。ID3的优点是:它建树时间和任务的困难度呈线性递增关系,计算量相对较小。但存在的问题有:①互信息的计算依赖于属性取值的数目较多的特征,而属性取值较多的属性不一定最优;②ID3是非递增学习算法;③抗噪性差,训练例子中正例和反例较难控制。C4.5算法对类ID3算法进行了改进,提高了算法的效率。尽管如此,C4.5算法仍然有如下的缺点:首先,在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效;其次,C4.5只适合于能够驻留在内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。(二)遗传算法遗传算法是一种全新的最佳化空间搜寻法,其最初概念是由JohnHolland于1975年提出的,是一种基于生物进化理论的技术,其基本观点是“适者生存”,用于数据挖掘中,则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解,是一种仿生全局优化方法。具体来讲,就是模仿生物进化的过程,反复进行选择、交叉和突变遗传操作,直至满足最优解。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。遗传算法已在优化计算和分类机器学习方面显示了明显的优势。遗传算法综合了定向搜索与随机搜索的优点,避免了大多数经典优化方法基于目标函数的梯度或高阶导数而易陷入局部最优的缺陷,可以取得较好的区域搜索与空间扩展的平衡。在运算时随机的多样性群体和交叉运算利于扩展搜索空间;随着高适应值的获得,交叉运算利于在这些周围探索。遗传算法由于通过保持一个潜在解的群体进行多方向的搜索而有能力跳出局部最优解。此外遗传算法的优点还有它容易并行化,但它也存在许多缺点:遗传算法对于最终用户来说很难理解。问题抽象和个体表述十分困难,最佳的适应度函数难以确定;杂交和变异过程难以确定。(三)人工神经网络神经网络由大量的简单神经元,通过极其丰富和完善的连接构成自适应非线性动态系统,具有分布存储、联想记忆、大规模并行处理、白组织、自学习、自适应等功能。由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、BP(BackPropagation)反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。神经网络是数据挖掘中重要方法之一,其优势在于:①神经网络可以任意精度逼近任意函数;②神经网络方法本身属于非线形模型,能够适应各种复杂的数据关系;③神经网络具备很强的学习能力,使它能够比很多分类算法更好地适应数据空间的变化;④神经网络借鉴人脑的物理结构和机理,能够模拟人脑的某些功能,具备“智能”的特点。神经网络也有不足之处,以BP为代表的这一类神经网络只适用于平稳环境,学习算法计算的费用较高,不具备自学能力,不能进行快速学习、记忆以及学习能力之间存在冲突等问题,虽有多种改进算法,但仍不能从根本上解决这些问题。另外,此类神经网络借鉴了人脑的物理结构,存储在神经网络中的知识往往以连接权值的形式表现出来,这种形式本身很难理解,因而,此类神经网络也曾被比喻为黑箱模型。经典SOFM(Self0rganizationFeatureMap)神经网络可以用于聚类或者分类.但其竞争层神经元个数要求事先指定,这种限制极大地影响了其在实际中的使用。四、结论由于人们急切需要将存在于数据库或其它信息仓库中的海量数据转化为有用的知识,因而数据挖掘技术被认为是一个新兴的、非常重要的、具有广阔应用前景和富有挑战性的研究领域,并引起了众多学科(如数据库、人工智能、统计学、数据仓库、在线分析处理、专家系统、数据可视化、高性能计算等)研究者的广泛注意.而作为一个新兴学科,它也是由上述众多学科相互交叉、融合而形成的.随着数据挖掘技术的进一步发展,必然会带给用户更大的利益.