数据挖掘中决策树分类算法研究与应用作者:冯亚学位授予单位:西北大学相似文献(10条)1.学位论文赵翔数据挖掘中决策树分类算法的研究2005决策树方法是数据挖掘中一种重要的分类方法。本课题从新的建树准则、决策树修剪、多变量决策树、多决策树组合、不完备信息系统下的模型建立等几个方面对决策树方法进行了研究和探讨。本课题的主要研究工作和成果有:1、针对传统决策树算法的不足(如ID3、C4.5),提出了基于协方差及高阶相关系数的决策树生成算法,避免了经典的以信息熵作为建树准则的决策树生成算法盲目地偏向于属性值较多的属性的缺点。2、针对决策树的构造和修剪通常不能同时进行所产生的效率低下的问题,提出了基于粗糙集的决策树构造方法。利用优先策略,将知识相依性同时作为属性约简和建树的准则,在决策树预修剪的同时进行节点生成,大大提高了决策树构造的效率。3、针对单变量决策树忽视信息系统中广泛存在的属性间的关联作用,而且修剪时往往代价很大的缺陷,提出了一种基于主成分分析的多变量决策树构造方法,提取信息系统中的若干主成分来构造决策树。4、探讨了用Boosting方法组合多决策树,构造决策森林的方法。5、在不完备信息系统中的模型拓展。提出了一种加权联系度容差关系,在各属性重要性排序的前提下对不完备信息系统进行进一步的粗糙集模型拓展,使其更加符合人的主观要求和客观现实。从而为进一步探讨在不完备信息系统中构造分类器模型打下基础。2.期刊论文田苗苗数据挖掘之决策树方法概述-长春大学学报2004,14(6)数据挖掘在科研和商业应用中正发挥着越来越重要的作用.分类器是数据挖掘的一种基本方法,决策树是一种最重要的分类器.本文介绍了分类器中的决策树方法及其优点,决策树表示法,决策树构造思想,并比较了各种重要的决策树算法.介绍了决策树算法的实现工具,决策树与数据仓库的结合,决策树的适用范围及应用,最后探讨了决策树的发展趋势.3.学位论文程向前基于决策树的数据挖掘算法和可视化研究2007数据挖掘是一种可以从海量数据中智能地和自动地抽取一些有用的、可信的、有效的、可以理解的模式的过程,也被称之为数据库中的知识发现。分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学习一个分类函数或构造出一个分类模型(即分类器)进行类型的划分。该函数或模型能够把数据库中的数据记录映像到给定类别中的某一个。分类方法应用领域广泛,如金融市场走向分析、顾客信用度分析、医疗诊断等。决策树是数据挖掘中一种应用最为广泛的分类器。其原因主要有:(1)决策树分类的直观表示方法较容易转化为标准的数据库查询;(2)决策树分类归纳的方法行之有效、尤其适合于大型数据集;(3)决策树在分类过程中,除了数据集中己经包括的信息外,不再需要其他额外的信息;(4)决策树分类模型的预测准确度较高。由于决策树本身具有建树思想简单、易于提取规则、贴近人类思维、便于理解等优点,使其在分类数据挖掘中得到了广泛应用。决策树算法的研究可以扩大算法的应用范围,提高算法的运行效率以及分类的准确率。本文从属性离散化、降维、属性选择标准、剪枝、与其它数据挖掘方法的结合等几个方面对目前决策树在分类数据挖掘中的研究状况进行了阐述。本文在介绍了一些典型的决策树分类算法的基础上,重点描述了一种基于决策树的数据挖掘新算法,即基于属性相似度的决策树分类器的研究成果。不同测试属性在决策中的地位也不相同,部分测试属性甚至对决策不起任何作用,完全可进行约简。实验也证明数据集中无关的、干扰的属性会影响分类器的性能,导致性能变差。因而本文首先进行了属性选择,只保留与决策最为相关的属性,而将其他属性都去除。然后通过计算测试属性与决策属性的相似度作为启发规则来构造决策树。算法还使用了分类阈值设定方法简化决策树的生成过程。新算法在对UCI实验数据库中的四个数据集的实验中,运行效率明显高于ID3算法,预测精度在某些数据集中也优于ID3。Weka数据挖掘平台是新西兰怀卡托大学开发的基于Java语言的开源的数据挖掘平台。它提供了一个Java类库形式的框架,这个框架支持嵌入式及其学习的应用,以及新的学习方案的实现。本文在熟悉其API的基础上,成功地在此平台上实现了自己的新的算法。数据挖掘结果的可视化可以使用户和决策者非常形象和直观地分析得到的知识,本文在Weka平台上将新算法模型得到的决策树成功地以图形的方式展示。4.期刊论文李琳.陈德钊.束志恒.叶子青.LiLin.ChenDezhao.ShuZhiheng.YeZiqing基于预处理的决策树在化学数据挖掘中的应用-分析化学2005,33(8)化学数据挖掘可从海量数据中提取蕴含的知识,决策树方法是一种重要的挖掘工具.鉴于决策树在处理连续数据上的局限性,本研究提出先进行预处理,将连续属性离散化,通过特征选择删除其冗余量,以此为基础构建决策树.该方法可防止决策树模型过细,使之具有良好的预报性能.将此方法应用于两个化学样品分类实例,效果良好.与贝叶斯分析和单一的决策树方法相比,其预报正确率有显著提高,且表达形式直观明确,易于理解和分析,适用于化学分类知识模式的挖掘.5.学位论文宋广玲基于多关系决策树算法的研究2009多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。高效性和可扩展性一直是数据挖掘领域的重要研究课题。考虑多关系数据挖掘,这个问题尤为重要。多关系数据挖掘任务的复杂性对算法的性能提出了更高的要求。与传统的数据挖掘算法相比,多关系数据挖掘算法的搜索空间变得更复杂,更大。对于多关系数据学习算法,提高算法效率的主要瓶颈在于假设空间。针对以上问题,本文主要做了以下工作:首先,本文对数据挖掘理论、关系数据挖掘理论进行了研究,尤其是多关系数据挖掘的分类算法-多关系决策树算法及多关系数据挖掘的最新技术-元组传播技术进行了深入的研究。其次,本文提出了多关系决策树的改进算法。多关系决策树主要从两方面进行改进:1为了提高多关系决策树算法可扩展性,本文将虚拟连接元组传播技术应用到改进的多关系决策树算法中;2为了减少系统独自摸索的时间、减少系统搜索有用属性的时间和提高用户的满意程度,本文提出了在用户指导下完成分类任务的背景属性传递技术,并将该技术应用到改进的多关系决策树中。最后,本文对改进的多关系决策树算法进行了理论证明和实验验证。本文的实验主要利用了PKDDCUP'99中的Loan、Account、Transaction三个关系,采用两种方法对一般多关系决策树算法和改进的对关系决策树算法进行比较实验。第一种方法,固定三个关系的记录数不变,每个关系分别增加属性个数进行实验,第二种方法,固定三个关系中的属性个数不变,改变关系记录条数进行实验。通过上面的实验结果,本文研究认为,当改进的多关系决策树在搜索数据项未达到背景属性传递阀值时,改进多关系决策树算法的运行效率较低;当改进的多关系决策树在搜索数据项达到背景属性传递阀值时,改进的多关系决策树算法的效率相对很高且受属性个数增加(或记录数增加)影响较小。6.学位论文但小容数据挖掘中决策树分类算法的研究与改进2008数据库技术的迅速发展以及数据库管理系统的广泛应用,导致人们积累了越来越多的数据。巨增的数据背后蕴藏着丰富的知识,而目前的数据库技术虽可以高效的实现数据的查询、统计等功能,却无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。数据库中存在着大量的数据,却缺乏挖掘数据背后隐藏的知识的手段,出现了“数据爆炸而知识贫乏”的现象。在此背景下,数据库知识发现(KDD)及其核心技术——数据挖掘(DM)便应运而生了。数据挖掘(DataMining)是信息处理技术研究领域的一项重要课题。数据挖掘是利用分析工具从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中、事先未知、潜在有用的信息和知识的过程,建立数据间关系模型,用其做出预测,从而为决策者提供辅助。它是一种新型的数据分析技术,已被广泛应用于金融、保险、政府、教育、运输以及国防等领域。数据分类是数据挖掘中一个重要的内容。常用的分类模型有决策树、神经网络、遗传算法、粗糙集、统计模型等。决策树是分类应用中采用最广泛的模型之一。与神经网络和贝叶斯方法相比,决策树无须花费大量的时间和进行上千次的迭代来训练模型,适用于大规模数据集,除了训练数据中的信息外不再需要其他额外信息,表现了很好的分类精确度。并且决策树算法是以实例为基础的归纳学习算法,以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和较高的分类准确率等优点而得到广泛的应用。据统计,目前决策树算法是利用最广泛的数据挖掘算法之一。然而在实际应用过程中,现存的决策树算法也存在着很多不足之处,如计算效率低下、多值偏向等。因此,进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的应用要求具有重要的理论和实际意义。本文主要介绍如何利用决策树方法对数据进行分类挖掘。文中详细的阐述了决策树的基本知识和相关算法,并对几种典型的决策树算法进行了分析比较,如:核心经典算法--ID3算法;能够处理不完整的数据、对连续属性的数据离散化的C4.5算法:利用GINI系数判别数据集中的分裂属性并形成二叉树的CART算法;使数据的分类不受机器主存的限制,有着良好的伸缩和并行性的SLIQ和SPRINT算法。文中分析并比较了它们各自的优缺点。在决策树算法中属Quinlan于1986年提出的ID3算法最有名,它是非递增算法,并且采用信息熵作为属性选择的标准,可是这个标准易偏向于属性值数较多的属性,而属性值较多的属性却不总是最优的属性。为了解决取值偏向的问题,本文提出了一种基于ID3算法的加权简化信息熵算法,该算法的思想是首先将泰勒公式的原理与ID3算法的属性选择标准——信息熵的求解相结合,对ID3算法信息熵的求解进行简化,改变了决策树算法中属性选择的标准,减小了算法的计算复杂度,提高了算法的运行效率;然后再赋予每个属性的信息简化熵一个权值N,N的取值取决于每个属性的取值个数,用以平衡每个属性对数据集的不确定程度,使得属性的选择更加合理化,避免选择的属性与实际不相符。最后在Visualstudio6.0平台上利用C++语言分别实现改进前后的ID3算法。实验结果表明,改进后的加权简化信息熵算法提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。理论分析和实验结果表明,本文提出的改进算法改善了决策树的ID3算法的性能,表现出了良好的分类效果。7.期刊论文刘慧巍.张雷.翟军昌数据挖掘中决策树算法的研究及其改进-辽宁师专学报(自然科学版)2005,7(4)决策树算法是数据挖掘中非常活跃的研究领域.通过对数据挖掘中决策树的基本思想进行阐述,讨论了决策树经典算法(ID3算法)的计算复杂度问题,并针对这一问题提出了利用统计理论知识和条件概率的思想来改进构造决策树的算法.实验表明,这种构造决策树算法的计算复杂度明显优于传统的算法,其效率也有很大的提高.8.学位论文卢东标基于决策树的数据挖掘算法研究与应用2008数据挖掘是指从数掘库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,已经被广泛应用于金融、保险、政府、教育、运输以及国防等领域。数据分类是数据挖掘中一个重要的内容。分类存在很多方法,常见的分类模型有决策树、神经网络、遗传算法、粗糙集、统计模型等。其中决策树算法是以实例为基础的归纳学习算法,以其易于提取显示规则、计算量相对较小、可以显示重要决策属性和较高的分类准确率等优点而得到广泛的应用。据统计,目前决策树算法是利用最广泛的数据挖掘算法之一。然而在实际的应用过程中,现存的决策树算法也存在很多不足之处,如计算效率低下、多值偏向等。因此,进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的应用要求具有重要的理论和现实意义。本文针对上述数据库知识发现的不足,进行深入的研究,探索数据挖掘中决策树分类的优化算法,以便更好地提高分类的准确性