决策树分类方法在保险业务中的应用研究

ma09823
3 ℃
2018-08-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

贵州大学硕士学位论文决策树分类方法在保险业务中的应用研究姓名：周奕羊申请学位级别：硕士专业：软件工程指导教师：张小平20070501决策树分类方法在保险业务中的应用研究作者：周奕羊学位授予单位：贵州大学相似文献(10条)1.学位论文方烈分类方法在交通数据挖掘系统的应用研究2006近年来，随着我国经济建设的持续高速发展和城市现代化进程的加快，城市智能交通建设得到了长足的发展。智能交通系统中积累了大量的交通数据，为数据挖掘技术在城市交通领域中的发展提供了广泛的数据支持。同时，交通数据的实时性和复杂性也对数据挖掘技术的发展提出了巨大的挑战。本文以车辆GPS信息为研究内容，以分类模型为研究主线，对数据挖掘过程中几个重要阶段（包括数据预处理技术、数据挖掘建模、模型评估）及其具体技术分别进行了研究：首先，介绍了数据挖掘技术产生的背景，定义和功能，及其在交通信息数据处理领域的研究现状。接着着重阐述了数据挖掘中的分类技术，从分类的一般方法入手，分析并比较了几种不同分类方法和分类性能评估方法。分类方法包括决策树，K-最近邻分类，神经网络和贝叶斯分类；分类性能评估方法包括保持方法，随机二次抽样，交叉验证和自助法。其次，分析了数据挖掘中的预处理技术。其中最重要的技术是数据离散化和属性简约。这两种技术分别被运用到了对车辆GPS数据，包括经度坐标，纬度坐标，速度，角度的处理中。研究了决策树分类模型，基本算法以及具有可伸缩性的改进算法。提出了用分类树的方法解决单个车辆GPS坐标匹配多条道路的问题。该方法利用精确匹配的车辆GPS坐标训练和生成决策树，在利用该决策树判断可能匹配多条道路的车辆GPS坐标。最后，研究了模糊粗糙集理论，提出了在现有认识能力有限的条件下分析和解决复杂问题的一般方法。将其应用于道路交通状况预测中，完成基于模糊粗糙集的道路预测模型和算法。该模型通过计算道路交通状况的模糊上近似和模糊下近似来预测路况。对比预测结果和实际数据，证明该模型具有一定的准确性。目前，随着数据挖掘技术在各个领域中的不断发展，人类发现知识的方式正在不断的改变。数据挖掘技术在智能交通系统中的应用研究，也必将促进未来城市道路交通的发展。2.期刊论文康松林.费洪晓数据挖掘的软分类方法-长沙铁道学院学报2001,19(3)通过合理的分类进行识别、决策和控制等,在可拓集合的基础上提出了一种软分类方法,此种非经典集合的数据挖掘方法,弥补了经典数据挖掘方法的不足.3.学位论文王涛数据流挖掘分类方法关键技术研究2007随着信息技术尤其是网络技术的快速发展，人们收集、存储和传输数据的能力不断提高，导致数据出现了爆炸性增长。与此形成鲜明对比的是，对人们决策有价值的知识却非常匾乏。但是如何从海量数据中获取有价值的知识以指导人们得决策，是当前数据分析领域所面临的主要的热点和难点问题。知识发现与数据挖掘正是在这一背景下诞生的一门新学科。数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术，近年来正成为数据挖掘领域的研究热点。由于数据流的快速到达和数据规模巨大等原因，传统数据挖掘技术难以满足其要求，也面临着一些新的挑战。分类技术是数据挖掘中一个非常重要的研究领域，也是数据挖掘领域商业应用最成功的技术之一。数据流模型自身的特点给数据流环境下的分类技术带来了新的挑战，本文的研究工作聚焦于数据流分类技术。从提高分类速度、提高分类精度和处理概念漂移三个方面着手，提出了一系列的高效算法。针对数据流挖掘中连续属性的处理问题，我们在VFDT的基础上提出了基于排序二叉树的分类算法VFDTb，通过改进VFDTc的信息增益函数计算方式，该算法有效地减少了连续属性最佳划分节点选取的时间开销，从而在保持决策树大小和分类精度不变的基础上提高了分类速度。实验结果显示：相比VFDT,VFDTb的分类速度平均提高25％。线索化二叉排序树是一种高效的动态插入排序结构，基于该结构，在VFDT和VFDTc的基础上，我们提出了一种分类新的分类算法VFDTt，理论分析表明该算法具有更低的时间复杂度:(1)相比VFDT,VFDTt的样本插入时间复杂度由O(n2)降低到O(nlogn)。当新样本到达时，VFDTc需要更新。(logn)个属性树结点，而VFDTt只需要更新相应的一个结点即可;(2)改进了VFDTc中连续属性最佳划分节点选取的计算方法，使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的结论，相比VFDTc,VFDTt只需从更少的备选划分节点中选取最佳结点，备选划分节点数由O(n)降低到O(logn)。模糊决策树是决策树理论和模糊理论的有效结合，它既具有决策树分类精度高、计算量小和生成模型容易理解的优点，也具有模糊理论在处理不确定信息方面的优点。本文通过对模糊决策树研究领域的分析，指出了模糊决策树的优点和可能存在的问题，并分别从属性选择标准、模糊决策树构造及停止标准三个方面对相关研究工作分别进行了深入的研究与探讨。在此基础上，提出了数据流挖掘环境下的增量模糊决策树算法IFVFDT，通过和VFDTt(或VFDTb)的有效结合，该算法利用平滑离散化方法处理连续属性中的噪声数据问题，在保持分类速度的同时提高了分类精度。实验结果显示：IFVFDT比VFDT平均执行时间减少16.66％，IFVFDt比VFDTt平均执行时间减少8.87％；在10％噪声数据情况下，VFDT的分类错误率逼近于12.5％，而IFVFDT的分类错误率逼近于8％。由于概念漂移的存在往往导致分类模型精度的下降，概念漂移问题也成为数据流挖掘中需要解决的最重要问题之一。Hulten等的CVFDT利用备选子树的方法，有效地处理了概念漂移问题。在CVFDT的基础上，我们提出了基于扩展哈希表的概念漂移处理算法HashCVFDT。该算法实现了概念漂移处理所需要的样本高效删除。通过哈希表和链表的有效结合，不仅保持了哈希表所具有的插入和查找快速的优点，而且使扩展哈希表的高效有序输出。该算法在样本插入与删除、划分节点的选取方面都具有很好的效率。实验结果表明，该算法对概念漂移问题的处理具有很好的扩展性和稳定性。4.学位论文张喆数据挖掘技术及其在CRM中的应用研究2004信息社会中数据的爆炸性增长,丰富的数据与贫乏的知识问题的日渐突出,带来了对强有力的数据分析工具的需求.决策者迫切需要将海量数据转换成有价值的信息和知识.数据挖掘的出现为这一需要提供了有力的技术支持.CRM(客户关系管理)是现代电子商务活动的核心部分.对CRM的重视是现代市场营销理念和商业运作方式转变的结果.CRM是数据挖掘的重要应用领域.数据挖掘技术及其在CRM中的应用研究已经成为学术界和企业界共同的关注领域.该文在对数据挖掘、CRM以及数据挖掘在CRM中的应用的研究现状进行文献综述的基础上,提出了数据挖掘技术及其在CRM中的应用研究的相关主题,主要完成了以下三个方面的研究工作:第一,数据挖掘中概念数据集成的模型研究.描述了面向OLAP集成XML数据和关系数据的概念数据集成结构体系框架,并提出了面向OLAP的一个多维数据概念模型-UML星系模式.最后通过一个B2B的电子商务中的2-根UML星系模式的构建实例来说明了n-根UML星系模式的构造过程.模型的建立为电子商务中多数据源基础上多主题OLAP分析、描述和建模提供了一种方法.第二,数据挖掘中的组合分类方法研究.从数据挖掘的优化技术角度出发,依据并行组合分类方法的思想,设计采用基于遗传算法的组合算法,提出一种基于遗传算法的多重决策树并行组合分类方法以提高分类精度,并在保持分类结果良好可解释性的基础上优化分类规则.第三,组合分类方法在CRM中的应用研究.针对CRM中客户风险分析和客户获取策略问题,以客户风险分析中的客户信用等级评定问题和客户获取策略中的客户反应行为模式问题为研究对象,采用该文提出的基于遗传算法的多重决策树并行组合分类方法进行分析.通过这种组合分类方法的运用,在客户信用等级评定问题中进一步提高了客户信用的定位水平,减少企业运营的风险;在客户反应行为模式的分类分析中,通过分类定位模型辅助决策人员进行客户细分,定位于他们的最佳客户和潜在客户.同时通过进一步的仿真分析得出,基于遗传算法的多重决策树组合分类方法比单个决策树具有更高的分类精度,并在保持分类结果良好可解释性的基础上优化了分类规则.随着数据挖掘技术的进一步发展和深化,这一研究领域体现着越来越大的研究价值.同时,随着数据挖掘技术在电子商务时代CRM中的进一步深入的应用,必然使CRM具有更广泛的市场价值,带来CRM更为广阔的应用前景.因此,该文关于数据挖掘技术及其在CRM中的应用的研究主题具有重要的学术价值和实践意义.5.会议论文张中芬.贾泂基于感知器的数据挖掘分类方法2006数据挖掘是数据库研究、开发和应用最活跃的分支之一.分类(Classification)是一类重要的数据挖掘问题,它是一个从现有的带有类别的数据集中寻找同一类别数据的共同特性,并以此将它们进行区分的过程,它可以用于提取描述重要数据类的模型和预测未来的数据趋势.分类的方法主要有决策树,神经网络,粗糙集,遗传算法,贝叶斯分类等.本文研究BBP模型和基于感知器的数据挖掘分类方法。6.学位论文许元红基于增量分类方法的信用卡客户分析2006数据挖掘是近年来蓬勃发展的一个研究领域，在信息爆炸的今天，它更显示出巨大的作用和威力。数据挖掘在金融、零售、医疗等各个行业有广泛的应用。本论文运用数据挖掘的分类技术，对信用卡客户按存款积数进行分类，以便能掌握每类客户的特征和交易行为,并且可以通过模型预测客户的价值。论文采用伸缩性好、效率高、准确率高、可解释性好的SLIQ算法作为基本的分类算法，采用AdaBoost算法提高分类的准确率。为了进一步提高分类准确率和速度，论文对SLIQ算法作了一些改进：用新的属性选择度量代替gini索引，用处理连续值属性的方法处理只有两个可能值的分类属性。算法经过改进后，在准确率和效率方面都有所提高，树也变得更小。实验结果表明，模型的测试准确率可以达到90％左右。由于客户及客户的金融行为都是随时间变化的，所以分类的模型也应该随时间变化而改变。针对这个问题，论文提出了一种增量学习方法：当新样本集的样本数达到或超过阀值时，用新样本集建立一个模型，与当前的模型合并，得到最新模型。模型的合并包括具有相同序号的决策树的合并和决策树权值的合并。决策树合并过程中出现了类标号不能确定和合并后碎片较多的问题，论文提出了有效的解决办法:（1）利用建树时预排序的属性表，确定合并后决策树叶节点的类标号；（2）采用剪枝的策略，合并相邻叶节点。决策树归纳法经推进后产生了由多棵加权决策树组成的分类模型。由于模型是由多棵加权决策树组成的，这给模型的解释带来了困难。论文采用简化模型为单一的决策树的方法：合并模型中的决策树，合并后的决策树的叶节点是模型中各棵决策树叶节点的交集，其类标号由各棵树投票决定的，树的权值决定其所投票的重要性。同样，合并后决策树也存在碎片问题，也需要合并类标号相同的相邻叶节点。实验表明，采用上述方法构建的分类模型，具有建模速度较快，模型准确率较高、可解释性较好的特点。增量学习方法也取得了学习效率较高，结果树增大不太多的效果。7.期刊论文孙冠楠数据挖掘中分类方法简述-科技资讯2007(30)随着数据挖掘理论和技术的发展,分类挖掘的技术也逐渐趋向成熟,出现了许多较有效的分类算法.本文将对数据挖掘中常用的分类方法作一个概述.8.学位论文贺平数据挖掘中的分类方法及其在质谱数据中的应用2005数据挖掘在化学中的一个重要的应用是从数据库中提取有用的信息.质谱仪是一种用来对化合物进行鉴别和特征化的仪器技术，它产生了大量的有助于化学结构解析的数据。根据质谱鉴别化合物和识别化学结构性质一直都是化学计量学中一项重要的工作。本文首先对多元统计分析，人工智能和现代数据挖掘中的各种分类方法进行了深入的讨论，其中一些方法已被用于基于质谱数据的化学结构和性质的智能识别。但是，仍然有很多的化学结构或子结构不能被现有分类器有效的识别。从而寻找更