基于遗传算法的朴素贝叶斯分类研究作者:胡为成学位授予单位:合肥工业大学参考文献(34条)1.JiaweiHan.MichelineKamberDataMiningConceptsandTechniques20002.唐晓萍数据挖掘与知识发现综述[期刊论文]-电脑开发与应用2002(4)3.ChenMDatamining:Anoverviewfromadatabaseperspective19964.AgrawalRDatabasemining:Aperformanceperspective19935.FayyadUKnowledgediscoveryanddataminingtowardsauningframework19966.刘刚数据挖掘技术与分类算法研究[学位论文]博士20047.戴稳胜.匡宏波.谢邦昌数据挖掘中的关联规则[期刊论文]-统计研究2002(8)8.马国兵.薛安克数据挖掘技术在运动目标轨迹预测中的应用[期刊论文]-计算机工程与应用2004(11)9.刘红岩.陈剑.陈国青数据挖掘中的数据分类算法综述[期刊论文]-清华大学学报(自然科学版)2002(6)10.张瑜.彭玉青关于时序模式发现算法的研究[期刊论文]-河北科技大学学报2004(2)11.MehtaM.AgrawalRSLIQ:Afastscalableclassifierfordatamining199612.罗海蛟.刘显数据挖掘中分类算法的研究及其应用[期刊论文]-微机发展2003(z2)13.QuinlanJRBagging,boostingandC4.5199614.ShaferJ.AgrawalRSPRINT:Ascalableparallelclassifierfordatamining199615.MichalskiRSMachinelearninganddatamining:Methodsandapplications199816.GehrkeJRainforest:Aframeworkforfastdecisiontreeconstructionoflargedatasets199817.GehrkeJBOAT:Optimisticdecisiontreeconstruction199918.DomingosPBeyondindependence:Conditionsfortheoptimalityofthesimplebayesianclassifier199619.RussellSLocallearninginprobabilisticnetworkswithhiddenariables199520.BuntineAOpretationforlearningwithgraphicalmodels199421.LauritzenSLTheEMalgorithmforgraphicalassociationmodelswithmissingdata199522.LuW.SetionoRNeurorule:Aconnectionistapproachtodatamining199523.WidrowBNeuralnetworks:Applicationsinindustry,businessandscience199424.JiaweiHan.MichelinsKamberDATAMININGConceptsandTechniques200125.TomMMitchell.曾华军.张银奎机器学习200326.史忠植知识发现200227.朱明数据挖掘200228.KononenkoISemi-Na(i)veBayesianClassifiers199129.LangleyP.SageSInductionofSelectiveBayesianClassifiers199430.KohaviRScalinguptheAccuracyofNaive-BayesClassifiers:ADecision-TreeHybird199631.ZhengZ.WebbGILazyLearningofBayesianRules200032.WangZH.WebbGIAHeuristicLazyBayesianRuleAlgorithm200233.郭亚光基于粗糙集合和朴素贝叶斯模型的分类问题研究[学位论文]硕士200534.王小平.曹立明遗传算法2002相似文献(10条)1.学位论文李少猷基于贝叶斯理论的数据挖掘方法在电子邮件分类中的应用研究2007本文研究了基于贝叶斯理论的数据挖掘方法在电子邮件分类中的应用。伴随着人类社会进入信息时代,电子邮件作为便捷快速的信息传递方式,已经成为现代社会商务、生活不可或缺的一部分。然而电子邮件正被利用发送一些它的接收者并不需要、并不想接收的信息,所谓垃圾邮件,粗略地讲,是指那些不管接收者是否要求发送、是否愿意接收而大量发送给数以千计的接收者的电子邮件。垃圾邮件的数量在近年来成指数级别增长,人们不得不着手解决垃圾邮件带来的问题。应对大量垃圾邮件带来的挑战,很多反垃圾邮件技术和方法出现了。反垃圾邮件技术,或者说电子邮件过滤技术,本质上是电子邮件分类技术。电子邮件分类系统从最初只能进行简单的基于静态规则的分类,逐步发展到利用数据挖掘方法,针对垃圾邮件发送的内容和发送垃圾邮件的行为进行自动学习、识别和判断,动态地生成和调整分类电子邮件的规则,智能地进行分类。在电子邮件分类领域应用数据挖掘方法是目前学术界和工业界研究的热点。在电子邮件分类领域,从实际的应用条件,如存储空间,响应速度和计算复杂度等角度来看,以贝叶斯理论为基础的基于邮件内容的过滤分类技术是目前的主流和最重要的技术。本文的研究从数据库知识发现的角度出发,在电子邮件分类领域,从选择目标数据、预处理数据、转化数据入手,进行数据挖掘以提取模式和关系,解释并评价所发现的关系在预测中的效果;分析、研究、比较、评估基于贝叶斯理论的不同的模式和关系,在实践中观察、调整、改进有监督机器学习的步骤、参数。本文深入地研究了基于贝叶斯理论的数据挖掘方法在电子邮件分类中的具体效果和相关细节。首先,探讨了电子邮件的分类模型和分类基本假设;然后,讨论了电子邮件的特征提取,包括文档频次和信息增益两种方法,同时根据经验方法进行了特征约简;最后,比较研究了三种基于贝叶斯理论的分类算法,关注特征提取方法的不同,特征重要性的判别标准不同,采用的特征的不同类别对分类算法的影响。同时也检验了有监督学习训练的效果。通过本文的研究工作,以电子邮件分类应用为样本的一整套基于贝叶斯理论的数据挖掘分类方法的应用系统初具雏形,整个机器学习、数据挖掘领域需要考虑的特征提取、学习训练、分类器设计、性能评估、反馈改进等各个环节都给出具体的方法和需要考虑的关键细节,并通过实验的方式进行了经验验证。虽然本文的研究只是针对电子邮件分类这个特殊的领域,但是文中所采用的数据挖掘方法具有应用上的普遍适用性,可以广泛地应用到各种各样的分类的领域,比如信用风险评估、欺诈行为侦测,甚至应用到股价预测评估当中。针对各种各样的分类应用领域,本文提供了一个普遍适用的、经过经验验证的、数据挖掘领域基于贝叶斯方法的应用框架。2.期刊论文王预正在走向现实的数据挖掘及其分类预测-教育信息化2004(10)数据挖掘是当今一个新的技术热点.本文从数据挖掘、数据挖掘环境、数据挖掘的基本过程展开研究,分析了数据挖掘的模式,详细阐述了分类、预测的区别与联系,展望了数据挖掘未来的研究方向.3.学位论文秦昆基于形式概念分析的图像数据挖掘研究2004随着图像数据获取设备和获取手段的迅速发展,我们获取了海量的图像数据,如何充分地利用这些图像数据,从图像数据中挖掘出隐含的、潜在的规律性的知识,是目前迫切需要解决的问题.该文对图像(遥感图像)数据挖掘与知识发现这一新的概念的内涵和外延进行了系统地深入地分析和研究.该文对形式概念分析(概念格)理论进行了系统地深入地分析.该文对基于形式概念分析理论的数据挖掘的原理和算法进行了研究,将关联规则、分类规则、聚类规则统一成A→B的形式,从而建立了集关联规则挖掘、分类规则挖掘和聚类规则挖掘为一体的统一的数据挖掘的框架.该文重点对关联规则挖掘的算法进行了深入的研究,并研究出两种集概念格的构建和Hasse图的绘制为一体的关联规则挖掘的快速算法.其中,第二种算法建立了辞典序索引树,并根据概念格节点的内涵基数实现分层存放,经过实验验证,证明这两种算法都优于经典的关联规则挖掘算法Apriori算法,并且第二种算法比第一种算法更加快速有效.我们对现实世界的认识是在不同的层次、不同的粒度世界里进行的,对于图像数据挖掘来说也是如此,这就涉及到一个图像数据挖掘的粒度问题.该文通过对商空间理论的分析与研究,利用商空间理论提供的形式化语言米描述图像数据挖掘的不同的粒度世界,将商空间理论与形式概念分析理论相结合,对图像数据挖掘与知识发现的机理进行了研究,从理论上提出了一个概念驱动的图像数据挖掘与知识发现的理论框架.该文重点对光谱(颜色)特征知识挖掘、纹理特征知识挖掘、空间关系特征知识挖掘等进行了实验研究,从图像数据中挖掘出了大量的光谱特征知识、纹理特征知识以及空间分布规律知识等.该文选取了大量的航空纹理样本图像,进行了基于纹理特征知识的纹理图像分类的实验,并且与基于灰度共生矩阵、基于马尔柯夫随机场的纹理分类方法进行了对比实验,实验结果证明该文所研究的集于图像数据挖掘的纹理分类方法的分类精度比另外两种纹理分类方法的分类精度更高.利用图像数据挖掘的方法可以从图像数据中挖掘出大量的图像知识,该文对图像知识的存储与管理以及基于知识的应用等问题进行了研究.该文提出了利用关系数据库以及文本文件的方式实现图像知识的统一存储和管理的方法,建立了一个图像知识库系统,实现了图像知识的有效存储和添加、删除、查询等功能.该文在图像数据挖掘的相关理论与技术研究的基础上,研究并开发了一套图像(遥感图像)数据挖掘的软件原型系统RSImageMiner,该软件原型系统包括以下功能模块.4.期刊论文袁红星.谷琼数据挖掘中BPN与PNN分类的对比研究-计算机时代2006(9)分类问题是数据挖掘中的一个重要问题.尽管神经网络是一种高精度的分类器,但是由于神经网络模型众多,在分类预测时如何选择合适的模型,还没有一个普遍的原则.文章对后传播神经网络(BPN)和概率神经网络(PNN)在数据挖掘分类中的应用进行了对比研究,并利用这两种模型对高校研究生信息进行了分类挖掘.仿真结果证明,PNN模型在分类预测上优于BPN模型,而且其分类速度快、正确率高、测试结果稳定.5.学位论文张超数据挖掘中分类分析的策略研究及其生物医学应用2008背景:数据挖掘是综合利用了统计学、数据库和人工智能技术,从海量数据中提取知识和信息的一门技术。据报导,在我国生物医学中仅有不足10%的数据用来分析。与此同时,在生物医学数据资源中数据挖掘方法学研究是相对匮乏和滞后的。当前,数据挖掘已成为一个具有迫切现实需要且很有前途的热点研究领域。随着生物医学数据量的急剧增涨及其数据的特殊性,需要加大数据挖掘的方法学研究。在生物医学领域,分类方法应用非常广泛,可应用于影像学的图像分类处理;病理、检验、肿瘤等学科进行辅助诊断和识别;基因芯片、蛋白质芯片等微阵列数据分子生物学技术诊断;中医症侯特征分类;人寿保险;预测和自动控制等方面。因此,如何利用分类分析从大量数据中智能地、自动地提取出有价值的知识和信息的研究,具有十分重要的现实意义和广泛的应用前景。目的:应用MonteCarlo方法比较数据挖掘中分类分析的八种方法,探讨不同分类方法的特点及在特定数据条件下的优势与不足,据此提出数据挖掘中分类分析的策略,为数据挖掘的实际应用提供依据。方法:选择八种分类方法,即判别分析中的线性判别(LinnerDiscriminantAnalysis,LDA)、二次判别(QuadraticDiscriminantAnalysis,QDA)、K-最近邻法(K-Nea