北京交通大学硕士学位论文基于不完整数据处理方法的贝叶斯分类器研究姓名:乔珠峰申请学位级别:硕士专业:计算机软件与理论指导教师:黄厚宽20061201基于不完整数据处理方法的贝叶斯分类器研究作者:乔珠峰学位授予单位:北京交通大学相似文献(10条)1.期刊论文王双成.忻瑞婵.WangShuangcheng.XinRuichan广义朴素贝叶斯分类器-计算机应用与软件2007,24(11)朴素贝叶斯分类器具有很高的学习和分类效率,但不能充分利用属性变量之间的依赖信息.贝叶斯网络分类器具有很强的分类能力,但分类器学习比较复杂.本文建立广义朴素贝叶斯分类器,它具有灵活的分类能力选择方式、效率选择方式及学习方式,能够弥补朴素贝叶斯分类器和贝叶斯网络分类器的不足,并继承它们的优点.2.学位论文蒋良孝朴素贝叶斯分类器及其改进算法研究2009分类是数据挖掘中一项非常重要的任务,在现实生活中有着广泛的应用。例如,根据电子邮件的标题和内容判断其是否为垃圾邮件。构造分类器的方法很多,常见的有贝叶斯网络、决策树、基于实例的学习、人工神经网络、支持向量机、遗传算法、粗糙集、模糊集等等。其中,贝叶斯网络正以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等成为众多方法中最为流行的方法之一。br 鉴于学习最优的贝叶斯分类器如同学习贝叶斯网络是一个NP难问题,学习朴素贝叶斯分类器得到了广大学者的重视。朴素贝叶斯分类器基于一个简单而不现实的假设:在给定类标记时属性值之间相互条件独立。可最近的有导师学习表明:即便是这样一个惊奇简单且具有很强的属性条件独立性假设的贝叶斯分类器,简称为朴素贝叶斯分类器,其分类性能仍然可与决策树算法、k-近邻算法等经典算法相当。br 一个自然的问题是:释放朴素贝叶斯分类器的属性条件独立性是否可以使得它的分类性能更好?为回答这个问题,学者们提出了许多改进朴素贝叶斯分类器的方法,概括起来主要可以分为三类:1)结构扩展,这一类方法用有向边来表达属性之间的依赖关系;2)属性选择,这一类方法在属性空间搜索一个属性子集;3)局部学习,这一类方法在测试实例的局部构建一个朴素贝叶斯分类器。br 本文以朴素贝叶斯分类器为基本对象,研究朴素贝叶斯分类器的各种改进方法,提出了隐藏扩展的朴素贝叶斯分类器、演化选择的朴素贝叶斯分类器、动态局部的朴素贝叶斯分类器三种算法。在许多现实的数据挖掘应用中,排列也非常重要。因此,本文调查研究了朴素贝叶斯分类器的排列性能,并提出了一种局部克隆的朴素贝叶斯排列算法。此外,本文还调查研究了改进朴素贝叶斯分类器的一些其他方法:属性加权方法、实例加权方法、组合学习方法,提出了一种基于相似度的实例加权的朴素贝叶斯分类算法和一种基于C4.5和NB的组合分类算法。最后,探讨了新算法在若干实际问题的应用价值。br 本文的最主要的贡献包括:br 1)给出了学习扩展的朴素贝叶斯分类器的算法框架、综述了改进朴素贝叶斯分类器的结构扩展方法、提出了一种隐藏扩展的朴素贝叶斯分类算法(HANB)。HANB为每个属性结点产生一个隐藏的父亲结点,该结点对其几子结点的影响为其他所有属性结点对该属性结点影响的加权平均,其中权值的大小为属性变量之间的条件相互信息。br 2)给出了学习选择的朴素贝叶斯分类器的算法框架、综述了改进朴素贝叶斯分类器的属性选择方法、提出了一种演化选择的朴素贝叶斯分类算法(ESNB)。ESNB的适应度函数为当前朴素贝叶斯分类器的分类精度。编码方式为二进制编码方式,二进制串的长度为原始属性的个数,二进制位“1”或者“0”分别代表属性被选择或没有被选择的状态,停止搜索的条件为演化的代数。br 3)给出了学习局部的朴素贝叶斯分类器的算法框架、综述了改进朴素贝叶斯分类器的局部学习方法、提出了一种动态局部的朴素贝叶斯分类算法(DLNB)。DLNB在训练实例集上利用留一交叉验证法来动态地选择一个最能拟合训练实例集的k值,一旦最佳的k值被学习到,它就可以被用来分类所有的测试实例。br 4)综述了排列算法的研究状况、调查了朴素贝叶斯分类器的排列性能、提出了一种局部克隆的朴素贝叶斯排列算法(LCNB)。LCNB首先运用k-近邻算法发现最接近测试实例的k个邻居,然后根据测试实例和每个邻居之间的相似度对每个邻居进行克隆,最后在增加了克隆实例后的训练实例集上构建朴素贝叶斯分类器。br 5)给出了学习属性加权和实例加权的朴素贝叶斯分类器的算法框架、综述了构造组合分类器的四类方法、提出了一种基于相似度的实例加权的朴素贝叶斯分类算法(IWNB-S)和一种基于C4.5和NB的组合分类算法(C4.5-NB)。br 6)探讨了新算法(HANB、ESNB、DLNB)在若干实际问题的应用价值。3.期刊论文王辉.王双成.周颜军.张剑飞基于广义朴素贝叶斯分类器的空值处理方法-东北师大学报(自然科学版)2004,36(1)给出了基于广义朴素贝叶斯分类器的空值处理方法,该方法利用广义朴素贝叶斯分类器的较强预测能力及灵活的效率选择方式,有效地解决了数据中的空值处理问题.利用模拟数据进行了对比实验,结果显示,其预测准确性明显提高.4.学位论文叶土生概率统计在分类器设计中的应用及朴素贝叶斯分类器改进研究2010分类是数据挖掘中一项非常重要的任务,在现实生活中有着广泛的应用。例如,根据电子邮件的标题和内容判断某邮件是否为垃圾邮件。在分类任务中,构造合理的分类器是顺利完成一项分类任务的必要条件。br 现在构造分类器的方法很多,比较常用的有贝叶斯网络、决策树、基于实例的学习、人工神经网络、支持向量机等。很多方法在构建分类器时往往忽略了一点:概率统计在分类器里的应用。统计分析所提供的方差分析、假设检验、相关性分析等功能都有助于数据挖掘前期对数据进行探索,发现数据挖掘的题目,找出数据挖掘的目标,确定数据挖掘所需涉及的变量,对数据源进行抽样等等。这些前期工作的成功与否都会对数据挖掘的效果产生重大的影响,但这些方法常常会被一些数据挖掘工作者忽略。数据挖掘的结果也需要概率统计分析的描述功能进行具体描述,以使数据挖掘的结果更容易被用户了解。因此,概率统计分析和数据挖掘是相辅相成的过程,两者的合理配合是数据挖掘成功的重要条件。为说明以上观点,本文通过分析Adult数据并挖掘Adult数据中的信息,给出概率统计在构建分类器时作用。本文最主要的工作和成果包括:br ●给出一种新的属性相关系数定义。依据该定义独立地给出一种连续属性离散化的算法,并利用该算法离散了Adult数据的6个连续属性,取得很满意的结果。br ●基于发散度以及新定义的相关系数,给出了一种特征子集选择算法。通过实验验证了该算法的性能:使原来14维数据降到9维数据,并使朴素贝叶斯分类器的分类准确率由82.92%提高到83.60%。br ●在没有增加算法复杂度的前提下,给出了一种改进的朴素贝叶斯分类器。通过实验验证了改进后的朴素贝叶斯:其分辨率由原来的82.92%提高到85.58%。br 全文以Matlab为平台,以分析Adult数据为例,给出了相应的分析数据和结果,从而支持了本文的成果。5.期刊论文郭炜强.文军.文贵华.GUOWei-qiang.WENJun.WENGui-hua基于贝叶斯模型的专利分类-计算机工程与设计2005,26(8)朴素贝叶斯分类器理论基础好,分类精度高.利用特征词权重函数修改朴素贝叶斯分类器,进而利用它实现专利文本的自动分类,不仅减少了专利人工分类的工作量和分类错误,而且为技术跟踪、竞争分析等提供了有效支持.实验与应用表明改进的朴素贝叶斯分类器用来解决专利分类是有效的.6.期刊论文程克非.张聪.CHENGKe-fei.ZHANGCong基于特征加权的朴素贝叶斯分类器-计算机仿真2006,23(10)朴素贝叶斯分类器是一种广泛使用的分类算法,其计算效率和分类效果均十分理想.但是,由于其基础假设朴素贝叶斯假设与现实存在一定的差异,因此在某些数据上可能导致较差的分类结果.现在存在多种方法试图通过放松朴素贝叶斯假设来增强贝叶斯分类器的分类效果,但是通常会导致计算代价大幅提高.该文利用特征加权技术来增强朴素贝叶斯分类器.特征加权参数直接从数据导出,可以看作是计算某个类别的后验概率时,某个属性对于该计算的影响程度.数值实验表明,特征加权朴素贝叶斯分类器(FWNB)的效果与其他的一些常用分类算法,例如树扩展朴素贝叶斯(TAN)和朴素贝叶斯树(NBTree)等的分类效果相当,其平均错误率都在17%左右;在计算速度上,FWNB接近于NB,比TAN和NBTree快至少一个数量级.7.学位论文杜会锋基于Copula理论的两种分类算法研究2009分类问题是机器学习领域的基本研究问题之一,它在实际中应用非常广泛。朴素贝叶斯分类器是一种简单有效的分类器,它基于属性间的独立性假设。基于统计学习理论的支持向量机,在处理小样本、非线性及高维模式识别问题中表现出了一些特有的优势。br 本文简要地介绍了关于朴素贝叶斯分类器和支持向量机的基本理论,包括朴素贝叶斯分类模型,机器学习的基本问题,统计学习理论的基本内容,支持向量机分类算法,Copula函数的原理及性质。本文针对朴素贝叶斯分类器和支持向量分类机提出了两种改进的分类算法。br 针对朴素贝叶斯分类器的属性独立性假设的不足,利用Copula的理论提出了基于Copual的贝叶斯分类算法,进一步扩展了朴素贝叶斯分类器,实验结果表明,基于Copula的贝叶斯分类算法取得了较好的分类效果。br 本文还构造了基于马氏距离和Copula函数的距离映射和条件概率映射,将高维空间中的样本转化为二维空间中的新样本,并对新样本进行简易处理,构建了可分支持向量分类机,其特点是算法简单,易于实现。仿真实验表明本文构造的算法取得了较好的分类效果。br 最后对全文的工作进行了总结,并指出了有待进一步研究的问题。8.期刊论文潘志方.PANZhi-Fang基于朴素贝叶斯学习的电子商务网站客户兴趣分类的应用研究-计算机科学2007,34(6)随着电子商务的不断发展,用户的分析和分类对电子商务网站来说越来越重要.因此需要一个行之有效的方法来进行用户分类并对其进行个性化服务.在本文中,我们提出了一种可以根据用户的网页访问记录和网上交易记录来动态地对顾客进行分类的方法,主要是利用了改进型的朴素贝叶斯分类器,对用户在网站上的行为进行分类,从而得到用户的分类信息,其结果可以作为提供个性化服务的依据.文章通过实验证明了上述方法的有效性和正确性.9.期刊论文郭小宾.王壮.胡卫东.GUOXiao-bin.WANGZhuang.HUWei-dong基于贝叶斯网络分类器的雷达辐射源识别方法-火力与指挥控制2006,31(2)雷达辐射源识别是电子对抗中的重要组成部分.贝叶斯网络分类器建立在坚实的理论基础之上,具有较为优秀的分类性能,而且能够有效地处理不确定性问题,重点研究了如何利用贝叶斯网络分类器进行雷达辐射源识别,并通过仿真实验对朴素贝叶斯分类器及其扩展方法进行了分析比较.实验结果表明,与基于概率近似准则的方法相比,基于分类准确率提高准则的扩展树生成方法具有更为优秀的分类性能.10.学位论文胡为成基于遗传算法的朴素贝叶斯分类研究2006分类是数据挖掘领域中重要的研究分支,国内外已经取得了许多令人瞩目的成就。朴素贝叶斯分类器由于计算高效、精确度高,并具有坚实的理论基础而得到广泛的应用。然而,朴素贝叶斯分类器的条件独立性假设限制了对实际数据的应用。遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法,具有简单、通用、稳健等特性,使其在复杂实际问题的求解中显示出巨大的优越性,而且能在概率意义下收敛到问题的全局最优解。本文基于遗传算法,对朴素贝叶斯分类问题进行研究,主要工作如下:(1)概述数据挖掘的研究背景,数据挖掘的主要任务,描述了数据挖掘中分类问题的定义、方法以及分类模型评价的标准等