基于朴素贝叶斯的分类方法研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于朴素贝叶斯的分类方法研究作者:周龙学位授予单位:安徽大学相似文献(10条)1.期刊论文杨鼎.阳爱民.YANGDing.YANGAi-min一种基于情感词典和朴素贝叶斯的中文文本情感分类方法-计算机应用研究2010,27(10)基于朴素贝叶斯理论提出了一种新的中文文本情感分类方法.这种方法利用情感词典对文本进行处理和表示,基于朴素贝叶斯理论构建文本情感分类器,并以互联网上宾馆中文评论作为分类研究的对象.实验表明,使用提出的方法构成的分类器具有分类速度快、分类准确度高、鲁棒性强等特点,并且适合于大量中文文本情感分类应用系统.2.学位论文刘林基于词语权重改进的朴素贝叶斯分类算法的研究与应用2009随着信息技术尤其是Internet相关技术的发展与成熟,人们已经进入一个信息海量、高速化的时代。这就对人们传统的上网方式提出了挑战,即能否更快更全的找到并接收你感兴趣的信息。RSS阅读器的出现无疑在一定程度上解决了这个问题。同时,使用Web文档自动分类技术可以更加有效地组织和管理Web资源,提高信息检索的效率,它目前已成为Web挖掘的研究热点之一。朴素贝叶斯分类模型以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,成为数据挖掘领域中的一个热点,在数据挖掘中具有广泛的应用。目前对于它的研究工作主要集中在探讨它的条件独立性假设和如何改善其性能方面。本文利用加权朴素贝叶斯算法来改进其分类性能,同时考虑到传统权重计算方法TFIDF存在一定的缺陷,提出了一种新的权重计算公式TF—IDF—RTC,该方法将特征项与类别之间的关联性考虑到了权重计算公式里面,用来突出那些在类别中作用比较大的特征项,实验证明是可行的。文中将RSS技术与朴素贝叶斯分类算法进行了一个很好的结合,构建了一个自动发布系统。该系统利用RSS技术收集信息源,对通过解析RSS摘要得到的一些内容利用朴素贝叶斯分类算法进行信息条目的分类。该发布系统已应用于功能性纺织业界信息的收集与发布中。3.期刊论文梁宏胜.徐建民.成岳鹏.LIANGHong-sheng.XUJian-min.CHENGYue-peng一种改进的朴素贝叶斯文本分类方法-河北大学学报(自然科学版)2007,27(3)朴素贝叶斯分类器是一种简单有效的文本分类方法.改进方法利用同义词对文本的特征词集进行过滤,在一定程度上放松了朴素贝叶斯的特征独立性假设;在特征选择时迭代了2种不同的特征选择方法,有效地提高了特征集的代表性.实验结果表明,本方法有效地提高了朴素贝叶斯分类器的性能.4.学位论文付强基于分类方法的缺失值处理工具的设计与实现2004在过去的几十年中,关系数据库的广泛应用、计算机硬件能力的不断提高、互联网的飞速发展,使人们处理数据和收集数据的能力大大提高,从大量数据中提取信息的要求显得越来越迫切.技术的推动和需求的推动使数据仓库、联机分析处理、数据挖掘技术得到了快速的发展.但是现实世界的数据常常是不完整的、存在噪声的和不一致的,为了支持正确的分析决策,必须对数据进行清洗.缺失值是实际系统中常见的重要问题.该文针对在实际项目中遇到的问题,根据不同类别的缺失特性,利用了与缺失值相关的其他属性的值,采用不同的分类方法预测缺失值.该方法和一般的方法相比,有更大的机会保持缺失值和其他属性之间的联系,得到最有可能的值,从而比较好的反映实际情况.该文主要做了的以下几个方面的工作:1)设计并实现了使用分类方法处理缺失值的方法.考虑缺失值与其他属性之间的联系,通过训练数据和分类算法得到分类规则,然后把分类规则应用到含有缺失值的数据,对缺失值进行填充.2)设计并实现了缺失值处理中的预处理方法.预处理过程对数据进行了属性相关性分析、属性的分割与集成、属性的离散化等处理,使得对缺失值的处理更加有效.3)针对实际数据情况,选择实现了不同的分类算法——判定树分类和朴素贝叶斯分类.通过对分类方法的研究,对于数据量较小的情况,选择了判定树分类算法,而对于数据量大的情况,选择了朴素贝叶斯分类算法.4)设计并实现了基于分类方法的缺失值处理工具的原型系统.用户可以通过原型系统方便的创建、修改分类模型,用图形化的方法查看分类模型的分类规则,通过分类模型对缺失值进行填充.并把系统应用到实际的缺失值处理的过程中,取得了很好的效果.5.期刊论文宿娇娜.李程.李巍.唐发根.李云春.XUJiao-na.LICheng.LIWei.TANGFa-gen.LIYun-chun基于改进NB分类方法的网络异常检测模型-计算机工程2008,34(5)随着计算机网络和分布式应用的复杂化和多样化,智能化网络异常检测技术逐渐成为有效监测和控制系统的重要方法.该文提出基于改进NB分类方法的网络异常检测算法,采用互信息的方法对网络属性进行关键特征提取.实验结果表明,该异常检测方法对DoS和Probing类攻击的检测率较高,具有较低的虚警率.6.学位论文薛思君基于增量式朴素贝叶斯分类方法的电梯交通模式识别方法的研究2009在电梯群控系统中,能否有效的分析和处理电梯交通流数据是影响电梯群控系统性能的一个重要因素。因此对建筑物内部的交通状况进行准确分类,在不同的交通状况下采用不同的电梯群控策略,可以有效地提高电梯的服务质量和各项性能指标。目前最主要的是采用模糊神经网络来进行电梯交通模式识别,但是该方法由于算法训练耗时大、网络结构具有不可确定性、而且对训练数据的依赖性较大、泛化能力差,使得电梯交通模式识别的准确率不高。朴素贝叶斯因其条件属性和决策类别间关系清晰、分类速度快,并且具有良好的健壮性,已被成功应用到许多领域。当获得大量带有类别标注的样本代价较高时,与增量学习理论结合是解决问题的有效途径。因此,如何实现朴素贝叶斯分类与增量学习算法相结合应用于电梯交通模式识别是一个值得研究和解决的课题。br  论文主要包括以下工作内容:br  ①在分析贝叶斯网络结构,特点和应用的基础上建立了一个朴素贝叶斯分类器模型。br  ②针对传统的增量算法重点介绍了一种新的增量序列学习算法,该算法引入一个分类损失权重系数λ,用于计算分类损失的大小,引入该系数的作用在于:充分利用先验知识对分类器进行优化;通过选择合理的学习序列强化了较完备数据对分类的积极影响,从而可以提高分类精度。br  ③将朴素贝叶斯分类器模型与改进后的增量序列学习算法相结合从而建立了一个基于增量式朴素贝叶斯分类模型。最后,在认真分析了电梯交通流的特点和规律的基础上将该模型运用于电梯交通的模式识别中,通过对电梯交通流数据进行采集分析和特征的提取,利用MATLAB进行了模拟测试,并对实验结果进行了比较分析,测试结果表明该方法对电梯交通模式识别的准确率为92.3%,相比于模糊神经网络的识别准确率90.6%有所提高,因此其分类性能更加令人满意。br  通过定义并建立一种基于朴素贝叶斯分类器和增量序列学习算法相结合的分类模型,为实现电梯交通模式识别提供了一种有效的解决办法。由于办公大楼的客流规律比较明显,因此课题只是针对一般性的办公大楼的电梯交通流进行的研究,而对于像商场,普通居民住宅区那些客流规律并不是非常明显的建筑物该模式识别方法是否适用,有待进一步研究。7.期刊论文石洪波.王志海.黄厚宽一种基于TAN的文本分类方法-广西师范大学学报(自然科学版)2003,21(1)提出了一种基于TAN模型的文本分类方法.朴素贝叶斯分类器是当前流行的一种文本分类算法,但是它的属性独立性假设使其无法表达文本词语之间的依赖关系.TAN(TreeAugmentedNaiveBayes)是综合了朴素贝叶斯的简易性以及贝叶斯网表示依赖关系的能力,其分类性能可与当前流行的一些分类器相竞争.介绍了TAN模型,将其引入到文本分类中,并用实验比较了朴素贝叶斯和TAN,实验结果表明:该方法具有较好的分类性能.8.学位论文彭浩威选择性加权朴素贝叶斯分类方法的探讨2010朴素贝叶斯分类(NaiveBayesClassification,NBC)方法是简单的贝叶斯分类方法,在众多分类方法和理论中,它具有计算效率高、精确度高、理论基础坚实等特点,因此得到了广泛应用。朴素贝叶斯方法假定在给定分类特征条件下属性值之间是相互独立的,同时认为每个条件属性对决策分类的重要性是相同的,但这些假设在真实数据中不一定成立,此为朴素贝叶斯方法的局限性。br  本文详细介绍了贝叶斯决策理论及朴素贝叶斯分类器。详细阐述了NBC模型的优缺点,引入了一种常用的属性选择统计学方法--x2统计量法及一种属性加权方法—信息增益比率法来弱化其局限性,并提出进一步改进NBC性能的若干方法:针对属性选择提出寻求最优约简子集的广义相关函数法,建立了基于广义相关函数的选择性朴素贝叶斯分类器GNBC(见3.4节模型);同时又根据x2统计量相关度、广义相关函数得出属性权重建立了加权NBC模型WKNBC及WGNBC(见4.3节模型);最后,本文将属性选择和属性加权相结合得到4.4节中几种选择性加权模型,并通过实验比较分析证实得出本文提出的基于广义相关函数的选择性加权NBC模型SWGNBC性能最好(本文在5.1节给出了各种改进模型的索引)。br  本文在属性选择及属性加权时把广义相关函数作为度量依据,这种相关性衡量标准对改进分类效果来说是否最优有必要进一步讨论。另外,本文实验所用数据集均为离散型,本文提出的各种改进模型是否对数值型分类数据同样起到很好的效果值得进一步研究。9.学位论文许翠萍基于朴素贝叶斯分类算法的新闻网页分类方法201010.会议论文石洪波.王志海.黄厚宽一种基于TAN的文本分类方法2003提出了一种基于TAN模型的文本分类方法,朴素贝叶斯分类器是当前流行的一种文本分类算法,但是它的属性独立性假设使其无法表达文本词语之间的依赖关系.TAN(TreeAugmentedNaiveBayes)是综合了朴素贝叶斯的简易性以及贝叶斯网表示依赖关系的能力,其分类性能可与当前流行的一些分类器相竞争.介绍了TAN模型,将其引入到文本分类中,并用实验比较了朴素贝叶斯和TAN,实验结果表明:该方法具有较好的分类性能.本文链接:授权使用:西北农林科技大学图书馆(wflsxbt),授权号:02d1cdf0-def2-48c9-8fcd-9eef0146f547下载时间:2011年5月26日

1 / 75
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功