I基于贝叶斯算法的垃圾邮件过滤相关技术研究摘要电子邮件系统目前互联网上最普及的应用之一。然而,电子邮件在给人们提供便捷通信手段的同时,也遭到了一些人为的滥用。当今垃圾邮件问题已经愈演愈烈,对互联网造成了很大危害。利用技术方法来阻挡垃圾邮件,是目前为止对付垃圾邮件问题最有效的手段。各种过滤技术中,贝叶斯过滤技术,借鉴了在文本挖掘问题中获得成功的机器学习算法,是目前研究较多的一种过滤技术。贝叶斯过滤方法在分类的效果上以及在不需要太多人工干预上都有很大优势,因此逐渐被广泛接受。我们分析了目前的垃圾邮件内容过滤技术,认识到垃圾邮件过滤技术与普通的文本分类和挖掘问题存在着很多不同。我们总结和分析了目前基于贝叶斯垃圾邮件过滤技术的现状,包括文本表示、特征选择、分类算法、评价体系,以及垃圾邮件过滤领域中常用的公共语料库,对基于贝叶斯的过滤方法提出了一系列改进。论文的具体内容包括:(1)对朴素贝叶斯算法进行了详细的研究,并且提出了三个方面的改进思路。在文本表示方面,提出采用指纹特征的表示方法;在特征选择方面,提出了基于类条件分布的特征选择;第三个方面,根据学习的不断深入性,提出了阈值动态调整算法。基于这些改进,实现了改进的朴素贝叶斯过滤器。(2)分析邮件结构特点,从邮件结构不同于普通文本出发,提出集成加权模型,以充分利用邮件的结构信息。基于集成加权模型对邮件头和邮件正文分别建立模型,最后通过加权方法集成二者结果,对垃圾邮件进行过滤。(3)研究了最小风险贝叶斯和主动学习贝叶斯两种贝叶斯的扩展模型。最小风险贝叶斯能够减少正常邮件判为垃圾邮件的风险,而主动学习贝叶斯主动训练样本集,能够降低样本顺序对过滤精度的影响。根据实验结果对比,得到两种扩展模型的最佳应用II条件,并提出了改进后的邮件过滤算法。综合以上改进和扩展而设计的贝叶斯过滤器在最新的标准数据集上的测试结果表明,与经典的贝叶斯过滤器Bogo相比,过滤效果有较大的提高。关键词:集成加权贝叶斯;最小风险贝叶斯;主动学习贝叶斯;特征选择;阈值调整ABSTRACTElectronicmail(e-mail)isabigsuccessofInternet;itisbecomingoneofthefastestandmosteconomicalwaysofcommunicationavailable.Atthesametime,thegrowingproblemofjunkmail(alsoreferedtoas“spam”)hasgeneratedaneedfore-mailfiltering.Therehavebeenalotofmethodstobeatspam,andtheapproachofusingautomatedtextcategorizationandinformationfilteringtofilterspamisbecomeamostefficientone.Weanalyzedthecurrenttechnologyofcontent-basedspamfiltering,andfoundlotsofdifferencesbetweenthetraditionaltextcategorizationProblemandtheoneofspamfiltering.Dependonthisanalysis,developsomemethodstoimprovetheperformanceofthespamfilteringalgorithm.Thecontentsofthisarticleareasfollowing:(1)Asummaryaboutthestateofthecontent-basedspamfiltering.Weinvestigatinganti-spamproblemfromthetextcategorizationperspective,introducingtheapproachesoffeatureselection,classifiersande-mailcorpusinthistask.(2)Westudythebayesalgorithmindetailsandproposetheimprovingsinfouraspects.Thefirstaspectistheshowingoftext.Weproposesanewmethodwhichisfingerprintfeature.Thesecondaspectisfeatureselecting.Weproposeanewmethodwhichisclassconditiondistribute.Thee-mailcorpusandtextcorpusareverydifferentinstructure.Weanalyzedthestructureofemail,andpurposedaemailheaderandemailbodyintegratedmodel.Inthefourthaspect,weproposethresholdadjustingalgorithm.Intheend,wecombinefouraspects,andrealizetheimprovingbayespercolator.(3)Fromtheshortcomingsofordinarybayes,BayesproposedminimumriskBayesIIImodelandinitiativestudyingBayesmodel.MinimumriskBayesmodelreducedtherisktojudgethenormalmailasspamemailAndtheinitiativestudyingBayesmodelcanreducetheimpactoftheorderofcorpusintheemailfilteringaccuracy.Keywords:Minimumriskbayes;Activelearningbayes;Integrationweightedbayes;Featureselection;Thresholdadjustment目录摘要...........................................................................IABSTRACT.......................................................................II目录.........................................................................III第一章绪论....................................................................11.1引言11.1.1课题研究背景............................................................11.1.2贝叶斯研究简介..........................................................11.1.3贝叶斯垃圾邮件过滤发展史..................................................21.1.4国内外贝叶斯垃圾邮件过滤发展现状...........................................21.2垃圾邮件的危害及当前状况51.2.1.垃圾邮件的定义..........................................................51.2.2我国垃圾邮件的当前状况...................................................61.3垃圾邮件过滤常用技术61.3.1黑白名单技术............................................................71.3.2反向域名验证............................................................71.3.3关键词过滤..............................................................71.3.4基于规则评分的过滤技术...................................................81.3.5贝叶斯过滤法............................................................81.4本文研究的内容81.5论文组织结构9IV第二章贝叶斯算法及邮件评测相关技术简介............................................102.1贝叶斯定理102.2朴素贝叶斯的原理102.3贝叶斯过滤器122.4朴素贝叶斯算法在邮件过滤应用上的优缺点122.5朴素贝叶斯邮件过滤器的扩展132.5.1最小风险贝叶斯.........................................................132.5.2主动学习贝叶斯.........................................................132.6邮件评测142.6.1邮件过滤语料库.........................................................142.6.2邮件过滤模式...........................................................152.6.3评价体系.............................................................172.7本章小结20第三章朴素贝叶斯过滤器的改进.....................................................213.1贝叶斯分类流程213.2贝叶斯邮件过滤器的改进方面213.3文本表示223.3.1词语特征项............................................................223.3.2指纹散列特征项.........................................................223.3.3一种指纹算法...........................................................233.4特征选择233.4.1信息增益..............................................................243.4.2期望交叉熵............................................................244.4.3互信息................................................................253.4.4基于类条件分布的特征选择................................................253.4.5三种特征选择方法邮件过滤精度比较.........................................263.5阈值动态调整303.5.1阈值对过滤精度的影响...........................................