I基于贝叶斯算法的垃圾邮件过滤相关技术研究摘要电子邮件系统目前互联网上最普及的应用之一。然而,电子邮件在给人们提供便捷通信手段的同时,也遭到了一些人为的滥用。当今垃圾邮件问题已经愈演愈烈,对互联网造成了很大危害。利用技术方法来阻挡垃圾邮件,是目前为止对付垃圾邮件问题最有效的手段。各种过滤技术中,贝叶斯过滤技术,借鉴了在文本挖掘问题中获得成功的机器学习算法,是目前研究较多的一种过滤技术。贝叶斯过滤方法在分类的效果上以及在不需要太多人工干预上都有很大优势,因此逐渐被广泛接受。我们分析了目前的垃圾邮件内容过滤技术,认识到垃圾邮件过滤技术与普通的文本分类和挖掘问题存在着很多不同。我们总结和分析了目前基于贝叶斯垃圾邮件过滤技术的现状,包括文本表示、特征选择、分类算法、评价体系,以及垃圾邮件过滤领域中常用的公共语料库,对基于贝叶斯的过滤方法提出了一系列改进。论文的具体内容包括:(1)对朴素贝叶斯算法进行了详细的研究,并且提出了三个方面的改进思路。在文本表示方面,提出采用指纹特征的表示方法;在特征选择方面,提出了基于类条件分布的特征选择;第三个方面,根据学习的不断深入性,提出了阈值动态调整算法。基于这些改进,实现了改进的朴素贝叶斯过滤器。(2)分析邮件结构特点,从邮件结构不同于普通文本出发,提出集成加权模型,以充分利用邮件的结构信息。基于集成加权模型对邮件头和邮件正文分别建立模型,最后通过加权方法集成二者结果,对垃圾邮件进行过滤。(3)研究了最小风险贝叶斯和主动学习贝叶斯两种贝叶斯的扩展模型。最小风险贝叶斯能够减少正常邮件判为垃圾邮件的风险,而主动学习贝叶斯主动训练样本集,能够降低样本顺序对过滤精度的影响。根据实验结果对比,得到两种扩展模型的最佳应用II条件,并提出了改进后的邮件过滤算法。综合以上改进和扩展而设计的贝叶斯过滤器在最新的标准数据集上的测试结果表明,与经典的贝叶斯过滤器Bogo相比,过滤效果有较大的提高。关键词:集成加权贝叶斯;最小风险贝叶斯;主动学习贝叶斯;特征选择;阈值调整ABSTRACTElectronicmail(e-mail)isabigsuccessofInternet;itisbecomingoneofthefastestandmosteconomicalwaysofcommunicationavailable.Atthesametime,thegrowingproblemofjunkmail(alsoreferedtoas“spam”)hasgeneratedaneedfore-mailfiltering.Therehavebeenalotofmethodstobeatspam,andtheapproachofusingautomatedtextcategorizationandinformationfilteringtofilterspamisbecomeamostefficientone.Weanalyzedthecurrenttechnologyofcontent-basedspamfiltering,andfoundlotsofdifferencesbetweenthetraditionaltextcategorizationProblemandtheoneofspamfiltering.Dependonthisanalysis,developsomemethodstoimprovetheperformanceofthespamfilteringalgorithm.Thecontentsofthisarticleareasfollowing:(1)Asummaryaboutthestateofthecontent-basedspamfiltering.Weinvestigatinganti-spamproblemfromthetextcategorizationperspective,introducingtheapproachesoffeatureselection,classifiersande-mailcorpusinthistask.(2)Westudythebayesalgorithmindetailsandproposetheimprovingsinfouraspects.Thefirstaspectistheshowingoftext.Weproposesanewmethodwhichisfingerprintfeature.Thesecondaspectisfeatureselecting.Weproposeanewmethodwhichisclassconditiondistribute.Thee-mailcorpusandtextcorpusareverydifferentinstructure.Weanalyzedthestructureofemail,andpurposedaemailheaderandemailbodyintegratedmodel.Inthefourthaspect,weproposethresholdadjustingalgorithm.Intheend,wecombinefouraspects,andrealizetheimprovingbayespercolator.(3)Fromtheshortcomingsofordinarybayes,BayesproposedminimumriskBayesIIImodelandinitiativestudyingBayesmodel.MinimumriskBayesmodelreducedtherisktojudgethenormalmailasspamemailAndtheinitiativestudyingBayesmodelcanreducetheimpactoftheorderofcorpusintheemailfilteringaccuracy.Keywords:Minimumriskbayes;Activelearningbayes;Integrationweightedbayes;Featureselection;Thresholdadjustment目录摘要...........................................................................IABSTRACT.......................................................................II目录.........................................................................III第一章绪论....................................................错误!未定义书签。1.1引言错误!未定义书签。1.1.1课题研究背景............................................错误!未定义书签。1.1.2贝叶斯研究简介..........................................错误!未定义书签。1.1.3贝叶斯垃圾邮件过滤发展史..................................错误!未定义书签。1.1.4国内外贝叶斯垃圾邮件过滤发展现状...........................错误!未定义书签。1.2垃圾邮件的危害及当前状况错误!未定义书签。1.2.1.垃圾邮件的定义..........................................错误!未定义书签。1.2.2我国垃圾邮件的当前状况...................................错误!未定义书签。1.3垃圾邮件过滤常用技术错误!未定义书签。1.3.1黑白名单技术............................................错误!未定义书签。IV1.3.2反向域名验证............................................错误!未定义书签。1.3.3关键词过滤..............................................错误!未定义书签。1.3.4基于规则评分的过滤技术...................................错误!未定义书签。1.3.5贝叶斯过滤法............................................错误!未定义书签。1.4本文研究的内容错误!未定义书签。1.5论文组织结构错误!未定义书签。第二章贝叶斯算法及邮件评测相关技术简介.............................错误!未定义书签。2.1贝叶斯定理错误!未定义书签。2.2朴素贝叶斯的原理错误!未定义书签。2.3贝叶斯过滤器错误!未定义书签。2.4朴素贝叶斯算法在邮件过滤应用上的优缺点错误!未定义书签。2.5朴素贝叶斯邮件过滤器的扩展错误!未定义书签。2.5.1最小风险贝叶斯..........................................错误!未定义书签。2.5.2主动学习贝叶斯..........................................错误!未定义书签。2.6邮件评测错误!V未定义书签。2.6.1邮件过滤语料库..........................................错误!未定义书签。2.6.2邮件过滤模式............................................错误!未定义书签。2.6.3评价体系..............................................错误!未定义书签。2.7本章小结错误!未定义书签。第三章朴素贝叶斯过滤器的改进......................................错误!未定义书签。3.1贝叶斯分类流程错误!未定义书签。3.2贝叶斯邮件过滤器的改进方面错误!未定义书签。3.3文本表示错误!未定义书签。3.3.1词语特征项.............................................错误!未定义书签。3.3.2指纹散列特征项..........................................错误!未定义书签。3.3.3一种指纹算法............................................错误!未定义书签。3.4特征选择错误!未定义书签。3.4.1信息增益...............................................错误!未定义书签。3.4.2期望交叉熵.............................................错误!未定义书签。4.4.3互信息.................................................错误!未定义书签。3.4.4基于类条件分布的特征选择.................................错误!未定义书签。3.4.5三种特征选择方法邮件过滤精度比较..........................错误!未定义书签。VI3.5阈值动态调整错误!未定义书签。3.5.1阈值对过滤精度的影响.....................................错误!未定义书签。3.5.2阈值调整自适应算法......................................错误!未定义书签。3.5.3阈值动态调整的实验结果分析.......