垃圾邮件过滤算法的研究与应用摘要Internet的问世带来了电子邮件业务的出现,电子邮件以其快捷、方便、低成本的特点广泛普及和繁荣,成为了信息交流的重要渠道,也是人们信息获取的重要途径。然而,随之而来的大量垃圾邮件占用了有限的存储、计算和网络资源,甚至威胁到系统安全。垃圾邮件的处理耗费服务器提供商和用户大量的时间和财力,影响用户的正常工作、生活和学习。垃圾邮件带来的诸多问题已严重干扰电子邮件的正常应用,如何有效治理垃圾邮件已成为现代社会迫切关注的话题,同时也是目前互联网上亟待解决的问题。因此提出一套行之有效的垃圾邮件过滤算法并设计出高效率的垃圾邮件过滤系统有着重要的现实意义。本文首先对垃圾邮件进行了概述,并对当前垃圾邮件过滤技术进行综合介绍。其次,在全面系统地学习了国内外反垃圾邮件领域的最新成果的基础上,总结了各种垃圾邮件过滤技术的优点和不足,并得出一般的垃圾邮件过滤步骤。垃圾邮件过滤本质上是文本分类的问题,而贝叶斯算法是目前最受欢迎的文本分类算法,因此贝叶斯算法在垃圾邮件过滤领域可以有着良好的应用。接着对贝叶斯算法及国内外贝叶斯算法在垃圾邮件过滤系统中的应用情况进行了深入研究和全面分析,将其运用在中文垃圾邮件过滤系统中,并设计了基于贝叶斯算法的中文垃圾邮件过滤模型。在此基础上,本文基于SSH框架、JQUERY和MYSQL数据库等设计并开发了基于贝叶斯算法的邮件过滤系统。为了适应中文邮件的处理,引入中文分词机制,并结合了基于邮件地址的黑白名单过滤,弥补邮件的误判,提高了系统的过滤效率、正确率和时空效率。同时,黑白名单过滤允许用户手动添加,提高了系统的灵活性。整个过程对用户来说是透明的,不会影响用户的正常网络行为。经过测试,系统的正确率为95%。垃圾邮件制造和垃圾邮件过滤本身就是一对矛盾,双方都在不断的发展。在功能上没有永远完美的垃圾邮件过滤技术。所以,在最后本文对垃圾邮件过滤技术今后的研究方向进行了展望。关键字:垃圾邮件,过滤,黑白名单,贝叶斯算法,中文分词ResearchandapplicationofSpamfilteringalgorithmAbstractTheadventofInternethasbroughttheemergenceofe-business,e-mailwithitsfast,convenientandlowcostcharacteristicwidespreadpopularizationandprosperity,hasbecomeanimportantchannelforinformationexchange,alsoanimportantwaytopeopleaccessingtoinformation.However,thesubsequentlotsofSpamoccupiedthelimitedstorage,computingandnetworkresources,eventhreateningthesystemsecurity.ProcessingofSpamcostserverprovidersandusersalotoftimeandmoney,affectsnormalusers’work,theirlifeandlearning.Spamhascausedmanyproblemsseriouslyinterferingwiththenormale-mailapplication,howtocontrolspamhasbecomeatopicofpressingconcerninmodernsociety,butalsopresentproblemstobesolvedontheInternet.Thereforeproposinganeffectivespamfilteringalgorithmanddesigningahighlyefficientspamfilteringsystemhasimportantpracticalsignificance.Thispaperprovidesanoverviewofspam,andspamfilteringtechnology,thecurrentoverview.Secondly,onthebasisofsystematicstudyofthelatestspamfilteringachievementsinthefieldoftheanti-spamathomeandabroad,thispapersummarizesthestrengthsandweaknessesofvariousspamfilteringtechnology,anddrawgeneralspamfilteringstep.Spamfilteringisessentiallyatextclassificationproblem,andBayesianalgorithmisthemostpopulartextclassificationmethod,thusBayesianalgorithminspamfilteringfieldcanhavegoodapplication.ThentheBayesianalgorithmandthedomesticandforeignBayesianalgorithminspamfilteringsystemapplicationisstudiedandcomprehensiveanalysis,itsapplicationsinChinesespamfilteringsystem,andbasedonBayesianalgorithmwasdesignedtheChinesespamfilteringmodel.Thenthisbasis,basedonSSHframework,suchasJQUERYandMYSQLdatabasedesignedanddevelopedbasedonBayesianalgorithmemailfilteringsystem.InordertoadapttoChinesemailprocessing,thesystemintroduceChineseparting-wordsmechanism.Basedonemailaddressesandcombiningtheblackandwhitelistfiltering,compensateformailmisjudgment,andimprovesthesystemfilteringefficiency,accuracyandspace-timebenefits.Meanwhile,blackandwhitelistfilteringallowstheusertomanuallyaddandimprovestheflexibilityofthesystem.Thewholeprocessistransparenttousers,andwillnotaffectthenormalnetworkuserbehavior.Aftertestingandsystemaccuracyisfor95%.Spammanufacturingandspamfilteringitselfisapairofcontradictory,bothsidesintheunceasingdevelopment.Onthefunctionthereisnotperfectforeverofspamfilteringtechnology.So,intheendthepaperspamfilteringtechnologyresearchdirectioninthefuturewasprospected.KeyWords:Spam,filtering,filtering,blackandwhitelist,Bayesianalgorithm,theChinesewordsegmentation第1章绪论1.1研究背景1.1.1垃圾邮件的产生随着Internet的问世及发展带来了电子邮件业务的出现。电子邮件以其快捷、方便、低成本的特点广泛普及和繁荣,方便了人们的生活,并逐渐取代了传统的通讯方式,成为了信息交流的重要渠道,也是人们信息获取的重要途径。据估计,2003年全世界的电子邮件数量达到4420亿封。2005年中国互联网络信息中心(CNNIC)发起中国互联网发展状况统计,据报告统计,91.3%的用户广泛使用电子信箱,电子信箱已经成为互联网的最热门的服务[1]。然而,带来巨大便利的同时,电子邮件也被一些别有用心的人所利用。1994年4月12日,一对居住在美国亚利桑那,专门承接移民事务的律师夫妇为用户提供申请“绿卡”的咨询。刚开始,他们通过贴广告到新闻组来宣传业务,每封绿卡申请书100美元。这个广告对大多数美国人来说是垃圾广告,没有起到什么作用。为了扩展业务,他们雇拥了一个程序员用Perl写了一段脚本,将他们的移民顾问服务广告的电子邮件发送给大约6000个Usenet新闻组用户。收到该邮件的用户对此表示了不满,有的甚至进行了投诉。后来这对夫妇的账户被停止使用。这一事件即为垃圾邮件的起源,被称为“绿卡”事件。“绿卡”事件立刻引起了巨大的轰动,数千名的收信人在新闻组里,留言表达了他们的愤怒。其中一个用户写了这样一句话:“我恨不能用椰子壳和SPAM午餐肉罐头砸扁他们”。后来,人们称这些没有经过网名许可便塞进信箱的各类垃圾信息为SPAM。在大量垃圾邮件出现之前,美国有一位名为桑福德·华莱士的人,成立了一间公司,专门为其他公司客户提供收费广告、传真服务,由于惹起接收者的反感,以及浪费纸张,于是美国立法禁止发送未经同意的传真、广告。后来他就把广告转到电子邮件,垃圾邮件便顺理成章地出现。潘多拉的魔盒就此被打开了,互联网也因此而改变。从2000年开始,垃圾邮件向中国转移。现在,世界深受垃圾邮件的折磨。近年来,在未经用户许可的情况下,一些个体为了商业利益或政治目的等原因,利用电子邮件发送各种各样的广告、不良信息以及病毒等垃圾邮件,加剧了垃圾邮件的迅猛传播。据统计2008年1月,发送到世界上最大的互联网服务提供商“美国在线”的邮件中,超过一半是垃圾邮件。1.1.2垃圾邮件产生原因垃圾邮件问题日益严重,产生垃圾邮件的原因可以归为7种。1)利润的驱使大量的垃圾邮件的发送能给发送者带来商业利益。2)SMTP协议的缺陷SMTP(SimpleMailTransferProtocol)是简单电子邮件传输协议。但SMTP不提供安全的验证要求,可以传递任意参数,因此发送者可以假冒他人邮件和滥用他们的SMTP服务器。而且目前没有一种可以彻底推翻原有的SMTP协议新的可以避免垃圾邮件产生和传播的协议[2]。3)缺乏有效的制裁垃圾邮件发送的相关立法目前,世界上大部分发达国家已确立的反垃圾邮件相关立法,也起到有一定的威慑作用,但大部分国家还未出台关于打击垃圾邮件发送者相关的法案法规。与此同时,从互联网开放性来看,出台一部全球性标准化的反垃圾邮件法案能更好解决问题,但实现上存在一定的难度[3]。4)非法的政治利益一些非法的团体通过垃圾邮件来宣传他们的非法政治目的。5)黑客的原因一些黑客为了娱乐或者其他原因,编写一些程序(比如蠕虫和病毒)制造垃圾邮件。这些病毒通过网络上漏洞攻击计算机。一旦攻击成功,就可以得到硬盘上存在的邮件地址簿,按照获得的地址,向用户发送大量的病毒邮件,这些病毒邮件也是垃圾邮件主要来源之一。6)成本与产出的巨大反差随着带宽的普及、硬件性能的提高且成本降低,导致网络通信成本的下降,造成了自己架设邮件服务器或者利用群发邮件软件发送垃圾邮件的成本很低,甚至免费。而且邮件地址的获得也是廉价的。有很多各类邮箱地址自动收集软件,这些程序夜以继日的爬行,收集所有的网页上的邮件地址,并针对新闻组和BBS邮箱收集软件,可以获得海量的邮件地址。邮件地址提供者贩卖这些地址,国内最低的价格为20元/1.6亿