1继续教育学院毕业论文题目:基于贝叶斯算法的垃圾邮件过滤技术综述学生姓名:李达夫学号:092028010027班级:CMU3097专业:指导教师:邹政2011年10月2基于贝叶斯算法的垃圾邮件过滤技术综述摘要现在电子邮件成为一种快捷、成本少的通信技术手段,很大地方便了人们的通信与交流。但是,垃圾邮件的产生,影响了电子邮件的正常通信,占用的传输带宽,并对系统安全造成了很大的威胁。因此,反垃圾邮件的研究问题已经成为具有重大现实意义的全球性的课题。目前,对付垃圾邮件的主要方法和手段是通过反垃圾邮件立法和使用邮件过滤技术进行处理,现已经相继出现了多种邮件过滤技术。常用的包括黑/白名单技术、基于内容的分析方法以及基于规则的方法等。基于内容分析的技术正逐步进入邮件过滤技术当中,并且成为当前研究的热点,其中,基于内容分析的邮件过滤方法中的典型方法是基于贝叶斯算法的垃圾邮件过滤模型。本论文对中文垃圾邮件的特点进行了比较系统的分析和研究,结合贝叶斯(Bayes)理论,构造基于贝叶斯分类的垃圾邮件过滤模型,在特征提取方面,采用互信息值的方法,在分类方法上,引入了适合本文的分类方法,并采用了一种更加适合于贝叶斯计算的表示方法。关键词:电子邮件;垃圾邮件;邮件过滤;贝叶斯理论3目录第一章绪论..............................................................................................................51.1引言..................................................................................................................51.2垃圾邮件的定义及其危害..............................................................................51.2.1垃圾邮件定义........................................................................................51.2.2垃圾邮件危害........................................................................................61.3国内外反垃圾邮件现状..................................................................................71.4研究目标与内容..............................................................................................8第二章垃圾邮件技术..............................................................................................92.1.1电子邮件的概述....................................................................................92.1.2电子邮件的格式....................................................................................92.1.3邮件传送过程........................................................................................92.3.1客户端垃圾邮件过滤技术...................................................................11第三章基于标准邮件集构造垃圾邮件分类向量................................................163.1标准邮件集.....................................................................................................163.1.1标准邮件集的背景...............................................................................163.1.2垃圾邮件和正常邮件的收集...............................................................163.1.3标准邮件集的概述...............................................................................173.2基于标准邮件集的垃圾邮件分类向量.........................................................173.2.1分类的实现...........................................................................................173.2.2提取分类向量的过程..........................................................................183.3基于贝叶斯原理的过滤系统的实现.............................................................203.4算法的实现.....................................................................................................20第四章实验结果及分析........................................................................................234.1基于贝叶斯算法的过滤系统实验环境.........................................................234.2基于贝叶斯算法的过滤系统总体结构图.....................................................2444.3实验结果及性能分析.....................................................................................24第五章总结与展望................................................................................................275.1论文总结.........................................................................................................275.2待改进的问题.................................................................................................28参考文献……………………………………………………………………………295第一章绪论1.1引言伴随着电子邮件的迅速普及,越来越多的人使用电子邮件。但是,电子邮件在为人们提供极其方便的传递信息的同时,也成为垃圾邮件、病毒、恶意程序或包含敏感内容邮件传播的重要载体,对系统安全造成了严重的威胁。最早在1975年的RFC706“OntheJunkMailProblem”中就提到了垃圾邮件,首次关于垃圾邮件的记录可以追溯到1985年8月的一封以电子邮件发送的连锁信。历史上比较著名的事件是1994年4月份,Canter和Siegel的法律事务所把一封信发到6000多个新闻组,宣传获得美国国内绿卡的法律支持。这是第一次使用Spam(垃圾邮件)一词,用来描述新闻或电子邮件的主动性发布。一些商人开始学习Canter和Siegel,为商业公司提供广告信件和发送服务。1995年5月,网上出现了历史上第一个专用的垃圾邮件工具Floodgate,一次可以自动把邮件发给很多人,垃圾邮件越来越多与商业联系起来。1995年8月,第一次有人公开贩卖200万个邮箱地址,各种垃圾邮件网站和组织也相继出现。随着垃圾邮件的出现和泛滥,人们开始了反垃圾邮件的不懈努力。1996年的1月,第一个反垃圾邮件组织“自由骑士”成立;1996年7月,著名的反垃圾邮件网站SpamHaus成立,例如使用REMOVE.TO.REPLY的工具来过滤邮件地址。近几年来,垃圾邮件的泛滥是由于专门发送垃圾邮件的服务器大批涌现。根据中国互联网协会反垃圾邮件中心的统计,2005年以来几乎每月我国都有100多台服务器被国外权威反垃圾邮件组织列入黑名单。由于网络的开放性,垃圾邮件成为互联网上的一个日益严重的全球性安全问题,越来越得到社会大众和研究人员的重视和关注。1.2垃圾邮件的定义及其危害1.2.1垃圾邮件定义垃圾邮件的英文名称为Spam或JunkMail,一般使用Spam一词。很多组织6或机构都给垃圾邮件下过定义。例如,著名的反垃圾组织spamhaus提出,垃圾邮件具备以下两个特征:(1)不请自来。用户事先并未提出要求或者同意接收该邮件。(2)批量性。该邮件的副本在短时间内被大量发送给一个或多个用户。2003年,中国互联网协会在《中国互联网协会反垃圾邮件规范》中对垃圾邮件作了以下定义:(1)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;(2)收件人无法拒收的电子邮件;(3)隐藏发件人身份、地址、标题等信息的电子邮件;(4)含有虚假的信息源、发件人、路由等信息的电子邮件。从以上界定的邮件内容上看,目前可以将垃圾邮件归纳为具有以下几类特征的邮件:带有商业广告性质的邮件;色情、暴力邮件;网上购物及赚钱的邮件;带有政治目的的邮件以及带有病毒的邮件等。1.2.2垃圾邮件危害垃圾邮件的泛滥给人们带来的危害和损失主要体现在以下几个方面:(1)垃圾邮件给网络运营商造成了严重的损失。大量的垃圾邮件在网络上传播,占用了网络带宽,导致网络通信质量下降,甚至是网络发生拥塞,干扰邮件系统的正常运行,根据2001年的一份研究报告显示,仅2000年垃圾邮件就给全球ISP造成了至少1000万美元的损失。(2)垃圾邮件侵害了用户的隐私权。由于垃圾邮件的内容不可控制,所以常常有很多有害的内容。例如,很多垃圾邮件的附件中带有病毒,一旦收件人打开邮件,附件中的病毒就会对系统造成各种破坏。(3)垃圾邮件给网络带来了各种安全性的问题。垃圾邮件会极大的影响网络的安全和系统的稳定性,特别是那些利用别人的服务器转发邮件的情况。因为目前大部分的垃圾邮件是利用第三方服务器转发。这样做可以节省邮件发送者经费,但是会给被盗用者带来很多危险,如由于线路拥塞,造成系统的瘫痪。他就会让被盗用的邮件服务器背上转发垃圾邮件的黑锅,影响正常的信件发送。(4)垃圾邮件成了计算机病毒新的、快速的传播途径。有些病毒利用浏览器7的漏洞,以邮件的形式把自己伪装成