基于C语言的反垃圾系统的实现摘要随着Internet的迅速普及,电子邮件以其快捷、方便、低成本的特点逐渐成为人们进行信息交流的主要媒介之一,但是随之而来的垃圾邮件也越来越泛滥。垃圾邮件占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作、生活和学习。如何有效地治理垃圾邮件是全世界共同面临的一道难题,也是互连网上目前有待解决的问题。本文首先介绍了电子邮件对人们日常生活的重要性,然后概要介绍了反垃圾邮件技术的发展历史。研究了三种过滤垃圾邮件的方法,分别是黑白名单技术、主题关键字过滤技术和贝叶斯策略,对这三种技术的设计方法做了说明,重点介绍了贝叶斯过滤技术的设计原理和实现步骤。最后总结了这几种过滤技术的不足之处和设计中遇到的难点问题。关键词:电子邮件;垃圾邮件;黑白名单;主题关键字;贝叶斯Designofanti-spammailmanagementsystembasedonASPAbstractWiththerapiddevelopmentofinternet,thetechnologyofemailisusedwidelyinpeople'sdailylife.However,theoccurrenceofmoreandmorespamemailsisannoyingtouser,whichcausesthegreatwasteofuser'stime,moneyaswellasnetworkbandwidth.Andwhat'sworst,itcanbeharmfultousers.Itaffectsandinterfereswiththeuser'snormalwork,lifeandstudying.Howtodealwithspamemailseffectively,thatisacommondifficultproblemforallovertheworld.InthecurrentInternetitisaproblemforwaitingforustoresolve.Atfirstthispaperintroducesthee-mail'simportanceforpeople'sdailylife.Thenitintroducessimplydevelopmenthistoryoftheanti-spamtechnologyandresearchesthreeofspamfilteringmethods,theyareblackandwhitelisttechnology,subjectkeywordfilteringtechnologyandbayesianstrategy.Thenthedesigningmethodsofthreekindsoftechnologyareintroduced.Focusingonthebayesianfilteringtechnology,thispaperintroducesitsdesigningprincipleandimplementation'ssteps.FinallyIsumsupsomeshortcomingsofseveralkindsoffilteringtechnologyandsomedifficultproblemsindesigning.Keywords:email;spamemail;blackandwhitelist;subjectkeyword;bayesian目录论文总页数:22页1引言.....................................................................11.1课题背景..............................................................11.2开发概述..............................................................11.2.1电子邮件概述.......................................................11.2.2反垃圾概述.........................................................22电子邮件的工作原理.......................................................22.1电子邮件的结构........................................................22.2电子邮件的传输........................................................33需求分析.................................................................33.1数据库需求分析........................................................33.2开发环境需求..........................................................54系统功能和技术描述.......................................................64.1系统功能模块设计......................................................64.2基本功能..............................................................64.3黑白名单技术..........................................................64.4关键字过滤技术........................................................64.5贝叶斯过滤技术........................................................64.5.1贝叶斯过滤算法的基本步骤...........................................64.5.2贝叶斯过滤算法举例.................................................74.5.3贝叶斯过滤模块划分.................................................85系统工作流程和详细设计...................................................95.1系统工作流程图........................................................95.2邮件统计设计.........................................................105.3收件夹设计...........................................................105.4反垃圾功能设计.......................................................115.4.1黑白名单过滤......................................................115.4.2主题关键字过滤....................................................125.4.3贝叶斯过滤........................................................135.4.4过滤参数设置......................................................156测试与分析..............................................................166.1系统测试.............................................................166.2设计中的难点问题.....................................................176.3三种过滤技术分析.....................................................176.4通用模块分析.........................................................18结论....................................................................18参考文献....................................................................19致谢.....................................................错误!未定义书签。声明.....................................................错误!未定义书签。第1页共22页1引言1.1课题背景随着Internet的极度膨胀,给人们带来了大量的信息,电子邮件使人们感受到快捷和方便,更已成为一种最快速经济的通信手段,但是互联网又是一个无政府世界,有些人利用电子邮件肆意散发邮件广告,造成很多人的邮箱垃圾成堆,有些人利用电子邮箱制造邮件炸弹,使电子邮件服务器瘫痪;更有甚者利用电子邮件来传播病毒。如此种种给许多用户带来了无尽的困扰。因此对垃圾邮件进行有效的过滤,已经成为了一个有重要意义的现实问题。目前,我国对垃圾邮件过滤研究中语义分析和文本分类方面的技术还比较落后,导致国内很多大型的电子邮件系统无法及时有效地发现和拒绝垃圾邮件,从而给用户造成巨大的伤害。更为严重的是国外很多垃圾邮件制造者利用这一缺陷,通过中国的邮件服务器发送垃圾邮件,致使很多国外ISP服务提供商封锁了中国邮件服务器的IP地址,给中国用户造成很多精神和经济损失。随着中国经济与世界经济的关系日益紧密,中外交流活动的逐渐增多,对外的电子邮件数量也急剧增加,如果中国电子邮件由于垃圾邮件问题遭到全面封杀,必将会对国内企业和组织造成巨大影响,严重组碍中国经济的发展。因此,对新的,可靠的垃圾邮件过滤技术的研究已经成为一项紧迫任务。1.2开发概述1.2.1电子邮件概述电子邮件表示通过电子通讯系统进行信件的书写、发送和接收。今天使用的最多的通讯系统是互联网,同时电子邮件也是互联网上最受欢迎的功能之一。通过电子邮件系统,您可以用非常低廉的价格,以非常快速的方式(几秒钟之内可以发送到世界上任何你指定的目的地),与世界上任何一个角落的网络用户联络。同时,您可以得到大量免费的新闻、专题邮件,并实现轻松的信息搜索。这是任何传统的方式也无法相比的。正是由于电子邮件的使用简易、投递迅速、收费低廉,易于保存、全球畅通无阻,使得电子邮件被广泛地应用,它使人们的交流方式得到了极大的改变。每一个申请互联网帐号的用户都会有一个电子邮件地址。它是一个很类似于用户家门牌号码的邮箱地址,或者更准确地说,相当于你在邮局租用了一个信箱。因为传统的信件是由邮递员送到你的家门口,而电子邮件则需要自己去查看信箱,只是您不用跨出家门一步。电子邮件来源于专有电子邮件系统。早在互联网流行以前很久,电子邮件就已经存在了,是在主机-多终端的主从式体系