反垃圾邮件技术分析与中文垃圾邮件过滤规则研究孙东红陈光英中国教育和科研计算机网紧急响应组(ComputerEmergencyResponseTeamofChinaEducationandResearchNetwork)清华大学信息网络工程研究中心(NetworkResearchCenterofTsinghuaUniv.)主要内容垃圾邮件的情况反垃圾邮件技术分析垃圾邮件的定义垃圾邮件历史现状分析中文垃圾邮件过滤规则研究CCERT开展的反垃圾邮件工作垃圾邮件的定义垃圾邮件:普通意义上的垃圾邮件指的是未经主动请求的大量的电子邮件,SPAM,UBE(UnsolicitedBulkEmail),UCE(UnsolicitedCommercialEmail)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;收件人无法拒收的电子邮件;隐藏发件人身份、地址、标题等信息的电子邮件;含有虚假的信息源、发件人、路由等信息的电子邮件。主要内容垃圾邮件的情况反垃圾邮件技术分析垃圾邮件的定义垃圾邮件历史现状分析中文垃圾邮件过滤规则研究CCERT开展的反垃圾邮件工作1985年8月一封通过电子邮件发送的链锁信,一直持续到1993年,这是首次关于垃圾邮件的记录。1993年6月份,在Internet上出现了名为“MakeMoneyFast”的电子邮件。1994年4月份,Canter&Siegel的法律事务所把一封移民顾问服务广告邮件发到6000多个新闻组,一时间群情激奋。--首次用spam称呼垃圾邮件。1995年5月出现第一个专门的垃圾邮件群发软件Floodgate。分析:简单邮件传输协议(SMTP)协议安全性存在不足:SMTP基于RFC524发展而来,RFC524是在1973年提出的,它不是一个安全的命令集。这使得SMTP缺乏安全性保障。发展历史主要内容垃圾邮件的情况反垃圾邮件技术分析垃圾邮件的定义垃圾邮件历史现状分析中文垃圾邮件过滤规则研究CCERT开展的反垃圾邮件工作现状分析-数据统计全球范围统计,2001年垃圾邮件仅占电邮总量的7%,到2002年即达到29%,至2003年7月就超过了51%,2004年1月高达60%垃圾邮件的数量已经超过了合法电子邮件的数量。垃圾邮件增张趋势统计0%10%20%30%40%50%60%70%20012002Jul-03Jan-04时间百分比垃圾邮件增张趋势统计现状分析-我国垃圾邮件形势严峻2003年终统计显示:中国邮件服务器总计接收到的垃圾邮件为1500亿封,用户实际共计收到垃圾邮件470亿封,经济损失48亿。《第十四次中国互联网络发展状况统计报告》显示,我国网民在2004年7月份每周收到13.8封电子邮件,其中正常电子邮件为4.6封,垃圾邮件数却达到9.2封。网民每周收到的垃圾邮件数是非垃圾邮件数的两倍!!商业宣传邮件政治宣传邮件色情宣传邮件病毒邮件现状分析--常见垃圾邮件类型爱虫(2000-2-14)、nimda(2001-9-19)、求职信(2001-10-26)、中文版求职信(2002-年5-10)、怪物(2002-10-02)、sobig(2003-1-11)、爱情后门(2003-2-25)、小邮差(2003-8-04)、斯文(2003-9-19)、MyDoom(SCO炸弹)(2004-1-27)Netsky及其变种(2003-今)发件人地址随机变化邮件主题随机变化伪造邮件头干扰信息信体内容随机变化内容正文以图片方式显示,难以识别对垃圾邮件的定义和分类因人而异垃圾邮件在不同时段内的传播内容不一样垃圾邮件在不同范围内的传播内容不一样现状分析—垃圾邮件的特点宽带网络的快速发展网络通信成本的下降硬件性能的提高并且成本不断降低成本与产出的巨大反差邮件的易伪造缺乏法律与规范的约束现状分析--泛滥原因现状分析—危害国家层面:政治、经济、文化用户层面:学习、工作、生活对于CERNET内的高校而言:网络安全性、稳定性、高效性;占用带宽、存储空间;被列入各种黑名单;被投诉;声誉、国际影响;现状分析--Spammers的手段获取目标地址扫描、猜测、购买利用病毒从本地邮箱获取联络人Email地址逃避检测、追踪和过滤的技术Open-Relay自架设MTA服务采用动态IP地址伪造或隐藏信源地址逃避内容过滤:Graphics,URL,mis-spelling,etc.欺骗(Phishing)技术!DOCTYPEHTMLPUBLIC-//W3C//DTDHTML4.0Transitional//ENHTMLHEADMETAcontent=text/html;charset=iso-8859-1=http-equiv=Content-TypeMETAcontent=MSHTML5.00.2920.0name=GENERATORSTYLE/STYLE/HEADBODYbgColor=#ffffffIfthemessagewillnotdisplayedautomatically,brfollowthelinktoreadthedeliveredmessage.brbrReceivedmessageisavailableat:brahref=cid:031401Mfdab4$3f3dL780$73387018@57W81fa70Reheight=0width=0=cid:031401Mfdab4$3f3dL780$73387018@57W81fa70Reheight=0width=0/iframeDIV/DIV/BODY/HTML邮件欺诈技术欺诈——伪造的网页主要内容垃圾邮件的情况反垃圾邮件技术分析技术概览垃圾邮件的响应环节及措施邮件的传输过程及对垃圾邮件的控制中文垃圾邮件过滤规则研究CCERT开展的反垃圾邮件工作技术概览邮件服务系统的安全加固垃圾邮件过滤技术热点讨论技术增强邮件服务器的安全性,防止漏洞及时补丁提高系统防病毒能力提供邮件服务安全身份认证添加反垃圾邮件的专用设备或插件IP、域名、邮件地址的黑白名单及BBL方式SMTP通信链接速率、频度的设定反向域名验证基于信头、信体、附件的内容关键词基于贝叶斯算法的统计分析基于匹配判定规则的方式电子邮票Challenge-ResponseDomainkeys、SenderIDSPF(senderpolicyframework)主要内容垃圾邮件的情况反垃圾邮件技术分析技术概览垃圾邮件的响应环节及措施邮件的传输过程及对垃圾邮件的控制中文垃圾邮件过滤规则研究CCERT开展的反垃圾邮件工作反垃圾邮件的技术环节预防增强邮件服务器的安全性,防止漏洞及时补丁提高系统防病毒能力提供邮件服务安全身份认证添加反垃圾邮件的专用设备或插件IP、域名、邮件地址的黑白名单及BBL方式SMTP通信链接速率、频度的设定反向域名验证法基于信头、信体、附件的内容关键词基于贝叶斯算法的统计分析基于垃圾邮件判定规则电子邮票Challenge-ResponseDomainkeys、SenderIDSPF(senderpolicyframework)检测响应丢弃(Drop)标记(Lable)隔离(Quarantine主要内容垃圾邮件的情况反垃圾邮件技术分析技术概览垃圾邮件的响应环节及措施邮件的传输过程及对垃圾邮件的控制中文垃圾邮件过滤规则研究CCERT开展的反垃圾邮件工作邮件的传输过程OriginatorReceiverExternal-Relay布控点及相关措施(一)Originator端:在发送邮件的服务器上采取措施:限制服务器发送邮件的速率、频率规定邮件服务器开放服务的端口,关闭不必要的服务使用经过认证的MTA转发邮件设定邮件用户身份认证方式与邮件用户间互签安全协议对转发邮件过程中的Relay服务器身份认证:布控点及相关技术(二):可信任的信道,即每次中转都采用可信赖的实体SSL/TLSPPPLogicSSH:合法的对象源,对邮件信息可以做确认S/MIMEPGP设置不同方式的过滤措施Receiver端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield的检测IP、域名、邮件地址的黑白名单、RBLBBL(BenefitBlackholeList)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAssassin邮件病毒扫描正在讨论中的:SPF、DMP、RMXDomainkeys订制第三方服务例如:DSBL、DCC、Razor、APFChallenge-response黑名单不占用计算机资源,易于实施。需要手动维护的IP地址清单。垃圾邮件发送者经常修改他们的IP地址,并采用一个广泛的IP地址区间以逃避反垃圾邮件手段的检测,因此该方案在总体的垃圾邮件解决方案中仅起补充作用。黑名单、白名单、灰名单设置不同方式的过滤措施Receiver端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield的检测IP、域名、邮件地址的黑白名单、RBLBBL(BenefitBlackholeList)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAssassin邮件病毒扫描正在讨论中的:SPF、DMP、RMXDomainkeys订制第三方服务例如:DSBL、DCC、Razor、APFChallenge-responseRBLs(实时黑名单)也被称为DNS-RBLs,检查所有收到邮件的IP地址,与在RBL中的IP地址核对来阻断与spammer的连接。RBL服务运营商维护公共RBLs,使用单位仅需订阅实时黑名单服务。RBLs的计算开销非常低,同时它们通常采用一个类似与DNS的协议实施,所以它们的网络开销也非常低。RBLs缺点易于产生误报,须谨慎。RBL工作原理SMTP服务器接收到链接请求对链接地址进行DNS反向查询与RBL服务器建立查询查询得到肯定的结果,则拒绝该连接查询无结果,继续进行连接设置不同方式的过滤措施Receiver端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield的检测IP、域名、邮件地址的黑白名单、RBLBBL(BenefitBlackholeList)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAssassin邮件病毒扫描正在讨论中的:SPF、DMP、RMXDomainkeys订制第三方服务例如:DSBL、DCC、Razor、APFChallenge-response检查邮件内容中含有的URL链接定义受益黑名单基于BBL过滤设置不同方式的过滤措施Receiver端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield的检测IP、域名、邮件地址的黑白名单、RBLBBL(BenefitBlackholeList)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAssassin邮件