华南理工大学《信息检索与web挖掘》项目计划文档

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

华南理工大学《信息检索与web挖掘》项目计划文档题目:基于模糊识别的垃圾邮件检测与识别方法学院计算机科学与工程专业计算机科学与技术(全英创新班)学生姓名黄炜杰、黄健文、林力挺、柳雨新学生学号201230590051、201236590048201230590082、201236590130指导教师董守斌课程编号S0812057课程学分2分起始日期2016年4月30日项目简介【项目名称】基于模糊识别的垃圾邮件检测与识别方法【项目类型】研究和设计算法【工作目标】建立一个垃圾邮件检测与识别系统,提高其在对抗环境下垃圾邮件识别的准确率,其中对抗环境在这个情境下指的是,垃圾邮件制造者有意在垃圾邮件中通过增删改等方式使得邮件逃避系统的检测。我们的主要目标在于提出一种鲁棒的垃圾词模糊识别方法,使得系统在有垃圾邮件制造者恶意攻击的情况下依然能够识别出垃圾邮件。同时提出鲁棒的特征选择方式,提高垃圾邮件制造者对邮件检测系统攻击的代价,也就是指垃圾邮件制造者需要对垃圾邮件做出更多的修改才能蒙骗检测系统。【实验环境】操作系统:window10(64bit)编译器:Visualstudio2013&MatlabR2012b编程语言:C/C++&Matlab数据集:Trec07p工作内容整个项目的流程可以概括如下:图1.项目流程图(1)数据集获取:垃圾信息检测是有监督学习方法,数据集不仅应该包含文本内容,还应该包含相应的类别标签。爬虫方法可以爬到网页内容,但是网页不可能把自己标记为垃圾网页,而目前暂时没有多少垃圾网页制造者会像对抗环境下垃圾邮件制造者那样恶意修改文本,所以我们只针对邮件情况做研究(当然训练出来的模型,去掉模糊识别部分即可用于垃圾网页检测)。而邮件信息不可能数据集获取向量空间表示词典获取特征选择模型训练通过爬虫获取,所以我们只能采取TREC上面最新的数据集Trec07p。这个数据集比较老,只有少部分邮件经过恶意的修改,所以我们需要对邮件进行人工的恶意修改以模拟对抗环境下的数据集。(2)词典获取:在向量空间表示中,每个词代表一个特征,而得到相应的特征词,需要以下几个词典:停用词典、词库词典、特征词典。此外,还需要垃圾词词典进行模糊识别。这些词典通过TD、DF等计算得到。文本预处理,例如去停用词、词干提取等步骤都在这一部分完成。(3)向量空间表示:通过精确匹配从而得到一封邮件的向量空间表示,此外还需要根据垃圾词典进行模糊识别,修改向量空间。这一步的主要任务是对邮件进行模糊识别,提高垃圾词的检测率。(4)特征选择:在得到数据集的向量空间表示之后,可通过特征选择算法对特征词进行进一步的筛选,选出既具有判别能力,又不冗余的特征。(5)模型训练:这一步在于选择合适的分类器对邮件数据集进行分类,既要考虑到数据集的维度,又要考虑到文本分类的特殊性。研究意义随着信息化时代发展,电子邮件已经成为人们交流沟通的重要渠道,而与此同时很多垃圾邮件制造者为了达到各种商业目的向用户发送了大量的广告垃圾邮件,给用户增加了很多麻烦。后来为了解决这个问题,垃圾邮件检测系统诞生了,并且对垃圾邮件有很好的拦截效果。可是道高一尺,魔高一丈,打开我们的邮箱都能发现有形如以下的垃圾邮件成功地进入了我们的收件箱:图2.对抗环境下垃圾邮件示例为什么这些垃圾邮件有时不会被过滤掉呢,通过观察可以发现发送者在做账和发票之间都插入了各种奇怪的符号,使得机器不能认得出这些词,而对于我们人眼来说却可以一眼获取其中的信息。这就是所谓的对抗环境下的垃圾邮件过滤问题,传统的垃圾邮件检测识别方法并不能有效应付这种情况,而这种情况在现在已经很普遍。所以我们旨在研究鲁棒的垃圾邮件检测方法,提高垃圾邮件的识别率。相关的工作及参考文献垃圾邮件过滤技术已经是一个很“古老”的技术了,几十年前已经有相当多优秀的算法。可是这些算法并不是完美的,总有各种漏洞可以攻击,例如IP伪造、好词攻击、垃圾词攻击等。针对IP攻击已经有很多黑名单、信誉度等技术可以应付,而对于好词攻击也有相当多优秀算法可以解决[1,2],然而对于垃圾词攻击[3,4,5],相关的技术仍是不够成熟。有的学者通过正则表达式等方法[4]来还原被模糊掉的单词,但是这类方法维护成本高,需要很多被模糊的案例来学习还原规则,对于新的模糊方式没有检测能力,没有很好的鲁棒性。比较成功的算法之一是HonglakLee,AndrewY.Ng等人提出的用隐马尔可夫模型[6]来还原被模糊的单词。通过隐马尔科夫状态转换词典树,通过状态转换找到最可能的原单词。而FarhanaAleen和KuhaMahalingam等[7]提出通过计算单词之间的编辑距离来找到最相似单词,这种算法被证明有效,但是识别效果仍有待提高。也有研究学者将生物领域中的不精确匹配算法[8]用于垃圾邮件检测问题中。参考文献[1]LowdD,MeekC.Goodwordattacksonstatisticalspamfilters[A].Proceedingsofthesecondconferenceonemailandanti-spam(CEAS)[C].2005:125-132[2]ChanPPK,ZhangF,NgWWY,etal.Anoveldefendagainstgoodwordattacks[A].MachineLearningandCybernetics(ICMLC)[C].2011InternationalConferenceon.IEEE,2011,3:1088-1092[3]赵利.基于中文主题变形的垃圾邮件过滤方法研究[D].武汉:武汉邮电科学研究院,2009[4]FongM.SpamorHam[J].ComS572-IntroductiontoArtificialIntelligenceProject,2008[5]LowdD,MeekC.Adversariallearning[A].ProceedingsoftheeleventhACMSIGKDDinternationalconferenceonKnowledgediscoveryindatamining[C].ACM,2005:641-647[6]LeeH,NgAY.Spamdeobfuscationusingahiddenmarkovmodel[A].ProceedingsoftheSecondConferenceonEmailandAnti-Spam[C].2005[7]AleenF,MahalingamK.ImprovingBayesianSpamFiltersUsingStringEditDistanceAlgorithm[J].InternationalConferenceonInternetComputing,2008[8]SculleyD,WachmanGM,BrodleyCE.Spamfilteringusinginexactstringmatchinginexplicitfeaturespacewithon-linelinearclassifiers[A].TheFifteenthTextREtrievalConference(TREC2006)Proceedings[C].2006基本技术路线和进度计划【技术路线】本项目主要技术要素:文本预处理此部分主要包括词素切分、通用词去除、词干提取三部分。本文主要处理英文文本,英文文本有天然的空格作为分隔符,所以本文通过空格和标点符号进行词素分隔;而停用词词典则直接采用网上停用词词库,包括各种副词、连词等无意义的单词;题干提取部分主要用于去除单词的复杂表现形式,如复数变单数等。预处理部分在课上都有讲,都是简单的问题,可通过编码直接解决。词典获取这部分主要用于获取三个词典:词库词典、特征词典、垃圾词典。首先统计每个单词的TF和DF,把所有DF大于阈值的单词都纳入到词库词典,词库词典包含所有合法单词;通过计算单词的TF-IDF,从而通过信息增益、、卡方分布、互信息等信息熵方法对特征词进行选择,选出具有区分能力的单词;通过TF-IDF选出一些经常在垃圾邮件而很少在合法邮件中出现的单词作为垃圾词,用于之后的模糊识别。模糊识别现有的模糊识别方法中比较常用的是编辑距离(edit-distance)、n-gram以及隐马尔科夫模型,我们主要从这三种算法入手,研究其可改进之处,提出改进算法或者新算法用于对单词进行模糊识别。文本的向量表示当中,采用频数作为单词的向量值,模糊识别中把识别到的单词按照相似度累加到原特征向量当中。特征选择通过前面提到的信息增益、、卡方分布、互信息等信息熵方法选择出来的特征词比较有区分能力,但是他们之间可能存在一定的冗余度,通过启发式算法对特征词典进行精简有利于提高识别准确率。此外,如果最具判别力的那部分单词有冗余副本的话,可能有利于降低该词的权值,也有可能为垃圾邮件制造者提供便利,至于是哪种情况有待于实践证明。通过实验可以提出相应的对策以提高检测系统的鲁棒性。模型训练这部分有较多的选择,例如KNN、DT、SVM等,但是并不是所有分类器都适用于文本分类,其中比较常用的是NaiveBayes,本文也采用此分类算法。【进度计划】2016.05.01–2016.05.07:数据集采集与分析、人工模糊化单词2016.05.08–2016.05.14:制定系统体系结构,编程环境搭建,编写文本预处理部分,完成文本获取部分编码。2016.05.15–2016.05.21:完成去停用词、词干提取、TF/DF统计、特征选词、特征/垃圾词典生成等部分编码。2016.05.22–2016.05.28:研究、改进模糊识别算法,并将其实现于系统当中。2016.05.29–2016.06.02:研究、改进鲁棒性的特征选择算法,并验证其有效性。2016.06.03–2016.06.07:系统整合,算法对比与改进。2016.06.08–2016.06.10:课程论文撰写。组员分工内容参与者内容参与者计划文档撰写黄炜杰模糊识别算法研究林力挺、柳雨新数据集采集、模糊柳雨新特征选择算法研究黄炜杰、黄健文体系结构制定黄健文系统整合林力挺、柳雨新文本预处理编写林力挺算法对比、改进黄炜杰、柳雨新词典获取黄健文课程论文撰写全部转化向量空间表示林力挺课程答辩黄炜杰、黄健文指导教师评语及成绩评语:成绩:指导教师签名:批阅日期:

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功