HeilongjiangInstituteofTechnologyKongLeilei1抄袭检测HeilongjiangInstituteofTechnologyKongLeilei2“[Iam]translatingtheblackandwhiteimpressionsintoanotherlanguage–thatofcolour”黑龙江工程学院在抄袭检测中的研究进展报告人:孔蕾蕾报告人简介黑龙江工程学院计算机科学与技术学院信息管理与信息系统系副主任黑龙江工程学院云计算与大数据工程技术中心成员哈尔滨工程大学信息与通信工程专业在读博士5黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来的工作报告内容6黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来的工作报告内容工程技术中心简介2012年成立,学校投入150万元进行了环境改造、设备更新其前身是2007年成立的校自然语言处理实验室主要研究人员齐浩亮,教授,博士,中心主任韩中元,副教授,在读博士,软件工程系副主任安波,副教授,计算机科学与技术系主任王亚东,副教授,物联网系(筹)主任李军,副教授,软件工程系主任孔蕾蕾,讲师,在读博士,信息管理与信息系统系副主任研究方向信息检索信息过滤抄袭检测云计算大数据处理中心主任简介齐浩亮,1972年2月生,博士,教授校自然语言处理实验室主任、计算机应用技术研究所所长中国中文信息学会,理事中国中文信息学会国际专委会,委员中国中文信息学会社会媒体处理专委会,委员YOCSEF(中国计算机学会青年论坛)哈尔滨2009、2010、2011,副主席黑龙江省首届教学新秀2008年获“黑龙江省杰出(优秀)青年科技创新奖”近期通过了龙江学者初评承担的国家自然科学基金项目项目类型项目名称主持国家自然科学基金面上项目基于双语文档反馈的跨语言信息检索研究国家自然科学基金国际合作项目亚洲语言处理国际会议2010参与国家自然科学基金青年项目面向垃圾邮件过滤的优化目标、建模及顺序回归研究国家自然科学基金面上项目基于用户反馈的多策略翻译在线融合研究国家自然科学基金重点项目下一代信息检索研究主要评测成绩评测名称任务名称评测成绩说明TREC2012微博检索微博过滤第一哈工大是参赛队,中心主任齐浩亮教授作为指导教师参与了该项目,中心的韩中元老师作为哈工大的在读博士生参与了该项目CLEF2012/2013抄袭检测第一2012详细比对任务/2013高模糊抄袭、翻译抄袭SEWM2012/2011/2009/2008垃圾邮件过滤第一CEAS08垃圾邮件过滤主动学习第一微软主办12黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来的工作报告内容13黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来工作报告内容HeilongjiangInstituteofTechnologyKongLeilei14国内外研究现状抄袭的一般模式2012-10-9HeilongjiangInstituteofTechnologyKongLeilei15国内外研究现状抄袭检测:术语抄袭,一般理解为将他人作品的全部或部分,以或多或少改变形式或内容的方式,当作自己的作品发表[1]。剽窃,主要指将他人的语言文字或研究观点当作自己的成果而不加引用的公开发表[2]。抄袭检测,定义s=(splg,dplg,ssrc,dsrc),其中,splg为文档dplg中的一段,splg抄袭了文档dsrc中的某个段ssrc。定义r=(rplg,dplg,rsrc,d′src),如果splg∩rplg≠Φ,ssrc∩rsrc≠Φ,dsrc∩d′src≠Φ,则称r检测出了s,这个过程称为抄袭检测[2]。[1]世界知识产权组织,《版权和邻接权法律术语词汇》,1980.[2]MartinPotthast,AndreasEiselt,AlbertoBarrónCedeño,BennoStein1,andPaoloRosso2.Overviewofthe3rdInternationalCompetitiononPlagiarismDetection.OverviewforPANatCLEF2011.HeilongjiangInstituteofTechnologyKongLeilei16国内外研究现状目前,文本抄袭检测的研究主要分为两类:内部抄袭检测外部抄袭检测HeilongjiangInstituteofTechnologyKongLeilei17内部抄袭检测给定一篇文章,在不借助任何外界参考资料的情况下(假设参考资料集合不能预先获得或不能自由获取),判定该文章是否抄袭、剽窃或复制于一篇或多篇文章的内容。写作风格模型、异常值检测算法等为主流方法。国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei18外部抄袭检测外部抄袭检测假定存在一个封闭的参考资料集合,在此前提下,给定一篇待检测文本,从参考文档集合中检索与待检测文本相似度超过一定阈值的文本。国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei19抄袭的分类:简单抄袭和高模糊度的抄袭[3]简单抄袭:原文复制、近似复制、修改复制。高模糊度的抄袭:意译抄袭、总结抄袭、翻译抄袭、观点抄袭。国内外研究现状[3]SalhaM.Alzahrani,NaomieSalim,AjithAbraham.UnderstandingPlagiarismLinguisticPatterns,TextualFeatures,andDetectionMethods.IEEETRANSACTIONSONSYSTEMS,MAN,ANDCYBERNETICS—PARTC:APPLICATIONSANDREVIEWS,VOL.42,NO.2,MARCH2012.HeilongjiangInstituteofTechnologyKongLeilei20简单抄袭国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei21意译(paraphrasing)抄袭国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei22总结抄袭国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei23翻译抄袭国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei24学术论文的观点(idea)抄袭国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei25抄袭检测常用的文本特征词汇特征句法特征语义特征结构特征国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei26PAN@CLEF抄袭检测评测CLEF(Cross-LanguageEvaluationForum):是在欧盟数字图书馆计划支持下举办的跨语言信息检索开放评测平台。CLEF于2000年开始举办,现已成为最著名的国际信息检索评测会议之一。PAN(Plagiarismdetection,Authoridentification,AuthorProfiling)致力于抄袭检测算法的评估2010年加入CLEF国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei27PAN近4年在抄袭检测方面的评测任务•备选文档检索•详细比对•内部抄袭检测•外部抄袭检测201020112012•源检索•文本对齐2013•内部抄袭检测•外部抄袭检测国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei28源检索提交的查询数目需要下载的网页数目精确率和召回率找到第一个抄袭源时提交的查询的数目找到第一个抄袭源时下载的网页的数目抄袭源在检索结果中的排序文本对齐召回率精确率granplagdetPAN@CLEF抄袭检测评估方法29黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来工作报告内容HeilongjiangInstituteofTechnologyKongLeilei30PAN@CLEF2012详细比对子任务第一名PAN@CLEF2013文本对齐高模糊抄袭检测第一名文本对齐翻译抄袭检测第一名源检索任务:召回率及找到第一个抄袭源时提交的查询的数目两个指标上第一名中心在PAN@CLEF[4]黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来工作报告内容HeilongjiangInstituteofTechnologyKongLeilei32源检索备选文档集可详疑细片信段息文档集合待检测文档海量网络资源系统处理过程框架文本对齐HeilongjiangInstituteofTechnologyKongLeilei33源检索备选文档集可详疑细片信段息文档集合待检测文档海量网络资源系统处理过程框架文本对齐HeilongjiangInstituteofTechnologyKongLeilei34在源检索中多种可疑文档查询关键词提取方法查询关键词的排序备选文档的筛选系统处理过程框架HeilongjiangInstituteofTechnologyKongLeilei35源检索备选文档集可详疑细片信段息文档集合待检测文档海量网络资源系统处理过程框架文本对齐HeilongjiangInstituteofTechnologyKongLeilei36•在文本对齐中:匹配与合并匹配预处理合并系统处理过程框架HeilongjiangInstituteofTechnologyKongLeilei37匹配预处理合并•双向交替合并算法(BilateralAlternatingMergingArithmetic)•基于图的最大联通路径系统处理过程框架•在文本对齐中:匹配与合并38黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来的工作报告内容HeilongjiangInstituteofTechnologyKongLei