云计算与大数据工程技术研发中心汇报47

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

HeilongjiangInstituteofTechnologyKongLeilei1抄袭检测HeilongjiangInstituteofTechnologyKongLeilei2“[Iam]translatingtheblackandwhiteimpressionsintoanotherlanguage–thatofcolour”黑龙江工程学院在抄袭检测中的研究进展报告人:孔蕾蕾报告人简介黑龙江工程学院计算机科学与技术学院信息管理与信息系统系副主任黑龙江工程学院云计算与大数据工程技术中心成员哈尔滨工程大学信息与通信工程专业在读博士5黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来的工作报告内容6黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来的工作报告内容工程技术中心简介2012年成立,学校投入150万元进行了环境改造、设备更新其前身是2007年成立的校自然语言处理实验室主要研究人员齐浩亮,教授,博士,中心主任韩中元,副教授,在读博士,软件工程系副主任安波,副教授,计算机科学与技术系主任王亚东,副教授,物联网系(筹)主任李军,副教授,软件工程系主任孔蕾蕾,讲师,在读博士,信息管理与信息系统系副主任研究方向信息检索信息过滤抄袭检测云计算大数据处理中心主任简介齐浩亮,1972年2月生,博士,教授校自然语言处理实验室主任、计算机应用技术研究所所长中国中文信息学会,理事中国中文信息学会国际专委会,委员中国中文信息学会社会媒体处理专委会,委员YOCSEF(中国计算机学会青年论坛)哈尔滨2009、2010、2011,副主席黑龙江省首届教学新秀2008年获“黑龙江省杰出(优秀)青年科技创新奖”近期通过了龙江学者初评承担的国家自然科学基金项目项目类型项目名称主持国家自然科学基金面上项目基于双语文档反馈的跨语言信息检索研究国家自然科学基金国际合作项目亚洲语言处理国际会议2010参与国家自然科学基金青年项目面向垃圾邮件过滤的优化目标、建模及顺序回归研究国家自然科学基金面上项目基于用户反馈的多策略翻译在线融合研究国家自然科学基金重点项目下一代信息检索研究主要评测成绩评测名称任务名称评测成绩说明TREC2012微博检索微博过滤第一哈工大是参赛队,中心主任齐浩亮教授作为指导教师参与了该项目,中心的韩中元老师作为哈工大的在读博士生参与了该项目CLEF2012/2013抄袭检测第一2012详细比对任务/2013高模糊抄袭、翻译抄袭SEWM2012/2011/2009/2008垃圾邮件过滤第一CEAS08垃圾邮件过滤主动学习第一微软主办12黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来的工作报告内容13黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来工作报告内容HeilongjiangInstituteofTechnologyKongLeilei14国内外研究现状抄袭的一般模式2012-10-9HeilongjiangInstituteofTechnologyKongLeilei15国内外研究现状抄袭检测:术语抄袭,一般理解为将他人作品的全部或部分,以或多或少改变形式或内容的方式,当作自己的作品发表[1]。剽窃,主要指将他人的语言文字或研究观点当作自己的成果而不加引用的公开发表[2]。抄袭检测,定义s=(splg,dplg,ssrc,dsrc),其中,splg为文档dplg中的一段,splg抄袭了文档dsrc中的某个段ssrc。定义r=(rplg,dplg,rsrc,d′src),如果splg∩rplg≠Φ,ssrc∩rsrc≠Φ,dsrc∩d′src≠Φ,则称r检测出了s,这个过程称为抄袭检测[2]。[1]世界知识产权组织,《版权和邻接权法律术语词汇》,1980.[2]MartinPotthast,AndreasEiselt,AlbertoBarrónCedeño,BennoStein1,andPaoloRosso2.Overviewofthe3rdInternationalCompetitiononPlagiarismDetection.OverviewforPANatCLEF2011.HeilongjiangInstituteofTechnologyKongLeilei16国内外研究现状目前,文本抄袭检测的研究主要分为两类:内部抄袭检测外部抄袭检测HeilongjiangInstituteofTechnologyKongLeilei17内部抄袭检测给定一篇文章,在不借助任何外界参考资料的情况下(假设参考资料集合不能预先获得或不能自由获取),判定该文章是否抄袭、剽窃或复制于一篇或多篇文章的内容。写作风格模型、异常值检测算法等为主流方法。国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei18外部抄袭检测外部抄袭检测假定存在一个封闭的参考资料集合,在此前提下,给定一篇待检测文本,从参考文档集合中检索与待检测文本相似度超过一定阈值的文本。国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei19抄袭的分类:简单抄袭和高模糊度的抄袭[3]简单抄袭:原文复制、近似复制、修改复制。高模糊度的抄袭:意译抄袭、总结抄袭、翻译抄袭、观点抄袭。国内外研究现状[3]SalhaM.Alzahrani,NaomieSalim,AjithAbraham.UnderstandingPlagiarismLinguisticPatterns,TextualFeatures,andDetectionMethods.IEEETRANSACTIONSONSYSTEMS,MAN,ANDCYBERNETICS—PARTC:APPLICATIONSANDREVIEWS,VOL.42,NO.2,MARCH2012.HeilongjiangInstituteofTechnologyKongLeilei20简单抄袭国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei21意译(paraphrasing)抄袭国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei22总结抄袭国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei23翻译抄袭国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei24学术论文的观点(idea)抄袭国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei25抄袭检测常用的文本特征词汇特征句法特征语义特征结构特征国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei26PAN@CLEF抄袭检测评测CLEF(Cross-LanguageEvaluationForum):是在欧盟数字图书馆计划支持下举办的跨语言信息检索开放评测平台。CLEF于2000年开始举办,现已成为最著名的国际信息检索评测会议之一。PAN(Plagiarismdetection,Authoridentification,AuthorProfiling)致力于抄袭检测算法的评估2010年加入CLEF国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei27PAN近4年在抄袭检测方面的评测任务•备选文档检索•详细比对•内部抄袭检测•外部抄袭检测201020112012•源检索•文本对齐2013•内部抄袭检测•外部抄袭检测国内外研究现状HeilongjiangInstituteofTechnologyKongLeilei28源检索提交的查询数目需要下载的网页数目精确率和召回率找到第一个抄袭源时提交的查询的数目找到第一个抄袭源时下载的网页的数目抄袭源在检索结果中的排序文本对齐召回率精确率granplagdetPAN@CLEF抄袭检测评估方法29黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来工作报告内容HeilongjiangInstituteofTechnologyKongLeilei30PAN@CLEF2012详细比对子任务第一名PAN@CLEF2013文本对齐高模糊抄袭检测第一名文本对齐翻译抄袭检测第一名源检索任务:召回率及找到第一个抄袭源时提交的查询的数目两个指标上第一名中心在PAN@CLEF[4]黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来工作报告内容HeilongjiangInstituteofTechnologyKongLeilei32源检索备选文档集可详疑细片信段息文档集合待检测文档海量网络资源系统处理过程框架文本对齐HeilongjiangInstituteofTechnologyKongLeilei33源检索备选文档集可详疑细片信段息文档集合待检测文档海量网络资源系统处理过程框架文本对齐HeilongjiangInstituteofTechnologyKongLeilei34在源检索中多种可疑文档查询关键词提取方法查询关键词的排序备选文档的筛选系统处理过程框架HeilongjiangInstituteofTechnologyKongLeilei35源检索备选文档集可详疑细片信段息文档集合待检测文档海量网络资源系统处理过程框架文本对齐HeilongjiangInstituteofTechnologyKongLeilei36•在文本对齐中:匹配与合并匹配预处理合并系统处理过程框架HeilongjiangInstituteofTechnologyKongLeilei37匹配预处理合并•双向交替合并算法(BilateralAlternatingMergingArithmetic)•基于图的最大联通路径系统处理过程框架•在文本对齐中:匹配与合并38黑龙江工程学院云计算与大数据工程技术中心简介中心在抄袭检测上的最新进展国内外研究现状中心在PAN@CLEF2012、2013上的成绩黑龙江工程学院“鹰眼抄袭检测系统”介绍“鹰眼抄袭检测系统”在PAN@CLEF2012、2013上的性能未来的工作报告内容HeilongjiangInstituteofTechnologyKongLei

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功