1文档自动摘要技术杨建武Email:yangjw@pku.edu.cn第九章:北京大学计算机科学技术研究所文本挖掘技术(2012春)2文摘的定义以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。(GB6447-86文摘编写规则)Anexpressofacertaindocumentwithoutanyexplanationsandcomment.It'sunnecessarytoknowwhowritesthesummary.(ANSI)Aconciseandaccurateexpressofthedocumentwithoutanyexplanationandcomment.Asummaryisindependentontheauthorofthesummary.(ISO214-1976(E))Concise(简洁),Accurate(准确),Explicit(清楚)3文摘的种类(GB6447—86)报道性文摘informativeabstracts概括叙述原文献中的重要事实情报,包括研究对象、工作目的、主要结果,以及与研究性质、方法、条件、手段等有关的各种资料,在一定程度上可代替原文献。指示性文摘indicativeabstracts指明原文献的主题与内容梗概,为读者查检和选择文献提供线索。报道性/指示性文摘informative-indicativeabstracts以报道性文摘的形式表述文献中信息价值较高的部分,而以指示性文摘的形式表述其余部分的文摘。4文摘的种类(GB6447—86)(续)作者文摘author’sabstracts由文献作者自己撰写的文摘。文摘员文摘abstractpr’sabstracts由文献作者以外的人员编写的文摘。5SummaryClassificationClassifiedbyuser'srequirementGenericSummarization(GS)User-querySummarization(UQS)ClassifiedbytextobjectSingleDocumentSummarizationMultipleDocumentSummarizationClassifiedbymethodSummarizationBasedonExtraction(SBE)SummarizationBasedonUnderstanding(SBU)ClassifiedbyneedcorpusSupervisedSummarization(SS)UnsupervisedSummarization(US)6自动摘要定义:利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。自动文摘系统自动文摘系统应能将原文的主题思想或中心内容自动提取出来。文摘应具有概况性、客观性、可理解性和可读性。7DUC,holdbyNIST,from2001研究现状代表性的系统(国外、英文):美国哥伦比亚大学的多文档自动文摘系统Newsblaster。•对每天发生的同主题新闻进行摘要。美国密西根大学研究开发的WebInEssence•个性化的基于Web的多文档自动文摘和内容推荐系统。美国南加利福尼亚大学的信息科学研究所NeATS。Vivisimo公司()infonetware公司()•这两个公司对搜索引擎返回的结果进行了有效地聚类整理。•文档聚类是多文档自动文摘的一个关键的预处理步骤。DUC(DocumentUnderstandingConference)北大、中科院、哈工大、复旦、上海交大等9评价方法10内部评价方法(IntrinsicMethods)在提供参考摘要的前提下,以参考摘要为基准评价系统摘要的质量。通常情况下,系统摘要与参考摘要越吻合,其质量越高。外部评价方法(ExtrinsicMethods)不需要提供参考摘要,利用文档摘要代替原文档执行某个文档相关的应用。例如:文档检索、文档聚类、文档分类等,能够提高应用性能的摘要被认为是质量好的摘要。Evaluation11Evaluation--EdmundsonEdmundson评价属于内部评价方法客观评估:比较机械文摘(自动文摘系统得到的文摘)与目标文摘的句子重合率(coselectionrate)。主观评估:由专家比较机械文摘与目标文摘所含的信息,然后给机械文摘一个等级评分。等级分为:完全不相似,基本相似,很相似,完全相似等。12Edmundson评价的几个基本规定:专家文摘和机械文摘都存入文本文件中;比较的基本单位是句子;•句子是两个句子级标点符号之间的部分。•句子级标号包括:“。”“:”“;”“!”“?”;为使专家文摘与机械文摘具有可比性,只允许专家从原文中抽取句子,而不允许专家根据自己对原文的理解重新生成句子;专家文摘和机械文摘的句子都按照在原文中出现的先后顺序给出。Evaluation--Edmundson13定义:重合率p=匹配句子数/专家文摘句子数×100%每一个机械文摘的重合率为按三个专家给出的文摘得到的重合率的平均值。平均重合率=(Pi为相对于第i个专家的重合率,n为专家的数目)原文机械文摘系统专家文摘机械文摘评价%100*/1nPniimhmhhmNNPrecisionNNRecall//Evaluation14Evaluation--ROUGE准则由ISI的Lin和Hovy提出的一种自动摘要评价方法被广泛应用于DUC的摘要评测任务中ROUGE准则基于摘要中n元词(n-gram)的共现信息来评价摘要;是一种面向n元词召回率的评价方法。ROUGE准则由一系列的评价方法组成,包括:ROUGE-1,ROUGE-2,ROUGE-3,ROUGE-4•(其中ROUGE-1至ROUGE-4分别基于1元词到4元词)以及ROUGE-L,ROUGE-W等15Evaluation--ROUGE准则其中:n-gram表示n元词,{RefSummaries}表示参考摘要,Countmatch(n-gram)表示系统摘要和参考摘要中同时出现n-gram的个数,Count(n-gram)则表示参考摘要中出现的n-gram个数。}SummariesRef{}SummariesRef{)()(NROUGESSgramnSSgramnmatchgramnCountgramnCount16DUCTheDocumentUnderstandingConference(DUC)isaseriesofsummarizationevaluationsthathavebeenconductedbytheNationalInstituteofStandardsandTechnology(NIST)since2001.Itsgoalistofurtherprogressinautomatictextsummarizationandenableresearcherstoparticipateinlarge-scaleexperimentsinboththedevelopmentandevaluationofsummarizationsystems.Since2008,DUChasmovedtotheTextAnalysisConference(TAC)QuestionAnswering;RecognizingTextualEntailment;Summarization17自动摘要方法18SummarizationAlgorithmsKeywordsummariesDisplaymostsignificantkeywordsEasytodo,Hardtoread(poorrepresentationofcontent)SentenceextractionExtractkeysentencesMediumhardSummariesoftendontreadwellGoodrepresentationofcontentNaturallanguageunderstanding/generationBuildknowledgerepresentationoftextGeneratesentencessummarizingcontentHardtodowellSomethingbetweenthelasttwomethods.19基本方法20位置法美国的P.E.Baxendale的研究结果显示:人工摘要中的句子为段首句的比例为85%,是段尾句的比例为7%。美国康奈尔大学G.Salton提出了寻找文章的中心段落为文摘核心的思想。其他E.g.:除了论题句、段首、段尾等句子之外,段落的第二句常常表示段落的主题。21提示字串法文章中常常有一些特殊的线索词(短语、字串、字串链),它们对文章主题具有明显的提示作用,可以利用它们来获取文章的主题。e.g:Edmundson的文摘系统中的线索词词典:取正值的奖励词(BonusWords)取负值的惩罚词(StigmaWords)无效词(NullWords)22频率统计法实验表明:高频字串往往与主题相关度极大。[Luhn,1958]:根据句子中实词的个数来计算句子的权值。[V.A.Oswald]主张句子的权值应按其所含代表性的“词串”的数量来计算;[Doyle]则重视共现频度最高的“词对”;[Lisa.F.Rau,1995]采用相对词频的方法实现ANES(AutormaticNewsExtractionSystem)系统。23文章框架法目次性摘要:借助文章的大小标题与语义段的摘要方法。统计表明:大部分科技文献(99.8%)的标题都能基本反映主题。捷克Janos把文中的句子分为主干句与枝叶句,删枝叶句留主干句的文摘方法可划归于“文章框架法”。24信息提取法信息提取法常用于对一些特殊领域的文献资料做摘要(如气象预报等)。该方法根据用户的需求,首先构造出一个用户喜闻乐见的文摘框架(AbstractFrame),文摘框架以空槽的形式提出应该从原文中获取的各项内容,然后再把文摘框架中的内容转换为文摘(文字或图表)。该方法常称之为二段式:抽取有关信息,然后生成摘要。25理解分析法基于理解的自动摘要常包含语法分析、语义分析、信息提取和文摘生成,作者文摘应属于此。研究表明:理解首先应着重篇章理解、段落理解,也就是理解应该是分层的,高层理解比低层理解更为重要。26仿人算法仿人算法就是对人工方法的学习,模仿与发挥所产生的综合性方法。手工文摘人员在编制文摘时并不一定通读全文,往往只着重观察标题、前言、结束语及其论题句,以发现其主题,再挑选句子并修饰稍加组织生成文摘。人工很多经验都是值得注意的,同一篇文献,不同用户兴趣点和观察角度可能不同,文摘的结果应当不同。27SentenceExtraction28SummarizationReviewWebPagehtmlhead/headbody/body/html分句SentenceSentenceSentence句子重要性评价:Content;Length;Position;Stigmawords;RedundancyTopicDetectionModuleHTMLParser;SentenceDetectio