集成多种背景语义知识的共指消解*郎君,忻舟,秦兵,刘挺,李生哈尔滨工业大学信息检索研究室150001E-mail:bill_lang@ir.hit.edu.cn摘要:共指消解是信息抽取中一个重要子任务。近年来,许多学者尝试利用统计机器学习的方法来进行共指消解并取得了一定的进展。背景知识作为新的研究热点已经被越来越多的利用在自然语言处理的各个领域。本文集成多种背景语义知识作为基于二元分类的共指消解框架的特征,分别在WordNet、维基百科上提取背景知识,同时利用句子中的浅层语义关系、常见文本模式以及待消解词上下文文本特征。并利用特征选择算法自动选择最优的特征组合,同时对比同样的特征下最大熵模型与支撑向量机模型的表现。在ACE数据集上实验结果表明,通过集成各种经过特征选择后的背景语义知识,共指消解的结果有进一步提高。关键词:共指消解;背景语义知识;WordNet;维基百科CoreferenceResolutionwithIntegratedMultipleBackgroundSemanticKnowledgeJunLang,ZhouXin,BinQin,TingLiu,ShengLiInformationRetrievalLaboratory,HarbinInstituteofTechnology,Harbin150001E-mail:bill_lang@ir.hit.edu.cnAbstract:Thecoreferenceresolutionisanimportantsubtaskofinformationextraction.Recently,manyresearcherstrytohandlecoreferenceresolutionwithstatisticalmachinelearningandgainsomeachievement.Asanewtopic,thebackgroundsemanticknowledgeisusedineveryfieldofNLPnowadays.Inthispaper,wetrytousebackgroundsemanticknowledgeintoclassicalpairwiseclassificationframeworkforcoreferenceresolution.WeextractbackgroundknowledgefromWordNetandWikipedia;alsousethesemanticrolelabeling,generalpatternknowledgeandthecontextofmentionasfeatures.Intheexperiment,thefeatureselectionalgorithmisemployedtochoosebestfeaturessetandmaximumentropyandSVMmodelsarecomparedonthesameselectedfeaturesset.TheexperimentalresultonACEdatasetshowstheimprovementofcoreferenceresolutionafteraddingselectedbackgroundsemanticknowledge.Keywords:CoreferenceResolution;BackgroundKnowledge;WordNet;Wikipedia1引言共指消解就是将篇章内的所有表述划分为现实世界中不同实体等价描述的过程,主要包含人称代词消解和名词短语消解[1]。该问题一直是信息抽取中的重要子任务之一。随着对问题的研究深入,越来越多的研究人员意识到共指消解是人工智能中最难的问题之一,因为共指消解不仅需要语言学方面的知识,例如浅层的词汇、句法知识,还需要较为宏观的篇章和语义知识。最为困难的是,很多时候共指消解需要丰富的背景知识才能完成。最近十几年,随着消息理解会议(MessageUnderstandingConference,MUC)以及自动内容抽取(AutomaticContentExtraction,ACE)等系列大型国际评测的不断开展,基于统计机器学习的共指消解方法取得了长足的进步。但是,这些方法主要采用的都是一些较为浅层的特征,例如实体之*基金资助:本文受到国家自然科学基金(60575042,60503072)、863项目(2006AA01Z145)资助作者简介:郎君(1981-),男,四川峨眉人,哈工大计算机系博士研究生,bill_lang@ir.hit.edu.cn1间的距离、性别、单复数、人称、实体类型、字符串匹配、同位、别名等。近年来,最新的研究都主要集中在如何深入发掘和利用各种语义和背景知识上。Ponzetto和Strube利用挖掘浅层语义角色(ShallowSemanticRole)、WordNet和维基百科(Wikipedia)来增强共指消解,在传统共指消解特征框架下主要增加了实体的语义角色、实体对分别在WordNet和维基百科上的语义相似度等三种特征[2]。Bean和Riloff利用共指关系明显的共指实体对在两个领域的语料中进行模板挖掘,并人工对一部分模板进行了删选和增强,利用Dempster-Shafer决策模型来做信息融合从而进行共指消解,结果表明不同的代词需要用不同的特征来消解,确定性名词短语偏重使用词汇特征,代词偏重使用上下文语义特征[3]。Yang和Su利用模板来获得指代词和先行词之间的语义关系,在维基百科上自动挖掘模板,并对模板进行评价和打分,然后利用模板来获得待消解的共指实体对的语义特征[4]。现在能够利用的背景语义知识来源主要有WordNet、维基百科、浅层语义角色标注(SemanticRoleLabeling,SRL)、上下文模板等。本文主要将这些背景语义知识综合起来考察对共指消解系统的影响,同时结合共指消解问题的特殊性,提出了上下文特征。另外对常规特征在内的特征集合采用自动特征选择的方法整体分析了各种背景语义特征组合对共指消解的作用。结果表明,共指消解在背景语义的支持下能够取得较大的提高,特征选择对于共指消解也是必不可少的环节。本文按照如下方式组织:第二部分概述了共指消解研究的发展历程以及经典的基于二元分类框架以及用于共指消解的常规特征;第三部分详细介绍了各种背景语义特征的特点和构造方法,并结合代词类共指消解的特点提出了上下文特征;第四部分说明融合各种背景语义知识进行共指消解的系统框架以及自动特征选择的方法;第五部分介绍详细的实验设计以及结果分析;最后是总结和未来工作的展望。2相关研究工作概述共指消解研究的研究可以分为三个阶段[1]:(1)1978年~1995年,以句法分析为基础的基于语言学方法的共指消解,代表方法是Hobbs算法以及中心理论;(2)1995年~2002年,这段时间主要是各种基于二元对的分类方法以及基于向量相似度的聚类方法;(3)2002年至今,经过上一个阶段的发展,越来越多的研究人员开始考虑如何引入背景知识以及语义知识,同时采用一些全局考虑篇章信息的方法来实现最优化的篇章共指消解。随着McCarthy和Lehnert首次将共指消解问题视为二元分类并采用决策树(DecisionTrees)C4.5算法[5]以来,共指消解开始在二元分类的框架下获得了长足的发展。经典的基于二元对分类的共指消解系统框架如图1所示[1]。图中①表示共指消解处理的对象。一般而言,共指消解系统的输入是预处理中获得的各种实体表述(Mention)。相关预处理主要包括断句、词性标注、命名实体识别、嵌套名词短语识别等。这些前处理一般采用一些相关的模块来获得。共指消解的国际评测中,为了更加精准的评测共指消解算法的性能,组办方一般都会提供标注好Mention的语料。②表示从训练语料或者测试语料中构建用于分类器的输入实例。针对训练和测试分别采用不同的实例构建方法。③表示特征抽取。事实上,在二元分类框架下,如何设计需要选定的特征,对于最终的共指消解性能具有决定性的影响。本文的各种背景语义特征在共指消解上的应用就主要体现在这个环节。图中④表示二元分类的机器学习算法。到目前为止,用于共指消解二元分类的机器学习方法主要有贝叶斯(NaïveBayes)、决策树、支持向量机(SupportVectorMachine,SVM)、最大熵(MaximumEntropy)、条件随机域(ConditionalRandomField,CRF)、遗传算法(GeneticAlgorithm,GA)、互训练(Co-Training)等。这些方法的一个共同点是都在各种相关特征构成的特征向量的基础上训练得到各种特征的权值或者优选性(主要是决策树能得到优选性)。图中⑤表示Mention二元分类的结果合并为Entity。2随后进行的就是共指消解结果的评价(图中⑦所示)以及得到最终的实验结果(图中⑧所示)。图1基于二元分类的共指消解经典框架Fig.1Theclassicalbinaryclassifyingframeworkforcoreferenceresolution对于两个实体表述(Mention)I和J,I在J之前,I称为先行词,J成为指代语。二元分类框架下,共指消解需要的传统特征可以分成四类,即词汇特征(STRING_MATCH,ALIAS),语法特征(I_PRONOUN,J_PRONOUN,J_DEF,J_DEM,NUMBER,GENDER,PROPER_NAME,APPOSITIVE),语义特征(WN_CLASS),距离特征(Distance)[8],如表1所示。表1共指消解所用常规特征Tab.1Thecommonfeaturesusedforcoreferenceresolution名称返回类型说明STRING_MATCHT,FI、J分别去掉冠词(a,an,the)和指示代词(this,these,that,those)后进行匹配。匹配成功返回T,否则返回F。ALIAST,F如果I是J的别名或者J是I的别名,返回T,否则返回F。I_PRONOUNT,F如果I是代词(括反身代词、人称代词和物主代词),返回T,否则返回F。J_PRONOUNT,F如果J是代词,返回T,否则返回F。J_DEFT,F如果J是限定性名词短语(定冠词开头),返回T,否则返回F。J_DEMT,F如果J是指示性名词短语(以this,that,these,those开头),返回T,否则返回F。NUMBERT,F如果I和J单复数相同则返回T,否则返回F。GENDERU,T,F如果I和J单复数相同则返回T,否则返回F,任何一个Mention的单复数不能确定,就返回U。PROPER_NAMET,F如果I和J都是专有名词(主要单词都是首字母大写),返回T,否则返回F。APPOSITIVET,F判断I和J是否同格,I和J中必须至少有一个是专有名词。通过判断I和J3之间是否有动词或特定标点(如逗号)来判断是否APPOSITIVE。如“BillGates,thechairmanofMicrosoftCorp.“中BillGates和ChairmanofMircosoftCorp.。WN_CLASSU,T,F如果I和J有一个不在WordNet中则返回U,如果I和J是同一个WordNet语义类别,返回T,否则返回F。DISTANCE0,1,2,3返回I和J之间相隔的句子数量,句子间隔大于或者等于3时,都返回3。3多种背景语义知识共指消解如同其他自然语言处理问题一样,是一个强不适定问题(StringlyIll-posedProblems),只有通过提供大丰富的“约束”(包括知识、经验等),才能使之成为适定性的、可解的问题[7]。共指消解需要采用大量的约束才能解决,而对于二元分类等具体的框架,添加约束的方法就是采用更多合理的特征。本文整合了各种相关的背景语义知识,并提出了结合维基百科的上下文特征。3.1基于WordNet的背景语义特征传统的共指消解中WordNet仅被用