基于语义的自动文摘介绍计算机1介绍2两个语义模型2.1语义知识模型2.2统计主题模型3总结目录31、介绍基于语义的自动文摘方法能解决自动文摘处理中语言复杂性问题,在克服领域局限性的同时从本质上提高文摘的质量.常用语义模型包括统计主题模型和语义知识模型.基于语义的自动文摘是对传统文摘技术基于语义模型的扩充,在自动文摘的预处理、文档转换、文档候选片段提取和文摘生成4个基本过程中使用各种语义分析方法.4基于语义的自动文摘方法,采用语义学、哲学、统计学和概率学等多领域知识,通过语义模型对语义空间建模,生成文档在语义空间里的表示,然后通过语义分析手段提取文摘候选片段,根据片段之间的语义关系得到可读性强的文摘结果.基于语义的自动文摘方法能解决自动文摘处理中语言复杂性问题,在克服领域局限性的同时从本质上提高文摘的质量.1、介绍52、两个语义模型统计主题模型和语义知识模型.2.1语义知识模型以语义关系为重点描述对象,以语义知识库为表示形式,为涉及到语言形式的计算机处理操作提供语义知识约束条件.作为一个具有结构性、代表性、可机读性的一定规模的语义知识集合,语义知识库在自然语言处理的各个领域都有广泛的应用.应用较为广泛的语义知识库包括:WordNet和HowNet等本体库.6WordNetWordNet是一个覆盖面较广的英文语义知识库.在WordNet里,n、v、adj和adv等被分成同义词集合(Synset)。每个集合表示一个概念,每个词可属于多个集合(即一词多义),不同集合又按概念之间的同义、上下位等各种关系组织起来.建立语义网络。时间:时代、时候和时期。7HowNetHowNet:汉语+英语以揭示概念与概念之间,以及概念所具有的属性之间的关系为基本内容的常识知识库。知识工程师来设计知识库的框架。HowNet认为所有概念都是由基本义元组成.它通过对中文基本义元的分析,用有限的义元集合描述无限的概念集合,然后再将概念与概念之间的关系及概念的属性与属性之间的关系用网状的知识系统表示出来.8Ontology本体本体是关于一些主题的清晰规范的说明。1术语表2术语关系集主题图的概念模型9MeSH基于语义的自动文摘系统的移植性有待增强.自动文摘系统的移植性是决定自动文摘技术发展的关键之一.使用本体的自动文摘系统现在大部分出现在医学领域,这主要是由于其他领域中尚还缺少类似于MeSH的大型领域本体.《医学主题词表》(MedicalSubjectHeadings,简称MeSH)是美国医学图书馆编纂的一部大型医学专业叙词表,是手工检索IM(IndexMedicus)和计算机检索Medline的主题词文本,也是医学领域使用最广泛最具权威的词表。MeSH是对生物医学文献进行主题分析、标引和检索时使用的权威性词表。10MeSH1.严格规范的科学语言。不允许一词多义和一义多词。把同义检索词归一检索。严格的同义规范、词义规范、词类规范、词型规范,明确词的含义及所涉及的范围,使得每一个叙词在词语的形式和语义上只能有一个概念,不允许一词多义和一义多词,避免了标引人员和检索人员人为造成的误差。在检索中,最为检索人员熟悉的是Neoplasm这个科学用词,它包含了Tumors,Tumor,BenignNeoplasms,Neoplasms,Benign,BenignNeoplasm,Neoplasm,Benign,Cancer,Cancers这些同义词,这些同义词以入口词的形式出现在MeSH表中,当用MeSH对医学知识进行标引、组织和检索时,表达肿瘤概念的也只能是科学语言———Neoplasm,而不是本时常用的Tumor,Cancer等自然语言。11MeSH2、树状结构表主题词划分15类:1-9级逻辑和隶属关系树状结构表将字顺表中的主题词按照每个词的词义范畴和学科属性,分别归入15个大类之中,多数大类又进一步细分多达9级。每一级类目用一组号码标明,级与级之间用“.”号隔开。主题词上、下级之间采用逐级缩进格式表现主题之间的隶属关系,每个主题词都有一个或两个以上的树状结构号,该号是联系字顺表和树状结构表的纽带。12MeSH3.词组性主题词的弥补作用MeSH词组性主题词的两种形式:自然语序:adj+nHypothalamicDisease倒装语序:n+adj名词形中心词提前例如:ColonColon,AscendingColon,DescendingColon,SigmoidColon,Transverse13MeSH4.简单的语义关系MeSH中简单的语义关系MeSH词表的参照系统包括用代参照,即非主题词见主题词(即“See”和“X”参照),入口词包括同义词、近义词、缩写、不同的拼写形式及其他用代形式。在标引或检索时,入口词在计算机程序中会自动地将入口词转换为相应的叙词。如OutbreakSeeDiseaseOutbreaks。以此来处理主题词与非主题词之间的相互关系。142.2统计主题模型统计主题模型(Statisticaltopicmodels)通过参数估计寻找一个低维的多项式分布集合,每个多项式分布称为一个主题(Topic),用来捕获词之间的相关信息.潜在语义分析(LSA)是由Deerwester等人[3]于1988年提出的最早的统计主题模型.它对语义距离的估计,不是依赖表层的统计数据,而是采用一种具有强大推论能力的数学分析方法———奇异值分解(SVD).1999年Hofmann提出的PLSA模型来模拟文档中词的产生过程.2003年Blei等人基于PLSA提出了LDA模型,对文档的产生过程进行模拟,发现的主题能捕获词之间的相关性.15统计主题模型PLSAPLSA模型将文档的生成这样设计:第一步,我们抛一个有H面的骰子,每个面代表一个主题,各个面概率不一,得到一个主题;第二步,这个主题又对应了一个有T个面的骰子,每个面代表一个词,抛这骰子N次,得到一篇文章。其实我觉得这个模型可以看作是两个词袋模型的组合,第一个做一次,确定主题,第二个重复独立做N词,确定文章。下面是一个直观图(借用LDA数学八卦的图了):16统计主题模型LDALDA是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。17统计主题模型LDA18统计主题模型LDALDA模型中一篇文档生成的方式如下:19隐主题马尔科夫模型基于语义统计主题模型HTMM203、总结基于语义的自动文摘技术强调语义分析在自动文摘中的作用,但并不代表仅仅使用语义分析就可以实现自动文摘的全过程.基于语义的自动文摘技术现阶段尚还停留在对词义的理解层次上,有待我们结合语义学、本体论、概率学和统计学等多个领域的研究,逐步达到对句子语义的掌握,乃至最后真正实现对全文语义的理解.谢谢