北京邮电大学硕士学位论文基于半结构化文本信息抽取的简历识别系统姓名:陈川波申请学位级别:硕士专业:计算机应用技术指导教师:蔺志青20080307基于半结构化文本信息抽取的简历识别系统作者:陈川波学位授予单位:北京邮电大学相似文献(10条)1.会议论文吕国英.冯艳.李茹基于中文框架语义的信息抽取研究2008信息抽取是自然语言处理的一个重要分支,之前的信息抽取只对语料进行词性标注,语句的信息大量流失引起抽取结果准确率和召回率都比较低,其中语义缺失是根本原因.本文选用教材内容提要作为研究对象.探索了基于中文框架语义(CFN)的文本信息抽取技术.首先对文本进行CFN语义标注,经标注后的文本作为实验语料,再对语料进行向量化预处理构成语义特征向量,然后以文本的语义特征向量作为信息抽取的基础,使用神经网络方法对语料进行训练学习并自动获取目标模板语义特征向量,最后结合目标模板抽取出所需信息.这种方法避开语法分析,具有较细的处理粒度,对语义元素搭配形式相对规范的领域具有一定的普遍适用性.实验结果表明,基于中文框架语义的信息抽取方法具有相对较高的准确率.2.学位论文周顺先文本信息抽取模型及算法研究2007从20世纪60年代以来,作为自然语言处理领域的一个重要研究分支,文本信息抽取理论的研究受到了国内外研究者的广泛关注,得到了不断的发展,取得了许多研究成果。但是,在文本信息抽取中还存在许多关键的问题,例如,文本信息抽取性能不高、抽取模型的适用性不强、训练文本的人工标记工作量大等问题,有待进一步通过研究加以解决。本文通过规则和统计的方法,研究文本信息抽取的模型和算法,以进一步提高模型的抽取性能,增强模型的适用能力,减少模型的训练对人工标记文本的依赖程度,提高模型主动学习的能力,解决文本信息抽取中的一些关键问题。本文的主要研究工作包括以下几个方面:(1)在分析基于页面标志信息和基于文本模式信息两类算法的基础上,提出了一种新的包装器归纳学习算法。新算法综合了上述两类算法的优点,不但能利用页面的标志信息进行信息定位,而且能利用文本的模式信息进行信息抽取,并对抽取结果进行必要的过滤,因而,新的算法具有更高的抽取精确度与更强的信息表达能力。(2)为了解决变化的WEB页面导致包装器失效的问题,使包装器模型能自动适用变化的WEB页面的信息抽取。论文基于以下的观察:尽管页面有多种多样的变化方式,但是许多重要的页面特征信息在新页面都得到了保存,例如文本模式信息、注释信息和超级链接信息等。提出了一种基于页面特征的包装器平衡算法,新算法首先从包装器正常工作时被收集起来的训练样例中学习得到WEB页面的模式信息、数据项注释信息以及可能的超级链接信息等特征信息,然后充分利用这些特征信息在变化的WEB页面中定位目标信息,以自动修复失效的包装器。对实际WEB站点信息抽取的实验表明,新算法能有效地维持包装器的平衡。(3)提出了一种基于聚簇隐马尔可夫模型的文本信息抽取算法。对于网上不同来源的格式不同的文本,在以往的抽取方法中,将所有的训练文本混合训练一个统一的隐马尔可夫模型,一般难以得到较优化的抽取模型,影响了抽取性能。因此,论文考虑将聚簇分析应用到文本信息抽取中,首先,对聚簇分析中的K-平均方法进行改进,以提高聚簇性能;然后,对训练文本的Markov链模型进行聚簇,用各个簇的文本训练出不同的抽取模型;最后,应用各模型分别进行文本信息抽取,并通过比较得到最优的抽取结果。仿真实验结果表明,对不同来源的文本信息的抽取,新的抽取模型和算法具有良好的适用能力和更高抽取性能。(4)研究了基于隐马尔可夫模型文本信息抽取中的信息熵模型。首先,考虑特征信息对提高文本信息抽取性能的作用,提出了一种基于最大熵隐马尔可夫模型的文本信息抽取算法,该算法通过最大熵模型,将文本的上下文特征信息和文本词汇本身包含的特征信息加入到模型的训练和文本信息抽取中,提高了抽取性能;其次,为了解决从大段文本信息中抽取关键信息的问题,将互信息模型应用到基于隐马尔可夫模型的文本信息抽取中,通过点互信息定量描述文本信息的隐马尔可夫模型中非相邻状态之间的转移概率,实现了对文本中关键信息的抽取,并得到了较好的抽取效果。(5)研究了文本信息抽取中的二阶隐马尔可夫模型。在一阶隐马尔可夫模型中,假设状态的转移概率和观察值的输出概率只依赖于模型当前的状态,一定程度制约了信息抽取的精确度。二阶隐马尔可夫模型合理地考虑了概率和模型历史状态的关联性,对错误信息的识别能力更强。论文在一阶模型的ML(ML,MaximumLikelihood)算法的基础上推导了二阶模型的ML算法;提出了基于二阶隐马尔可夫模型的文本信息抽取算法;分析了二阶隐马尔可夫模型在提高信息抽取正确率上的有效性。仿真实验结果表明,新的算法比基于一阶隐马尔可夫模型的算法具有更高的抽取精确度。(6)研究了结合最大熵模型和二阶隐马尔可夫模型的文本信息抽取方法。在基于二阶隐马尔可夫模型的文本信息抽取中,虽然提高了模型对错误信息的识别能力,提高了信息抽取的正确率,但是信息抽取的召回率没有提高,因此,在该方法中,通过最大熵模型,在基于二阶隐马尔可夫模型的文本信息抽取中加入文本的上下文特征信息,进一步改善二阶隐马尔可夫模型的抽取性能,在进一步提高文本信息抽取正确率的同时也提高了召回率。(7)提出了一种文本信息抽取的主动学习算法。在只有部分标记训练文本的情况下,通过主动学习算法,将最有价值的训练文本挑选出来进行标记。该算法能应用到基于包装器模型和基于隐马尔可夫模型的文本信息抽取中,在不影响抽取性能的前提下,能有效降低模型的训练对已标记训练文本的依赖程度,很大程度减少人工标记训练文本的工作量。总之,论文通过规则和统计的方法分别从上述各个方面对文本信息抽取的模型和算法进行了深入研究。解决了文本信息抽取中存在的关键问题,提高了文本信息抽取的精确度和召回率;增强了抽取模型对不同格式的文本以及不断变化的WEB页面的适用能力;提高了模型主动学习的性能,降低了模型的训练对已标记训练文本的依赖程度,减少了人工标记工作量;取得了相关的研究成果。3.会议论文何清.路斌.史忠植基于HMM的文本信息抽取方法2003传统的文本信息抽取方法有两种:知识工程方法和自动训练方法。前者需要对领域知识很熟悉的知识工程师的参与,而且需要大量的工作来发现有用的规则(或模式):而后者的劣势在于需要大量的训练语料才能达到很好的性能。本文结合这两种方法,提出了一种基于HMM,采用加入规则方法和引入平滑技术的半结构化文本信息抽取方法,该方法仅需要知识工程师的少量参与,而且可以显著地提高信息抽取系统的性能,尤其是在可用的训练语料较少的情况下更有优越性。4.学位论文史宪军文本信息人工标注辅助系统的设计与实现2008近年来,在搜索、信息抽取、机器翻译等技术和需求的推动下,自然语言处理技术迅速发展成为一门独立的学科,并倍受关注。语言资源建设是自然语言处理研究领域的基础性研究内容,语篇标注是文本信息处理和语言资源建设的一个重要方面。语篇标注系统是完成语篇标注的有力工具,开发语篇标注系统是直接影响语篇标注的效率和质量的一个重要环节,是文本信息处理方向的一个重要研究和尝试。本文在相应语篇标注理论的基础上,设计并实现了面向文本内容计算的语篇标注系统,辅助建设面向内容计算的文本信息标注语料库。对突发事件信息及时、有效的提取是应对突发事件的一个重要方面,突发事件新闻文本格式相对严格,所以我们选取突发事件新闻文本作为标注对象。本文以相关课题研究为背景,以国内外关于语篇标注的理论、语篇标注工具为基础,以突发事件新闻文本中的意义单元为标注对象,分层分类的进行标注。本文主要做了以下几个方面的工作:1.确定突发事件新闻文本分类分层标注集,确定生成XML文件的元素和层次结构:根据理论中确定的标注内容,为标注内容和相关属性选取适当的关键字,并把层次结构和关键字值在生成XML文件中体现出来。2.完成各类意义单元从线性文本到结构化文本的转化:标注中实体、实体关系、事件、事件关系、时间等任何意义单元的标注,都要从原始文本中提取出,并加上对应标注集中的关键字,转化为XML格式的结构化文本。3.完成文本信息人工标注辅助系统的设计与实现:根据标注需求设计并实现了一个语篇标注系统,并完成了一定数量文本的标注。本文设计并实现了一个界面友好的语篇标注系统,从而提高了语篇标注的标注效率和质量,并最大程度地进行了固定格式的自动标注。是语篇标注理论具体实践方法,为语篇标注乃至面向内容的计算提供了可参考的标注解决方法和模块。5.学位论文蒋建慧文本主题段落内部概念关系抽取技术研究2009随着计算机的普及和互联网的迅猛发展,网络上文本信息的数量快速增长,然而人们却很难迅速地找到所需的信息。为了改变这种尴尬的局面,迫切需要一些自动化的工具帮助人们在海量信息中迅速而准确地找到用户真正需要的信息,信息抽取技术就是在这一背景下产生出来的。互联网上信息又大多以文本形式存在,而文本从线性和层次角度上可以分为若干个段落主题。由于标引段落主题的概念之间存在某种关系,作者抽取出段落主题概念及其之间的关系,就为基于段落主题的信息检索以及文本自动摘要工作提供了一个新的途径。本文的研究工作是基于主题段落的概念和概念关系抽取技术研究。主题段落概念及其关系抽取简单来说,就是从文本段落内部挖掘出能反映文本内容的若干个主题概念,并构建出这些概念之间的关系。首先为了抽取出标引文本主题的概念,我们通过词聚类的方式获取概念,在构建向量空间模型时,原本的以词形为基础的向量空间模型就变成了概念空间模型。然后利用知网中概念词之间的相似度,加权计算出向量空间模型中各个分量的权值。随后,不同于以往的词频加权算法,提出了基于词语量化关系的主题概念抽取算法,通过定量的分析概念之间的相关信息,抽取出更能准确标引文本主题的概念。首先利用一部中文词典《现代汉语规范词典》——一种非结构化的数据源作为背景知识,来挖掘词语之间的量化关系。然后利用这种量化关系为概念向量模型中概念分量构建相关向量,再通过对概念相关向量和权值的计算,得出每个概念对于文本的主题重要度,最终依据重要度抽取出能够标引文本主题的概念。对于抽取出来的主题概念,使用基于特征向量的机器学习方法抽取出主题概念关系。选取主题概念上下文的词语和词性作为特征向量,抽取出比较常见的若干种概念关系6.期刊论文王雷.陈治平.李志成.WANGLei.CHENZhi-ping.LIZhi-cheng基于文本分块的多模板隐马尔可夫模型的文本信息抽取-山东大学学报(理学版)2006,41(3)针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法.新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取.实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.7.学位论文齐青视频搜索引擎中的精确文本信息抽取系统的设计与实现2007本文设计和实现的精确文本信息抽取系统,是视频搜索引擎中采集系统的一个独立的子系统。在传统搜索引擎中,要求对文本信息做网页级别的提取,通过对文本生成摘要的方式来描述搜索结果。本文设计和实现的精确文本信息抽取系统与传统搜索引擎提供的通用式文本处理方法不同,可以对网页中的文本按照事先约定的信息点进行精确提取。以这些信息点内容来描述所搜索结果,比用摘要来描述更为准确有效,对于提供个性化服务的视频搜索引擎来说更为适合。本文设计和实现了两种以视频网页为单位的模板抽取文本系统。第一个系统采用人工标注规则模板抽取的方法,该方法的优点是能做到准确无误的提取文本信息,缺点是需要大量人工干预和维护的工作;为解决第一种方法存在的问题,本文设计和实现了另一种采用自动生成模板方法的文本信息抽取系统,它可以保证在最少人工干预的前提下自动生成模板,并根据模板精确的从网页中抽取文本信息。自动生成模板的