中文信息抽取关键技术研究与实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

北京邮电大学硕士学位论文中文信息抽取关键技术研究与实现姓名:杨永贵申请学位级别:硕士专业:信号与信息处理指导教师:钟义信20080225中文信息抽取关键技术研究与实现作者:杨永贵学位授予单位:北京邮电大学相似文献(10条)1.期刊论文吴芳.郑君.刘金亮.宗克玄.WUFang.ZHENGJun.LIUJin-liang.ZONGKe-xuan基于GATE框架的中文信息抽取技术的研究-电脑知识与技术2009,5(24)介绍了信息抽取技术的基本概念、GATE信息抽取系统的抽取过程.对现有的信息抽取系统构建方法进行了介绍,指出了构建中文信息抽取系统所需要解决的关键问题及解决办法.2.学位论文牟力科Web中文信息抽取技术与命名实体识别方法的研究2008随着internet的飞速发展,人们被包围在信息的汪洋大海之中。准确、高效地从信息海洋中抽取有用的信息,正是信息抽取任务要解决的问题。信息抽取是自20世纪80年代末以来,自然语言处理研究领域的热点研究问题。美国、欧洲都制定了相应的信息抽取技术及评测计划。有关汉语的信息抽取研究起步较晚,尚处在探索阶段。信息抽取任务的研究在近年来应对突发事故中表现得尤为亟需。随着各种煤矿安全事故频繁发生,应对突发事故的能力己经成为考验政府执政能力的一个重要方面。应对突发事故是一个系统工程,其中一个重要环节就是信息的收集、整理、加工和发布。及时、客观、准确地收集信息,快速、高效地提取有用信息,这己经成为提高突发事件应对能力的一个重要方面,也是衡量应对突发事件能力的一个重要指标。本文在对煤矿安全事故新闻报道特点广泛分析基础上,以同一突发事件的多个新闻报道(即同事件多文本)为处理对象并考虑到时间的重要性,从中获取支持煤矿安全信息抽取的地名实体识别特征与时间识别特征,在此基础上实现了煤矿安全信息抽取系统。与英语信息提取相比,中文在文本处理深度、知识资源支持等方面都有较大的差距。因此,在研究过程中,对于每一项研究内容,我们都分析了现有资源和文本加工深度对信息提取任务的支持和制约,探索性地研究了具有一定鲁棒性的时间信息识别方法,以期为进一步的研究奠定基础、找到突破口,以便为下一步的工作提供经验。3.期刊论文贺胜信息抽取技术内涵及应用-南京师范大学文学院学报2004,(2)本文论述了信息抽取与信息检索、自动文摘的区别,信息抽取所需涉及的自然语言处理技术,中文信息自动抽取的目的、任务和技术内涵;然后介绍了信息抽取技术在信息处理中的应用.4.会议论文肖诗斌.孙丽华.王弘尉.施水才指标信息抽取技术的研究2007本文研究了一种指标信息抽取技术。其基本思想是,首先人工建立指标知识库。然后,由文本分析器借助指标知识库分析文本信息,形成指标向量。指标向量包括属性向量和数量词向量两部分。属性向量由属性词、位置、词频组成。数量词向量由数量词、位置组成。最终,由信息抽取器根据指标向量和知识库信息,智能地抽取出指标的五大信息,即指标属性、指标值、指标单位、指标代码、指标名称,指标的五项信息之间存在关联关系。5.期刊论文刘迁.焦慧.贾惠波.LIUQian.JIAOHui.JIAHui-bo信息抽取技术的发展现状及构建方法的研究-计算机应用研究2007,24(7)介绍了信息抽取(IE)技术的基本概念、信息抽取系统的抽取过程.对现有的信息抽取系统构建方法进行了分类和介绍,并对这些方法进行了讨论和比较,同时指出了构建中文信息抽取系统所需要解决的关键的基础问题.6.学位论文孙青面向科技本体构建的中文信息抽取研究2008本体作为一种对共享概念模型的明确的形式化的规范说明,不仅能够以面向对象的方式描述特定领域的主要概念,而且能够描述概念之间的关系。在科技领域,借助科技知识本体,能够有效地组织海量科技信息资源尤其是科技文献资源。而信息抽取作为一项目前不断推进的热点研究,在许多领域得到了成功的应用。本研究通过理论研究、实例分析、领域建模、系统开发等方法,以科技本体的构建为目标,试图在构建过程中应用信息抽取的方法与技术.在调研比较的基础上,选取了评测结果比较优秀的信息抽取系统进行深入的研究和代码分析,并对其中文支持功能进行完善和扩充.本研究认为,这一框架能够为科技文献的组织提供一个有效的途径,成为科技本体构建过程中的重要参考和有益补充。本文的主要工作如下:1.对本体的有关知识进行了介绍,对目前信息抽取技术的研究现状和相关工作开展情况进行了总结和梳理。2.选取了基于规则的信息抽取系统GATE作为系统架构的基础和平台;对GATE系统进行了较深入的源码学习,梳理了前人的研究成果,学习了其进行语义标注的流程和方法。3.分析和总结了中文命名实体识别的难点,对GATE的英文处理组件ANNIE进行了改造,使其针对中文信息抽取的准确率得到提高。4.探讨了面向科技本体构建的中文信息抽取的思路和方案,提出了从非结构化数据到半结构化数据,再到结构化数据的完整的转化思路。5.实现了一个完整的面向科技本体的中文信息抽取系统的系统架构。对文本输入、预处理到语义标注、抽取、存储各个功能模块的主要工作和流程进行了设计和试验。7.期刊论文梁晗.陈群秀.吴平博.LIANGHan.CHENQun-xiu.WUPing-bo基于事件框架的信息抽取系统-中文信息学报2006,20(2)信息抽取技术能够提供高质量的检索服务.本文提出一种基于框架的信息抽取模式并建立统一的灾难性事件框架,利用框架的继承-归纳特性简化系统实现过程,概括事件信息,并提出按时间流顺序的线索性文件抽取的输出方式.本文使用这种方法建立了一个灾难性事件信息抽取系统.实验证明本文中的方法是有效的.8.期刊论文吴平博.陈群秀.马亮.WUPing-bo.CHENQun-xiu.MALiang基于时空分析的线索性事件的抽取与集成系统研究-中文信息学报2006,20(1)信息抽取技术能够提供高质量的检索服务.本文面向网络新闻事件,对人们感兴趣的息进行了抽取和集成.系统中采用了如下的方法、策略:(1)利用句型模板构造抽取规则,然后直接从经过时间短语和空间短语识别和规范化处理的文本中抽取事件信息,从而跳过了深层句法分析,降低了实现系统的难度;(2)利用事件的规范化的时空信息关联不同文档中的同一事件,进行事件合并;(3)文档发生事件转移时对文档进行事件切分,从而解决了文档内不同事件信息的归并问题.初步实验结果表明:本文采用的方法和策略是有效的.9.学位论文赵晶璐Web中文信息获取的算法研究2009随着Internet技术的高速发展,上最重要的信息发布和传输方式,Web已经成为人们获取信息的一个重要信息来源。面对Web上海量的信息资源,用户如何快速、有效地获取自己感兴趣的主题信息,已成为一个十分迫切的热点课题。Web信息获取主要包括信息检索和信息抽取。它涉及到计算机网络、数据挖掘、文本处理、人工智能等多个领域,其关键技术,包括搜索引擎技术、信息抽取技术和自动分类技术等。本论文的主要工作是对Web中文信息获取的相关算法进行研究,旨在解决Web信息获取存在的一些问题,以提高信息获取的性能。本文首先介绍了信息抽取问题的提出,对Web信息检索系统、Web信息抽取技术、搜索引擎进行了简要综述。中文自动分词技术是中文信息的基础,有着极其广泛的实际应用。本文第二部分针对中文自动分词技术,分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配,实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。页面排序算法是搜索引擎的核心技术。本文第三部分分析了Web页面主题分布的特点,对经典的页面排序算法进行了探讨,提出了一种基于内容和超链接分析并结合用户点击行为的相关度排序算法,能够客观分析网页所包含的主题信息,尽量保证检索结果的相关性。实验表明,该算法能有效提高查准率,较好地解决了主题漂移现象,且具有良好的性能。最后,对信息抽取相关技术进行分析研究,并结合XML技术,提出了一种基于XML技术的Web信息获取的框架结构及相关算法。10.期刊论文李蕾.周延泉.王菁华.LILei.ZHOUYan-quan.WANGJing-hua基于全信息的中文信息抽取系统及应用-北京邮电大学学报2005,28(6)从全信息理论的思想出发,综合建立、分析和使用语法、语义和语用信息知识库,研究实现了一个面向特定应用领域--财经新闻领域的中文信息抽取实验系统.在此基础上,探索了信息抽取技术在移动信息服务中的一种应用模式,即信息抽取+手机短信,将信息抽取结果的简洁、清晰、明确的优点与手机短信的移动性、灵巧性、普及性等优点很好地结合起来,提供智能化的移动信息服务.实验系统验证了这种模式的可行性.本文链接:授权使用:武汉大学(whdx),授权号:78a16c44-c684-4d50-8469-9e3300ec87aa下载时间:2010年11月19日

1 / 67
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功