CRFs模型下的中文自动分词研究

x8023x
1 ℃
2020-05-14

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

大连理工大学硕士学位论文CRFs模型下的中文自动分词研究姓名：罗彦彦申请学位级别：硕士专业：计算机应用技术指导教师：黄德根20090601CRFs模型下的中文自动分词研究作者：罗彦彦学位授予单位：大连理工大学相似文献(10条)1.学位论文张培颖基于Hash算法的中文自动分词技术研究2006中文自动分词技术是网络搜索引擎的关键技术之一，是中文信息处理中的重要环节，也是智能计算、文献标引、自然语言理解和处理的基础。在对Hash算法和现有分词词典机制研究基础上，根据汉语中四字成语较多这一事实，提出了四字哈希的分词词典机制（该机制未见有相关论文报道），基于这种词典设计了一种快速的分词算法。理论分析表明该算法的时间复杂度比现有的分词算法都有很大的改进，但在存储空间上要比其它的分词算法大1M左右。因1M左右的内存和实时信息处理中的响应时间比起来不重要，所以这个算法是很有实用价值的。歧义字段切分和未登录词识别是影响中文自动分词切分精度的两个主要因素。针对歧义字段切分，首先分析了歧义产生的根源，然后研究了歧义字段的识别和处理方法，在此基础上提出了一种基于知识库的交集型歧义字段切分算法和一种改进的上下文相关的歧义字段切分算法。前者在使用的过程中，可以通过知识学习的手段，以丰富系统的知识，提高分词的精度，缺点是分词知识的选取和知识库的构造比较困难；后者充分挖掘了歧义字段所处的上下文环境等信息，可以更加精确地模拟人类的思维方式。未登录词中的专有名词的识别是中文自动分词技术的又一个难点。文章提出的统计和规则相结合的中文姓名自动识别方法摒弃了统计方法中纯粹利用统计算法的局限性，消除了规则方法中的姓名识别规则或多或少地存在遗漏的问题，具有两者的优点。2.学位论文欧振猛中英文该文结合了系统论观点论述了一个中英文搜索引擎原型的实现.重点是进行中文信息小型化处理,其中包含中文的自动分词、词频统计、关键词提取等算法的研究.算法采用基于自动建立词库的最佳匹配方法来进行中文自动分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词出现的歧义问题,继而进行词频统计,实现关键词提取.该文首先介绍中文搜索引擎工作原理,然后详细地讨论系统的实现思想,最后对系统功能进行评价.3.会议论文陈沛搜索的未来互联网的迅猛发展使搜索引擎成为必不可少的工具,它能帮助人们在浩瀚的信息海洋中方便快捷地获取众多的信息服务.同时互联网正在提供庞大和丰富的语料资源,为中文技术研究提供强大助力.本文首先通过对各代搜索引擎,特别是中搜网络猪的介绍,揭示了搜索引擎正在从内容、形式和搜索范围等方面发生巨大的演变.接着以实例显示了代表搜索未来的网络猪因其搜索方式的改变,极大地改善了用户的搜索感受.最后基于中国搜索的搜索引擎结构框架的分析,说明搜索引擎作为互联网上庞大的实时服务平台,正在从较专一的检索服务平台向互联网综合信息服务平台演变,同时中文搜索引擎系统正在成为各种中文技术的研究与应用平台.4.学位论文周志强个性化搜索引擎的设计与实现2004个性化搜索引擎实质上个性化网络信息服务.今天,网络信息服务已经进入了以用户为中心的更先进的理念竞争的阶段,网络只有有了用户才能产生经济效益.如何吸引更多用户的注意力、如何使用户更长时间地留在自己的网站、如何使用户满意等一系列问题,都要依靠提供个性化的信息服务才能解决.因此个性化搜索引擎的研究变得十分迫切,而个性化搜索引擎产品必然具有很大的市场前景.该文对中文之星个性化搜索引擎的课题进行了系统而深入的研究,同时设计和实现了它的部分模块.调查研究了个性化搜索引擎应具有的特征,提出了它的评价标准,分析了实现过程中的各项关键技术.深入研究了中文分词技术,对常用的各种分词方法做了比较研究,提出并实现了一种改进的分词方法.构建了网页自动分类系统的体系结构,建立并详细分析了网页分类的数学模型,数学建模方法大大提高了网页分类的准确率.在网页特征向量的生成和网页相似性计算两个问题上,对现有的方法作了很大的改进.在个性化查询服务方面,提出了应用各种新技术的方法和实现要点,比如用户兴趣挖掘技术、网络信息挖掘技术、信息推送技术、概念搜索技术等.提出了一个对查询结果进行排序的算法,一定程度上提高了搜索引擎的查准率.简单分析了由个性化搜索引擎带来的安全隐患及其预防对策.最后展望了这一课题的后续工作.5.学位论文马志强校园网搜索引擎核心技术——中文自动分词2006随着计算机技术和网络技术的不断发展，校园网作为学校内部信息共享、校际间信息交流的平台也得到了快速发展。校园网上信息量的增加，以及信息的分布存储，给用户检索信息带来了困难。导致校园网上大量资源得不到充分利用，造成了信息资源的浪费。校园网搜索引擎是一个对校园网内部信息资源进行搜集整理，然后供用户查询的系统，它包括信息搜集，中文分词，索引和检索四个部分。本课题是校园网搜索引擎课题的一个子课题。研究的目的是为校园网搜索引擎课题提供一个高效的中文分词软件包。为了实现这一目标，首先建立了中文分词子系统实验平台的结构模型以及与其它模块间的数据接口；然后，通过对词典结构机制、未登录词识别和分词算法的研究，提出了适合校园网搜索引擎中文分词的一整套解决方案。该方案是以机械分词为基础，包括逆向词库的建立与扩充、基于整词二分的二层索引结构、基于规则统计的未登录词识别算法以及改进的逆向最大匹配算法等。最后，实现了中文分词子系统实验平台以及中文分词软件包，并进行了速度和内存容量的测试，得到了字典占用内存4.28M，分词速度每秒11k字节的实验数据。实验表明，这个分词软件包可以满足当前校园网搜索引擎课题的使用。本论文中提到的中文分词子系统实验平台和中文分词软件包是在JDK1.4和Oracle9i上实现的。6.学位论文陈海波基于自动分词的企业文档搜索引擎设计与实现2007本文对中文搜索引擎的基础技术一中文分词技术进行了介绍，并对中文自动分词的实现方法进行了深入的研究。文章综合各种分词方法，实现了一种适用于企业文档检索的中文自动分词系统，同时对搜索引擎的关键技术-----索引技术和检索模型进行了深入探讨，提出了一种可用于数据库存储的双向索引结构，有效降低了索引组织的复杂度，通过结合布尔逻辑模型和向量空间模型实现了对检索结果文档的排序。在对通用web搜索引擎的结构和原理进行分析的基础上，结合企业文档检索的特点，引入文件监控技术，提出了一个企业文档搜索引擎系统的架构。7.学位论文李锋基于Nutch的垂直搜索引擎的分析与实现2007随着互联网技术应用范围的不断扩大，人们越来越多地关注如何快速有效地从海量的网络信息中，抽取出潜在的、有价值的信息，使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户信息检索的困难，目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。本文对比通用搜索引擎和垂直搜索引擎的优缺点，在研究了垂直搜索引擎和Nutch搜索内核的基础上设计了一种新的垂直搜索引擎系统——ContentSmart，成功实现了信息抓取、信息格式化和信息比较的功能。ContentSmart系统的工作原理分为信息搜集、预处理和查询服务三个方面。为了确保该系统信息抽取的准确率，在抽取过程中设计了更为简单和适用的索引网页库和中文自动分词等算法，节省了输入、输出的消耗量，大大满足了搜索引擎快速响应的要求，同时本文给出了信息搜集、预处理和查询服务三个过程的优化策略和具体算法，使算法的效率、长度的限制甚至歧义处理上得到很大的提高。本文所设计的ContentSmart系统提供用户自定义的信息源入口，它除了具有垂直搜索引擎的特点外，还加入了信息的格式化和信息的比较，大大提高信息搜索的效率和准确率；本文主要的研究内容是信息抽取过程所需算法的优化和信息的格式化，对于研究垂直搜索引擎技术具有一定的价值。8.期刊论文具有扩充检索功能的石油化工专业信息搜索引擎的设计与开发-计算机与应用化学2005,22(10)网络信息的日益增加迫切需要适宜的检索工具,特别是进行专业信息的检索,需要体现专业词汇特点的搜索引擎.本文在对搜索引擎核心技术进行研究的基础上,提出了石油化工信息搜索引擎的设计方案,开发了网络机器人模块,实现了海量网页的自动获取;采用最短路径分词和正向最大匹配相结合的算法,实现了中文自动分词;开发了信息索引模块,实现了网页的批量索引和增量索引;开发了信息检索模块,提供布尔逻辑查询,实现摘要自动生成.通过系统集成,初步建立了体现石油化工专业特点的搜索引擎.9.学位论文毛涌泉搜索引擎的数据索引与检索研究2004随着Internet的迅猛发展,网上信息资源原来越丰富,网络已经成为人们获得信息的必要途径和重要手段,但网络信息具有海量、分布、动态变化和结构复杂等特点,使得用户无法有效利用庞大的信息资源.为了解决这个问题,搜索引擎就随之诞生.搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务.搜索引擎经历了近十年的发展,一方面极大地改善了人们在网络中进行新信息检索的手段,另一方面由于种种原因在信息收录完备性、查全率、查准率、检索功能等方面还存在许多不足之处.该文首先回顾了搜索引擎的发展历程,说明了搜索引擎的组成模块、工作原理和关键技术.结合搜索引擎技术的发展趋势和自然语言处理技术的现状,对搜索引擎中技术进行了以下三方面的研究:1、在搜索引擎中应用自然语言处理技术提高系统表现.讨论了中文自动分词、文本分类等技术对提高中文搜索引擎检索效率和精度的影响.2、全文检索系统数据索引和检索的优化方法.研究了全文检索系统的索引组织结构——正向索引和倒排索引的工作原理和优化方法,并对如何对海量信息进行有效的组织和压缩,以减少存储空间,提高检索效率进行了深入探讨.3、信息检索系统中相关度计算方法.介绍了当前国内外相关度计算方法,并对其优缺点进行了深入地探讨.在此基础上提出了基于cover为单位的信息检索策略,该方法突破了传统相关度计算以完整文档为计算单位的思路,将文档中查询词出现密集的最短子片断作为计算单位,并采用统计和语义信息相结合的方式获得相关度信息.该方法在InsunQA系统中起到了很好的表现.在以上技术的基础上,该文将介绍InsunQA中搜索引擎子系统的设计实现.10.学位论文赵晶璐Web中文信息获取的算法研究2009随着Internet技术的高速发展，上最重要的信息发布和传输方式，Web已经成为人们获取信息的一个重要信息来源。面对Web上海量的信息资源，用户如何快速、有效地获取自己感兴趣的主题信息，已成为一个十分迫切的热点课题。Web信息获取主要包括信息检索和信息抽取。它涉及到计算机网络、数据挖掘、文本处理、人工智能等多个领域，其关键技术，包括搜索引擎技术、信息抽取技术和自动分类技术等。本论文的主要工作是对Web中文信息获取的相关算法进行研究，旨在解决Web信息获取存在的一些问题，以提高信息获取的性能。本文首先介绍了信息抽取问题的提出，对Web信息检索系统、Web信息抽取技术、搜索引擎进行了简要综述。中文自动分词技术是中文信息的基础，有着极其广泛的实际应用。本文第二部分针对中文自动分词技术，分析了中文分词词典的机制，提出了一种改进的整词分词字典结构，并针对机械分词算法的特点，将其与概率算法相结合，探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配，实验表明，该算法具有较高的分词效率和准确率，对于消去歧义词也有较好的性能。页面排序算法是搜索引擎的核心技术。本文第三部分分析了Web页面主题分布的特点，对经典的页面排序算法进行了探讨，提出了一种基于内容和超链接分析并结合用户点击行为的相关度排序算法，能够客观分析网页所包含的主题信息，尽量保证检索结果的相关性。实验表明，该算法能有效提高查准率，较好地解决了主题漂移现象，且具有良好的性能。最后，对信息抽取相关技术进行分析研究，并结合XML技术，提出了一种基于XML技术的Web信息获取的框架结构及相关算法。本文