PHP＋MYSQL环境下的中文分词技术研究

finalzero
0 ℃
2016-11-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

PHP+MYSQL环境下的中文分词技术研究作者：徐殿军，崔宝华，X(U)Dian-jun，CUIBao-hua作者单位：徐殿军,X(U)Dian-jun(渤海大学,图书馆,辽宁,锦州,121000)，崔宝华,CUIBao-hua(辽宁师范大学,学生处,辽宁,大连,116029)刊名：辽宁师范大学学报（自然科学版）英文刊名：JOURNALOFLIAONINGNORMALUNIVERSITY(NATURALSCIENCEEDITION)年，卷(期)：2008，31(1)引用次数：0次参考文献(3条)1.杨宝昌MYSQL实现中文全文检索的解决方2006(10)2.熊回香全文检索中的汉语自动分词及其歧义处理[期刊论文]-中国图书馆学报2005(5)3.关伟豪.曾海标.林帝浣.赖炜校内信息发布系统的设计与开发[期刊论文]-中山大学学报论丛2002(2)相似文献(10条)1.学位论文李雪松中文分词及其在基于Lucene的全文检索中的应用2008随着网络的发展及普及，电子文档正以惊人的速度增长。如何从这些海量信息中快速、准确地提取有价值的信息已经成为人们关注的焦点，这给信息检索技术带来了机遇和挑战，同时也促进了全文检索技术的发展。Lucene便是随着这一过程而产生发展的。Lucene是一个开放源码的全文检索引擎架构，可以很方便地对其进行二次开发，来构建全文检索系统。但在具体实现上，它仍有很多待改进的地方，尤其是在对中文信息的处理上。因为这涉及到中文分词，而中文分词在中文信息检索中占有很重要的作用，它决定了检索的精度。在对Lucene进行深入研究后，本文构造出一种适应中英文信息处理的Lucene语言分析器，该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法，该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配，采用基于规则统计技术来进行新词识别，通过对分词中衍生词进行回溯分析来处理分词中歧义，从而达到了高效而准确的分词目的。此外，本文还为该语言分析器构造了一些过滤器，用来对初步分词结果进行过滤、优化。本文还设计了文本内容提取器来对Lucene的数据源进行预处理，同时对Lucene的其他一些不足之处，比如检索结果的过滤、排序等进行了改进。最后，本文设计了一个基于改进Lucene的Web全文检索系统，并介绍了其核心模块的详细设计过程。2.期刊论文尚文刚医学文献全文检索的中文分词方法研究-广东医学院学报2005,23(4)中文分词作为中文信息处理最重要的预处理手段被广泛应用,该文对医学领域文献全文检索的中文分词进行分析研究,提出了一种如何解决同义词、近义词的方法;并对传统正向最大匹配算法进行改进,更全面地实现了长词优先的系统功能.本方法应用于医学文献全文检索系统中,取得了很好的效果,具有一定的实用性.3.学位论文张立峰基于国产数据库的全文检索技术研究与实现2007数据库管理系统(DBMS)软件是信息系统的核心，是国家战略必争的高新技术。实现信息化带动工业化需要自主产权DBMS，提高我国企业创新能力和市场竞争力需要自主产权DBMS，国家信息安全离不开自己的DBMS，我国民族IT产业的发展更需要DBMS的支撑，业界对这些观点已经逐步达成了共识。多年来，信息检索界一直在关注文档的存储和按关键字高效检索的问题。随着的出现以及在线保存所有的文档成为可能，基于关键字的文档检索已成为数据库管理系统的重要组成部分。本文在国产数据库GBase项目的基础上，研究了中文全文检索的相关技术，并完成了一个实验系统。中文分词是基于中文的全文检索研究中一项重要的研究内容，用于从连续的字符流中切分出有意思的词。对于基于词的搜索引擎的全文系统，分词速度要求较高。本文在对中文编码体系和中文分词算法进行研究的基础上，设计了一种高效的中文电子词表的数据结构，它全程支持词的Hash查找。同时提出了一种改进的Hash高速分词算法，理论分析和实验表明，优于目前的同类算法。在引入错误率的基础上，进一步提出了一种字符匹配次数为零的分词算法，它的分词速度更快，占用的内存更少。全文检索的索引是全文检索的核心内容，它关系到索引的创建代价和检索的速度与精度。目前最流行的索引类型是倒排文档。本文介绍了倒排文档的基本结构，索引创建流程，相关度的计算。并对于倒排文档的压缩进行研究和实现，取得了良好的效果。最后，本文实现了一个国产数据库的全文检索试验系统，该系统有三个核心模块：分词模块、查询模块、索引模块。在分词模块使用改进后的分词算法，并且实现对布尔查询的支持。4.期刊论文唐培丽.胡明.解飞.刘钢.TANGPei-li.HUMing.XIEFei.LIUGang全文检索搜索引擎中文信息处理技术研究-情报科学2006,24(6)本文深入分析了全文检索中文搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词.针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度.最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求.5.学位论文董昊若干关键技术在一个新闻全文检索引擎中的实现2006本论文论述了若干关键技术在一个针对新闻文档的全文检索引擎中的实现，包括中文分词、主题提取和本体论的应用等，还讨论了引擎的主要架构。中文分词的准确性是评价某项分词技术的重要的指标，它直接影响到全文检索系统的检索结果与主题的相关性。主题提取是指系统自动从文档中挑选出代表文档主要内容的中心词。主题提取的准确程度，决定了文档消重和检索的正确程度。本体是一个领域基本概念的规范性说明，由概念、概念属性以及在概念和约束之间的关系组成，它反映了对某个领域语义的一个公共理解，可以利用它在源数据之间共享和交换信息。本体论已被使用在从哲学到知识工程的许多学科中。对于新闻全文检索引擎，不仅要考虑分词的准确性，还要考虑分词的速度，因为面对每天大量出现的新闻，系统必须要快速地予以处理，这样才能满足新闻检索的时效性的要求。本文首先分析了分词技术中常用的几种词典结构，并对它们各自的运行效率进行比较，在此基础上采用并实现了其中的高效的词典结构——双数组Trie。文中还将本体论的方法应用到了全文检索中的主题抽取功能中去，即基于浅层语义理解来提取主题。通常在应用本体论对某一领域进行分析时，先找出领域内的实体，再找出实体间的关系，然后找出函数和公理等。而本文的方法充分利用了新闻本体的特征和语料统计的方法，先通过向量空间模型得出候选的主题词，再利用本体论的方法在新闻中先寻找关系(即主题动词)，再寻找实体(即主题名词)，进而通过分析关系与实体之间的关联来筛选出正确的主题词。文中还通过实验数据证明了该方法的正确性。基于上述研究，本文运用了面向对象技术给出了该全文检索引擎的框架设计和大部分的C++代码实现。6.学位论文谌大云远程教育资源库管理系统全文检索的设计与实现2001该文首先介绍了全文检索的概念、发展历程以及在进入WEB时代以后的全文检索技术,它的发展变化以及需要解决的问题;在第三章中介绍了远程教育资源库管理系统项目的功能、体系结构、特点和使用的技术;在第四章中阐述了远程教育资源管理库中全文检索模块的设计思想,中文分词的策略,匹配度的算法和排序以及实现以上内容的详细过程.在最后一章中介绍了全文检索在本项目中的使用情况和笔者改进完善全文检索的一些想法,讨论了匹配度的各种算法和同义词检索的设想,着重论述了全文检索在数据挖掘中可能起到的作用.7.期刊论文龙树全.赵正文.唐华.LONGShu-quan.ZHAOZheng-wen.TANGHua中文分词算法概述-电脑知识与技术2009,5(10)当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一,其质量高低直接影响中文信息处理效率.文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论,为中文分词的进一步发展提供基础和方向.8.期刊论文朱岸青.黄杰.ZHUAn-qing.HUANGJie基于Lucene的全文检索系统模型的研究和开发-暨南大学学报（自然科学与医学版）2009,30(5)设计实现了一个基于Lucene的全文检索系统模型.在该系统模型中,针对中文分词实现了基于词库的采用正向最大匹配算法的中文分词模块;针对多种格式文档的处理采用接口实现的方式和动态实例化的方法,实现了可以有效地处理txt、xml、html、pdf、doc和rtf等常见格式文档.9.期刊论文许敏.周伟灿.XuMin.ZhouWeicanCAD电子图管理系统中全文检索的研究-微计算机信息2006,22(19)文章首先介绍了全文检索系统的概念,提出了电子图管理系统中全文检索系统的设计和实现,既继承了现今已有的全文检索系统的优点,并且在中文分词算法和机器字典存贮技术方面改进了目前通用的方法,比较结果显示无论是在检索速度还是在存储效率上都优于目前已有的全文搜索系统.10.学位论文陈宁Lucene全文检索在网络教学平台中的应用研究2007随着因特网的普及，教育资源中的网页信息、各种类型的课件资源和电子信息载体也不断产生。这些海量的信息和资源是学校的财富，如何利用好学校各种形式的教育资源显得尤为重要。因此，针对网络教学平台的教育资源研究并定制一个全文检索系统是必要的。本文分析了现有的网络教学资源检索系统存在的不足，探索出将定制的专业全文检索引擎与网络教学平台相结合的思路，首次提出并实现了分词优化组合的分词方案，即用匹配度和检索效率更高的词典/语法切词与具备较大灵活性的单字切分相结合的分词方法，从而达到透彻地分析用户输入的查询请求，以保证检索结果的质量和灵活性。本文对网络教学平台中各种格式的教育资源进行有针对性地文本抽取，如对HTML网页、PDF文件、Office文档、Text文件、试题库资源等进行文本抽取，最终转换成建立索引所需要的固定结构，从而支持网络教育平台中各种资源的全文检索。另外，为了更好的改善索引的更新策略，笔者采用了定时器启动和手工启动相结合的方案，使得索引的更新变得更加智能化。本文介绍了基于Struts框架以及Lucene全文检索引擎工具包等关键技术的原理。并根据网络教学平台的需求，采用UML统一建模语言和程序设计流程图的方法，对所实现的全文检索系统中各个功能模块和有关程序进行了详细的描述，其中包括：原始内容组织、总体设计、UML建模、Struts编程实现各功能模块、测试以及发布等一系列的软件生命周期阶段。通过在网络教学平台上的应用测试，证明了：本文针对教育信息化和网络化的需求特点，采用分词优化组合的方法以及对各类型文档分别进行信息抽取的方法，在网络教学平台上构建一个全文检索引擎是成功的，可以对网络教学平台站内网页信息全文检索，对课件资源库中各种文档如PDF文件、Office文档等进行全文检索，以及对考试系统的试题库进行全文检索。本文链接：下载时间：2010年4月7日