华中师范大学硕士学位论文查询扩展技术研究姓名:瞿国忠申请学位级别:硕士专业:计算机软件与理论指导教师:何婷婷20070501查询扩展技术研究作者:瞿国忠学位授予单位:华中师范大学相似文献(10条)1.学位论文贺宏朝利用人工和自动生成的资源进行中文信息检索查询扩展2002该论文中利用中文信息检索标准测试集,对信息检索系统及其算法进行了科学客观的评价,并对中文信息检索的最佳检索单元进行了详细的讨论和研究,在此基础上,重点讨论和研究了利用人工和自动生成的资源进行中文信息检索查询扩展.提出并实现了利用知网提供的人工生成的信息资源,进行中文信息检索查询扩展.受知网资源的限制,试验表明,单独利用知网的资源直接进行中文信息检索查询扩展,并不能取得具有统计意义的理想的检索效果.实现了一种带衰减因子的词共现模型,可以对大规模中文文件集进行统计处理,并自动生成包含词与词相关性信息的资源.由于该模型考虑了词与词间距离的概念,因此,不同于普通的词共现模型,带衰减因子的词共现模型能够更准确地描述词与词间相关性信息.提出并实现了基于上下文的查询扩展方法,可以根据查询的上下文对扩展词进行选择,是一种相对智能的查询扩展方法.相对于不进行查询扩展的检索效果,基于上下文的查询扩展方法取得了具有统计意义提高的检索效果.提出并实现了利用人工和自动生成的两种资源的组合进行中文信息检索查询扩展.利用知网的同义词资源与伪同义词资源的组合进行基于上下文的查询扩展,取得了具有统计意义的更理想的检索效果.2.期刊论文贺宏朝.何丕廉.高剑峰.黄昌宁一种基于上下文的中文信息检索查询扩展-中文信息学报2002,16(6)在中文信息检索的研究和实践中,由于查询中所使用的词可能与文件集中使用的词不匹配而导致一些相关的文件不能被成功地检索出来,这是影响检索效果的一个很关键的问题.查询扩展可以在一定程度上解决这种词的不匹配现象,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索效果.本论文中提出并实现了一种基于上下文的查询扩展方法,可以根据查询的上下文对扩展词进行选择,是一种相对智能的查询扩展方法.在TREC-9中文信息检索测试集上进行的实验表明,相对于通常简单的查询扩展,基于上下文的查询扩展方法取得了具有统计意义提高的检索效果.3.期刊论文贺宏朝.何丕廉.陈霞利用人工和自动生成的资源进行中文信息检索查询扩展-计算机工程与应用2002,38(21)在中文信息检索的研究和实践中,由于查询与文件集中词的不匹配现象导致一些相关的文件不能被成功地检索出来,这是影响检索效果的一个很关键的问题.该文提出并实现了利用人工和自动生成的资源进行中文信息检索查询扩展,在NTCIR-2中文信息检索测试集上进行的实验表明,相对于不进行查询扩展的检索结果,该扩展方法取得了具有统计意义提高的检索效果.4.学位论文李立中文信息检索系统研究2008随着互联网和信息技术的发展,Web搜索技术在人们的日常生活和学习中发挥着越来越重要的作用。如何在海量数据中准确快速的搜索到有用信息,成为现代信息检索技术的主要研究内容。而信息检索的主要困难,一方面来自于用户难以准确地表达自己的查询请求,有效地和信息检索系统交互;另一方面,来自于信息检索系统很难对文档集进行整理加工。本文综合考虑了这两方面的内容,提出了查询扩展和文档扩展相结合的中文信息检索系统。本文的主要工作包括以下方面:第一,对已有查询扩展技术在中文信息检索中的有效性分析的基础上,提出了一种基于Web资源查询扩展策略。该策略自动从互联网上下载网页,并对其进行分析并从中提取相关术语群用于进行查询扩展。相对传统扩展方法利用人工构建的静态语义资源进行扩展,该策略可以根据Web资源自动的构建语义资源,具有更好的时效性和实用性。第二,利用文档集内部的信息,提出基于文本聚类的文档扩展方法。该方法首先得到单个文档与查询之间的相似度;然后将前n篇文档聚类,再次计算类别与查询之间的相似度,并将它赋给该类别中的每一个文档:最后,将这两个相似度线性组合起来,得到了每个文档与查询之问最终的相似度,并以此重排结果集。第三,将这两种方法结合起来,形成了查询扩展和文档扩展相结合的中文信息检索系统。在NTCIR-6中文信息检索测试集上进行的实验表明,相对于传统的信息检索技术,本文的方法在检索精度上取得了一定的提高。5.期刊论文涂新辉.罗景基于相关术语群的中文查询扩展-计算机与数字工程2008,36(1)查询词语和文档中词语的不匹配是影响文本信息检索效果的一个关键因素.查询扩展技术可以在一定程度上解决这种词的不匹配问题,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索精度.利用自动构建的相关术语群来进行查询扩展以提高中文检索的效果.在NTCIR中文信息检索测试集上进行的实验表明,相对于传统的查询扩展方法,在检索效果上取得了平均24.5%的提高.6.学位论文刘向威NLP技术在中文信息检索中的应用研究2005随着科学技术的高速发展和各种信息资源数量的不断增多,为了提高效率,信息检索己经成为信息科学技术领域最重要的研究内容之一.其中涉及到自然语言处理(NLP)的技术有:分词、信息抽取、自动聚类和分类、自动摘要、查询扩展、等等.近年来,对网络中文信息检索的需求与日俱增.针对这一需求,本文对中文信息检索中涉及到的几项NLP关键技术进行了研究.本文在深入研究基于向量空间模型的文本聚类方法的基础上,提出了一个新的聚类模型:即在传统的基于相似度的平面划分聚类模型中增加一个文本特征向量调整模块.本文同时给出了用以进行特征提取的特征评价函数,对基于相似度的平面划分聚类算法做了改进.实验结果表明增加了文档特征调整的聚类模型具有较好的聚类效果.本文提出了一种基于主题聚类的自动摘要算法.在一篇文章中,主题思想由文中的各个子主题构成,如同议论文中的论点由分论点构成一样,基于主题聚类的自动摘要算法把统计方法与知识理解相结合,既摆脱了领域限制,又使摘要的结果更为准确.本文构造出一个新的依赖关系模型,能较好地为摘要算法选择较为准确的属性,给出评价语句重要性的规则,这为摘要算法提供了选择较为重要语句的尺度.本文还提出了一种较为客观的、基于任务的摘要性能评估算法.目前大多数检索系统中,用户的需求是通过查询关键词来表示的.用户实际需求与查询关键词之间往往存在较大的语义差距,如何缩小这种语义差距是实现面向用户个性化信息服务的关键问题.本文提出了一种查询扩展优化算法,给出了对查询关键词的增加、删除和权重修改的自适应模型算法,在模型中给出了确定扩展关键词数量的方法,优化了查询反馈中的权重调节因子,使之能够更好的满足用户的实际需求.实验结果表明,该方法更适宜改进wleb上的信息检索,相对传统的查询扩展算法可以提高查询精度.7.学位论文涂新辉中文文本信息检索相关技术研究2006随着国际互联网的快速普及,通过网络共享的中文信息资源以接近指数级的速度递增。要从这么多的网页中找到我们需要的信息,无疑像大海捞针一样困难,而信息检索技术就是为了帮助人们快速地找到所需的信息。中文作为一种典型的以表意为基础的象形文字,与西方的拼音文字有很大的不同,适用于西方拼音文字中的检索方法并不能直接应用于中文。本文对中文信息检索中的几个重要问题进行了研究。主要的工作包括以下几个方面:第一,使用基于查询手工词切分的方法对中文文本的各种特征表示方法进行了比较研究。本文的试验结果为将来中文文本信息检索研究提供一个重要的参考,对于研究者探索新的索引策略是一个很重要的依据,对于为了改进索引策略或检索模型而进行的在同等条件下不同策略的比较研究也具有重要的指导意义。第二,通过研究考察已有的查询扩展技术在中文信息检索中的有效性,并根据人类进行信息检索的思维模式,提出了一种新的基于相关术语群的查询扩展技术。在NTCIR-4和NTCIR-5中文信息检索测试集上进行的实验表明,相对于传统的查询扩展,利用机器自动构建的相关术语群的查询扩展方法在检索效果上取得了较大的提高。不同于传统的查询扩展方法的是:本文同时利用了检索语料外部和内部的,以及检索文档局部和全局的各种不同的相关性信息,从而克服了使用单一某种相关性信息的缺点,提高了查询扩展的性能。第三,设计并实现了一种中文信息检索系统。本系统具备良好的可扩展性,可以适应从个人资料库到大型数字图书馆的不同规模的应用。第四,综合运用本论文中研究方法和检索软件系统,验证了该方法的有效性和可行性。8.期刊论文贺宏朝.何丕廉.高剑峰.黄昌宁.HEHong-zhao.HEPi-lian.GAOJian-feng.HUANGChang-ning利用一种衰减的共现模型进行中文信息检索查询扩展-天津大学学报(英文版)2002,8(3)提出并建立一种衰减的共现模型,并利用该模型进行中文信息检索查询扩展.衰减的共现模型考虑了关键词之间的互信息随距离增加而衰减的因素,在传统共现模型的基础上计入衰减因子扩展而成.在TREC-9测试集上进行的实验表明,相对于不进行查询扩展,该方法有较大改进.9.学位论文张毅波中文结构化信息检索系统的研究与实现2001该文研究的主题包含中文信息检索与结构化信息检索两个方面,分别从中文信息检索系统中文档与查询条件相似性计算、查询扩展、查询条件的翻译及结构化信息检索等四点进行了研究与探讨.该文的主要贡献如下:(1)论述了基于中文语词的索引方法是中文信息检索系统中必然采取的索引方法.系统地阐述了一种新的计算检索词间关联关系的方法-基于PM的检索词对权重计算方法,并将其引入到文档与查询条件的相似性计算中.(2)研究了中文信息检索系统中检索词对的邻近关系值与互信息值对系统检索性能的影响,实验结果表明当检索词对互信息计算的精度较低时,检索词对的邻近关系值比互信息值对系统的检索性能的提高更有帮助.(3)提出了基于局部信息中检索词间关联矩阵的查询扩展方法.在由初始查询条件得到的前列文档集中,采用基于第二级关联假设自动主题词表的构建思想计算得到前列检索词及其权重值,并加入到初始查询条件中实现查询扩展.(4)提出了基于检索词间互信息的查询条件翻译方法,为查询条件中检索词的译项选择提供了新的方法,并间接地通过检索词的关联序列较好地保存了查询条件中的短语信息,构造出了检索词带有权重信息的目标语种的查询条件.(5)分析了利用XML文档中的结构信息来提高传统信息检索系统检索性能的方法.通过引入文档结构索引库、元素索引库及属性索引库实现了面向XML文档的结构化查询,设计出了中文结构化信息检索系统CSIR,并实现了其主要的一些功能.10.期刊论文冯兰萍.张继国基于本体的中文信息检索模型-河海大学常州分校学报2004,18(4)分析了传统中文信息检索技术中存在的问题,即计算机将用户提问转换为检索语言时产生的语义失真和损失,导致查全率和查准率较低,达不到用户期望的结果.认为将本体知识应用于传统中文信息检索系统中能改善这种状况,提出了基于本体的中文信息检索模型框架,给出了实现此模型的主要算法.本文链接:授权使用:武汉大学(whdx),授权号:6c113df7-38a2-45f6-a5d8-9e31011a9ce8下载时间:2010年11月17日