第6章信息检索与服务

maboyang
2 ℃
2019-10-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第6章信息检索与服务6.1信息检索技术6.1.1检索模型概述6.1.2布尔模型6.1.3向量空间模型6.1.4概率模型6.1.5全文检索6.1.6语义检索6.1信息检索技术(续)6.1.7超文本模型6.1.8多媒体检索6.1.9跨语言检索6.1.10分布式检索6.1.11P2P检索6.1.12网格信息检索信息检索过程信息检索过程实际上涉及到三个重要的处理：文档集的逻辑表示查询的表示相似匹配及其排序对上述因素和检索过程建模（抽象描述），产生各种不同的信息检索模型图6-1信息检索系统的一般模型表达式构造标引信息资源信息资源替代物需求替代物用户需求检索结果相关性判断6.1.2布尔模型布尔检索模型的理论基础是布尔逻辑和集合理论6.1.2布尔模型布尔逻辑主要内容:命题逻辑与谓词逻辑布尔逻辑是数理逻辑的基础部分利用符号来表示逻辑中的各种概念建立了一系列的运算法则，利用代数的方法研究逻辑问题布尔运算布尔逻辑运算符:“与（AND）”、“或(OR)”、“非(NOT)”运算的定义传统布尔检索模型文献表示将文档表示成一个集合，集合中的每个元素都为一个二元变量，取值非“0”即“1”，表示该元素所代表的主题词是否包含在该篇文档之内。若包括在文档中，则元素取值为1，反之则取0。给定一个文献集合D，包含m篇文献，分别用d1,d2,d3……dm表示。再给出一个标引词集合T，包含n个标引词t1,t2,……,tn。假定对文献集D的描述完全是基于该标引词集合的,则文献集D中任意一篇文献di就可以表示为（di1,di2,……,din）传统布尔检索模型查询表示在布尔检索系统中，根据用户提出的检索需求，选取适当的检索标识，与布尔运算符“与”、“或”、“非”共同构成与查询相符的检索提问式，也即相应的布尔表达式例如:1)“飞碟”2)“飞碟”AND“美国”3)“飞碟”AND(“中国”OR(NOT“科幻小说”))传统布尔检索模型查询表示布尔提问式q=t1and（t2ornott3）q的主析取范式（t1andt2andt3）or（t1andt2andnott3）or（t1andnott2andnott3）q的简化形式qdnf（1，1，1）or（1，1，0）or（1，0，0）,其中，（1，1，1）、（1，1，0）和（1，0，0）是qdnf的3个合取子项（合取子项可用符号qcc表示）传统布尔检索模型匹配函数菊池敏典算法传统布尔检索模型文献D1=(t1,t2,nott3)查询Q=t1andt2andnott3布尔检索示例传统布尔查询的评价该模型结构简单、容易实现和快速检索。传统布尔查询的评价布尔模型在检索系统的开发与应用中表现出的主要问题有：（1）准确匹配（exactmatching）策略问题。布尔模型采用准确匹配策略，对检索过程中客观存在的一些不确定性情形绝对排斥，认为一篇文献对于某一提问要么是“相关的”，要么是“不相关的”。这种“非此即彼”的二值判断标准严重影响到检索系统的性能改善，并带来其他一些相关问题。（2）布尔逻辑表达用户需求的能力问题。把用户的一个信息需求转换成一个恰当的布尔表达式，在很多情况下并不容易实现。传统布尔查询的评价为了弥补这些缺陷，发展了一些别的检索模型，如向量空间、扩展布尔、概率检索和聚类模型。6.1.3向量空间模型向量空间模型(Vectorspacemodel)介绍向量空间模型(VSM)的评价向量空间模型介绍1.文献空间（1）文献空间的概念文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就称为“文献空间”在一个文献空间内，用向量D1来代表某一文献，则该向量在这个文献空间各个轴上的分量就是相应的表述该文献的各个项的权重文献与空间点（2）标引词空间向量空间模型介绍T2T3T1D1={d11,d12,d13}D2={d21,d22,d23}D3={d31,d32,d33}图三维文献空间向量空间模型介绍2.项权重（1）词频越重要的项分配越高的权值可以用词频来作为该项的权重（用tf表示）（2）文献频率假设存在一个文献集合，其中大部分的文献都包含了某一项，则说明该项对某一主题的专指度较差，可能就不太重要在设计项权重时，要考虑逆文献频率（用idf表示）向量空间模型介绍2.项权重（3）权重的规范化处理为了抵消由篇幅带来的不同影响，经常要对项权重进行规范化处理在各种规范化方法中，余弦规范是一种常用、有效的方法：tf×idf权重/文献向量的欧氏长度向量空间模型介绍3.文献向量与查询向量的匹配匹配函数利用向量的内积运算，得到文献向量Di与查询向量q之间的相似度Sim(Di,q)=Di•q简单存在的一个主要的不足是它忽略了项之间存在一些相互联系的事实。通常，需要引入一些特别的方法来改进这个相似度计算公式，使得其能够考虑到项的相互联系这一重要因素相似度的计算内积相似度运算余弦相似度“距离”相似度运算等等NiiDTQTiDQSim1),(22),(iiiiQTQTDTQTDQSimppttpddDDL12121]||[),(向量空间模型的评价优点简单，功能却非常强大能将非结构化的文献表示成向量的形式，使得各种数学处理成为可能模型的检索效果和布尔检索模型比起来，要好得多不足忽略项之间存在的相互联系，必然使得检索效果产生极大的偏差传统向量处理模型不能处理布尔表达等结构化查询改进广义向量空间模型（GVSM）、潜在语义标引（LSI）、概率向量处理模型以及基于语义分析的向量空间模型（SVSM）6.1.4概率模型概率论模型主要基于概率论原理来理解和解决信息检索问题主要有早期的经典概率模型（又称为二值独立检索模型，英文简称BIR）基于贝叶斯网络的推理网络模型和信念网络模型等INQUERY检索系统是基于概率模型的代表6.1.4概率模型基本思路:给定一个用户提问，则检索系统中存在着一个与该提问相关的理想命中结果集合R(该集合只包括与查询完全相关的文档而不包括其他不相关的文档)在用户提出检索要求时，检索系统并不知道这个理想结果集合的特性在检索开始之时就需要对R的特性进行某种猜测根据初始的猜测，检索系统检索到一个初步的命中结果集合基于相关反馈的原理，需要进行一个逐步求精的过程6.1.4概率模型检索问题转化为求条件概率问题IfProb(R|di,q)Prob(NR|di,q)thendi是检索结果，否则不是检索结果6.1.5全文检索直接在全文中进行匹配检索获得的也是全文信息而非文献线索全文检索技术以其较高的查准率和查全率被广泛应用于网络信息的检索中全文检索还提供位置检索功能6.1.5全文检索全文检索模型中信息资源的逻辑表示全文索引目前常见的全文检索模型主要有倒排表、署名文件、位图、Pat树和Pat数组等模型从中文语言特点出发提出的互关联后继树模型等6.1.5全文检索基于单汉字的全文索引索引倒排结构单汉字（主键字）记录号段落号位置号单汉字(主键字)记录数记录号1该记录位置集合记录号1该记录位置集合……6.1.5全文检索以倒排表模型为基础的全文检索有检索速度快，与原文无关的特点其缺点主要包括两个方面：首先，空间和时间效率低；其次，当文本集合不断变化时，需要不断重建全文索引第一个问题通常采用压缩技术和更加高效的编码策略加以解决6.1.5全文检索全文检索模型中的查询表示通常采用布尔模型的查询表示方式6.1.5全文检索全文检索模型中的匹配方式检索的匹配算法一般是根据索引结构而研制的检索速度取决于匹配算法，一个优秀的全文检索算法，在百兆级的数据库中，检索速度应该在秒级水平，否则，不能算是一个好的全文检索算法Lucene6.1.5全文检索全文检索技术指标基本指标有：查全率、查准率、检索速度、索引膨胀率等索引的膨胀系数是指针对全文所建的索引文件大小与全文文件大小之比，其中索引文件的大小取决于索引的结构没有为全文创建索引的全文检索系统，其膨胀系数为06.1.6语义检索基于关键词匹配的传统文本信息检索技术对语义匹配的支持能力较差，其性能取决于用户对方法的理解，具有很大的局限性尽管基于关键词匹配的检索技术已经经过多次改进，但是由于没有添加语义处理方面的功能，检索性能没有得到本质的改善，那些没有被文字直接表述出来但隐含在文本内容中的一些重要的信息无法被检索语义检索是对检索条件、信息组织以及检索结果显式赋予了一定语义成分的一种新的检索方式与传统关键词检索相比，它更加强调语义，其性能明显改善图6-3基于本体的文本信息检索系统的一般模型实体关系标引指导主题标引指导查询表达式的构造本体表达式构造主题标引文档带所属领域标识的标引词序列查询表达式检索结果相关性判断领域概念关系本体集指导实体关系标引指导查询本体的构造本体领域实体关系本体集实体关系本体相关性匹配用户需求查询本体指导实体关系标引查询本体构造6.1.7超文本模型所谓超文本，既是一种信息的组织形式，也是一种信息检索技术超文本不是单纯以线性方式存储文本，而是附加了一种非线性结构来组织信息，即在文本中设置若干超级链接（简称超链）指向相关位置，以确保在顺序阅读文献的同时，还可以顺着超级链接的指引“跳跃”阅读信息超文本组织强调了信息与对象之间的联系关系，符合人们联想式阅读和思维习惯6.1.7超文本模型超文本技术的优点1）非线性的组织结构2）以信息单元为检索对象3）体现了信息层次关系4）交互更加友好5）信息内容丰富多样6）避免了检索语言的复杂性6.1.7超文本模型超文本技术的缺陷1）偶然发现2）失控3）迷航6.1.8多媒体检索多媒体信息的检索主要是研究如何快速有效地获取多媒体信息所涉及的相关技术，它包括多媒体信息的压缩、组织、检索和展示等由于多媒体信息与文本信息的组织方式和表现形式完全不同，所涉及的检索技术也存在着较大差异6.1.8多媒体检索基于文本的多媒体信息检索方法是多媒体信息检索最常用的方法基于内容的多媒体信息检索方法是一种新型的检索技术，它融合了图像理解、模式识别、计算机视觉等技术，直接根据描述媒体对象内容的各种特征进行检索，从数据库中查找到具有指定特征或含有特定内容的声音、图像、视频等对象6.1.9跨语言检索跨语言信息检索是指用户以一种语言提问，检出另一种语言或多种语言描述的相关信息跨语言信息检索的主要实现方法有：提问式翻译法、文献翻译法、提问式—文献翻译法、中间翻译法、不翻译法、提问式构造法和音译法等方法6.1.10分布式检索分布式信息检索主要是指在分布式的环境中，利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对用户有用的信息的过程这些信息资源在物理上分布于各地，在逻辑上是一个整体，在数据库结构上存在差异分布式信息检索主要有基于元搜索引擎、基于Z39.50、基于XML语言、基于Web服务等模式6.1.11P2P检索P2P信息检索的目的就是网络中的任意节点都可以提交检索的请求，然后这些检索通过某种路由机制被路由到和检索相关的节点上去，存储有和该检索相关信息的节点将会回应请求，把本地相关的内容以对等的形式直接传送到请求节点上与传统的客户端／服务器模式相比，P2P模式具有明显的优点：资源利用率高；节点越多网络越稳定，不存在瓶颈问题；信息在对等节点间直接交换，高速及时，降低中转成本；基于内容的寻址方式处于一个更高的语义层6.1.12网格信息检索网格信息检索的发展离不开传统信息技术的支持，但是，必须对传统信息技术进行改进，才能使它们更好地适应网格环境，为提高信息检索系统的性能发挥重要的作用图6-5科学数据网格系统结构图数据访问服务接口虚拟数据库物理数据库映射工具MappingBuilderDataView基于信息检索服务集成的信息检索系统目前已经出现一些网格信息检索研究项目，其中比较有名的GridIR、GRACE

第6章 信息检索与服务

第6章信息检索与服务