16信息检索教学目的:了解信息检索的沿革与发展,掌握信息检索的基本类型和特性,了解信息检索语言的职能及检索策略,掌握信息检索的基本程序,掌握联机信息检索及网络信息检索。本课重、难点:1.信息检索的基本类型和特性2.信息检索的基本程序3.联机信息检索的技术原理服务方式4.网络信息检索的特点、检索模式和检索工具26信息检索信息组织是指按照一定的规则来描述信息资源或信息对象,使之有序化和系统化,以便需要它们的人能高效地利用。信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。信息组织和信息检索是一对互逆过程。两者密不可分,所以说信息检索可理解为信息存贮和信息查找两个过程。36.1信息检索的沿革与发展6.1.1信息检索的涵义信息检索——是根据根据特定的需求,运用某种检索工具,按照一定的方法,从大量文献中查出所需的资料或信息的过程。满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位),统称为信息检索系统(InformationRetrievalSystem,简称IRS)。信息检索系统的三个基本要素:人、检索工具(包括设备)和信息资料6信息检索46信息检索潜在的相关信息信息组织和检索系统规范化的疑问式信息的组织概述的存贮比较/匹配索引(描述性的、受限制的)游戏规则=主题索引规则+辞典(包括词汇表和索引语言)需求概述或疑问式信息或数据检索流程组织流程存贮1:概述/搜索请求存贮2:信息的表示图6-1信息检索系统体系结构56.1.2信息检索的类型与特性按存贮和检索的内容划分①文献检索②数据检索③事实检索按检索系统中信息的组织方式划分①全文检索②多媒体检索③超媒体检索按对检索结果的要求分①强相关检索②弱相关检索按检索性质分①回溯检索②定题检索6信息检索6信息检索特性信息检索的相关性表明用户是否认为一文献与一提问吻合。信息检索的不确定性标引的不确定性(即标引词选用的不一致性)不同标引员在给同一篇信息对象进行标引时会选用不同的标引词。检索词选用的不确定性候选检索词不止一个,需多次试检才能判断恰当的检索用词。信息检索的逻辑性检索词表检索策略6信息检索76.1.3信息检索的发展历程三个阶段手工信息检索阶段机械信息检索阶段20世纪50年代开始计算机信息检索阶段批处理检索系统联机检索系统网络信息检索系统6信息检索8手工信息检索阶段早期有书目可供查询。近代突出表现为参考咨询工作。正规的参考咨询工作是由美国的公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来的。“参考咨询工作”产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室;20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。逐渐发展到从多种文献源中查找、分析、评价和重新组织信息;“索引”突破了以前的狭隘范畴,成为独立的检索工具;40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。6信息检索9机械信息检索两种基本类型机电信息检索系统光电信息检索系统机械信息检索并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。6信息检索机械信息检索阶段10计算机信息检索系统三个阶段:1971年以前建立的信息检索系统,是传统的批处理检索方式。1971年以后,产生并发展的联机信息检索系统,如OCLC、Dialog在线数据库联机检索系统。20世纪90年代以来,产生并发展的网络信息检索阶段。6信息检索11信息检索技术两个发展方向:传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能力;信息资源的网络化和分布化,面向互联网中海量的信息资源,在广度上提高管理和组织的能力。6信息检索126.1.4信息检索的模型信息检索模型(InformationRetrievalModel)是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。本质上是对相关度建模。信息检索模型是信息检索的核心内容之一。信息集、用户提问集、信息集与用户提问集的相似性匹配是信息检索模型的三要素。6信息检索13信息检索(IR)模型的分类结构化模型浏览型数学模型基于内容的信息检索模型(从所使用的数学方法上分):基于集合论的IR模型(SetTheoreticmodels)布尔模型基于模糊集的模型扩展布尔模型基于代数论的IR模型(Algebraicmodels)向量空间模型潜性语义索引模型神经网络模型基于概率统计的IR模型(Probabilisticmodels)回归模型概率模型语言模型建模IR模型推理网络模型信任度网络模型146.1.4信息检索的模型一、布尔逻辑检索模型(BooleanRetrievalModel,简称BRM)6信息检索优点:简单、易理解、易实现2个方面的缺点:1)因为只有0和1两种相关度,基本布尔模型并不能提供更细微的排名。当相关文档的结果数目较多时,这些文档之间因无法进行排序导致处理起来非常不方便。(准确匹配方面)2)如何构造布尔表达式来表达用户的需求并不是一件容易的事情,而且布尔表达式匹配由于是一种精确全部匹配表达式构造不好可能会使结果过多或者过少。(信息表达方面)AandBAorBAnotB156.1.4信息检索的模型二、概率检索模型(ProbabilityRetrievalModel,简称PRM)建立在相关性基础上,当文件按相关概率递减原则排列时可以获得最大的检索性能。基于对相关性的不同理解可建立不同的模型,由此可导出不同的排序输出原则。相关性原理及排序原理为其理论核心。文献对于用户的相关性判断具有一定的随机性和事前不确定性,即一篇文献作为与用户需求相关文献的可能性大小具有随机性。该随机事件的概率表明检索相关性的隐蔽特性,对于该概率的计算或估计,可以解除文献相关性的事前不确定性。6信息检索166.1.4信息检索的模型三、向量空间检索模型(VectorRetrievalModel,简称VRM)相比于布尔检索的准确匹配,采用的是“部分匹配”策略。在向量空间模型中,每篇文献和每个提问都用等长的向量即同一组关键词集合来表示。6信息检索文档-标引词矩阵(Doc-TermMatrix)n篇文档,m个标引词构成的矩阵Am*n,每列可以看成每篇文档的向量表示,同时,每行也可以可以看成标引词的向量表示17在向量空间模型中,所有的网页文档被看成是词语集合构成的序列,对于每一个词,都根据他们在文档中的重要程度来赋予一定的权重值,如果我们把词的每一个集合看作成一个n维坐标系,权重值作为网页文档对应的坐标值,这样一来,我们就把网页文档映射成了一组词语构成的网页文档特征向量。优点:用简单的形式将非结构化的网页文档转化成易于进行数学运算的结构化形式。缺点:相似度的计算量大,当有新文档加入时,则必须重新计算词的权值。百度的新闻、图片、网页搜索及相关搜索都是基于向量空间模型的。18相似度计算文档和提问之间的相关程度(即相似度)可由它们各自向量在向量空间中的相对位置来决定。相似度计算函数有很多种,较常用的是两个向量夹角的余弦函数。文档和提问的相似度值由以下公式获得:djq196.1.4信息检索的模型四、模糊检索模型(FuzzyRetrievalModel,简称FRM)建立在模糊集合论、模糊逻辑及可能性理论基础上用以处理各种不确定性的一类模型。6信息检索20研究进展基于本体的信息检索模型基于概念的信息检索模型基于语义的信息检索模型基于文摘的信息检索模型21对于聚类技术通常可以分成两类:层次型的聚类(Hierachical)和分割型(Partitional)的聚类。层次型聚类生成一个树型的聚类谱系图,根据需要可以在不同层次上选取类别个数。分割型聚类对原有数据集生成一个划分。层次型聚类方法又包括基于最短距离、基于最长距离、基于均值距离的方法。基于分割型的聚类有包括错误平方法(squarederror).如k-mean。方法另外还包括基于图论的方法等等。22信息的生产者(作者)、信息的加工者(信息检索系统)和信息的接收者(用户)的认知结构是很难一致的信息检索过程是一个非常复杂的认知过程,亦即一种由已知通向未知的学习过程。用户在与检索系统进行交流时常常不能正确完整地描述自己的信息需求,N.J.Belkin把用户的这种知识状态称为“知识的非常状态”(anomalousstateofknowledge、ASK)〔5]。他认为,信息检索的任务就是尝试描述用户知识的非常状态。系统不应要求用户必须准确指定自己的需求,而只能希望处于这种情景中的用户陈述自己的目标、问题和知识,进而对这些陈述加以表征,用来与相似的文献表征进行对比,达到检索出相关文献的目的。基于此理论,他对一个完整的情报过程作了如下描述:“一个文本的潜在生产者决定传播他的某些知识,为此,他需要对自己的知识进行重组,并进行某些特殊主题的分割,以构成通过文本传递的概念结构;然后,根据自己的目的和对潜在接收对象的理解,对这一概念结构进行可传播形式转换,形成可由接收者获取的文本。在另一方面,受信者(用户)由于认识到其知识状态中的某种非常而求助于交流系统,他将这种知识的非常状态转化成某种可交流的结构(如情报提问或检索式),从文本集合中检索出可能适于解决这种异常的文本;受信者通过解译文本,发现其本质性概念结构。并与自己的知识异常状态产生交互作用,继而判断异常是否得到充分消解,以决定是关闭交流系统还是在新的化狠基础上重新启动交流系统。”[3]236.2信息检索的职能与程序6.2.1信息检索语言的职能信息检索语言是根据信息检索需要创制的一种人工语言,又称检索语言、信息存贮与检索语言、文献工作语言、索引语言、标引语言、信息检索标识、标识系统等等。信息检索语言由词汇和语法组成。词汇:指登录在分类表、词表中的全部标识。常说的分类表、主题词表等就是由这些词汇形成的词典。语法:指如何创造和运用那些标识(单个或多个的组合)来正确表达文献内容和情报需要,以有效地实现情报检索的一整套规则。6信息检索24广义上,凡是能够代表信息内、外特征的词均可视为信息检索语言词汇。从信息检索规范化的角度来看:自然语言检索标识多用于标识外表特征规范语言检索标识在标识内容特征时多用将信息需求转化为系统规范化的信息检索语言,对检索的成功至关重要(检索语言的质量高低及使用正确程度对检索效率有很大影响)。25信息检索语言的职能:可以表示文献内容、数据或其他信息形式用专用概念表示用户的信息提问能够指示计算机执行查询与检索6信息检索266.2.2信息检索策略信息检索策略——是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要达到一定的检准率和检全率。常用信息检索策略包括:分块概念组配检索策略逐步组配检索策略对偶组配检索策略增长组配检索策略其他……6信息检索27检索策略与检索效果两者的关系密切而又微妙,只有正确把握两者的特性才能予以有效控制与调节,目前在以下三方面取得进展:(1)以检全为目标的检索策略的调节与控制;(2)以检准为目标的检索策略的调节与控制;(3)以最小投入为目标的检索策略的调节与控制。对特定系统、特定数据以及某一类型课题的检索策略的研究具体表现在以下两方面:(1)是某一系统、某一数据库检索策略;(2)是某一类型课题检索策略。6信息检索28信息检索策略的研究重点是:(1)检索策略失误分析;(2)降低检索费用的研究