马费城信息管理学基础课件6.信息检索

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

·信息组织是指按照一定的规则来描述信息资源或信息对象,以便于能被需要它们的人高效地利用。·信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。·信息组织和信息检索是一对互逆过程。6信息检索6.1.1信息检索的涵义·满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位),统称为信息检索系统(InformationRetrievalSystem,简称IRS)。·信息检索系统的三个基本要素:人、检索工具(包括设备)和信息资料6.1信息检索的基本概念与原理信息组织和检索系统规范化的疑问式信息的组织比较/匹配索引(描述性的受、限制的)游戏规则=主题索引规则+辞典(包括词汇表和索引语言)需求概述或疑问式信息或数据检索流程概述的存贮组织流程存贮1:概述/搜索请求存贮2:信息的表示6.1信息检索的基本概念与原理图6-1潜在的相关信息信息检索系统体系结构·按存贮和检索的内容划分①文献检索②数据检索③事实检索①文本检索。②数值检索。③音频与视频检索。·按检索系统中信息的组织方式划分①全文检索②多媒体检索③超媒体检索6.1.2信息检索的类型与特性信息检索的特性·信息检索的相关性信息检索时规定的一篇正文与表示信息提问的另一篇正文的符合程度。相关性表明用户是否认为一文献与一提问吻合。·信息检索的不确定性标引的不确定性是指不同标引员在给同一篇信息对象进行标引时会选用不同的标引词,即标引词选用的不一致性。·信息检索的逻辑性检索语言、检索策略6.1.2信息检索的类型与特性6.1.3信息检索的基本原理·(1)信息资源集合·(2)信息需求集合·(3)匹配与选择·布尔逻辑检索模型(BooleanRetrievalModel,简称BRM)·向量空间检索模型(VectorRetrievalModel,简称VRM)·概率检索模型(ProbabilityRetrievalModel,简称PRM)·模糊检索模型(FuzzyRetrievalModel,简称FRM)6.1.4信息检索的模型(1)布尔逻辑检索模型是一种比较成熟、较为流行的检索技术。逻辑检的索基础是逻辑运算布尔逻辑运算符:与(and/*)、或(or/+)、非(not/-)·AandB(A*B):同时含有A、B这两个检索词才能被命中·AorB(A+B):只要含有其中一个检索词或同时含有两个检索词都将被命中·AnotB(A-B):含有检索词A但不含有检索词B才能被命中6.1.4信息检索的模型(2)向量空间检索模型·基本前提是将文献和查询用向量表示,这样将文献与查询的匹配问题转化为一个关于向量空间的计算问题·计算的结果是相似系数,将相似系数超过一定值的文献作为检索结构输出6.1.4信息检索的模型(3)概率检索模型·建立在相关性理论基础上,当文件按相关概率递减原则排列时可以获得最大的检索性能。·基于对相关性的不同理解客建立不同的模型,由此可导出不同的排序输出原则·相关性原理及排序原理是该模型的理论核心,有关概率的计算及其数据来源是PRM的技术难点6.1.4信息检索的模型(4)模糊检索模型·建立在模糊集合论、模糊逻辑及可能性理论基础上来处理各种不确定性的模型·将文献论述标引词所达到的程度用0和1之间的数值t来表示,0为不相关,1为完全相关,t越大,则相关性越高,被检索出来的可能性就越大6.1.4信息检索的模型6.2.1手动信息检索阶段·正规的参考咨询工作是由美国的公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来的。“参考咨询工作”产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室;6.2信息检索的发展历程·20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。·40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。·成果:·第一,大批高质量的文摘性检索工具陆续被编制并投入使用。·第二,检索语言的创建和试验活动十分活跃6.2.1手工信息检索阶段6.2.2机械信息检索阶段·机械信息检索两种基本类型·机电信息检索系统(打孔机、分类机)·光电信息检索系统(缩微技术)·机械信息检索并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。·脱机批处理检索(Off-lineBatchProcessing,1954-1964年)·不能对检索策略进行及时调整·联机实时检索(On-lineRealTime,1965-1975年)·高密度海量随即存储器——磁盘及磁盘机的问世和投入使用,信息检索进入了人机对话式的联机实时检索时期·联机网络化信息检索(1975-1990年)·DIALOG、ORBIT、OCLC等6.2.3计算机信息检索阶段·信息处理从传统模式向新型模式的转变,信息结构从结构化发展到非结构化,系统功能从单纯信息检索发展到综合信息管理和服务·一方面,新兴的机遇Web的搜索引擎系统得到日益广泛的应用,另一方面,传统的联机检索系统、各类数据库检索系统及其信息服务业务,也逐渐扩展、转移到具有分布式网络结构特性的Web平台上6.2.4网络信息检索阶段1.手工信息检索的技术与方法(1)手工信息检索工具·目录:图书或其他单独出版物规律化、系统化的记载·索引:把一种或多种书刊里的具体内容按一定的方式分别摘录,并注明出处,以便检索的一种工具·文摘:把文献资料的主要内容,由有一定水平和经验的编者将其准确简要地摘录出来,并注明出处后,经分类排序而编制成的检索工具·年鉴:以描述和统计的方式逐年提供某年度某一领域信息的工具书·手册:汇集某一学科领域或业务部门专门知识的工具书·百科全书:荟萃一切门类或某一门类知识、以概要方式介绍为主的多功能工具书6.3信息检索的技术与方法(2)手工信息检索工具的排检技术·字顺排检技术:将检索工具的内容按字、词的一定顺序或规律,有系统地组织排列起来的技术。·分类排检技术:将信息素材按学科或事物性质系统地加以排列。·主题排检技术:以规范化的自然语言为标识符号来标引信息内容的排检技术。·时序排检技术:按时间的顺序组合信息素材的技术,多用于编制年表、年谱等检索工具。·地序排检技术:按一定时期的行政区域来排列信息素材的技术。6.3.1手工信息检索的技术与方法(3)手工信息检索方法·顺查法:一种以信息检索课题起始年代为起点,按时间顺序由远而近地查找信息的方法。·倒查法:一种逆时间顺序由近而远地查找信息的方法。·抽查法:一种针对研究课题发展的特点,抓住学科发展迅速、发表文献较多的年代进行查找的方法。·追溯法:又叫回溯法,是以某一篇文献末尾所附的参考文献为依据,由近及远进行逐一追踪的查找方法。·循环法:先利用检索工具查出一批有用文献,然后再利用这些文献末尾所附参考文献的线索进行追溯查找。6.3.1手工信息检索的技术与方法·机电信息检索系统继手检穿孔卡片之后,出现了机检穿孔卡片和选卡机这。就形成了机电信息检索系统。·光电信息检索系统主要是以缩微胶卷(片)检索方式出现的。缩微胶卷的(片检)索方式大致可以分为两种类型:①寻址检索方式②编码检索方式6.3.2机械信息检索的技术与方法(1)联机信息检索·信息用户利用终端设备,通过通讯网络与世界各地的信息检索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程。·优点:①检索速度快;②检索范围广而全面;③检索途径多、质量高;④检索内容新、实时性强;⑤检索辅助功能完善、使用方便,检索结果输出方式灵活、实用。·缺陷:①主机负担重,一旦出现故障,则整个网络都将瘫痪;②信息组织方式以线性为主,不够灵活;③联机检索不像Internet是面向最终用户的,操作也没有后者方便。6.3.3计算机信息检索的技术和方法·联机信息检索系统的结构:由检索服务机构、国际通讯网络及终端三部分构成。·联机信息检索的技术原理:一个典型的计算机信息系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程。·联机信息检索的服务方式:a.定题信息提供b.专题回溯检索c.联机订购原文d.电子邮件6.3.3计算机信息检索的技术和方法(2)光盘信息检索特点:·使用光盘检索系统,可免除联机检索系统所必须使用的电讯设备,节省了电讯费和联机系统使用费,还可免除由通信线路传输过程中所造成的失误·光盘系统向用户随盘提供相当于联机信息检索系统功能的软件,并提供菜单驱动与命令驱动两种方式·光盘存贮容量大、耐用、复制费用低·可以把文本、图形、图像、声音及动态形象结合在一起·如果光盘数据库量不够多,则信息资源就显得有限,购买大量光盘数据库,又要受到经费限制·在信息需求的适时性上,光盘检索不如联机检索系统,因为光盘只能定期提供·数据库费用大6.3.3计算机信息检索的技术和方法(2)光盘信息检索·光盘信息检索系统由微机、驱动器及连接设备、CDROM数据库(光盘)及其检索软件构成。·选择驱动器时主要考虑以下性能:a速度:一般在185ms~500ms之间b查找速度:一般在250ms~400ms之间c数据缓冲区越大,可直接从存储器存取的数据就越多,节省查询时间d数据传送速度:有单速、双速乃至40倍速以上的驱动器6.3.3计算机信息检索的技术和方法·特点:·信息量更大·需要处理各种不同的语言(大多是自然语言)·信息检索的范围更宽(多学科、多领域)·信息查询的时效性要求更高·检全率较高,而检准率较低·网络信息检索模式有两层含义:·广义理解·狭义理解6.3.4网络信息检索的技术与方法6.4.1信息检索的步骤(1)分析研究信息检索课题·明确信息检索课题所涉及的领域和范围;·明确所需信息的内容及其内容特征;·明确所需信息的类型,包括文献媒体、出版类型、所需文献量、年代范围、涉及的语种、有关著者及机构·明确信息检索课题对查新、查准和查全的指标要求6.4信息检索的步骤与策略(2)选择信息检索工具信息检索工具是人们为了充分、准确、有效地利用已有的信息资源而加工编制的用来报道、揭示、存贮和查找信息资源的卡片、表册、计算机信息系统和特定出版物。·指示线索型检索工具(二次文献)·提供具体信息的工具书(三次文献)6.4.1信息检索的步骤(3)确定信息检索方法每一种信息检索方法都有自己的特点,在实践中可以根据信息检索要求选择使用或配合使用,以快速、准确地完成信息检索任务,实现预期的目标。常用的信息检索方法:·顺查法·倒查法·抽查法·追溯法·循环法6.4.1信息检索的步骤(4)掌握获取原始信息的线索在获取信息线索时要仔细阅读,判断所检出的信息是否符合检索的要求,不仅看篇名,还要阅读整个著录格式,进行综合分析。6.4.1信息检索的步骤(5)获取原始信息·判断文献的出版类型。根据文献出处中已有的信息,判断其出版类型。·整理文献出处。将文献出处中有缩写语、有音译刊名的还原成全称或原刊名。·根据出版类型在图书馆或信息机构查找馆藏目录或联合目录确定馆藏,原则上说应该按“由近及远”的顺序逐步大扩查找馆藏的范围。·尽可能多渠道、多方式地获取原始信息。6.4.1信息检索的步骤·信息检索策略是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要达到一定的查全率和查准率。·信息检索策略制定是要确定每一个步骤中的具体问并题选,择优化的方案,取得优良的检索效果·对特定系统、特定数据以及某一类型课题的检索策略的研究具体表现在以下两方面:(1)是某一系统、某一数据库检索策略;(2)是某一类型课题检索策略。·在检索表达式重构专家系统中,把知识库分为领域知识库和规则库。6.4.2信息检索策略·信息检索语言是根据信息检索需要创制的一种人工语言,是信息检索系统存储和检索信息时共

1 / 69
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功