2课信息检索原理语言技术与方法(陈,3章1267节)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第2课信息检索原理与方法2目的与要求:掌握信息检索的基本原理与类型;掌握检索语言的作用与基本类型,分类语言与主题语言的特点及类型划分;信息检索系统及其功能;掌握检索的途径、方法与步骤。教学重、难点:信息检索原理;检索语言的作用;分类语言与主题语言的特点与类型;信息检索系统的功能;检索的途径、方法与步骤。32.1信息检索原理2.1.1信息检索的基本原理实施检索的主要方法就是利用各种检索系统。广义的信息检索包括信息存储和信息检索两个过程。一方面是用户的信息需求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search,locate,hit)相关的信息。45基本原理基本原理——即检索者的检索提问词与存储于检索系统中的检索标引词进行匹配对比、取得一致,即为检索命中。匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。6检索语言在标引和检索过程中的作用见下图:72.1.2信息检索的类型一、按检索对象的内容分文献检索文献检索是一种相关性检索而非确定性检索事实检索事实检索是对包括事实(fact)、数值(numericdata)与全文(full-text)的检索,提供原始信息,给出直接、确定性的答案。数据检索8二、按照存储载体及检索手段方式①手工检索(手检)使用的多为印刷型或书本型检索(paper-basedretrieval)工具。定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分有限,检索结果往往不尽人意。②机械检索9③计算机检索(机检)它通过数据库系统来实现的。检索过程是在人与机器的合作、协同下完成的。人则是整个检索方案的设计者和操纵者,计算、比较、选择的匹配任务是由机器来执行的。10计算机检索的优势计算机检索明显优于手工检索,主要表现:检索的信息量大数据更新快检索功能强检索结果输出的多样性112.1.3检索工具(数据库)的构成122.2信息检索语言2.2.1检索语言概述检索语言是信息存储与检索过程中用于描述信息的内容特征、外表特征和表达用户情报提问的一种人工语言。检索语言是沟通信息存储和信息检索的一种约定语言。检索语言不同于自然语言。检索语言词义的单一性,保证了表达概念的唯一性,进而保证了标引与检索的一致性。13检索语言的功能(标准)表达和揭示文献的内外部特征,保证不同的标引者在标引文献时表达一致.(组织)集中并组织具有相同特征的文献.(沟通)沟通与规范文献标引者与文献检索者间的联系与行为,避免歧义与误差,减少误检与漏检保证标引者和检索者对同一篇文献的理解是一致的。14检索语言的作用:1)保证不同标引人员表征文献信息的一致性。2)使内容相同及相关的文献集中。3)保证检索提问与文献信息标引的一致性。4)保证检索者按不同需求检索文献信息时,都能获得最高的查全率和查准率。152.2.2检索语言的基本类型按描述的文献信息的特征:描述信息内容特征的语言和描述信息外部特征的语言;按检索工具编排体系:分类语言和主题词语言;按词汇的类型:关键词语言、单元词语言、标题词语言和叙词语言。按其规范的情况:人工语言(规范语言)和自然语言(非规范语言);按检索语言的词汇组配方式:先组式语言和后组式语言。16自然语言(非规范语言)、人工语言(规范语言)naturallanguage:自然语言是取其自然形态,不受控,使用非规范词(uncontrolledterm)或称自由词(freeterm)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。artificiallanguage:受信息检索的控制,使用控制、规范词(controlledterm)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。17(常用)以对文献何种特征描述为划分标准:检索语言的类型表述文献外表特征的语言表述文献内容特征的语言题名责任者号码引文分类法主题法标题词法单元词法叙词法关键词法体系分类组配分类混合分类18一、分类检索语言分类语言是一种按学科范畴和体系来划分事物的语言,它是以数字、字母符号对类目进行标识的一种语言体系,也称分类法体系分类语言直接体现分类概念的等级的标识系统以科学分类为基础,以文献内容的学科性质为对象逐级划分,层层隶属组配分类语言用科技术语组配的方式来描述文献内容科技术语按其学科性质分为若干组,称为“组面”,附有相应的号码混合分类语言19二、主题检索语言概念:是指以描述文献主题的语词为标识的检索语言。特点:直观性、专指性、灵活性类型:标题词语言单元词语言关键词语言叙词语言20标题词语言:从文献中抽选、规范化、严格遵守词表单元词语言:单元词——从文献正文、摘要或题目中抽取出来的最基本的、其概念不可再分的词。未经规范化、无词表*关键词语言:从文献中抽取的表达内容的恰当词汇(意义单元)无词表、未规范化或半规范化*叙词语言:表达文献基本内容的概念单元叙词受词表控制、相互独立但有隶属、可组配、机检21分类语言和主题语言分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。主题语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。222.3生物医学信息检索系统2.3.1信息检索系统的概念是用来存储、检索、报道、交流信息的一个有序化的信息资源集合。定义:是指按某种方式、方法建立起来的供读者查检信息的一种有层次的体系,是表征有序的信息特征的集合体。其中二次或三次文献信息是文献信息系统的核心和概括。功能:报道文献信息、存储文献信息、检索文献信息。232.3.2信息检索系统的基本类型一、按信息存储的内容划分目录:以整本图书、期刊作为报道单元题录:以出版物中的“篇”作为著录单元索引:按一个出版物单位中某一特征作为报道单元文摘:论文或专著的浓缩,常与索引配合使用全文信息检索系统:多媒体信息检索系统:24目录:是以一件或一种完整的出版物(如一本书、一种期刊等)作为著录基本单位的检索工具。一般目录主要揭示、报道这些单位出版物的外表特征。25题录:是以单篇或单份文献为著录的基本单位的检索工具,题录也主要揭示、报道文献的外表特征,但其著录格式于目录有所不同。【论文题名】网络环境下信息检索与报道服务浅析【英文题名】InformationRetrievalandReportServiceinNetworkEnvironment【作者】丁彩云DINGCai-yun【作者单位】湖南化工职业技术学院,图书馆,湖南,株洲,412004【刊名】株洲师范高等专科学校学报【英文刊名】JOURNALOFZHUZHOUTEACHERSCOLLEGE【年卷期】2005Vol.10No.2【关键词】图书馆;网络环境;信息搜集;信息检索;信息报道26文摘:是在题录的基础上,在每条著录款目后边再加上文献内容的摘要。【论文题名】网络环境下信息检索与报道服务浅析【英文题名】InformationRetrievalandReportServiceinNetworkEnvironment【作者】丁彩云DINGCai-yun【作者单位】湖南化工职业技术学院,图书馆,湖南,株洲,412004【刊名】株洲师范高等专科学校学报【英文刊名】JOURNALOFZHUZHOUTEACHERSCOLLEGE【年卷期】2005Vol.10No.2【关键词】图书馆;网络环境;信息搜集;信息检索;信息报道【摘要】网络环境下的信息服务已对图书馆的机构组织、人员素质、服务水平和社会地位产了巨大影响.掌握网络环境下的信息服务特点和方法,尽快适应网络环境已成为图书馆提高信息服务质量的重要课题.27索引:是根据一定的需要,把特定范围内的某些重要文献中的有关款目或知识单元(如书名、刊名、人名、地名、语词等),按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具。28全文:全文检索技术是一种面向全文、提供全文的新型检索技术。它可以使用原文中任何一个有实际意义的词作为检索入口,得到的结果是源文献而不是文献的线索。292.4信息检索途径、方法与步骤2.4.1检索途径每件文献均有内部特征(内容特征)及其相关的外部特征。文献按其特征在检索系统中形成标目,一类特征形成的标目就形成了检索途径或“检索点”(accesspoint)。检索课题或要求本身也具有一定特征,符合检索要求的文献应当具有与检索课题或要求类似的特征可供匹配。30文献检索的常用途径不同的检索语言构成不同的标目及其索引系统,提供各种检索点。1题名:注意题名关键词的排序特征2.作者:通常按姓在前名在后方式检索3.分类:国内多采用《中国图书馆图书分类法》进行分类。4.主题词:主题是指表征文献内容特征、经过规范化的名词术语。检索者通过检索这些规范的词语来找到所要的文献和情报。《现代汉语主题词表》5.关键词:直接从文献中抽取出来的非规范化检索词。6.顺序号检索:专利号、标准号、研究报告号。7.全文检索:8.引文检索:利用被引文献来查找原文献的检索方法。如:CNKI中国期刊网被引用字段,维普期刊数据库引文检索途径。9.其它:超文本检索,基于概念的自然语言检索,图象等。31一、分类检索(classification)分类检索是按照学科分类体系查找文献的途径。检索语言——分类语言优点:便于从学科体系的角度获得较系统的文献线索,即具有族性检索功能。缺点:新兴学科、边缘学科难以处理;涉及多学科体系的可能有多种变化。要求:检索者要做到:对所用的分类体系有一定的了解;熟悉分类语言的特点;熟悉学科分类的方法,注意多学科课题的分类特征。较权威的图书分类法有:中图法、LC、DDC32二、主题检索主题检索是按照文献的主要内容查找文献的途径。检索语言——主题语言(关键词、标题词、单元词、叙词)优点:具有直观、专指、方便等特点,表达概念准确、灵活,不论主题多么专深都能直接表达和查找,并能满足多主题课题和交叉边缘学科检索的需要,具有特性检索的功能。缺点:缺少学科的系统性与学科间的关联。要求:由于主题词间没有明显的等级关系显示,因此需要注意根据参照系统包广泛收集相关主题概念。33三、著者检索著者检索是从文献的作者姓名出发来检索其文献。“著者(author)”也称作者。广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoringbody)、译者(translator)等。此外,还有代表机构、单位的团体作者(corporateauthor),包括作者所在单位(author'saffiliation)。34四、其他途径1)篇名:2)序号:许多文献具有唯一性或一定的序号,如报告号、标准号、专利号……3)分子式:主要在《CA》中使用4)其他……352.4.2检索方法一、浏览法日常获取信息的重要方法优点:快速获取新信息;直接阅读原文;基本了解学科动态。缺点:必须事先了解本学科重要期刊;范围受局限,查全率低。36二、追溯法:是从已有的文献后面所附的参考文献入手,逐一查找全文,再从这些原文后面所列的参考文献逐一追查,不断扩大检索线索,从而获得一批相关文献信息的查找方法。优点:不需要利用检索

1 / 45
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功