第2章 信息存储与检索基础

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第2章信息存储与检索基础信息存储与检索原理信息存储与检索类型索引款目的结构与类型2.1信息存储与检索原理信息存储与概念信息存储形式信息存取模型2.1.2信息存储与检索原理信息存储与检索(InformationStorageandRetrieval)是信息检索的全称形式或广义的信息检索,它既包括采用多种形式记录信息、排序信息的信息存储过程,也包括通过一定的设备、采用一定的手段与技巧从信息系统中快速、准确地搜寻所需信息的方法与过程。信息存储与检索的基本原理就是,查询语言(检索提问)和系统标识语言所进行的“相符性比较”与“匹配运算”。信息存储与检索走过了文献检索、情报检索的过程,正向知识检索的领域迈进。信息检索通常包括4种类型,一是关于文献的检索;二是关于某事实或事项的知识检索;三是关于数值或数据的情报检索;四是关于图象信息的信息检索。信息存储与信息检索关系图系统标识语言形式概念检索提问M形式概念信息资源信息集合MABCD…M检索系统答复M信息存储信息检索主题分析转换成索引标识转换成系统标识课题分析2.1.2存储形式2.1.3信息存取模型信息检索模型信息浏览模型基于文档内容的检索模型基于文档结构的检索模型平面浏览模型目录导航模型网状结构模型布尔逻辑模型概率统计模型向量空间模型并列链表模型层次邻接模型下一节2.2信息存储与检索类型信息检索存取发展早期书目检索工具的编制科技检索刊物体系的形成计算机检索的发展计算机信息检索的4个发展阶段:单机批处理时期联机检索试用阶段联机服务市场化与光盘检索的兴起全球信息检索多媒体联网时期我国计算机信息检索的发展过程:引进开发国外磁带、开展定题服务(SDI)开发国际联机检索终端自建数据库微型计算机和国际联机网信息存取的发展2.2信息存储与检索类型广义的信息检索包括信息存储与查检两个部分。狭义的信息检索有许多类型,从不同角度可划分为:按检索活动的执行主体划分手工检索(ManualRetrieval)计算机检索(ComputerRetrieval)按查询信息的特征划分书目检索(BibliographicRetrieval)数据检索(DataRetrieval)事实检索(FactRetrieval)全文检索(FullTextRetrieval)图象检索(ImageRetrieval)多媒体信息检索(MultimediaDataRetrieval)2.2信息存储与检索类型按检索系统的工作方式划分脱机检索(Off-lineRetrieval)联机检索(On-lineRetrieval)光盘检索(CD-ROMRetrieval)国际互联网络检索(InternetRetrieval)按检索策略划分布尔逻辑检索(LogicalRetrieval)截词检索(TruncationRetrieval)位置逻辑检索(ProximateOperatorRetrieval)限定检索(RangeRetrieval)加权检索(WeightingRetrieval)2.2信息存储与检索类型按系统载体划分印刷型文本系统检索(PrintedTextRetrieval)缩微磁带检索(MicrofilmRetrieval)光盘系统检索(CD-ROMRetrieval)计算机存取系统查询(Computer-basedRetrieval)按检索工具类型划分(补充)目录与题录检索(CatalogandTitleSearching)文摘检索(AbstractSearching)索引检索(IndexSearching)字典型检索(DictionarySearching)交互式检索(AlternatelySearching)下一节2.3索引款目的结构与类型索引(Index)就是将信息集合中具有检索意义的事物名称及特征(如篇名、人名、书名、刊名、网页、网站、地名、分类号、主题词、分子式、专利号、报告号、名词术语等)抽取出来,注明其地址,按照字顺或逻辑分类等次序组织款目,从而为用户提供查询线索的检索工具。索引的款目结构:索引标题词索引标题词亦称标目、索引键、索引标题等。它一般处于索引款目最醒目的位置,是索引款目的核心,它决定着一条索引款目在整个索引中的排列位置,是索引款目的检索入口。索引标题词可以为单一标题词,也可以为带有副标题的多级标题词。2.3.1索引的款目结构说明语也称为上下文或修饰语,通常位于索引标题词的右边或下面,用来说明、解释、限定索引标题词含义的辅助项目。地址参考项地址参考项位于索引标题词和说明语之后,索引地址所指明的是索引标题词所在的页码或在检索系统中的文献顺序号、分类号或文献号等,即索引标题词的出处。索引参考项有时用于引导用户使用正式索引标题词。例1:①Methane,②useinmethanolmanufacture,③3241①甲烷,②用于甲烷制备,③3241说明:①索引标题词,②说明语,③文献号(地址参考项)2.3.2主要索引类型索引系统从形式上讲是成千上万件索引款目的集合,从内容上看是信息单元的指南。索引系统的排序是按照索引标题的顺序组织而成,不同性质的索引标题词构成了不同类型的索引。依据索引标题词的性质划分:有揭示信息资源内容特征的主题索引、分类索引、关键词索引、分子式索引、结构式索引;有揭示信息资源形式特征的题名索引、人名索引、物名索引、代码索引、引文索引。依据索引标题词的排序方式划分:有按照标题词字顺组织的主题索引、题名索引、人名索引、关键词索引、语词索引等;有按照文献代码组织的报告号索引、合同号索引、标准号索引等;有按其它排序方式组织的网络信息自动索引、重量索引、速度索引、专用索引等。按照检索方式划分:有先组式索引和后组式索引。按照索引所包括的对象划分:有综合索引和专门索引。2.3.2主要索引类型以下简述几种常用索引的特点:题名索引(TitleIndex)题名索引,是将信息资源的题名特征(书名、刊名、篇名)选作为索引标题词所编制的索引系统。题名索引常采用字顺排序法组织款目。例如:未来的地球人①/王佃亮②31③解构爱因斯坦①/一茗②32③一流大学校长必须是教育家等6则①/睦依凡②36③宇宙是什么颜色等6则①/本刊资料室②42③说明:①索引标题词(题名)②文献作者③地址参照项(所在页码或文献号)2.3.2主要索引类型人名索引(PeopleNameIndex)人名索引,是以文献上署名的著者、译者、编撰者、注释者以及文献中所论述的人物名称作为索引标题词所编制的一种索引。此类索引一般按照人物名称的字顺组织。英、德、法、西班牙等语种的著者索引姓在前、名在后,与其在文献中出现的姓名形式不同,用户检索时应注意掌握其排列规则。例一:Sadykov,A.A.①ChemicalStudyofPersica②91:135089k③例二:Harris,A.E.①001536③例三:伽利略①(Galilei,Galilei)②B503.922③例四:梁启超①(1873-1929)②B259.1③说明①索引标题词②说明语(原文名,生卒年)③地址参照项(文摘号、分类号)2.3.2主要索引类型文献序号索引(DocumentNumberIndex)文献序号索引,是根据信息资源的外表特征文献序号所编制的索引。在一些特定类型的文献资源中,每一份文献都有一个特定的专门排序号。如科技报告号、合同号、技术标准的标准号、专利说明书的专利号,图书的国际标准书号(ISBN)等;例一:合同/基金号索引(CONTRACT/GRANTNUMBERINDE)MIPR-FY7616-02-00394①ColdRegionsResearchandEngineering.Hanover.NH②AD-A121330/5③933④MIPR-82-504①VavalResearchLab.Washington,DC②AD-A121087/1③714④说明:①合同基金号②执行机构③报告号④索引地址号2.3.2主要索引类型引文索引(CitationIndex)引文索引是从被引论文检索引用论文的索引工具。即以某较早公发发表的论文为起点,逐一查询那些引用过该论文的文献,随后还可以利用检索到的引用文献为被引文献进行循环检索,逐步扩大检索范围,以了解和掌握一大批具有相关关系的科学文献。引文索引的组织方式是,按照被引论文的作者排列,在被引论文之下,在按年代列举引用过该文献的全部论文。分类索引(ClassificationIndex)分类索引是以文献内容的学科范围的分类标识(又称分类号)为依据编制而成的引文系统。本索引可提供按学科专业系统检索文献的途径。分类索引的编制原理是概念的划分与概括。在概念划分与概括的原理基础上建立起来的等级体系分类系统是一种先组式的索引语言。2.3.2主要索引类型主题索引(SubjectIndex)主题索引,是将表征文献主题内容的主题词作为索引标题词,其后注明地址(或页码)编制而成的索引系统。此处所指的主题词是经过规范,有词表控制的标题词(Subjectheading)以及词组和短语。这是一种先组式的索引语言。例1Sword,①Manufacture,reviewon.②6385.4246.5367③(赤刀)(制照)(有关评论)Parallel-accesscomputer,①inself-organizing②1234.6533.4211③(并行存取计算机)(自组织系统中的)例2例3反义词,①汉语——现代②H136.2③说明:①索引标题词②说明语(修饰语)③地址参照2.3.2主要索引类型关键词索引(KeywordIndex)又称键词索引,属于广义的主题索引。这是从文献题名、文摘、原文或网站、网页、网址甚至网页正文中抽取对于表述信息资源的主题内容具有关键意义的名词或名词性词组,作为索引标题词,其后标明出处所组成的索引。关键词是信息资源的责任者(包括著者、编者、译者、专利权拥有者等)所直接使用的词语,是一种未经规范的自然语言。关键词索引的类型:题内关键词索引(KeywordinContextIndex)题外关键词索引(KeywordoutofContextIndex)双重关键词索引(Double–KWICIndex)轮排关键词索引(PermutedKeywordIndex)单纯关键词索引(KeywordIndex)挂接主题词索引(ArticulatedSubjectIndex)2.3.2主要索引类型组配索引(CoordinateIndex)组配索引是根据叙词(Descriptor)及单元词(Uniterm)的后组式原理建立起来的索引系统。其基本原理是任何一个复杂的概念都可以划分出若干个单义概念,而若干个单义概念又可构成一个复杂概念。组配索引的基本特点是,在建立索引系统时,首先有将文献的主题分解成一些单独的概念单元进行分别记录与标识,而在检索时,根据检索课题的需要,将若干有关概念单元综合组配成各种检索提问实施检索。例如“化学纤维工业”这个复杂概念可以分解为“化学”、“纤维”“工业”三个概念单元,其三者的逻辑关系如下图:化学纤维工业ABCabacbcabc2.3.2主要索引类型PRECIS索引(PreservedContextIndex)又称保留上下文关系索引系统、保留正文索引系统、保留愿意索引、上下文前后关联索引。PRECIS为了明确无误地描述文献主题,力求每条索引款目都按照“上下文从属”的原则排定词语的次序。其索引的方式为:导词(LEAD)限定词(QUALIFIER)展示词(DISPLAY)地址(ADDRESS)2.3.2主要索引类型网络信息自动索引(Websourceauto-Index)目前,Internet上的搜索索引(又称搜索引擎searchengine)就是一种网络资源自动索引的检索工具。其特点是使用自动索引软件来发现、收集和标引网页建立查询数据库,并以Web形式给用户提供检索界面,供用户输入检索关键词、词组或短语等检索项,

1 / 24
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功