《信息检索与利用》精品课课件2信息检索基础知识

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

《网络信息资源开发与利用》第2章信息检索基础知识2-2June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件1信息检索的基本概念1.1信息检索的涵义从广义上讲,信息检索包括两个过程,一是信息存储(informationstorage),即信息的标引、加工和存储过程:二是信息检索(informationretrieval),即信息用户的查找过程。从狭义上讲,信息检索仅指后一部分。信息检索的本质是一个匹配的过程•即用户的信息需求和信息存储的信息集合进行比较和选择的过程2-3June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件信息存储和检索过程的基本原理输出一次信息信息特征检索语言信息特征标识检索结果信息需求检索提问检索提问标识分析标引标引输入检索信息检索系统(工具)存储过程检索过程分析2-4June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件计算机信息检索是对信息进行收集、分类、标引、著录,并加以有序化组织,将信息储存到计算机存储信息系统中,编制出一个信息检索系统或信息检索工具以及从检索系统或工具中检索所需信息的过程。1.2计算机信息检索2-5June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件用户输入检索需求分析转换处理需求数据库检索=概念词的相关匹配运算概念词典控制词表信息源筛选录入分类、词索引文档预处理计算机信息检索的基本原理2-6June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件1.3信息检索的类型按信息检索的内容划分文献检索数据检索事实检索概念检索按信息检索的组织方式划分•全文本检索•多媒体检索•超文本检索超文本检索是对每个节点中储存的信息以及信息链构成的网络信息进行的检索。与传统文本的线性顺序不同,超文本检索强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件2信息需求类型及特点信息需求可以简单地理解为人们为了了解某类事物的属性以达到某种特定目的,由此而产生的了解相关信息的一种需要。因为目的不同,信息需求不同,而导致检索行为的不同。文献信息需求文献信息需求以获得一定的文献原文来满足人们的信息需要。这种需求需要利用提供原始文献或提供原始文献线索的检索工具。2-8June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件1.知识学习新、成熟、权威2.写论文需要的文献信息主要是要求能给论文帮助的新的、有代表性的文献信息。检索上不求全。3.科学研究需要的文献信息要求能全面、系统地掌握某一阶段内相关的全部文献信息。检索上允许一定的误检,不允许漏检。4.解决某种具体问题需要的文献信息要求文献种能提供相同或相似情况下的解决方法。检索上强调准确性,只求对解决问题的帮助,没有量上的要求。2-9June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件非文献信息需求非文献信息需求以获得一定的有关事实或数据来服务人们。这种检索通常利用能直接提供事实或数据的工具来检索。2-10June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件3检索语言检索语言(retrievallanguage)是文献信息标引和检索提问而约定的人工语言。检索语言是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。——在存储的过程中用于标引信息称为标引语言;——用于编制索引就称为索引语言;——用于信息检索则称为检索语言。2-11June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件3.1检索语言的种类分类语言(classificationlanguage)是用分类号表达各种概念的检索标识,将各种概念按学科性质进行系统排列,反映科学知识分类体系的检索语言。主题语言(subjectlanguage)是直接以表达文献主题的语词作为检索标识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。代码语言(codelanguage)是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。2-12June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件检索语言的类型描述内容特征语言描述外表特征语言主题语言分类语言代码语言责任者题名其他自然语言受控语言关键词语言——(keyword)标题词语言——(heading)单元词语言——(uniterm)叙词语言——(descriptor)2-13June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件分类语言分类语言是按照一定体系由上至下,从总体到局部,由一般到具体,从低级到高级,从简单到复杂的逻辑次序逐级展开。主题分类语言其特征是一个主题充当一个类目,类目象主题词表一样按字顺排列,而不是按逻辑顺序排列。优点:以事物分类,能将相关的内容全部集中在一起。对交叉学科的主题揭示非常有利。科学分类语言学科分类语言是以知识分类为基本,按照学科性质及从属、层次关系来组织资源,类目排序以字顺为标准。优势:类目容量大,内容针对性、学术性更强,符合族性检索的要求。图书分类语言目前采用的主要有杜威十进分类法(DDC)、国际十进分类法(UDC)、美国国会图书馆分类法(LCC)和中国图书馆图书分类法(中图法)专利分类表2-14June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件中国图书馆图书分类法基本部类:1、马克思主义、列宁主义、毛泽东思想、邓小平理论2、哲学3、社会科学4、自然科学5、综合性图书基本大类:(22个)A马列主义毛泽东思想邓小平理论N自然科学总论B哲学O数理化科学C社会科学总论P天文学、地理D政治、法律Q生物科学E军事R医学、卫生F经济S农业科学G文化、科学、教育、体育T工业技术H语言、文字U交通运输I文学V航空、航天J艺术X环境科学K历史、地理Z综合性图书2-15June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件中国图书馆图书分类法F经济F1世界各国经济概况、经济史、经济地理F11世界经济、国际经济关系F12中国经济F13/17各国经济F2经济计划与管理F20国民经济管理F21经济计划F22经济计算、经济数学方法F23会计F239审计F24劳动经济F25物资经济2-16June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件F27企业经济F29城市与市政经济F3农业经济F4工业经济F7贸易经济F72中国国内贸易经济F73世界各国国内贸易经济F74国际贸易F75各国对外贸易F8财政、金融F81财政、国家财政F82货币F83金融、银行F84保险2-17June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件中国图书馆图书分类法T工业技术TB一般工业技术TL原子能技术TD矿业工程TM电工技术TE石油、天然气工业TN无线电电子学、电讯技术TF冶金工业TP自动化技术、计算机TG金属学、金属工艺TQ化学工业TH机械、仪表TS轻工业、手工业TJ武器工业TU建筑科学TK动力工程TV水利工程2-18June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件图书馆的藏书都是按分类号排架的。分类号的排列采用由左至右逐位对比的方法进行排列,先比较字母部分,再比较数字部分。——字母部分按英文字母固有的次序排列。例:B2中国哲学B3世界哲学E27各种武装力量E512苏联军事TM92电气化、电能应用TU201建筑设计原理——分类号中的阿拉伯数字依小数制排列。例:B021辩证唯物主义的物质论B022辩证唯物主义的意识论B022.2客观规律性与主观能动性D035.37交通公安管理D035.4监察、监督分类号的排列次序2-19June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件分类号的排列次序(续)——数字之后如还有字母,则在前部类号相同的基础上,再按字母顺序排列。例:TP312ALALGOL程序语言TP312BABASIC程序语言TP312COCOBOL程序语言——总论复分号“-”要排在数字“0”的前面。例:H-61,H0,…,H31-61,H310,…——总论复分号“-”要排在组配符号“:”的前面。例:H31,H31-62,H31:F,H31:I,…,H319,H319.4,H319.4-44,H319.4:B,H319.4:C,…2-20June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件读者实际利用图书馆时,往往需要知道书刊的分类号和索书号(又称索取号)。索书号是图书馆赋予每一种馆藏图书的号码,是读者查找图书非常必要的代码信息。它的第一部分是分类号,第二部分是书次号。索书号的两部分之间有一个空格或一条斜线“/”。书次号或者是按照图书作者姓名所编排的著者号码,或者是按照图书进入馆藏时间的先后所取用的顺序号码。——不同的索书号确定排列先后顺序的步骤是,先比较分类号码;如分类号码相同再比较著者号码或顺序号码。分类号比较:先英文字母排,后阿拉伯数字按小数制排。分类号中“-”排在0之前,例如:先排F-43再排F0。分类号的数字排列比较采用对位比较法,字符序列以ASCII字符集为依据。比如:B11、B111、B112、B12,书次号的数字排列比较采用自然顺序排列方法,即1,2,3,...,9,10,11,...,99,100,101,…。分类号和索书号2-21June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件重新排列以下索取号的顺序TP3/1044TP3-43/3060TP311.13/1713TP311.13/9091TP393/4027TP393/7732TP393-43/47232-22June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件主题语言①关键词语言是直接选用文献中的自然语言作基本词汇,并将那些能够揭示文献题名或主要意旨的关键性自然语词作为关键词进行标引的一种检索语言。例如:“国际联机检索概论”中的“国际联机检索”、“国际联机”、“联机”、“检索”都是能描述这篇文献主题的关键词,都可以作为检索词。②标题词语言是最早使用的一种

1 / 72
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功