——石家庄铁道大学图书馆——第二节信息检索的基础知识2.1信息检索的概念广义:指将信息按一定的方式组织和存储起来,并根据用户的需要检出所需信息的过程。包括信息存储和信息检索两个过程。信息存储:将大量无序的信息集中起来,根据其外表特征和内容特征,经过加工,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或系统。外表特征:题名、著者、出版事项等内容特征:分类号、主题词等信息检索:指运用编制好的检索工具或系统,从信息集合中查找并获取与用户提问相关的信息的过程。——狭义——石家庄铁道大学图书馆——信息源筛选信息概念分析概念转换成检索语言-标引信息检索系统概念转换成检索语言-提问概念分析需求分析信息用户检索策略存储过程检索过程信息检索原理检索结果石家庄铁道大学图书馆指以数值或数据为对象的检索,也称为数值检索。如:某地方2017年GDP增长情况、某种材料的电阻系数、计算公式、数据图表等。数据检索指以某一客观事实为对象的检索。如:查找某一名人、机构的基本情况;某一事件发生的时间、地点、过程等。事实检索指以文献线索或文献原文为对象的检索。如:查找哪里有关于“信息检索”的书?查找有关“图书馆资源整合”方面的文章等。文献检索2.2信息检索的类型根据检索对象的不同,信息检索分为:——石家庄铁道大学图书馆——信息检索的类型文献检索与数据检索、事实检索的关系文献检索:相关性检索,只检索出包含所需知识信息的文献,不直接解答用户所提出的具体问题。数据检索、事实检索:确定性检索,检索出包含在文献中的知识信息,检索结果可供用户直接利用。通常,文献检索通过二次文献来实现,是信息检索中最基本、最主要的形式。而数据与事实检索则一般是通过三次文献来完成。——石家庄铁道大学图书馆——2.3信息检索工具2.3.1概述指用来存储、报道和查找各类信息线索或特定数据和事实的工具或系统。主要包括:(1)二次、三次印刷型手工检索工具(2)面向计算机和网络的各种数据库检索系统(3)搜索引擎等网络检索工具——石家庄铁道大学图书馆——2.3.2检索工具的作用a.报道作用:报道已经公开或发表的相关领域的信息及线索。b.存储作用:将已经公开或发表的信息及线索按一定方式存储起来,供用户检索利用。c.检索作用:供读者查找信息及线索。信息检索工具——石家庄铁道大学图书馆——2.4二次文献的分类分类:目录、题录、文摘、索引(1)目录(Catalog):是以“本”为报道单位,它主要用于反映文献(图书、期刊等)的出版情况或收藏情况,揭示文献外部特征(题名、著者、出版事项等)的检索工具。例:馆藏目录:反映一个图书馆文献收藏情况的目录。联合目录:反映一个地区或一个系统甚至全国或世界范围的图书馆、信息服务机构文献收藏情况的一种统一目录。石家庄铁道大学图书馆馆藏目录,点击题名可查看馆藏地址。二次文献中国高等教育文献保障系统(Calis)联合目录,点击题名可查看该文献信息及收藏单位。——石家庄铁道大学图书馆——(2)题录(Title):是以“篇”为报道单位,揭示文献(期刊论文、会议论文、学位论文、图书章节等)外部特征(篇名、作者、出处等)的检索工具。《中国学术期刊网络出版总库》中的部分题录信息《CCC》中的部分题录信息二次文献——石家庄铁道大学图书馆——(3)文摘(Abstract):也是以“篇”作为报道单位,描述文献外部特征和内容特征的检索工具。比题录多了一个内容摘要项。《中国学术期刊网络出版总库》中的部分文摘信息《SCI》中的部分文摘信息二次文献——石家庄铁道大学图书馆——(4)索引(Index):是将文献中具有检索意义的事项,按照一定方式有序编排起来,供读者查检使用的一种附属性的检索工具,通常称为辅助索引,起指引作用。常用的索引类型有:分类索引、主题索引、著者索引、引文索引等。二次文献超星数字图书馆的分类索引EI的主题词(受控词)索引EI的作者索引SCI的某篇文章的引文索引——石家庄铁道大学图书馆——2.5文献检索的方法(1)追溯法指以已有的文献后面所附的参考文献为线索查找相关文献的方法。•向前追溯法:从一篇有价值的论文出发,利用其后所附的参考文献,查找其引用了哪些文献。由近及远的回溯,越查越深,获取更多相关文献。——来龙•向后追溯法:找到一篇有价值的论文后,进一步查找该论文被哪些其它文献引用过。由远及近地追寻,越查资料越新,研究也就越深入。——去脉美国《科学引文索引(SCI)》通过揭示文献的引用与被引用关系来报道文献。文献检索方法——石家庄铁道大学图书馆——(2)常用法:利用常规检索工具查找有关文献的方法•顺查法按课题的起始年代,按时间顺序由远及近逐年查找。用于掌握课题研究的进展及过程,一般用于撰写研究综述。•倒查法以当前时间为起点,由近及远逐年查找文献。一般用于新开课题,以便掌握最近一段时间该课题达到的水平及研究动向。•抽查法根据课题所属学科研究发展的某一高峰时期,抽出一个时间段,进行集中查找。文献检索方法——石家庄铁道大学图书馆——(3)综合法(循环法或分段法)常用法+追溯法。即利用常用法检索出一批有用文献,然后利用这些文献所附的参考文献由近及远,或这些文献被引用情况由远及近地查找。如此分段交替循环进行,从而可得到大量相关文献。文献检索方法——石家庄铁道大学图书馆——2.6文献检索的途径指利用文献的各种特征——检索标识,通过检索工具查找所需文献的过程。(1)分类途径按文献内容所属的学科类别来检索文献,使用的检索语言是分类语言。分类法体现知识的系统性,它能把同一学科的信息集中在一起。——石家庄铁道大学图书馆——中国知网:分类号TU37——混凝土结构方面的文章——石家庄铁道大学图书馆——(2)主题途径从文献内容的主题概念出发,按确定的主题词来检索文献主题法打破了传统的学科分类的框框,把分散于各个学科的有关信息集中于同一主题词之下。文献检索途径EI:主题词CivilEngineering——土木工程方面的文章——石家庄铁道大学图书馆——文献检索途径(3)题名途径书名、刊名、篇名等(4)关键词途径(5)作者途径(5)机构途径(6)引文途径从文献的引用和被引用关系查找相关文献。(7)代码途径文献号码(报告号、专利号、标准号等)(8)其他途径例:美国《化学文摘》中的“分子式索引”——石家庄铁道大学图书馆——一、概述二、分类语言三、关键词语言四、主题词语言第三节检索语言——石家庄铁道大学图书馆——3.1概述检索语言是根据文献信息的存储和检索的需要而创制的一种人工语言,又称检索标识。信息存储:用来描述文献的内容特征和外部特征,形成检索标识。信息检索:用来描述检索提问,形成提问标识。当提问标识与检索标识完全匹配或部分匹配时,即可命中所需文献信息。检索语言——石家庄铁道大学图书馆——自然语言检索语言的分类描述内容特征语言分类号检索语言主题词(叙词)描述外表特征语言关键词检索语言人工语言分类语言题名(书名/刊名/篇名)著者(作者)出版事项(出版者、出版地)代码(标准号、专利号、报告号、ISBN号、ISSN号)——石家庄铁道大学图书馆——3.2分类语言检索语言按学科范畴从上至下、从总体到局部层层划分、展开,形成一种直接体现知识分类的等级制概念的标识系统。每个学科类目都用相对固定的代码作为标识——分类号每一个分类号代表一个特定的知识概念。特点:集中体现学科的系统性,反应事物的从属、派生关系,便于按学科门类进行族性检索。最常见的是体系分类语言——石家庄铁道大学图书馆——3.2.1体系分类语言国内:《中国图书馆分类法》(简称“中图法”)《中国科学院图书馆分类法》(简称“科图法”)《中国人民大学图书馆分类法》(简称“人大法”)。国外:《杜威十进分类法》《国际十进分类法》等《中国图书馆分类法》是国家推荐统一使用的分类法分类语言——石家庄铁道大学图书馆——3.2.2中图分类表的结构(1)基本部类(5个)(2)基本大类(22个)(3)简表(4)详表(5)辅助表分类语言——石家庄铁道大学图书馆——《中国图书馆分类法》基本部类(5)基本大类(22)一、马、列、毛、邓A马、列、毛泽东、邓小平理论二、哲学B哲学、宗教三、社会科学C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理分类语言——石家庄铁道大学图书馆——基本部类(5)基本大类(22)四、自然科学N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学五、综合性图书Z综合性图书《中国图书馆分类法》分类语言——石家庄铁道大学图书馆——其中“T工业技术”大类范围广泛,内容繁多,故又在该类基础上采用了双位拉丁字母标记其所属的16个二级类目。TB一般工业技术TD矿业工程TE石油、天然气工业TF冶金工业TG金属学与金属工艺TH机械、仪表工业TJ武器工业TK能源与动力工程TL原子能技术TM电工技术TN无线电电子学、电信技术TP自动化技术、计算机技术TQ化学工业TS轻工业、手工业TU建筑科学TV水利工程分类语言——石家庄铁道大学图书馆——简表:又称为基本类目表,是分别对每个基本大类,依据它的某些属性,作进一步划分后而形成的二、三级类目表。如:O数理科学和化学一度划分:O1数学O3力学O4物理学O6化学O7晶体学分类语言——石家庄铁道大学图书馆——O1数学,二度划分:O11古典数学O12初等数学O13高等数学O14数理逻辑、数学基础O15代数、数论、组合理论O17数学分析O18几何、拓扑O19动力系统理论……分类语言——石家庄铁道大学图书馆——详表:整个分类法的正文,亦称正表,由简表进一步细分而成的最小概念性分类表,是类分信息资料的依据,两万个。O17数学分析O171分析基础O172微积分O172.1微分学O172.2积分学分类语言——石家庄铁道大学图书馆——《中国图书馆分类法》比如:《房屋建筑工程》索书号:TU22/61=分类号TU22+种次号61TU22/61T:工业技术TU:建筑科学TU2:建筑设计TU22:房屋构造设计61:种次号,即属于本馆房屋构造设计类第61种图书分类语言——石家庄铁道大学图书馆——3.2.3杜威十进分类法(DDC)•世界上流传最广影响最大的分类法•在美国有95%的公共图书馆在使用分类语言——石家庄铁道大学图书馆——DDC第21版的类目共有10大类•000计算机、信息与总类•100哲学和心理学•200宗教•300社会科学•400语言•500科学(指自然科学)•600技术应用科学•700艺术和娱乐•800文学•900历史、地理分类语言——石家庄铁道大学图书馆——3.3主题词语言定义:国外称叙词,是以概念为基础,经过严格规范化,通过概念组配方式表达文献主题的规范化的词或词组。•属于人工语言,经规范化处理。(由文献加工者提取)如:电脑、微机(不规范词)——计算机(规范词)。受主题词表(叙词表)控制优点:检索结果准确而全面缺点:需要查阅主题词表•常用INSPEC的词表《INSPECThesaurus》、EI的《EIThesaurus》及我国编辑出版的《汉语主题词表》等。主题词语言——石家庄铁道大学图书馆——从文献的题名和内容中抽取出来的,能够表达主题内容的具有检索意义的关键性词汇。•属于自然语言,未经过规范处理。(由文献作者提取)•没有固定词表,标引文献时根据文献内容选择恰当的词汇进行组配,以表达文献的内容特征。•优点:一是有利于计算机自动抽词标引,适合于电子信息资源的标引和检索。二是符合习惯、容易接受。3.4关键词语言关键词语言——石家庄铁道大学图书馆——•缺点:查全率、准确率较差。同义词标引——引起漏检;多义词标引——引起误检例:同义词,飞机:Airplane、Aircraft、Planes多义词,cell:电池、细胞关键词语言——石家庄铁道大学图书馆——主题词是经过人工规范的词汇关键词是没有经过规范的自然语言词汇如:图书馆在标引“土豆”、“洋芋”等方面的文献时用“马铃薯”这一规范词。主顾、顾客、购物者、消费者、使用者、