《信息检索教程》第2章计算机信息检索技术编著:刘廷元本书由刘廷元、邵卫东、汤凝共同编著,具体分工如下:第1章、第2章、第4章、第9章、第5章第1-5节、第7章第4节由刘廷元(西南石油大学)完成;第3章、第6章、第5章第6-8节、第7章第1-3节由邵卫东(安徽理工大学)完成、第8章由汤凝(安徽理工大学)完成。全书的统稿和增删由刘廷元完成。在编著过程中,借鉴和参考了国内外的许多同类著作、教材和讲义,在此谨向有关作者和出版社表示感谢。使用中读者如有什么建议,或者本书如果有什么问题,请用邮件与作者联系。为了方便使用本书,我们编写有配套的电子课件及教学资料素材(包括实习课习题及详解、模拟考试题及答案、课后习题解答。联系人:E-mail:liuty@swpu.edu.cn或liguopingsh@163.com。2-3June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件1信息检索的基本概念1.1信息检索的涵义从广义上讲,信息检索包括两个过程,一是信息存储(informationstorage),即信息的标引、加工和存储过程:二是信息检索(informationretrieval),即信息用户的查找过程。从狭义上讲,信息检索仅指后一部分。信息检索的本质是一个匹配的过程•即用户的信息需求和信息存储的信息集合进行比较和选择的过程2-4June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件信息存储和检索过程的基本原理输出一次信息信息特征检索语言信息特征标识检索结果信息需求检索提问检索提问标识分析标引标引输入检索信息检索系统(工具)存储过程检索过程分析2-5June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件计算机信息检索是对信息进行收集、分类、标引、著录,并加以有序化组织,将信息储存到计算机存储信息系统中,编制出一个信息检索系统或信息检索工具的过程。1.2计算机信息检索2-6June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件用户输入检索需求分析转换处理需求数据库检索=概念词的相关匹配运算概念词典控制词表信息源筛选录入分类、词索引文档预处理计算机信息检索的基本原理2-7June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件1.3信息检索的类型按信息检索的内容划分文献检索数据检索事实检索概念检索按信息检索的组织方式划分•全文本检索•多媒体检索•超文本检索超文本检索是对每个节点中储存的信息以及信息链构成的网络信息进行的检索。与传统文本的线性顺序不同,超文本检索强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件2检索系统检索系统(retrievalsystem)是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。2-9June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件2.1检索系统的功能模块信息源选择与采集子系统——对通常的计算机检索系统来说,信息选择与采集主要由人工完成,但对于网络信息检索系统来说,则主要通过网络搜索机器人Robot自动进行,并且可以定期更新。标引子系统——标引处理的类型:人工赋词标引、机器标引、无标引(或全标引);标引要求:不漏标(全面)、不错标(准确)、不滥标(简练)。建库子系统——工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。2-10June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件2.1检索系统的功能模块词表管理子系统——主要功能:管理维护系统中已有词表的结构、词汇,使它与标引、建库、检索等多个子系统相连接;支持用户的各种词汇查询操作;输出各种形式的词汇数据或词表产品等。用户接口子系统——一般有5种界面风格:命令/指令语言(commandlanguage)、菜单选择(menuselection)、表格填充(formfill-in)、直接操纵(directmanipulation)、自然语言(naturallanguage)。提问处理子系统——检索系统(数据库)的核心,负责处理用户输入的检索词或提问式,并将它们与数据库中存储的数据进行匹配运算,然后把运算结果返回给用户。2-11June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件2.2文档——记录——字段检索系统的基本组织形式由三个层次构成。文档(file):检索系统至少包括一个顺排文档(sequentialfiles)。有的还包括一个倒排文档(invertedfiles)。记录(record):文档的基本单元,由若干字段组成的信息单元,是对某一信息实体的全部属性进行描述的结果。字段(field):是记录的基本单元,它是对信息实体的具体属性进行描述的结果。2-12June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件2.2文档——记录——字段检索系统的基本组织结构关系:数据库database文档file,archive顺排文档记录Record字段Field倒排文档(索引index)2-13June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件3检索语言检索语言(retrievallanguage)是文献信息标引和检索提问而约定的人工语言。检索语言是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。——在存储的过程中用于标引信息称为标引语言;——用于编制索引就称为索引语言;——用于信息检索则称为检索语言。2-14June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件3.1检索语言的种类分类语言(classificationlanguage)是用分类号表达各种概念的检索标识,将各种概念按学科性质进行系统排列,反映科学知识分类体系的检索语言。主题语言(subjectlanguage)是直接以表达文献主题的语词作为检索标识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。代码语言(codelanguage)是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。2-15June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件检索语言的类型描述内容特征语言描述外表特征语言主题语言分类语言代码语言责任者题名其他自然语言受控语言关键词语言——(keyword)标题词语言——(heading)单元词语言——(uniterm)叙词语言——(descriptor)2-16June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件分类语言•分类语言中最常见的是体系分类语言,它按照学科体系由上至下,从总体到局部,由一般到具体,从低级到高级,从简单到复杂的逻辑次序逐级展开。•专利分类表•中国科学院图书分类法•中国图书馆图书分类法•杜威十进分类法(国外)2-17June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件中国图书馆图书分类法基本部类:1、马克思主义、列宁主义、毛泽东思想、邓小平理论2、哲学3、社会科学4、自然科学5、综合性图书基本大类:(22个)A马列主义毛泽东思想邓小平理论N自然科学总论B哲学O数理化科学C社会科学总论P天文学、地理D政治、法律Q生物科学E军事R医学、卫生F经济S农业科学G文化、科学、教育、体育T工业技术H语言、文字U交通运输I文学V航空、航天J艺术X环境科学K历史、地理Z综合性图书2-18June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件中国图书馆图书分类法F经济F1世界各国经济概况、经济史、经济地理F11世界经济、国际经济关系F12中国经济F13/17各国经济F2经济计划与管理F20国民经济管理F21经济计划F22经济计算、经济数学方法F23会计F239审计F24劳动经济F25物资经济2-19June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件F27企业经济F29城市与市政经济F3农业经济F4工业经济F7贸易经济F72中国国内贸易经济F73世界各国国内贸易经济F74国际贸易F75各国对外贸易F8财政、金融F81财政、国家财政F82货币F83金融、银行F84保险2-20June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件中国图书馆图书分类法T工业技术TB一般工业技术TL原子能技术TD矿业工程TM电工技术TE石油、天然气工业TN无线电电子学、电讯技术TF冶金工业TP自动化技术、计算机TG金属学、金属工艺TQ化学工业TH机械、仪表TS轻工业、手工业TJ武器工业TU建筑科学TK动力工程TV水利工程2-21June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件图书馆的藏书都是按分类号排架的。分类号的排列采用由左至右逐位对比的方法进行排列,先比较字母部分,再比较数字部分。——字母部分按英文字母固有的次序排列。例:B2中国哲学B3世界哲学E27各种武装力量E512苏联军事TM92电气化、电能应用TU201建筑设计原理——分类号中的阿拉伯数字依小数制排列。例:B021辩证唯物主义的物质论B022辩证唯物主义的意识论B022.2客观规律性与主观能动性D035.37交通公安管理D035.4监察、监督分类号的排列次序2-22June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件分类号的排列次序(续)——数字之后如还有字母,则在前部类号相同的基础上,再按字母顺序排列。例:TP312ALALGOL程序语言TP312BABASIC程序语言TP312COCOBOL程序语言——总论复分号“-”要排在数字“0”的前面。例:H-61,H0,…,H31-61,H310,…——总论复分号“-”要排在组配符号“:”的前面。例:H31,H31-62,H31:F,H31:I,…,H319,H319.4,H319.4-44,H319.4:B,H319.4:C,…2-23June12,2020北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件读者实际利用图书馆时,往往需要知道书刊的分类号