第二讲检索原理第一节信息检索的基本原理信息检索(InformationRetrieval),是指将信息按一定的方式组织和存贮起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存贮与检索”(InformationStorageandRetrieval)。信息检索又叫情报检索或文献检索。文献信息检索是指从文献信息集合中查找所需文献或文献中包含的信息内容的过程。广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。狭义的信息检索:一个匹配(Match)过程,即用户使用检索语言对自己的信息需求予以描述,并在一定的信息资源系统中进行描述匹配的过程。计算机检索的奥妙:关键词匹配计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。存储检索原始文献加工整理数据库提问检索输出“爱因斯坦论文”“论文”“爱因斯坦”“论文”“爱因斯坦”三、文献信息检索的分类(按其检索对象)文献检索(DocumentRetrieval)文献信息检索数据检索(DataRetrieval)事实检索(FactRetrieval)文献检索是以文献全文(或文献线索、文摘)为检索对象的一种检索,凡是查找某一主题、学科、时代、地区、著者、文种的有关文献均属于这一范畴。是以数值或图表形式表示的数据为对象的检索。例如,查找某一数学公式、数据图表、某种材料的成分、性能等。是以事实作为检索对象,查找用户所需的描述性事实,其检索对象为机构、企业、人物的基本情况、历史变迁等。信息检索原理检索提问式信息的选择与收集信息特征标识语言检索工具匹配检索结果信息源用户信息需求检索提问数据库检索提问式信息检索类型₪依信息存储和检索的方式手工检索(ManualRetrieval)也叫传统信息检索,是利用各种印刷型检索工具来查找文献的一种方法。计算机检索(Camputer-basedRetrieval)也叫现代信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。主要计算机检索系统类型计算机检索系统由一定的检索设备(计算机)和经过加工整理并存储在相应载体上的信息集合及其他设备共同构成的具有存储和检索功能的信息服务系统。联机检索(onlinesearch)脱机检索(offlinesearch)光盘检索(CDsearch)网络检索(Internet/Websearch)(全球数字图书馆系统)第二节检索语言一、文献的基本特征检索工具是对各种文献特征描述的集合,而检索语言是对检索工具编排以及对文献特征描述的规范。(一)文献的外表特征:主要是指文献的题名(包括:书名、期刊名、篇名等)、著者姓名、研究机构、出版者、科技报告的报告号、专利号等。在检索工具中,文献的外表特征常常按名称、号码等序列排,方便易懂,检索较为方便。(二)文献的内容特征:是指文献所论及的主题、观点、见解和结论等等,或者说,文献所研究的是哪一学科、哪一专业的问题;研究的是哪一主题的问题。由此可见,文献的内容特征常常需要分析研究才能得出。二.文献检索语言1.定义:是根据信息检索的需要编制的,供标引文献和检索文献用的一种人工语言,是标引者和检索者共同约定使用的语言。2.特点:1)表达的概念具有单义性和唯一性(如:发展中国家兔的饲养、一个半劳动力)。2)可使内容相同和相关的文献集中,使大量分散的文献存储系统化、组织化,便于进行有规律的检索。(按不同的方式系统归类------不同类型的检索语言)检索语言是用来加强文献标引人员和文献检索人员之间的联系,解决标引、存贮和检索、利用的矛盾,达到存贮和检索的一致性,以提高检索效率的一种人工语言。因此,我们常说,检索语言是检索人员与检索工具之间的桥梁。因为自然语言本身存在大量的词汇歧义和语义歧解现象,不能直接用作存储和检索中的语言(如:发展中国家兔的饲养、一个半劳动力、和服务)三、检索语言的种类分类语言主题语言号码语言题名语言著者语言目前应用较多的是:分类语言中体系分类语言和主题语言中的标题语言、单元词语言、叙词语言和关键词语言。文献检索语言3.分类表四、体系分类语言是按照一定的观点,以学科分类为基础,结合文献内容特征,运用概念划分方法,按知识门类的逻辑次序,从总到分,从一般到具体,从低级到高级,层层划分,逐渐展开的一个层累制号码系统,是用分类号表达文献议题概念的检索语言。该语言对各级类目以固定组配形式供书目控制时使用。1.体系分类法的原理体系分类法是一种直接体现知识分类的等级制概念的标识系统。它是运用逻辑分类的原理,按照文献所属的学科、专业及特征,对文献进行系统化组织的一种方法。它是使用最普遍的一种方法。如:TP自动化技术计算技术TP1自动化基础理论TP2自动化技术及设备TP3计算技术计算机TP9计算机应用TP91信息处理.7机器辅助技术.72机器辅助设计自动设计CAD.73机器辅助制造CAM.75机器辅助计算TP93计算机网络.1局部网络.2远程网络......2.体系分类法的结构我国广泛使用的《中国图书馆图书分类法》简称《中图法》,就是一种典型的体系分类法,它由编制说明,基本大类,简表,详表,辅表五个部分组成。现以1999年出版的第四版《中图法》为例,说明体系分类法的结构。(1)编制说明:包括该分类法的编制过程,所依据的编制原则、部类及大类的设置和次序的理由,对各种分类问题的处理方法,标记方法,使用方法等。(2)基本大类:采用五个基本部类。即马克思、列宁主义毛泽东思想,哲学,社会科学,自然科学,综合性图书。在此基础上组成了22个基本大类(一级类目)(3)简表由三级类目组成,是《中图法》的基本类目表,浏览简表可以很快了解整个分类体系的概貌,归类查表时只有从简表入手查详表,才能做到准确快速。(4)详表又叫主表,由类号、类目和注释组成。(5)辅表也叫复分表,用来对主表中所例举的类目进行细分,可分为“通用复分表”和“专用复分表”。基本大类表类目表简表详表复分表编制说明《中图法》的内容结构说明使用说明类目注释索引《中图法》体系结构基本大类简表详表复分表主题字顺组织法(简称主题法)所谓主题法,就是以自然语言中的词语或规范化的词语作为揭示文献主题的标识,并以此标识编排组织和查找文献的排检方法。标题词法单元词法主题法关键词法叙词法它是以标题词(规范的事物名称、名词术语)作为文献主题内容的标识和检索标识的主题法。它主张用最基本的、字面上不再分的词汇——单元词做主题词。单元词从文献内容中抽出,再经规范,能表达一个独立的概念。关键词法是直接从文献题名、文摘或全文中抽取出来的有实际检索意义的信息单元(关键词)作为主题词。叙词法是以叙词做主题词的主题法。叙词是一种以概念为基础的,经过优选的规范化名词术语,具有单义性,组配性能好的特性。1、标题词法它是以标题(词)作为文献主题标识。所谓标题(词),是指事物定型的名词术语。如“社会主义社会”、“图书学”、“鲁迅的世界观”等都可作为标题(词)。这种主题法的主标题和副标题是预先组配好了的(先组式),有标题词表可遵循,在标引和检索时不易混乱。但标题词往往过大,专指性差,使用不灵活。2、单元词法(又称元词法)它是以单元词作为文献的主题标识。所谓单元词,是指从文献内容中抽出的最基本的、字面上不能再分的词。如“经济”、“美国”。“鲁迅”等无定语的词都是单元词。对于复杂概念,则用单元词进行组配(后组式)。如“经济”和“地理”两个单元词可组配成“经济地理”。单元词法使用灵活,但组配时容易出现概念不清或不统一的毛病,影响检索效果。3、叙词法它是以叙词(或称叙述词)作为文献的主题标识。所谓叙词,是从文献内容中抽出的能概括表达文献基本内容的名词术语。如《马克思的国家性质论》这篇文章的内容其叙词可概括为“国家理论”或“马克思的国家理论”;《治学辩证法》这部书,其叙词可概括为“学习方法”或“科学方法论”。这三种主题法都必须对文献中的自然语言加以规范化,制定标题表、元词表和叙词表(又称主题词表),供文献标引检索之用。4、关键词法是以关键词(或称键词)作为文献的主题标识。所谓关键词是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中。对表征文献主题内容具有实质意义的、可以作为检索“入口”的语词。这些关键词是从文献原文中抽出的、不加规范,或只作极少量的规范化处理。这种主题法不用编表,标引速度快。但所标引的关键词常常因人而异,影响检索效果。五、主题语言:标题词语言标题词语言:是最早出现的一种主题法类型。是以标题词作为文献内容标识和检索依据的主题语言。标题词:是从文献题目和内容中抽选出来,经过规范化处理,用以描述文献内容特征的词,词组或短语。一般分为主、副标题词。1.标题词法的原理是从科技人员熟悉的大量科技名词术语中,选出具有实质性意义的科技名词术语,经过规范化处理,作为标识,来直接表达文献所论及的事物──主题,而不管该文献是从哪个角度,哪个学科来论述该事物主题的,并将全部标识按字顺排列,而不管各个标识所表达的事物──主题之间的关系。主标题词的构成方式正叙式:将事物的名称、现象、方法或过程和名词术语直接作为主标题词。如DATAPROLESSING倒叙式:是在事物的名称或方式、过程的名词后加上进一步表示该事物或过程的特征、类型的限定词,中间用逗号分开的方式构成。如PIPE,STEEL并列式:是将两种互有联系而又各自独立的事物或概念的名词,以并列的方式构成的主题词。如:metalandalloys副标题词是用来修饰、限定和细分主标题词,经过规范化的词、词组或短语。2.标题词的规范化处理规范化处理:指对标题词中的同义词、近义词、多义词、反义词等进行管理和控制,使标题词能满足准确性和通用性的要求,以达到表述文献主题概念的唯一性。(1)同义词a.新名与旧名,一般选用新名b.全称与简称一般选准确、通用为原则c.学名与俗名,一般用学名d.音译与意译,一般用意译(2)近义词合并作为概念的等同关系,如实验和试验(3)反义词一般用正义词肯定词(4)多义词一般用加上概念限制的方法六、主题语言:单元词语言是以单元词作为文献内容标识和检索依据的主题语言。单元词:是从文献中抽取出来,经过规范化的,能描述文献所论及的事物──主题的那些最小,最基本的词汇单位。1.单元词法的原理通过用单元词表达的单元概念的组合或组配,可以表达一个完整的,复杂的概念。2.单元词法的特点优点:具有较强的语义表达能力、有利于主题因素复杂的多维概念文献的标引和检索。缺点:在组配时容易产生虚假组配,影响检索的准确性。如“机床”,“检修”产生“机床的检修”和“检修用机床”两种概念。七、主题语言:叙词语言叙词:是描述文献内容特征的知识单元,即在概念上不能再分的基本概念。1.叙词法的原理概念组配,是将叙词表中两个以上的叙词,用一定的关系符号把它们连接在一起,以扩大或缩小其表达事物概念的本质属性。用以准确描述文献的议题内容。它是以逻辑运算方式来表达的。2、叙词法优点(1)组配准确,标引能力强;(2)结构完备,词汇控制严格;(3)适合多途径检索,检索效率高;(4)对检索系统的适应能力强;(能同时适应于标识单元和文献单元检索方式,适应计算机检索系统和手工检索系统)3、叙词法的缺点(1)词汇控制要求严格,词表编制和管理难度大,需要花费较多人力、物力;(2)文献标引须在概念分析基础上进行,标引规则较复杂,标引难度大,速度慢;(3)用户难以熟悉词表及标引规则,给使用带来不便。4.《汉语主题词表》简介它是一种将自然语言转换为检索语言的叙词控制工具,是叙词语言的具体表现。广泛用于编制中文检索工具和检索中文科技文献,它共收词108568个(正式叙词91158,非正式叙词174