1第三讲信息检索与信息描述教学内容:教材2章1节、3章目的与要求:以掌握信息检索的概念、原理、类型为基础,掌握信息检索语言在表达信息需求与描述文献特征中的作用,并对信息检索语言的主要分类及类型有基本了解。巩固入学时所讲《中图法》的应用,基本掌握分类检索语言的特点;重点掌握科研信息获取中常用的主题检索语言的特点及应用。以《医学主题词表》为例,讲授该词表的构成、编排规则和使用方法,基本掌握如何使用《医学主题词表》进行文献标引,以及标引、主题标引等概念及其作用。教学重难点:1.信息检索的原理;2.文献检索与事实检索、数据检索的区别。3.检索语言的主要分类;关键词语言、主题词语言、分类语言的比较;规范化语言与非规范化语言的对比。4.《医学主题词表》(MeSH)的组成、作用;字顺表中参照关系的意义及使用;字顺表和树状结构表的配合使用。5.标引的作用、主要类型;6.以MeSH为例,标引基本原则及选词一般顺序;组配标引;配对标引。23.1.1信息检索的定义(P21)广义的信息检索:是指将信息按一定的方式组织和存储起来,以及根据用户的需要找出有关信息的过程。所以它的全称又叫“信息的存储与检索”。广义的信息检索包括两个过程:(1)信息存储过程,即搜集、筛选、整理、积累现有信息,将信息按一定方式组织和存储起来,形成检索工具或系统。(2)信息检索过程,即利用信息检索工具或系统查找所需要的信息。狭义的信息检索:即广义信息检索的第2个过程。相当于人们通常所说的信息查询。3.1信息检索的定义、原理、类型343.1.2信息检索原理基本原理——即检索者的检索提问词与存储于检索系统中的文献标引词进行匹配对比(相似度计算)、取得一致即为最符合要求的结果。相似度有不同的匹配方式,常见的有:义、形的相似完全相似、部分相似53.1.3信息检索的类型(P23)一、按信息检索对象划分文献检索以文献作为检索对象文献检索是一种相关性检索而非确定性检索事实检索以客观事实为检索对象是对包括事实(fact)、数值(numericdata)与全文(full-text)的检索,提供原始信息,给出直接、确定性的答案。主要借助各种参考工具书及事实型数据库进行检索数据检索以特定的数据为检索对象其结果可供用户直接使用6二、按照存储载体及检索操作方式划分①手工检索(手检)使用的多为印刷型或书本型检索(paper-basedretrieval)工具。定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分有限,检索结果往往不尽人意。②机械检索7③计算机检索(机检)它通过数据库系统来实现的。检索过程是在人与机器的合作、协同下完成的。人是整个检索方案的设计者和操纵者,计算、比较、选择的匹配任务是由机器来执行的。计算机检索明显优于手工检索,主要表现:检索的信息量大数据更新快检索功能强检索结果输出的多样性83.1.4当前信息检索的发展特点(补充知识点,了解)检索智能化检索可视化检索简单化信息形态的多样化信息提供的深入化检索多语种化提供全文检索用户友好化进一步提高自然语言与人工语言检索并用传统检索和网络检索长期并存93.2检索语言概述为保证检索提问标识与文献特征标识两者之间比较匹配的高效和准确,要求文献信息存储与文献信息检索的描述规则要尽可能一致——即分析提炼出来的文献特征标识和检索提问标识应该是遵循相同的方法和规则而产生的。3.2.1检索语言定义(P36)检索语言——是信息检索领域中用来描述文献信息特征和表达信息检索提问的一种专用语言。10检索语言是一种约定----是在标引者和检索者对同一篇文献的理解一致的基础上,确保使用相同的描述(词)。以“词”与“义”的单一对应性,来保证概念表达的唯一性,进而保证标引与检索的一致性。图2-1信息检索原理(见教材P23)113.2.2检索语言的功能与作用检索语言的功能与作用:(标准)表达和揭示文献的内外部特征,保证不同的标引者在标引文献时表达一致。(组织)集中并组织具有相同特征的文献。(沟通)沟通与规范文献标引者与文献检索者间的联系与行为,避免歧义与误差,减少误检与漏检。用检索语言编制的辞典,如《中国图书馆分类法》《医学主题词表》是用来指导信息标引和检索的工具。12一、(常用)以对文献何种特征描述为划分标准(P37)检索语言的类型表述文献外表特征的语言表述文献内容特征的语言题名责任者序号引文分类语言主题语言标题词语言单元词语言叙词词言关键词语言体系分类组配分类混合分类3.2.3检索语言分类13一)分类检索语言分类语言是一种按学科范畴和体系来划分事物的语言,它是以数字、字母符号对信息内容特征进行标识的一种检索语言。特点:系统性、间接性、稳定性体系分类语言以科学分类为基础,以文献内容的学科性质为对象逐级划分,层层隶属,直接体现分类概念等级的标识系统效果:同类相聚、异类相分、相关相邻组配分类语言用科技术语组配的方式来描述文献内容科技术语按其学科性质分为若干组,称为“组面”,附有相应的号码混合分类语言14二)主题检索语言概念:是指用能反映文献实质内容的语词来标引和检索文献,通过主题词表达各种概念的一种检索语言。特点:直观性、专指性、灵活性主要类型:标题词语言单元词语言关键词语言叙词语言15标题词语言:从文献中抽选、规范化、严格遵守词表单元词语言:单元词——从文献正文、摘要或题目中抽取出来的最基本的、其概念不可再分的词。未经规范化、无词表**关键词语言:从文献中抽取的表达内容的恰当词汇(意义单元)无词表、未规范化或半规范化,相互间无明确隶属关系**叙词语言:表达文献基本内容的概念单元相互独立,但受词表控制;可明确词间的隶属关系;可组配16三)分类语言和主题语言联系:都是用以描述信息内容特征的语言。区别:分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如图书分类表、专利分类表用的都是分类语言。主题语言中的主题词直接表达概念本身;主题词间通过主题词表中的参照系统来指示词汇之间的关系。17*按规范程度:自然语言(非规范语言)、人工语言(规范语言)naturallanguage:自然语言是取其自然形态,不受控,使用非规范词(uncontrolledterm)或称自由词(freeterm)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。artificiallanguage:受信息检索的控制,使用控制、规范词(controlledterm)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。按检索语言的词汇组配方式:先组式语言和后组式语言。二、其他需要注意的检索语言类型划分方式(P36)183.3检索语言在医药学信息检索中的应用简称《中图法》,大型综合性图书分类法,目前是第5版。3.3.1《中国图书馆分类法》3.3.2《医学主题词表》**也称《MeSH》,国际知名、权威的生物医学专业主题词表,国内外有广泛应用。教材P3819简称《中图法》,大型综合性图书分类法,目前是第5版。它以各门学科的特点和规律为基础,按照知识门类的逻辑次序划分类目。由五个基本部类、二十二个基本大类、简表、详表和复分表五个部分组成。3.3.1《中国图书馆分类法》简介20一、基本部类《中图法》设置了五大基本部类,其排列顺序为:A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学C-K社会科学N-X自然科学Z综合性图书21二、基本大类基本大类是分类表中的一级类目。是在基本部类的基础上根据当前学科状况区分形成的具有独立体系的纲领性类目。《中图法》有22个基本大类。22三、简表简表是图书分类法的基本类目表。它是由基本大类进一步区分的类目组成,担负着承上启下的作用。《中图法》的简表一般区分到三级类目。例如:R医药、卫生R1预防医学、卫生学R2中国医学R3基础医学R5内科学R51传染病R52结核病┋23R医药、卫生R1预防医学、卫生学R2中国医学R3基础医学R4临床医学R5内科学R6外科学R71妇产科学R72儿科学R73肿瘤学R74神经病学与精神病学R75皮肤病学与性病学R76耳鼻咽喉科学R77眼科学R78口腔科学R79外国民族医学R8特种医学R9药学24四、详表详表是按照类目之间的等级关系细列出的分类表,它是分类法的正文。整个类目表以基本大类为起点,依次逐级区分为二级,三级,四级……直到不宜再区分为止。据统计《中图法》的详表部分共设有4万多条类目。25五、复分表(辅助表、附表)由共同性的子目构成,单独编制供有关类目进一步区分时共同使用的表。《中图法》的复分表有:总论复分表世界地区复分表中国地区表国际时代表中国时代表世界种族与民族表中国民族表通用时间、地点表26《中图法》的标记符号混合制号码(英文字母+阿拉伯数字),标记符号清楚,便于记忆。基本上遵循层累制的编制原则,数字的位数尽可能代表类目的级位。超过十个同位类时,采用八分制、双位制(TQ化学工业)。采用其它类号。使用了下位类号、上位类号或扩展使用了同级序列类号。《中图法》中有一些特殊符号,起辅助标记类目或辅助类号组合之用。如《中图法》设“a”推荐符号置于五位马列主义经典作家著作之后。他们的专著除集中在A类外,还应按学科内容在有关类目做互见反映,并标记“a”推荐符号。如《毛泽东论医疗卫生》入A495,同时又以Ra推荐到医学类。其它符号还有“—”总论复分符号;“()”国家区分符号;“=”时代区分符号;“:”组配复分号等等。27分类检索标引:文献分类必须以文献内容的学科或专业属性为主要标准。新趋势:多个分类号标引文献涉及的多个学科主题。检索:分析检索课题中的主要概念及隐含概念,以检索主要目的为依据,确定最符合的学科或专业属性,并以与之相对应的分类号作为检索标识直接与数据库中的标引标识进行匹配。利用:1)熟悉分类法。2)使用分类作为主要检索途径的工具,往往设有学科分类类名索引。形式如:高血压(R544.1)高血压性脑病(R743.2)高血压性心脏病(R543.1)3)如果一项课题同时涉及多个学科或专业,需在其中选择一个类号查找(手检)或几个类号组配查找(机检)。283.3.2《医学主题词表》(MeSH)P40一、《医学主题词表》简介《医学主题词表》(MedicalSubjectHeadings,MeSH)是由美国国立医学图书馆编制的目前最权威、最常用的标引与检索医学信息的主题词表。MeSH选词范围包括生物医学文献中能表达与医学或生命科学有关的概念、并且有检索意义的词或词组。按字顺编排。收录医学主题词27149个,入口词218000个(2014版)。29二、MeSH主要组成MeSH表的组成:一)主题词变更表二)字顺表三)树状结构表四)副主题词表30一)主题词变更表:⒈新增主题词表(NewHeadings2000):介绍当年新增主题词。NewHeadingPreviously-IndexesUnderHeading新主题词原先归属的主题词AcatalasiaCatalase(1965-1999)Acupuncture,EarAcupuncture(1972-1990)⒉删除的主题词(DeletedHeadings-2000):介绍当年被删掉的主题词。DeletedHeadingReplaced-byHeading删除的主题词代替的主题词AmnioscopyFetoscopyEmbryoResorptionEmbry