信息资源的主题组织语言本节学习目标信息资源的主题组织语言主题词法单元词法叙词法关键词法关键词法应用实例标引分类标引主题标引一、主题组织1.1主题组织的内涵主题组织是按照信息对象等所反映的主题特征的异同,用接近自然语言的能表达宽泛程度各异的概念语词和语词符号标识这些特征,通过参照系统等方法揭示概念词间关系,并将概念词语、词语符号按音、形顺序排列来组织信息,以便提供一种易用的面向具体事实、概念的检索途径的信息组织方法和活动。主题组织法适用于各种信息检索系统的记录单元的组织,如检索工具、数据仓库等。主题组织法包括标题词法、单元词法、叙词法、关键词法。1.2主题语言主题是指信息对象所表达或反映的主要内容、问题或事物。按照信息所表达的中心问题数量的多少,主题可以分为单主题和多主题两种类型。主题词是用于描述、存储、检索信息主题的受控词汇,是主题表中能够表达一定意义的最基本词汇单元。主题词的选用主要依据三个方面:出现频率、引用频率和查找频率。主题词分为单元词、标题词、关键词和叙词。将主题词按一定方式、规则组织成的词汇表称为主题词表。主题语言的要素:1语词标识采用自然语言中的但经过控制的名词术语作为描述文献主题的标识。2字顺系统汉字字顺系统主要有音序和形序3主题检索工具根据主题语言原理编写的各种主题检索工具,如主题目录、主题索引、计算机中的主题词倒排档等。主题法标题法/主题法标题词标题单元词法单元词、元词叙词法/主题词法叙词、描述词、主题词关键词法关键词规范语言自然语言检索词标引词索引词先组式语言后组式语言二、主题语言2.1标题词语言标题词是经过规范化和标准化处理的简略表达信息对象论及或涉及的事物,是完全受控的一种主题标识,是一种先组式语言。标题词语言基本构成要素有主标题、副标题和说明语。标题词的语义参照是标题法揭示标题之间的语义关系的一种重要手段。有单纯参照、相关参照和一般参照。1单纯参照反映同义关系“见”、“见自”2相关参照具有等级或相关关系而又是正式使用的标题词之间的参照“参见”、“参见自”例:电脑(非正式)见电子计算机见(正式)电子计算机(正式)见自电脑见自(非正式)海洋学(上位)参见海洋地质学参见(下位)海洋地质学(下位)参见自海洋学参见自(上位)海关法(相关)参见关税法参见(相关)2.2单元词语言单元词是从文献里抽取出来的并经过控制处理的,能表达文献主题最小、最基本的在概念上不能再分解的,并能独立地描述文献所论及或涉及的事物——主题的词汇单位。单元词可以是一个单纯词,如“山”、“水”、“玻璃”、“马克思”等,也可以是一个合成词,如“文字”、“铁路”、“污染”、“强度”、“隔音”等。这些词的共同特点是概念上不可分。单元词只是构成“标题”的构件,它们本身绝大部分不是具体的标题,或者说只是一些不符合“直接地、精确地表达文献主题”这一基本要求的“标题词”。若干单元词的相互组合或组配,才能构成一个专指标识,精确表达文献主题或检索课题。例如:单元词法是一种后组式语言。标题法只能选择一种标题形式作为正式标题,而单元词法不存在词序问题,组成标题的每一个单元词都可以作为检索入口,并且利用对单元词的增加或减少可以进行扩检或缩检。单元词法主要采用字面组配,误检率较大。单元词文献主题或检索课题隔音+纸隔音纸隔音+板隔音板隔音+塑料+板塑料隔音板2.3叙词语言叙词语言是以受控的自然语言词汇作标识,主要以标识的概念组配来表达主题概念的一种后组式主题语言。我国又称为主题词语言。叙词法主要采用概念组配。叙词法特点:1直观性强直接以规范化了的自然语言——叙词作为标志符号2专指性强直接从论述和研究的具体对象和问题出发选词,采用叙词组配3适应性强随时加以增设修改4灵活性强采用后组式概念组配方法5多途径检索同一主题文献6查找迅速采用字顺排列方式7叙词表编制和建立了叙词语义关系的网络结构(叙词字顺索引的参照系统、叙词范畴分类系统、叙词等级系统、叙词词族图等),加强了叙词法的学科系统性和族性检索作用。字面组配与概念组配的区别概念字面组配概念组配备注老人头皮鞋老人头+皮鞋老人头牌+皮鞋老人头是商品品牌岳西高腔岳西+高腔岳西地方戏+高腔岳西+高腔概念大香蕉苹果香蕉+苹果香蕉味水果+苹果香蕉+苹果误检牛蛙牛+蛙牛蛙单纯词不可再分田鸡田+鸡田鸡单纯词不可再分岳西翠兰岳西+翠兰岳西翠兰+茶叶茶叶名2.4关键词语言关键词指在文献的标题、摘要或正文中出现的、对表达主题内容具有实质意义、能作为检索入口的、具有关键性描述作用的词汇。关键词语言是自然语言,直接取自文献的题名、文摘等,或者取自全文,除了一些冠词、介词、副词或连词外,凡在概念上有意义的词都可用做关键词。关键词索引的主要类型有普通关键词索引、题内关键词索引、题外关键词索引、词对式关键词索引、双重关键词索引等。实例:计算机在神经生物学与行为学中的应用单纯关键词索引把文献的正文、摘要和题目中抽出的关键词按字顺轮流领头进行排列且没有上下文修饰,每组关键词后著录文献号码,组成一个款目。关键词1关键词2关键词3……关键词n文献地址计算机神经生物行为学0007神经生物计算机行为学0007行为学计算机神经生物0007题内关键词索引(Keywordincontextindex,KWIC)又称上下文关键词索引。关键词保留在文献题目内,关键词的上下文和词序都不变。在编制索引款目时,每个关键字按字顺轮流做检索标目,排在版面的固定位置,用黑体字表示为作为标目的关键词,上下文也随之移动位置。上文关键词下文文献地址联机计算机在核反应堆中的应用0001计算机与信息系统引论0002以计算机为基础的信息系统导论0003计算机在神经生物和行为学中的应用0004图书馆与计算机0005教育与计算机0006题外关键词索引(Keywordoutofcontextindex,KWOC)也称上下文索引,针对KWIC提出的改进形式。编制原理和单纯关键词索引基本相同,不同的是把文献中抽出的关键词轮流放在题目、号码前面。关键词篇名文献地址计算机计算机在神经生物和行为学中的应用0007神经生物计算机在神经生物和行为学中的应用0007行为学计算机在神经生物和行为学中的应用0007标题词是一种先组式语言,单元词、叙词、关键词是后组式语言。先组式语言:检索前检索词已被固定关系组配好,并编制在词表中。检索时,用户只能根据词表去查找信息,不能任意组配。具有较高的专指性,但灵活性差。后组式语言:检索前检索词在词表中未被组配,检索时用户可根据不同的检索需求对某些词任意组配。国内主题语言应用:汉语主题词表中国分类主题词表国外主题语言应用:医学标题表MeSH(medicalsubjectheadings)三、关键词法在网络信息组织中的广泛应用关键词法的应用最突出的当属搜索引擎!搜索引擎的检索功能主要有:简单关键词高级关键词布尔检索逻辑与、或、非(AND、OR、NOT)精确检索(词组检索)“”模糊检索关键词的同义词、近义词等截词检索“*”字段检索限定的字段有题名(title)、URL、域名(domain)、链接(link)等。限制检索信息类型如文本、图像等。四、信息资源的标引4.1标引标引是对信息的内容进行分析,并运用一定的语言和方法,根据信息内容的学科属性等特征给予标识(如主题词、分类号)等,并以此作为信息组织、存储和检索依据的过程。标引的两个环节:主题分析和转换标识。4.2标引的种类标引分为分类标引和主题标引。以分类号作为描述信息的检索标识的一类标引称为分类标引。以语词符号作为描述信息的检索标识的一类标引称为主题标引。其它分类,按照是否有机器介入分为人工标引、半自动标引和自动标引;按照标引的深度分为深标引和浅标引(参照P115)4.3标引的过程1主题分析把握语法关系,找出核心主题。2标引主题概念转换或归类,即根据主题分析结果给信息对象以分类标识或主题标识。给以分类标识的过程称为归类,即按照主题内容的学科属性归入分类法中最适当的类目。给以主题标识就是把自然语言提炼的主题,转换成叙词表中的正式叙词所表达的主题。3标引结果记录在规定的载体上,按照一定的格式,将分类或主题标引的结果记录在载体上。实例:对《马克思主义与文艺》进行标引第一步:分析主题阐述马克思主义对文艺的影响提取出题:马克思主义—文艺第二步:概念转换或归类影响关系,按照受影响的主题归类,归为“I0文艺理论”主题转换为叙词表中正式叙词表达的主题第三步:记录标引4.4标引工具主题标引需借助主题表作为标引工具。分类标引需借助分类表作为标引工具。分类标引工具就其应用范围大致分三类:用于各种信息记录的分类标引工具,称为分类法或分类表;适用于产品、商品、物资等信息实体及其有关信息分类标引的工具,称为分类代码表或分类目录用于信息统计、汇总的分类标引工具,称为检索词典。4.5分类标引操作程序1全面分析标引对象的特征,得出归类意向2在标引工具中查找能反映标引对象特征的类目3为标引对象标出正式的分类代码或词语形式的类别标识4进一步加工定型分类标识5对标出的分类代码、词语形式的类别标识及其它符号进行复核,以确保无误。4.6分类标引的原则和方法1考虑使用性把信息归入最符合实际内容的类,尽量全面地考虑信息内容的各个不同角度,方便信息工作人员使用。2主题通常先于类型3使用最专指的类号当没有专指的类号赋予时,依靠所用的分类表给予邻近的上位最专指的类号。4不孤立地从索引中取类号索引中取的类号到主表中加以论证5注意结构分类法的系统性和局限性凡是能归入下位类的,不应该入上位类,凡是归入某类的下位类必须具有上位类的学科性质。6前后一致同类信息的标引前后一致4.8主题标引主题标引是依据一定的主题词表或主题标引规则,将信息资源中具有意义的特征转换成相应的主题词,赋予信息资源标识的过程。主题标引的规则对文献主题概念进行转换时必须遵守主题词标引的基本规则,包括查词规则和组配规则。查词规则:采用正式叙词标引:用来标引的叙词必须是《汉语主题词表》中的正式叙词;上位叙词标引:没有最专指的叙词,也无法以词表中最接近、最直接的叙词进行组配时选用;增词标引(新概念,不宜采用任何标引时)。组配规则1叙词的组配必须是概念组配,参加组配的叙词之间有一定的逻辑关系。2叙词的组配应优先采用交叉组配,不能使用交叉组配时,选用限定组配。3叙词的组配必须选用与文献主题关系最密切、最邻近的叙词进行。主题标引的具体规则:1单主题、多主题信息资源的标引2简单主题、复合主题、联结主题文献的标引3只论及一个地区或时代有关主题内容的文献4传记文献的标引5文艺领域作品的主题标引6丛书、多卷书、论文集的主题标引7百科全书、年鉴、手册、词典的主题标引8目录、索引的主题标引9特种文献和非书资料的主题标引10网络信息资源的主题标引