工欲善其事,必先利其器——信息检索原理与方法东北大学图书馆刘畅信息检索的基本原理•信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配(match)的过程。信息的特征一篇文章、一本书、一份报告等一般都有以下特征:•外表特征:题名、作者、作者工作单位,专利和科技报告还有专利号或报告号等,这些可以表征一篇特定文献的特征可以在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可以确定一篇文献。•内部特征:假如我们深入到文献内容中间,则可以发现还可用另外两种方法来表征它:主题词和分类号主题词一般,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。•文献中出现频率最高的词是冠词、介词和连词等,即其本身没有具体含义的词,如a、an、the、this、that、or、and、in、on、with等;•绝大部分词在文献中出现的频率较低;•在文献中出现的频率既不高也不低的词,在文献中约3-20个之间,这些词恰恰是与文献的主题相关度较大的词,我们称之为文献的主题词或关键词。分类号一篇文献还可以按照各种自然科学和社会科学的分类方法进行归类,如《中国图书馆分类法》:K历史、地理K2中国史K2O通史K201革命史O数、理、化O1数学O12初等数学O123初等几何信息检索语言•检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言。•检索的匹配正是通过语言的比较匹配来实现的。分类语言•按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。•由类目号码及名称作为检索语言,构成分类类目表,如图书分类表、专利分类表用的都是分类语言。•是用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。以科学分类为基础,运用概念划分和概括的方法,按照知识门类的逻辑次序,从总到分,从简单到复杂,层层进行概念划分,则产生许多不同等级的类目。上位类包括下位类的总合,下位类隶属于其上位类,同级类互不相容,构成一个严格有序的层磊式结构系。国内外常用的分类法•中国图书馆图书分类法(中图法)•中国科学院图书馆图书分类法(科图法)该分类法目前主要用于中国科学院图书馆及其所属各科研单位的图书馆(室)的文献分类。•杜威十进制分类法(DecimalClassification)简称为杜威法该分类法是目前世界上使用最广泛、影响最大的图书分类法,已用于130多个国家的图书馆,许多分类法均是借鉴于杜威分类法产生的。•美国国会图书馆图书分类法(LibraryofCongressclassification)简称为LC分类法。目前美国大多数图书馆采用的分类法。•国际十进分类法(UniversalDecimalClassification)简称UDC分类法•国际专利分类法(InternationalPatentClassification)简称IPC中国图书馆分类法分五大部22大类:A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D-K社会科学各学科N自然科学总论O-X自然科学各学科Z综合性图书•A马克思主义、列宁主义、毛泽东思想、邓小平理论•B哲学、宗教•C社会科学总论•D政治、法律•E军事•F经济•G文化、科学、教育、体育•H语言、文字•I文学•J艺术•K历史、地理•N自然科学总论•O数理科学和化学•P天文学、地球科学•Q生物科学•R医药、卫生•S农业科学•T工业技术•U交通运输•V航空、航天•X环境科学、安全科学•Z综合性图书中国图书馆分类法T工业技术•TB一般工业技术TD矿业工程TE石油、天然气工业TF冶金工业TG金属学、金属工艺TH机械、仪表工业TJ武器工业TK动力工程TL原子能技术TM电工技术TN无线电电子学、电讯技术TP自动化技术、计算机技术TP1自动化基础理论TP2自动化技术及设备TP3计算技术、计算机技术TP30一般性问题TP31计算机软件TP32一般计算器和计算机TP33电子数字计算机(不连续作用电子计算机)TP34电子模拟计算机(连续作用电子计算机)TP35混合电子计算机TP36微型计算机TP37多媒体技术与多媒体计算机TP38其他计算机TP39计算机的应用TP6射流技术(流控技术)TP7遥感技术TP8远动技术TQ化学工业TS轻工业、手工业TU建筑工程TV水利工程中图法分类标引实例分类标引方法:崔文风著1.心理与人生-发展心理教子成长2.心理与人生-完善心理事事成功3.心理与人生-调节心理强身治病分类号分别为:G78教育学B848.4心理学R395.6医学主题词语言•主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。•关键词语言:关键词是从文题、文摘或正文中抽出,具有实质意义,能够代表文献内容主题的名词术语。关键词可直接用于文献标引。•主题词语言:主题词是表达一定概念主题的规范化的名词术语。主题标引须有专门的主题词表。中国分类主题词表检索词之间的三种关系:•等同关系是指叙词与非叙词之间的关系。参照符号是“Y”(用)和“D”(代〕两种。“Y”用作正式叙伺指引词;”D”用作非正式叙词指引词。•属分关系亦称等级关系,指上位叙词和下位叙词之间的关系。所用参照符号有“S”(属)、“F”(分)。和“Z”(族)3种。“S”作上位叙词指引符,只在下位叙词下使用。“F”作下位叙词指引符,只在上位叙词下使用。“Z”作族首词指引符,指示族首词。•相关关系指叙词间除属分关系、等同关系之外的在语义上有关联的关系。相关关系用符号“C(参)表示。建立此种关系的目的是,引导检索者从其他词汇中寻找可能有用的词。检索词之间关系举例对外投资D国际投资海外投资F间接投资直接投资S投资*C海外企业经济扩张资本输出Y(用)表示从非正式主题词指引到正式主题词D(代)表示“Y”的对应参照F(属)表示主题词的下位词(狭义词)S(分)表示主题词的上位词(广义词)Z(族)表示主题所属的族首C(参)表示主题词之间的相关关系。检索词之间关系举例对外投资D国际投资海外投资F间接投资直接投资S投资*C海外企业经济扩张资本输出Y(用)表示从非正式主题词指引到正式主题词D(代)表示“Y”的对应参照F(属)表示主题词的下位词(狭义词)S(分)表示主题词的上位词(广义词)Z(族)表示主题所属的族首C(参)表示主题词之间的相关关系。临床医学ClinicalmedicineR4D临床学D症状学Z医药学S医学LibraryofCongressSubjectHeadings美国国会图书馆主题词表(LCSH)•主题词表:computerizedindustrialcontrolUSEindustrialcomputercontrolComputerizedinstrumentationUFcomputerizedinstrumentsNTautomatictestequipmentcomputerizedmonitoringcomputerizedspectroscopycomputerizedtomographyBTcomputerapplicationsTTcomputerapplicationsRTastronomycomputingastrophysicscomputingbiologycomputingchemicalengineeringcomputingLCSH参照系统符号及意义•非正式标题USE标题(用)•标题UF非正式标题(代)•下位标题BT上位标题(属)•上位标题NT下位标题(分)•标题ART标题B(参)文献数据库简介数据库的定义和类型一.定义:至少由一种文档组成,并能满足某一特定的目的或某一特定数据处理系统所需要的一种数据集合。二.数据库类型:1.文献目录型数据库(bibliographicdatabase).也称为书目数据库或者目录数据库,是二次文献数据库,包含文摘数据库、题录数据库、索引数据库、各国的MARC格式的图书目录。2.指南数据库(referencedatabases).也称指示性数据库,其内容是关于某些机构、人物、出版物、项目、程序、活动对象的简要描述,是指引用户从其他有关的信息原获取更详细的信息的一类数据库。3.数值数据库(numericdatabase).又称数据型数据库,此类数据库存储的均为数据信息。4.全文型数据库(full-textdatabase)。是指储存文献全文或者其中主要部分的一种数据库。•数据库的构成(1)文档(file),若干个逻辑记录构成的信息集合成为文档。(2)记录(record),记录是若干个字段组成的文献单元。(3)字段(field),是文献著录的基本单元,用来描述文献主题内容相关的某种属性,是组成记录的数据项。书目数据库中的字段反映一篇文献的具体特征,如标题字段、著者字段文献来源字段(又称文献出处)、主题词字段、关键词字段;文摘字段、语种字段等。每个字段都有己的字段标识符(fieldtag)以供识别,把记录划分成字段的另一作用是便于进行字段限定检索。信息检索基本技术•逻辑算符•位置算符•截词符•基本索引字段标识符逻辑算符定义:表达检索提问的各概念之间的逻辑关系。逻辑算符有三种:AND(与)、OR(或)、NOT(非)三种算符可同时在一个检索式中使用,也可单独使用。使用逻辑算符时应注意的事项:①逻辑算符的优先级为:NOT、AND、OR,可用括号来改变优先顺序。②在逻辑组配时,算符的两侧必须各留有一个空格。“逻辑与”“AND”•用于交叉概念或限定关系的组配,可以缩小检索范围,提高查准率。可使用“and”或“*”来表示。•其检索表达式为:“AandB”或“A*B”,即检索记录中必须同时包含A词与B词才算命中。•例如:“中国and对外贸易”。AB“逻辑或”“OR”•用于并列概念的组配,可以扩大检索范围,提高查全率,可使用“+”或“OR”来表示。•其检索表达式为:“AorB”或“A+B”,即检索记录中含有A词或者B词中的任何一词即可。•例如:“高清晰电视orHDTV”AB“逻辑非”“NOT”•用于从原来的检索范围中排除不需要的概念,或影响检索结果的概念。•可使用“NOT”或“-”来表示,其检索表达式为:“ANOTB”或“A-B”,即检索记录中包含A词但不含有B词。•例如:“能源NOT太阳能”AB位置算符(W)、(N)(W):W是with的缩写,表示两个词必须紧挨着,且词序不可颠倒,(W)算符也可用空括号()代替。例:solar()energy(nW):表示两个词之间可插入n个词,且词序不可颠倒。例:solar(3w)energy(N):N是near的缩写,表示两个词之间必须紧挨着,但词序任意。例:fiber(N)optic(nN)表示两个词之间最多可插入n个词,词序任意。例:fiber(4N)optic位置算符(S)、(F)•(S):S为subfield或sentence的缩写,表示两个词必须在记录中的同一个句子或同一个子字段中出现,且词序可变。子字段含义由数据库定义。例:color(S)pigment•(F):F为field的缩写,表示两个词必须在记录中的同一个字段中出现,且词序可变。禁用词在有些数据库中,规定某些词不能作检索词使用,这些词称为禁用词。禁用词有:An、And、By、For、From、Of、To、The、With、About、On截词符“?”又称通配符,不同的检索系统中使用的符号不同,通常用“?”来表示。常用的还有如*、#等。加在检索词的词干或不完整的词型后面或中间,用以表示一组概念相关的词。•无限截词例:?Computer可检出Computer、Microcomputer•有限截词例:Process??可检出Process、Processes•中间截词例:Wom?n可检出Woman、Women基本索引字段标识符字段后缀代码Abstract文摘…/ABDescriptors叙词…/