研究生文献检索2014(计算机检索)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

计算机信息检索基础郑州大学图书馆信息检索的历史手工检索(1876-1945)机械信息检索(1945—1954)脱机批处理检索(1954-1965)国际联机检索(1965-)光盘检索(1980-)网络检索(1991--)后四者统称为计算机信息检索多种方法并存,网络检索最有发展前景概述计算机信息检索产生的背景外部条件内部需求计算机技术通信技术数据传输技术文献数量庞大用户检索需求一、概念计算机信息检索,即利用计算机存贮和检索信息的过程。信息存贮是将文献、数值、事实等按一定的格式输入到计算机中,加工处理成可供检索的数据库。信息检索是将检索提问式按一定的要求输入计算机中,经计算机系统与已存贮在计算机中的数据库进行匹配运算,然后将符合检索提问的数据按要求的格式输出。信息检索包括3个主要环节:①信息内容分析与编码,产生信息记录及检索标识。②组织存贮,将全部记录按文件、数据库等形式组成有序的信息集合。③用户提问处理和检索输出。关键部分是信息提问与信息集合的匹配和选择,即对给定提问与集合中的记录进行相似性比较,根据一定的匹配标准选出有关信息。信息检索的原理二、计算机信息检索系统的构成计算机信息检索系统通常由计算机硬件、检索软件、数据库和通信网络等软硬件设备构成。其中数据库是计算机信息检索系统的核心。数据库的质量直接影响计算机信息检索系统的功能和效率。对数据库的了解是掌握计算机信息检索技术的前提。三、数据库的概念与结构数据库是指在计算机存贮设备上按一定方式存贮的相互关联的文献信息集合,它可以由一个或多个文档组成。文献信息数据库由文档、记录、字段三个层次构成。1、文档(File)许多大型数据库往往包含数以万计的记录,为了方便用户检索,常按学科、专业或收录文献的先后时间等,将数据库分成若干个文档。一个文档可以构成一个数据库,也可多个文档共同构成一个大型数据库。文档由若干记录构成。是指数据库中的顺排文档和倒排文档。⑴顺排文档是数据库的主体,又称主文档,它按每条记录的顺序号大小排列。检索结果都来自于顺排文档。⑵倒排文档是指数据库中的主题词索引、著者索引、刊名索引等,它们按索引词的字顺排列。检索时,计算机按输入检索词的字顺先从指定的倒排文档中找到相匹配的索引词,然后根据索引词后的记录顺序号到顺排档中调出相应的记录。2、记录(Record)记录是由若干字段组成的文献单元,是数据库中的基本文献单元。一条记录在数据库中记录着一篇文献的相关信息。例如:在书目型数据库中,一条记录相当于一条题录或文摘;在全文型数据库中,一条记录相当于一篇完整的文献;在其它类型数据库中,一条记录则代表一个信息单元。记录越多,数据库的容量就越大。2、记录(Record)记录是由若干字段组成的文献单元,是数据库中的基本文献单元。一条记录在数据库中记录着一篇文献的相关信息。例如:在书目型数据库中,一条记录相当于一条题录或文摘;在全文型数据库中,一条记录相当于一篇完整的文献;在其它类型数据库中,一条记录则代表一个信息单元。记录越多,数据库的容量就越大。2、记录(Record)记录是由若干字段组成的文献单元,是数据库中的基本文献单元。一条记录在数据库中记录着一篇文献的相关信息。例如:在书目型数据库中,一条记录相当于一条题录或文摘;在全文型数据库中,一条记录相当于一篇完整的文献;在其它类型数据库中,一条记录则代表一个信息单元。记录越多,数据库的容量就越大。2、记录(Record)记录是由若干字段组成的文献单元,是数据库中的基本文献单元。一条记录在数据库中记录着一篇文献的相关信息。例如:在书目型数据库中,一条记录相当于一条题录或文摘;在全文型数据库中,一条记录相当于一篇完整的文献;在其它类型数据库中,一条记录则代表一个信息单元。记录越多,数据库的容量就越大。3、字段(Field)字段是构成记录的基本单元,是对文献某一方面的特征(包括外表特征和内容特征)进行描述的结果。一般,有反映文献信息内容特征的主题词(属于人工语言标识)、关键词(属于自然语言标识)、分类号(属于人工语言标识)等,有反映文献信息外部特征的责任者(著者、译者、编者等)、题名(篇名、书名等)、机构、出版日期、出版地等。字段标识符为识别每一个字段所表达的文献特征,通常每个字段都有固定的名称和缩写(或称字段标识符),如,题名字段的标识符为TI,作者字段的标识符为AU等。字段标识符具有检索的功能,参与编制检索式,因此,对它要有所了解和掌握。如:geneinTI四、数据库的类型依据数据库中存贮的信息内容可将其分为以下三种类型:文献型数据库数值型数据库事实型数据库1、文献型数据库文献型数据库是指以各种文献信息为存贮内容的数据库。书目数据库全文数据库图像数据库多媒体数据库文献型数据库具有结构复杂、数据量大、制作要求高、使用广泛等特点,是人们获取文献信息的主要信息源。书目数据库:EI、SCI、中国生物医学文献数据库(CBM)全文数据库:知网、万方、维普、ELSVIER、SPRINGER图像数据库:Micromedex药学数据库(含医学影像图片库、PrimalPicture解剖数据库多媒体数据库:环球英语多媒体资源库、新东方多媒体学习库、超星名师讲坛2、数值型数据库数值型数据库是以数值方式表示的数据为存贮内容的数据库。包括各种统计数据、科学实验数据、科学测量数据等。例如,医学上使用的化学制剂或药物的各种理化参数、人体生理上的各种数值等均可建立数值型数据库。这类数据库除存贮数值之外,还存贮对应的运算公式和规则,系统按用户的要求作某些必要的计算,为用户提供能够直接使用的数值型信息。如中国科学计量指标数据库。3、事实型数据库事实型数据库是以事物发展过程中产生的事实性信息为存贮内容的数据库。如自然资源数据库、人口数据库、名人数据库和机构名录数据库等。这类数据库除存贮基本事实数据外,也存贮数学运算和逻辑运算规则,能同时提供文本信息和数值数据。用户只要通过人物、机构或事物名称及有关事项进行检索,就可获得特定的事实或数值信息。如:万方数据资源系统——商务信息国研网、中国咨询行Lexisnexis五、计算机检索用词1.计算机信息检索系统中的检索词:主题词和关键词两种。2.主题词取自于主题词表、分类词表等,是经过规范化的。3.如何将关键词转换成规范化的主题词,可以借助于数据库的词表,通过查表实现转换。(一)主题词1.定义:经过规范化处理的标准词汇。2.理解:规范化是指对文献中的同义词、近义词、多义词等加以规范,使得同一主题概念的文献相对集中在一个主题词下,同时在主题词表中采用参照系统间接反映主题概念之间与文献内容之间的关系,从而体现了主题词的单一性。例如:癌(非主题词)cancer,tumor,carcinoma见肿瘤(主题词)Neoplasms.(一)主题词3.来源:《医学主题词表》(又称《MeSH词表》,西医)和《中国中医药学主题词表》(中医)4.现象倒置现象:使同属某一大概念的主题词能按字顺相对集中地排列在一起,如肝炎,乙型复合现象:由多个主题词复合表达一个医学用语。急性白血病:由急性病和白血病两个主题词复合表达。(一)主题词5.特点:单一性和动态性(1)单一性:规定概念与主题词的单一对应,即一个概念只能用一个主题词表达。目的是使讨论同一概念的文献不分散在多个不同主题词下,保证检索准确、方便和全面。例如:阿司匹林和乙酰水杨酸(2)动态性:动态性是指词表每年修订。随着科学的发展和进步,同是文献中不断涌现出新的专门术语。如单克隆抗体、癌基因等。(一)主题词6.主题词在文献检索中的重要作用★准确性(准确揭示文献内容的主题)和专指性。★在标引文献(对文献进行主题分析,从自然语言转换成规范化检索语言的过程)以及检索文献这两个过程中,以主题词作为标准用语,使标引和检索之间用词一致,达到最佳检索效果。(二)关键词(Keyword)定义:是指能够反映文献内容或主题的关键性的专业术语。非规范化(未经严格规范化处理)检索语言,属于自然语言范畴。比如癌(非主题词)cancer,tumor,carcinoma。关键词又称自由词、文本词(TextWord)(一)关键词途径1.定义:指直接输入关键词检索文献。2.检索形式:关键词。3.支持数据库:所有数据库。4.优点:可检出最新发表及新概念的文献,用法简单。六、检索途径目前数据库提供的检索途径主要如下:(一)、关键词途径(二)、主题词途径(三)、字段途径(四)、分类途径(一)关键词途径缺点:1)误检:检出的文献不太准确,查不准;2)漏检:有时会有许多文献检索不到,查不全。误检不会漏检文献,实际影响并不大,关键如何防止漏检。出现漏检的情况:1.检索词存在同义词(如:AIDS);2.检索词的主题概念宽泛(如:消化系统疾病)。(一)关键词途径如何预防漏检:漏检情况1:将检索词的同义词或近义词同时进行检索,然后用逻辑或(OR)运算,以防漏检(适用于所有数据库)。如支持主题词途径,也可用主题词途径检索以防漏检。漏检情况2:支持主题词检索途径的数据库,如CBM、PubMed等,可采用主题词途径以防漏检。如不支持主题词检索途径,如CNKI,万方、维普等,基本无解。知网、万方、维普均不支持主题词检索,CBM、Pubmed、EI等支持主题词检索。知网的主题检索是同时在题名、关键词、摘要三个字段中检索。并不是按照检索词的主题词概念检索文献,对应的检索途径为关键词途径。关键词、题名、中图分类号是在文献中对应的字段进行检索。(一)关键词途径原因:关键词不似主题词具有单一性,对同义词、近义词未经严格规范,也不设参照系统显示词与词之间的等级关系和相关关系,因此同一主题概念的文献标引相对分散,容易导致漏检和误检。如果使用不当,会影响文献的查全率和查准率。预防漏检在实际检索中的应用:如用CNKI,万方、维普检索文献,应考虑检索是否有同义词,检索词主题概念是否过于宽泛。(一)关键词途径关键词途径在数据库中实际对应的检索项:CNKI:对应“主题”检索项,在论文中的“题名”、“关键词”和“摘要”的3项中检索,只要有一项出现检索词即为命中文献。(一)关键词途径关键词途径在数据库中实际对应的检索项:维普:对应首页默认检索界面,在论文的标题、关键词中检索。(一)关键词途径关键词途径在数据库中实际对应的检索项:CBMdisc:对应基本检索的“缺省”检索入口。缺省字段是在中文标题、摘要、作者、关键词、主题词和刊名中检索。(二)主题词途径1.定义:指从文献的主题概念出发,查找文献。2.检索形式:主题词/副主题词3.支持数据库:CBMdisc和PubMed等4.解决两个问题:①如何确定检索词是否为主题词②如何找出与检索词相对应的主题词。(二)主题词途径5.优点:1能集中检索出语言表达不同但概念相同的文献例:关键词(自由词):carcinoma(癌),tumor(瘤),cancer(癌)主题词(数据库标引用词):neoplasms(肿瘤)2命中的文献比关键词检索准确例关键词:伤风—检索出伤风和破伤风主题词:只检索出伤风的文献(二)主题词途径多用主题词途径检索因为对同一主题,不管文献中使用何种名称,不同的词形、单复数都会被标引在同一规范化的主题词下,所以采用主题词途径检索,能实现较高的查全率和查准率,缩短机时,节省费用,是提高检索技能的关键。(三)字段途径定义:表示输入的检索词仅在某一指定字段内检索。检索形式:1)字段标识符=检索词2)选定某一检索字段,输入检索词进行检索常用检索字段:著者、地址、刊名、出版年、参考文献(引文)、特征词等备注:一般不用主题词、关键词字段检索。(三)字段途径—常用检索字段著者:检索某人发表的文章地址:检索某单位发表的文章刊名:检索某期刊所刊登的文章参考文献(引文):检索论文被引用情况出版年:检索某一年或几年中发表的文章(四)分类检索途径定义:指用分类号或分类词检索文献我国文献分类的主要依据:《中国图书馆分类法》(简称《中图法》备注:慎用分类检索途径,因有时检索到的文献量

1 / 72
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功