网络信息资源检索的概念和发展历程网络信息资源检索的基本技术网络信息资源检索的发展趋势--常用网络搜索引擎的原理和使用技巧网络信息资源检索的概念和发展历程网络信息资源检索:是利用计算机通过网络来查找、利用各种信息资源。包括图书馆的公共书目(OPAC--OnlinePublicAccessCatalogue)、各种联机数据库、Internet上的信息资源等。网络信息资源检索的发展历程脱机检索联机检索国际联机检索单机光盘检索光盘网络检索Web信息资源检索1.脱机检索(50年代末~60年代中期)这时是计算机检索的原始时期。只能进行简单的检索。为满足专业检索人员定期批量处理用户的情报要求。用户不能立刻获得检索结果。2.联机检索(60年代末~70年代初)1963年-1964年间,美国洛克希德导弹与宇航公司的情报实验室建立了”人-机“对话的联机情报检索系统(DIALOG的前身),此后在60年代末到70年代初联机检索系统得以快速发展。国际著名的DIALOG系统、ORBIT系统、MEDLINE系统都是从这个时期发展起来的。用户可随时浏览检索结果由于这个阶段的计算机网络主要是通过电话线联接,因而联机检索受到地区的限制3.国际联机检索(70年代中期-)卫星通讯技术的出现,使得联机检索系统打破了地域限制。而数据库生产的迅速发展及微机大量的涌现,更使得国际联机检索蓬勃发展。联机检索系统进入发展的黄金时期。实现了人类情报资源的共享。4.单机光盘检索(80年代--)CD-ROM技术促使计算机检索成本迅速下降(一张光盘可存贮600〔MB〕兆字节机读数据、成本价格便宜,而一张DVD光盘的容量最少可达4.7G)5.光盘网络检索(90年代-)光盘网络是一种计算机网络,如图书馆局域网实现多用户光盘资源共享6.Web信息资源检索(90年代末-)进入90年代后,随着网络技术的发展,尤其是互联网的迅猛发展,使计算机检索进入一个崭新的时期。检索方法更简单,检索结果更全面联机数据库检索Onlineretrieval用户通过计算机终端设备,通过通讯线路或网络,在联机检索中心的数据库中进行检索并获得信息的过程最大的缺点是检索费用高现在用户量少光盘数据库检索CD-ROM数据库最初是单机检索,后来逐渐发展出了联机光盘检索联机光盘检索指把单用户系统发展成多用户的局域网系统,通过网络(如校园网)连接多个用户终端,用服务器管理多组光盘数据库及其检索系统网络数据库检索Web-database用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索网络信息资源检索的特点检索速度快检索途径多更新快资源共享检索更方便灵活检索结果可以直接输出网络信息检索系统的构成从物理构成来说,包括计算机硬件、软件和数据库、通讯线路和检索终端五部分数据库的结构文档--记录--字段文档(file):数据库中一部分记录的有序集合记录(record):数据库的信息单元,每条记录描述了一个原始信息的外部特征和内部特征。字段(field):比记录更小的单位,是组成记录的数据项目网络信息资源的类型1.参考数据库(Referencedatabase):指包含各种数据、信息或知识的原始来源和属性的数据库,主要包括书目数据库、文摘数据库、索引数据库2.全文数据库(Fulltextdatabase)收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例、商业信息为主3.事实数据库(Factualdatabase):指包含大量数据、事实,直接提供原始资料的数据库。又分为数值数据库(Numericdatabase)、指南数据库(directorydatabase)、术语数据库(terminologicaldatabase)等4.电子图书(electronicbooks)指供在电脑上阅读的一种新型的数字化书籍,是多媒体技术和超文本技术发展的产物。一般有专用电子图书阅读器。如:超星数字图书馆,中国数字图书馆有限公司的网上图书馆,书生之家“中华图书网”,方正Apabi电子图书电子报纸(electronicnewspaper)将电子技术应用到涉及报刊出版、发行、利用的全过程纽约时报()华盛顿邮报(泰晤士报()人民日报()光明日报()中国日报()网络信息资源检索的基本技术布尔逻辑检索(booleanlogic)是当今检索理论中最成熟的理论之一,也是构造检索表达式最基本、最简单的匹配模式。布尔逻辑检索是通过布尔逻辑算符来实现的,这些运算符能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索要求计算机检索式(逻辑表达式):检索词+有关算符1、布尔逻辑算符2、截词算符3、位置算符4、字段限定符逻辑运算符(布尔逻辑检索:即运用布尔逻辑算符对检索词进行逻辑组配,表达两个概念之间的逻辑关系。)有三种:逻辑与(AND)逻辑或(OR)逻辑非(NOT)逻辑与:AND例如:dyslexiaandchild常用“*”、“&”表示,检索时,命中信息同时含有两个概念,专指性强。可以缩小检索范围,提高查准率逻辑或:OR例如:colororcolour常用“+”、“/”表示,检索时,命中信息包含所有关于逻辑A或逻辑B或同时有A和B的,可以扩大检索范围,提高查全率。逻辑非:NOT例如:humannotanimal常用“-”表示,命中信息包含逻辑A、不包含逻辑B或同时有A和B的,排除了不需要的检索词,可以排除不必要的信息,提高查准率。优先级运算()NOTANDOR截词检索(truncation)—截词符截词是指将检索词在适当的地方截断,截词检索是用截断词的一个局部进行的检索,凡是满足这个截词所有字符(串)的记录,系统都为命中。截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。按截词的位置划分前截断:又称左截断,截词符在词的左边,例如:*magnetic中截断:截词符在词的中间,例如:organi?ation,可以检索organisationorganization后截断:是前方一致检索,又称右截断,截词符放在被截词的右边,是最常用的检索技术,例如:librar*根据截断的数量不同无限截断:不限制被截断的字符数量有限截断:限制被截断的字符数量,例如educat**,可以检索educator、educated按截词位置分:有前截断、后截断、中截断;按截词的字符数量分:有非限制截断、限制截断。*、?、&均可以表示截词的截断符号,各检索系统有不同的规定,没有统一标准。1.后截断(前截断相同)后截断是在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符数,即查找词干相同的所有词。从检索性质上讲,后截断是前方一致检索。非限制截断:是在检索词词干后面加一个截词符,表示不限制词尾可变化的字符位数,即查找词干相同的所有词。例:comput?表示允许其后可带有任何字符且数量不限,相当于查找compute、computed、computes、computing、computer、computers、computerize、computerized、computation、computations、computational、computationally等词。***不宜将词截得过短,否则容易造成误检。限制截断:是在检索词词干后面加若干个截词符,表示限制可变化的字符数。例:fib??相当于查找fiber或fibre……(EiCompendexPlus)librar?相当于Libraries,librarian,library……educat??相当于Educator,educated……2.中截断(通配符或屏蔽)是把截断符号置于一个检索词的中间,对词中间出现变化的字符数加以限定。一般中截断仅允许有限截断。例:organi#ation,可检索到包含organization和organisation的记录。一个?代表零个或任意个字符。例:colo?r,可检索到包含color、colour、colonizer、colorimeter的记录。一个?和数字,其中的数字代表可替换的字符数。例:colo?1r,只能检索到包含colour的记录。词位置检索(positionaloperator)—位置运算符利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索功能(Fulltextsearching)。所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND逻辑组配产生的词义含糊或误检。为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。•**全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点:•规定的位置算符不同;•位置算符的职能和使用范围不同。下面介绍几种数据库经常使用的位置运算符:1.W-WithW算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。例:intelligent(W)robot?(EiCompendexPlus)Wn(或nW)表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。例:intelligentw1robot*(OCLCFirstSearch)2.N–NearN算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。例:intelligentNEARrobot*(EiCPXWeb)Nn(或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。例:intelligentN1robot*(OCLCFirstSearch)3.Adj-adjacency邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。例:intelligentadjrobot*(ElsevierScienceSDOS)4.F-Field同字段邻接例:environment(F)protection5.P-Paragraph同自然段邻接例:environment(P)protection6.S-Sentence同句邻接词序可以颠倒,两词必须出现在同一句子(子字段)中例:environment(S)protection字段检索(rangesearching)字段检索即指定检索词出现的字段,被指定的字段也称检索入口,检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。西文数据库,字段检索常用代码来表示,如下表所示。常有的字段:篇(题)名字段TI=Title文摘字段AB=Abstract叙词字段DE=Descriptor自由词字段ID=Identified著者字段AU=Author著者机构字段CS=CorporateSource刊名字段JN=Journal出版年字段PY=publicationYear文献类型字段DT=DocumentType语种字段LA=Language