文献检索与科技论文写作课件-第二章-计算机检索基本原理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章计算机检索基本原理1计算机检索系统2计算机检索的基本原理与技术3计算机检索策略及其调整1计算机检索系统1.1计算机检索系统组成计算机硬件,计算机软件,数据库1.2数据库1.2.1定义:包含书目以及与文献有关数据的机读记录的有组织的集合。机读记录是文献的代替物,一条记录对应一篇文献,数据库由若干条记录组成。1.2.2类型1.2.3构成1.2.2文献数据库类型(据数据库所含信息内容)1)文献数据库:存储文献型数据,如一次文献或二次文献•书目数据库(二次文献数据库):包括各种文摘、索引、目录。存贮某个领域原始文献的书目。组成记录的字段一般有文献的标题、作者、出处、文摘、主题词等。•全文数据库:存贮文献全文或其中主要部分的数据库。能使用户获得最终的一次文献。2)源数据库:存储事实、数值、概念、图形等非文献数据的数据库•数值数据库:提供以数值方式表示信息的一种源数据库,其检索结果可能只是单一的值或一组数据。数值数据库能提供产品价格等数值信息,也可提供物质的物理化学性质、结构、频谱等数据。•事实数据库:自原始文献或社会调查中获得并经过处理的各种事实,如机构、人物、产品、资源等数据。常见的有指南数据库、产品数据库等。•概念数据库:库内存储各种名词术语或语言资料,如词典数据库、语料库等。•多媒体数据库:将各种类型的信息集中在CD—ROM上,是视频、音频、文字、图像、动画等的集合体,如一些互动性的百科全书。1.2.3数据库的构成1)记录:是数据库的基本单元,是对某一实体属性进行描述的结果。一个数据库由若干条记录构成。每条记录相当于文摘型或题录型检索刊物的一条著录款目。文献记录格式(以Dialog系统中EICompendexPlus数据库为例)如下:AN=DIALOGNO:03883137EIMonthlyNO;EIP94031231114/TITitle:Laser/LightimagingforunderwateruseAU=Author:Caimin,FrankM.SO=Source:ScaTechnology,V.34NO.12Dec.1993.P.22--27PY=PublicationYear:1993CO,SN=CODEN:SEATADISSN:0993-3651LA=Language.EnglishDT,TC=DocumentType:JA(JoumalArticle);TreatmentcodeX(Experimental);/ABAbstract:ConventionalunderseaimaginglimitationsavePointedoutandseveralimagingsystemsaredescribed,inparticulartherangegaledimaging,field—limitedimaging,and3-DStructuredinterferometricilluminationsystems./DEDescription:*Imagingtechniques:Laserapplication;engineering;Vision/IDIdentifiers:Laserlightimaging;UnderwatertechnologyCC=EIClassificationCodes;AN=:Dialog存取号(DialogAccessNumber)。在一个数据库中,每条记录只有一个存取号,两者一一对应。/TI:篇名字段(Title)。AU=:作者字段(Author)。CS=:作者所在单位字段(CorporateSource)。SO=:文献来源字段(SourcePublication)。包括期刊名称、年,卷、期、页等,或包括会议事项。PY=:出版年份(PublicationYear)。CO=:期刊代码字段(CODEN)。LA=:语种字段(Language),表示原文的语种。DT::文献类型字段(DocumentType)。TC=:处理码字段(TreatmentCode).表示论文的性质,A表示应用,X表示实验,T表示理论,等等/AB:文摘字段(Abstract)。/DE:叙词字段(Descriptor),选自叙词表、主题词表中的词。/ID:自由标引词字段(Identifier),非系统词表中的词,由标引人员确定。CC=:分类代码字段(ClassificationCode)。对于不同检索系统、不同数据库来说,其记录格式、字段代码、字段数目可能不完全相同。2)字段:是文献记录的基本单元。一条记录有若干个字段,一个字段有时还可分为几个子字段(Subfield)。在书目数据库中,一条记录应包含原始文献的篇名、作者、刊名、出版时间、分类号、文摘、主题词等字段。数据库的字段可分为基本字段和辅助字段:基本字段主要是描述文献内容特征的字段,如篇名、文摘、叙词、自由标引词等字段;辅助字段主要是描述文献外表特征的字段,如著者、机构名称、语种、文献来源等字段。3)文档(File):若干条逻辑记录构成的信息集合。文档是书目数据库和文献检索系统中数据组织的基本形式。根据数据库的内部结构,一个数据库至少包含一个顺排文档和一个倒排文档。顺排文档:是按文献记录的输入顺序(即文献序号)排列的文档。相当于印刷型检索工具的正文部分。在顺排文档中,记录按顺序一个接一个地存放,一个存取号对应一条记录,存取号愈大,对应的记录就愈新。由于它存贮有记录的最完整的信息,所以,通常又把它称之为主文档(MasterFile)。这种存贮方式决定了对记录的存取只能按顺序进行。如果在顺排文档中检索,对每个检索式都得按顺序从头到尾进行扫描,存贮的记录愈多,扫描的时间愈长,从而严重影响了检索的速度。主要供用户输出和打印文献记录用。倒排文档:把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。倒排文档实际上相当于印刷型检索工具中的辅助索引。倒排文档与顺排文档的区别:顺排文档以完整记录作为处理和检索的单元,倒排文档以记录中的字段作为处理和检索的单元。辅助索引文档:前缀倒排索引文档基本索引文档:后缀倒排索引文档索引文档存取号文档倒排文档2计算机检索的基本原理与技术2.1检索原理检索提问命中文献匹配运算数据库2.2检索功能•布尔逻辑检索功能•词间位置检索功能•截词检索功能•限定字段检索功能•禁用词•其他功能1)BooleanSearch(布尔逻辑检索)•逻辑“与”:AND;and;*ABAandB;A*B定义:用于交叉概念或限定关系的组配,即被命中的文献必须同时含有检索项A和B。作用:可缩小检索范围,提高查准率。要求:运用时,把出现频率低的检索词置于“与”的左端,可使否定答案尽早出现,节省机时。1)BooleanSearch(布尔逻辑检索)•逻辑“或”:OR;or;+ABAorB;A+B;computerorrobot定义:表示两个概念的并列,即被命中的文献含有两词之一或同时包含两词。作用:可扩大检索范围,提高查全率。要求:组构检索式时,可将估计出现频率高的词置于“或”的左面,可使选中的答案尽早出现。1)BooleanSearch(布尔逻辑检索)•逻辑“非”:NOT;not;-ABAnotB;A-B;定义:表示两个概念的排除,即被检索文献在含有检索词A而不含有检索词B时才被命中。作用:用于排斥关系的组配,即从原来的检索范围排除不需要的概念或影响检索结果的概念,提高查准率。注意:往往会把切题的文献给丢掉,运用时要非常慎重。2)位置检索:•表达检索词之间位置关系的一种检索•位置算符(W)与(nW)——(W)算符是“word”或“with”的缩写,表示此算符两边的检索词词序不能颠倒,两个词之间可有一个空格、或一个标点符号、或一个连接号;(nW)则表示两个检索词之间最多嵌入n个词。位置算符例如,检索“CD-ROM”可用CD(W)ROM;而用price(2W)inflation,则可能检出pricelevelsandinflation。位置算符(N)与(nN)——(N)算符是“near”的缩写,表示此算符两边的检索词必须紧密相连,此间不允许插入其他单词或字母,但词序可以颠倒,而(nN)算符则表示在两个检索词之间最多可以插入n个单词,且词序可以颠倒。如:economic(2N)recovery,可以检出:economicrecovery,recoveryoftheeconomy,recoveryfromeconomictroubles。位置算符(X)与(nX)——(X)算符要求其两边的检索词完全一致,并以指定的顺序相邻,中间不允许插入任何单词或字母;(nX)算符则表示两边的检索词之间最多可以插入n个单元词,但两边的检索词也必须一致。词位置检索是很有用的检索技术,它可以规定词组中各词的前后次序,防止错误的搭配和输出;它也可以替代词组中的禁用词。DIALOG系统有9个禁用词:AND、FOR、THE、AN、FROM、TO、BY、OF、WITH,如果在编制检索式时碰到禁用词,就要用词位置算符代替它。3)截词检索:*;?•定义:允许检索词有一定范围的变化。检索时将截词符置于检索词允许变化的部位,只要检索词和标引词的词干相同即为命中文献。•作用:减少检索词的输入量,扩大检索范围,提高检索效率。•注意:使用截词检索必须慎重,一是词干不要太短,以免检出许多与原来检索词不相关的文献记录,二是英美不同拼法的词,如变化字母数不同则不能使用中间截词检索,必须详细写出并用OR组配后输入。•分类:按截词位置:前截断;后截断;中间截断按截词方式:无限截词;有限截词;中间截词前截断:将截词符放在词根前边,后方一致,表示在词根前方有有限个或无限个字符。如*magnetic能够检出含有magnetic、ctromagnetic、paramagnetic等词的记录。后截断:将截词符放在词根后边,前方一致,表示在词根后方有有限个或无限个字符。如metal*,能够检出含有metal、metals、metaled、metalist等词的记录。中间截断:将截词符放在词的中间,词的前后方一致。如colo*r,能够检出含有colour、color的记录。无限截词:指允许截去的字符数量不限,也称开放式截断。如前截断和后截断有限截词:允许截去有限个字符。如dye***(n*),能够检出含有dyer、dye、dyed、dyeing等词的记录。中间截词:如中间截断。4)限定字段检索:•定义:将检索过程限定在记录的特定的字段中进行。•作用:缩小或约束检索结果,提高检索效率。•检索符号:in、=、<、>、>=、<=等。•computer/TI,AB:表示在TI和AB字段中检索computer。•AU=WangfangandPY>=2000:表示查找王芳于2000年以来发表的文章。5)禁用词(stopwords):以下单词作为检索词时,系统将自动忽略并用空格取代之进行检索。also、an、and、are、as、be、been、between、both、but、by、did、from、has、have、into、not、of、or、should、some、such、than、that、the、their、them、themselves、these、they、this、those、through、to、using、were、when、which、with、would6)其他功能:•整体检索:在词组的两端加上“”,如“wheatpowderymildew”•优先级检索:在一个复杂的逻辑提问中,使用括号(单层或多层)来指定运算的先后顺序。(A*B+C)*(D+E)+F3计算机检索策略及其调整3.1计算机检索策略1)最专指面优先策略2)最少记录面优先策略3)积木型概念组面策略4)引文珠形增长策略5)逐次分馏策略3.2计算机检索策略调整•扩检•缩检1)最专指面优先策略:指在检索时,首先选择最专指的概念组面进行检索,如果检索命中的文献相当少,那么其他概念组面就不再加到检索提问式中去;如果

1 / 39
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功