第二章计算机检索基础知识一.教学要求:掌握信息检索的步骤和检索技术的使用。二.教学内容:第一节数据库知识要点:数据库的概念、类型.第二节计算机检索的技术知识要点:布尔逻辑检索和限制检索。第三节计算机检索步骤知识要点:检索步骤。第四节网络搜索引擎的使用知识要点:搜索引擎的优缺点,以及几种主要搜索引擎的使用。三.本章学时数:2第二章计算机检索基础知识第一节数据库一.数据库的定义数据库就是按一定的方式合理组织并存贮在计算机设备上的相互关联的数据集合。它是电子信息资源检索的主体。第二章计算机检索基础知识第一节数据库二.数据库的类型按照国际通用的分类方法,数据库可分为;1.参考数据库(referencedatabase)(1)书目数据库(bibliographicdatabase)(2)指南数据库(referencedatabase)2.源数据库(sourcedatabase)(1)全文数据库(full-textdatabase)(2)数值数据库(numericdatabase)(3)文本、数值数据库(textual-numericdatabase)(4)术语数据库(terminologicalbank)(5)图像数据库(graphicsdatabase)(6)事实型数据库3.混合数据库(mixeddatabase)第二章计算机检索基础知识第二节计算机检索技术信息检索技术是指信息检索过程的原理、方法、策略、设备条件和检索手段等因素的总称。在电子信息检索过程中,为保证检索结果准确全面、经济高效,各种检索系统均为用户提供了多种不同的检索功能,其中使用比较普遍的有以下2种:布尔逻辑检索限制检索第二章计算机检索基础知识第二节计算机检索技术一.布尔逻辑检索利用布尔逻辑算符对检索词或代码进行逻辑组配,是信息检索系统中最基本、最常用的一种检索技术常用的逻辑算符有:1.逻辑“与”(用“AND”或“*”表示)逻辑“与”是一种用于交叉和限定关系的组配,可以缩小检索范围,有利于提高查准率。如AANDB,则表示被检索到的文献记录中必须同时含有A和B才算命中。例如:要检索“计算机网络”方面的有关信息,它包含了“计算机”和“网络”两个主要的独立概念。检索词“计算机—computer”、“网络—network”可用逻辑“与”组配,即“computerANDnetwork”,表示computer和network两个概念应同时包含在一条记录中。第二章计算机检索基础知识第二节计算机检索技术2.逻辑“或”(用“OR”或“+”表示)逻辑“或”是一种用于并列关系(同义词、近义词)的组配,可以扩大检索范围,防止漏检,有利于提高查全率。如AORB或A+B,则表示在一篇文献中只要含有A和B中的任何一个即命中。例如查找含有“城市”一词的资料,可用检索式cityORurban来表示。第二章计算机检索基础知识第二节计算机检索技术3.逻辑“非”(用“NOT”或“—”表示)逻辑“非”是一种概念排斥关系的组配,用于从原来的检索范围中排除不需要的和影响检索结果的概念,使检索结果更精确$这种组配可以缩小主题内容,减少文献量,提高查准率。例如,检索“不包括核能的能源”方面的信息,其检索词“ENERGY”、“NUCLEARENERGY”采用逻辑“非”组配,即“ENERGY—NUCLEARENERGY”表示从“ENERGY”检索出的记录中排除含有“NUCLEARENERGY”的记录。第二章计算机检索基础知识第二节计算机检索技术逻辑算符AND(与)OR(或)NOT(非)表达式AANDBA*BAORBA+BANOTBA―B逻辑关系的说明数据库中同时含有词A和词B的记录被检出数据库中或含有词A或含有词B,或两词皆有的记录被检出数据库中凡含词A而不含词B的记录被检出逻辑关系图(图中红色部分)AB第二章计算机检索基础知识第二节计算机检索技术布尔逻辑算符的优先级顺序为NOT、AND、OR,另外可以使用括号改变它们之间的运算顺序。如可以编写(A+B)*(C+D)检索式,先运算A+B,C+D再运算(A+B)*(C+D)。但应注意,对于同一个布尔逻辑提问式来说,不同的运算顺序会有不同的检索结果。第二章计算机检索基础知识第二节计算机检索技术二.限制检索泛指检索系统中提供的缩小或约束检索结果的检索方法即为限制检索。限制检索主要有以下几种方式:1.字段限制可针对特定年代、特定类别、特定检索点等做限制,主要分为两种类型:(1)基本索引字段限制检索通常包括:题名(TI,title)、关键词(KW,keyword)、主题词(DE,descriptor)、文摘(AB,abstract)、全文(fulltexr)等。(2)辅助索引字段检索指表达文献外部特征字段的检索,如:作者(AU,author)、期刊名(JN,journalname)、出版年(PY,publication)、语种(LA,language)等。2.二次检索检索结果中再检索,或称为进阶检索。有三种方式:重新查询,在结果中再查,在结果中去除。第二章计算机检索基础知识第三节计算机检索步骤计算机信息检索的效果取决于许多因素,如数据库的结构、标引的质量、检索系统的功能等等,这些都是客观的外部因素,有许多不是用户所能影响和改变的,但是,对于用户来说,应用正确的检索步骤,掌握良好的检索方法和技巧是提高检索效率的关键。第二章计算机检索基础知识第三节计算机检索步骤一.分析研究课题从以下几个方面着手:(1)课题的主题;(2)课题所涉及的学科范围;(3)课题所需信息的内容及其内容特征;(4)确定课题所需信息的类型:包括文献类型、出版类型、年代范围、语种、著者、机构等;(5)课题对查新、查全和查准的指标要求。第二章计算机检索基础知识第三节计算机检索步骤二.选择数据库不同的数据库学科范围不同,检索指令不同,收费标准不同。在选择时,遵循以下几条原则:(1)按照课题的检索要求和目的,选择收录文献种类、专业覆盖面、年代跨度对口的数据库;(2)当需要查找最新文献信息时,选择数据更新周期短的数据库;(3)当需要获取原文时,选取原文获得较容易的数据库;(4)了解所选数据库的特征、不同检索特点等。第二章计算机检索基础知识第三节计算机检索步骤三.选定检索词在全面了解检索课题的相关问题后,提炼主要概念与隐含概念,排除次要概念,以便选择检索词,并根据选定的检索系统。数据库的特点,进一步优化检索词。在选择时,有以下几种方法:(1)优先选用主题词;(2)选用检索系统规定的代码;(3)选用常用的专业术语;(4)选用同义词与相关词。第二章计算机检索基础知识第三节计算机检索步骤四.选择检索途径确定检索词后,根据课题性质、范围以及检索系统所提供的可检标识等选择适当的检索途径,检索途径主要有以下几种:(1)著者途径以文献的著者(包括个人和团体著者、编者、译者、专利权人等)姓名为检索标识来进行检索的途径。(2)主题途径从文献信息内容相关的主题词角度来检索文献,这是一种常用的途径。(3)分类途径从文献所属学科类别角度来检索。(4)号码途径以文献所附有的号码特征来检索,如专利号、报告号等。第二章计算机检索基础知识第三节计算机检索步骤五.制定检索策略检索式的制定是否合理,将直接影响到检索结果的成败。所谓检索策略,就是在分析信息需求实质的基础上,确定检索词与检索途径,并明确各词之间的逻辑关系与查找步骤的科学安排。一般我们将检索提问式(也叫检索式)称为检索策略。因此,实现检索需求与否,实质上是检索提问式与检索需求是否切题和匹配的问题。要编制成准确表达检索主题要求的提问式,首先要确定相应合理的检索途径,同时要合理运用布尔逻辑算符、位置算符、截词算符等方法。第二章计算机检索基础知识第三节计算机检索步骤六.实施检索将制定好的检索式输入检索系统后,系统响应的检索结果有时不一定能满足课题的要求。例如,或者输出的篇数过多,而且不相关的文献所占比例较大,或者输出文献的数量太少,有时甚至为零,此时就需要调整检索策略。第二章计算机检索基础知识第三节计算机检索步骤七.获取检索结果根据检索系统提供的检索结果输出格式,选择需要的检索记录及相应的格式,将结果显示在显示器屏幕上、存储到磁盘上或直接打印输出,完成整个检索过程。第二章计算机检索基础知识第四节网络搜索引擎的使用一.搜索引擎检索的优缺点1.优点(1)信息数量巨大、新颖搜索引擎的最大的优点是在上的综合覆盖面大,信息新颖。(2)可检索到部分高质量、专指性强的信息利用搜索引擎还可以检索到部分高质量的学术期刊和论文,其中有些刊物和论文仅以电子版发行。(3)可检索到相关性高的信息搜索引擎能够将其认为相关性高的检索结果排列在前。第二章计算机检索基础知识第四节网络搜索引擎的使用2.缺点(1)信息质量不高这是搜索引擎的主要缺点。(2)信息内容重复搜索引擎的检索结果中还经常重复出现同一信息资源的不同部分。(3)费时费力与专业数据库相比较,利用搜索引擎检索常常要花费大量时间进行搜索、浏览、筛选,因此,比较费时费力。第二章计算机检索基础知识第四节网络搜索引擎的使用二.常用搜索引擎1、百度搜索引擎http://全球最大中文搜索引擎。第二章计算机检索基础知识第四节网络搜索引擎的使用百度产品第二章计算机检索基础知识第四节网络搜索引擎的使用2、北大天网搜索引擎http://bingle.pku.edu.cn由北京大学开发,有简体中文、繁体中文和英文三个版本。提供全文检索、新闻组检索、FTP检索(北京大学、中科院等FTP站点)。目前大约收集了100万个页面(国内)和14万篇Newsgroup(新闻组)文章。第二章计算机检索基础知识第四节网络搜索引擎的使用3、Google谷歌谷歌是因特网上最大、影响最广泛的搜索引擎,是由拉里·佩奇和谢尔盖·布林共同创建的。除了搜寻网页外,Google亦提供搜索图像、新闻组、新闻网页、影片的服务。2005年6月,Google已储存超过80亿的网页,1亿3千万张图片,以及超过1亿的新闻组讯息-总计大概10亿4千万个项目。它也缓存了编入索引中的绝大多数网页的内容。第二章计算机检索基础知识第四节网络搜索引擎的使用第二章计算机检索基础知识第四节网络搜索引擎的使用第二章计算机检索基础知识第四节网络搜索引擎的使用第二章计算机检索基础知识第四节网络搜索引擎的使用4、中国雅虎yahoo雅虎()是全球第一门户搜索网站,业务遍及24个国家和地区,为全球超过5亿的独立用户提供多元化的网络服务。1999年9月,中国雅虎网站开通。2005年8月,中国雅虎由阿里巴巴集团全资收购。