文献检索(信息检索)第四章计算机信息检索技术G252.7/160=2计算机信息检索技术的概念它是指利用现代信息检索系统,如联机数据库、光盘数据库和网络数据库检索有关信息而采用的相关技术。各种信息检索技术通过不同的检索点、检索词、检索算符等表达出来。第四章计算机信息检索技术第一节计算机信息检索技术的发展第二节计算机信息检索的步骤和策略调整方法第三节检索方式第四节检索点、检索词和检索方法第五节检索算符第六节构造检索式第七节检索功能第八节检索效果评价第一节计算机信息检索技术的发展一、计算机信息检索技术的发展历史1.脱机批处理检索阶段(20世纪50年代中期-60年代中后期)当时,计算机硬件发展很快,但还没有连接通信网,也没有远程终端装置,不能提供问答服务的检索方式,只能进行现刊文献的定题检索和过期文献的追溯检索,同时利用计算机编辑出版检索性刊物。所谓脱机批处理方式,是指定期由专职检索人员把许多用户课题汇总、批量处理提问要求并把结果提供给用户。但缺乏与用户的交互过程,检索结果获得不及时以及信息需求和检索结果存在一定的误差等2.联机检索阶段(20世纪70年代)20世纪70年代计算机分时系统的出现,通信技术的改进,使得许多终端、远距离两地信息的技术得以推广,计算机信息检索技术从脱机阶段进入联机信息检索阶段。所谓联机检索,就是用户使用终端设备,通过通信线路与中央计算机连接,直接与计算机对话进行检索,结果由终端输出。虽然联机检索无需委托,直接面向最终用户,在检索过程中是“人机对话”有很强的交互功能,而能能及进取得检索结果,但检索指令复杂需要依赖专业检索人员,且检索费用昂贵,一般用户难以承受。许多著名的联机检索系统有:DIALOG、MEDLINE3.光盘检索阶段(20世纪80年代)光盘是20世纪80年在计算机技术、激光技术等现代科技成果的基础上发展起来的新型电子出版物,检索费用大大低于联机检索,利用光盘存储信息方便、便于携带,除可以追溯检索、定题服务外,还可用于“自建库”和做联机检索预处理。但它光盘检索得到的信息又不十分及时。4.网络化联机检索阶段(网络信息检索)(20世纪90年代至今)它使人们可以在很短的时间里查遍全球的信息资料,使人类的信息资源共享成为可能,使网上的信息源利用率提高,信息组织更为有序和有效。二、计算机信息检索技术的发展趋势1.以人工智能为代表的信息检索自动化趋势网络信息检索自问世以来,自动化技术就占了主导地位,包括自动标引、自动文摘、自动分类等信息自动化技术极大地促进了检索效率的提高。信息检索自动化技术的发展取决于人工智能技术的研发程度,其中的自然语言分析和处理使人工智能与信息检索有着密切的联系,信息检索工具开始把人工智能更多地引入网络信息的标引和检索中,特别在自然语言理解、机器翻译、专家系统等方面已取得了进展。2.多媒体信息检索技术的发展Web出现以前,由于检索工具本身的限制,信息仅限于文本检索。以显示多媒体为特点的Web为非文本信息检索提供了良机。目前,包括图像检索、影像检索和声音检索的多媒体声像检索成为信息检索领域研究的热点。3.多语种检索的支持网络信息检索的多语种支持功能就显得愈加重要,现在解决多语种支持的访求有以下几种:把检索结果限制在某一种语言之内;使用某一种语言直接检索,它代表了多语种检索的主流;最后一种是自动的翻译检索结果。4.个性化检索工具和专业化检索工具通用的检索工具具有永远无法弥补的缺陷,即使提高了检索工具的标引和检索机制,收效却不是很显著。因此,开发个性化和专业化的检索工具是大势所趋。如MEDLINE,也开通了Web界面供用户免费检索,作为一个专业联机检索数据库,其检索功能和效果是目前网络信息检索工具所望尘莫及的。第二节计算机信息检索的步骤和策略调整方法信息检索一般有分析检索课题、选择检索系统、确定检索策略(选择检索点和检索词、制定检索式)、调整检索策略以及获取原始文献等步骤。检索步骤如下:一、分析研究课题明确检索要求二、选择检索系统三、选择检索点、检索词四、制定检索式五、实施检索六、修正或调整检索策略七、获取检索结果一、分析研究课题明确检索要求检索课题分析作为检索策略制定的根本出发点,要明确检索课题所包含的概念成份及其相关关系,这是检索效率高低或成败的关键1.分析课题的主要内容、所属学科性质,明确研究课题所需的信息内容,从而提出能准确反映课题核心内容的主题概念。必要时要做辅助检索,做到全面了解。2.确定课题的文献类型如果属于基础理论性探讨,要侧重于查找期刊论、会议论文、专业著作。如果是尖端技术研发,应侧重于科技报告、如属于发明创造、技术革新,则应侧重于专利文献。如为产品定型设计,则需利用标准文献及产品样本。明确课题对检索深度的要求,弄清用户是需要提供题录、文摘还是原始文献。3.确定检索的所需文献的时间范围,所需的语种以及文献量的多少。根据课题的起始年代和研究的高峰期确定检索的时间范围4.分析用户的检索评价要求,即对查新、查准、查全的指标要求。如要了解某学科、理论、课题、工艺过程等最新进展和动态,则要检索最近的文献信息,强调一个“新”字;若要解决研究中具体问题,找出技术方案,则要检索有针对性、能解决实际问题的文献信息,强调一个“准”字;如要了解一个全过程、写综述、述评、写专著、做鉴定、报成果,就需回溯大量文献,要求检索的全面、详尽、系统,则强调一个“全”字。二、选择检索系统在课题分析的基础上,根据课题的特点、信息需求、检索目的,选择专业对口、覆盖范围广、更新及时、内容准确权威、检索功能完备的检索系统。数据库选择3C四原则:Content:数据库存储的文献内容,涉及学科范围、科技含量、数据库类型、数据来源。Coverage:数据库的覆盖面,涉及收录文献时间跨度、国家区域、机构、文献量等Currency:数据库的更新频率、周期、更新是否及时Cost:数据库的费用,不同的数据库的检索方式和输出格式的收费是不一样的。三、选择检索点、检索词检索点(检索途径)是检索的出发点,用于文献检索的检索点很多,反映文献信息内容特征的有:分类检索和主题检索;反映文献外部特征的有:作者检索、名称检索和号码检索等。检索词是表达信息需求的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得当与否,会直接影响检索效果。检索词可分为两类,一类是表示主题概念的名词术语(如叙词和关键词),或者是个人或机构的名称(如作者姓名),另一类是某些特殊的符号(如分类号、代码等)。四、制定检索式(由检索点、检索词、检索算符组成)应明确所需检索的概念及其相互关系,用系统支持的算符以及提供的各种选项,将这些词组配起来形成检索提问式,以充分表达信息需求。五、实施检索完成了上述工作之后,就可以输入检索词实施检索了,或根据手工检索工具的检索着手检索。注意:所输入的检索词必须与检索项(检索途径)相匹配的,否则就会功亏一篑。六、修正或调整检索策略在实际检索过程中,常会出现检索结果过少或过多的情况,这时候就需要及时修正或调整检索策略,以完善检索结果。扩大文献检索量(检索到的文献量过少)1.考虑使用同义词或近义词(用布尔逻辑或连接)2.选择能覆盖较大检索范围的检索点,从篇名扩大到关键词、摘要或全文。3.使用截词符4.考虑使用上位词。如飞行器是航天飞机的上位词5.放宽检索限定,如年限、期刊的限定范围。6.是否有拼写和语法错误缩小文献检索量(检索到的文献量过多)1.使用AND、NOT以及位置算符限制范围2.选择检索范围较小的字,如从摘要缩小到篇名进行检索。3.使用二次检索4.使用下位词5.缩小检索限定,如缩小检索年限、期刊级别6.使用精确检索,如对固定短语来说可用“”7.不使用过分含混或一般性的词汇8.应考虑使用控制词汇9.截词使用不能过松10.注意数据库的隐含性概念七、获取检索结果检索结果的获取有多种方式,包括页面保存、下载、E-mail邮件订购以及文献传递等,用户可以根据自身检索条件进行选择。1.利用全文数据库直接获取如“中国期刊全文数据库”、“万方数据资源系统”、“超星数字图书馆”等2.利用文献传递系统获取如“读秀学术搜索”、“安徽高校资源共享系统”、“国家科技图书文献中心”“高校人文社会科学文献中心”3.利用文摘数据库的原文服务可以通过收录文献的全文链接,向数据库商提出索取原文申请。第三节检索方式一、浏览方式1.分类浏览:按学科类别浏览。可点击“分类导航”或“分类表”中的任何一个类别,接着显示所点击类别的下属子类,如此类推。分类浏览的结果页面通常“检索词”的输入框,以便进行二次检索,缩小检索范围。2.字顺浏览:按检索词首字母为序,提供相应检索字段的浏览。如按出版物名称字顺、著者姓名字顺等。例如已知刊名,可选择“按刊名字顺浏览”,进入期刊访问页面,浏览或查询论文。二、查询方式初级检索:也称快速检索、基本检索。利用初级检索系统能进行快速方便的查询,适用于不熟悉多条件组合查询的用户。高级检索:也称扩展检索。高级检索可进行多个条件的组合检索,即多个字段之间有一定逻辑关系(and,or,not)的检索。专家检索:也称专业检索。检索式中可同时使用检索词、逻辑算符(AND,OR,NOT,ANDOT)、字段标识符、邻近算符、截词符等多种算符,创建更复杂的检索式。二次检索:在结果中检索又称为二次检索,当检索结果太多,想从中精选出一部分时,可使用二次检索。第四节检索点、检索词和检索方法一、检索点检索点(accesspoint)是检索的出发点,以前常用“检索途径”(approach)这一术语。现在常用的名称还有检索项、检索入口、检索字段等。每种文献均有内容特征及其相关的外表特征,检索点包括反映文献信息内容特征的分类、主题等检索点,以及反映文献信息外表特征的作者、题名、号码等检索点。常用的检索点主要有:分类、主题、作者、团体作者、篇名、摘要、关键词、全文、基金、号码等。1.分类检索点:分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系。具体表现为分类表、分类目录、分类索引、分类导航、分类专辑等。分类检索点能满足族性检索的需求,查全率较高。2.主题检索点:主题检索点以课题的主题内容为出发点,按主题词、关键词、叙词、标题词等来查找文献。主题检索点对应文献的主题概念,主要包括题名检索点、关键词检索点、摘要检索点等。以主题作为检索点能满足特性检索的要求,查准率较高,适合查找比较具体的课题。3.作者检索:是从文献的作者姓名出发来检索其文献。“作者”广义上还应包括:汇编者、编者、主办者、译者等,此外,还有代表机构、单位的团体作者,包括作者所在单位。4.名称检索:是从各种事物的名称出发来检索文献信息,包括书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。书名检索引、会议名索引、书目索引、刊名索引等者提供了从名称进行检索的途径。5.号码检索:号码检索点以号码特征来检索文献信息。包括文献的编号、代码等,它们是文献信息的一些特有的外部标识,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。如科技报告号、专利号、标准号、ISSN、ISBN、馆藏单位的馆藏号、索取号等。二、检索词无论专业检索人员还是一般信息检索用户在进行信息检索时,都面临着一个问题,这就是主题分析后标引技术的运用,即正确的选词。特别是利用国外检索工具时显得尤为重要。检索词是表达信息需求的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得当与否,会直接影响检索效果。检索词可分为两类,一类是表示主题概念的名词术语(如叙词和关键词),或者是个人或机构的名称(如作者姓名),另一类是某些特殊的符号(如分类号、代码等)。(一)选词原则1.必须反映信息概念的准确性选定的主题词,主要是各学科领域文献中经常出现、在信息检索中有使用价值和一定的使用频率、能作为主题汇集一定量的文献或具有叙词组配功能的名词术语,并能通过概念组配可以表达文献或用户查询的特定主题。比如:古代语言演变=古代语言+语言演变古代语言演变=古代语言+演变2.反映信息