自动化1107徐志龙110240194文件检索的方法及案例一信息检索的概念信息检索是指将杂乱无序的信息有序化形成信息集合,并根据需要从信息集合中查找出特定信息的过程,全称是信息存储与检索(InformationStorageandRetrieval)。信息的存储主要是指对一定范围内的信息进行筛选、描述其特征,加工使之有序化形成信息集合,即建立数据库,这是检索的基础;信息的检索是指采用一定的方法与策略从数据库中查找出所需信息,这是检索的目的,是存储的反过程。存储与检索是一个相辅相成的过程。为了迅速、准确地检索,就必须了解存储的原理。通常人们所说的信息检索主要指后一过程,即信息查找过程,也就是狭义的信息检索(InformationSearch)。信息检索的实质是将用户的检索标识与信息集合中存储的信息标识进行比较与选择(或称为匹配(Matching)),当用户的检索标识与信息存储标识匹配时,信息就会被查找出来,否则就查不出来。匹配有多种形式,既可以是完全匹配,也可以是部分匹配,这主要取决于用户的需要。流程图如下二信息检索的类型1、按数据格式和检索技术的层次划分为–文本信息检索–多媒体检索–超媒体和超文本检索2、按用户使用信息的目的不同划分为–撰写论文的信息检索–学科建设和科学研究的信息检索–其它信息检索(生产开发、解决单一问题、对已知文献的查找等)3、按信息检索的技术手段划分:–手工检索-计算机检索4、依据信息类型划分-事实与数值型信息检索、图书信息检索、期刊信息检索、专利信息检索、商标信息检索、学位论文检索、标准信息检索、科技报告信息检索等。案例:事实与数值型信息检索举例如下:检索国家统计局公布的(2002年1——2季度)牧业产值(按现行价格计算)是3728.7亿元。用《中国大百科全书(简明本)》或者其他工具检索园艺术语“蔷薇科”,中国有53属1000余种。5、依据检索界面划分-初级检索-高级检索三具体的检索方法(一)文献检索(DocumentRetrieval)–文献检索是以文献为检索对象,从已存贮的文献数据库中查找出特定文献的过程。检索结果往往是一些可提供研究课题使用的参考文献的线索或全文。–可分为书目检索和全文检索–例如“关于商标保护有些什么参考文献?”这就需要我们根据课题要求,按照一定的检索标识(如主题词、分类号等),从所收藏的文献中查出所需要的文献。(二)数据检索(DataRetrieval)–数据检索是以数据为检索对象,从已收藏数据资料中查找出特定数据的过程。–即检索系统中存贮的是大量的数据,其中包括各种数字数据和非数字数据。数字数据包括参数、电话号码、银行账号、观测数据、统计数据,非数字数据包括图表、图谱、市场行情、化学分子式、物质的各种特性等,并提供一定的运算推导能力。–数据检索是一种确定性检索,信息用户检索到各种数据是经过专家测试、评价、筛选过的,可直接用来进行定量分析。–例如检索“2002年中国国民生产总值是多少?(三)事实检索(FactRetrieval)–事实检索是通过对存贮的文献中已有的基本事实,或对数据进行处理出新的事实过程。–其检索对象既包括事实、概念、思想、知识等非数值信息,也包括一些数据信息,但需要针对查询要求,由检索系统进行分析、推理后,再输出最终结果。–例如查找“2002年世界军费支出最高的国家”。四、检索工具1、定义:信息检索工具是用于存储、报道与检索各类信息的工具。它是经过对信息进行搜索整理、特征分析和组织加工后的产物,同时也是信息检索的主要手段和条件。2、功能:a.报道功能b.标识功能c.检索功能3、检索工具的选择选择检索工具应该以满足信息利用要求为前提,充分考虑客观工具条件和经济能力。一般来说,应该先选国内的,后选国外的,先选本地图书馆再选其他图书馆;一般的资料查询应先查文献型检索工具,必要时再查其他工具;而科学研究者应根据信息内容互补原则选配多种工具构成信息完整的检索工具体系,优先选用专科或专题数据。根据高校图书馆信息资源和大学生的信息需求实际情况,常用的检索工具如下:本馆的馆藏书目检索系统,超星电子图书数据库、CNKI系列期刊和学位论文数据库、重庆维普咨询公司……其中的收费检索工具需要从校园网或者本校图书馆页面进入,以便于免费获取原文。此外,网上免费的检索工具还有:中国国家知识产权局、欧洲专利局、美国专利局商标数据库、搜索引擎Goole、科技搜索引擎。印刷型信息的检索工具有百科全书、手册、统计资料、年鉴和各个专业的文摘、索引,还有提供检索依据的分类表和主题词表。查找某一专业专指性很高的课题时有时必须选择各种专指性强的印刷型检索工具。例如《畜禽药物手册》检索到消化系统药物大黄粉末对犬的致泄量是2~4g,但是通过其他检索工具甚至用到Goole搜索都没有检索到结果。五、检索的方法在检索信息文献时,可以根据检索课题的要求和对课题有关文献线索的掌握情况选择不同的检索方法,以便达到省时、省力、查全的目的。信息检索方法一般有3种:直接法、追溯法、循环法。(1)追溯法也称引文法,是利用综述或已掌握文献所附的引文注释和参考文献目录作为线索,、逐一追查原文,然后再从这些原文所附的参考文献目录逐一扩检,产生滚雪球效果。多用于没有合适的检索工具,或检索工具不齐全的情况,缺点是易受原文作者引用资料的局限性和主观随意性的影响,且比较杂乱,缺乏时代特点。(2)直接法又称常用法,是指直接利用检索系统(工具)检索文献信息的方法。它又分为顺查法、倒查法和抽查法。顺查法:以检索主体的研究发生时间为起点,逐步推进到目前新出版的文献,较费时间,但可查全,有利于了解课题研究的全过程,多用于范围较广,所需文献系统、全面、较为复杂的研究课题以及文献普查。逆查法:从近年的检索工具查起,逐年回溯过去的文献,直到满足需要为止,多用于新课题研究的文献搜集。抽查法:选择某课题领域发展迅速、研究成果较多的时期进行重点检索,以节省时间。多用于时间紧张的小型项目研究,不太关注历史渊源和全面系统,易漏检。(3)循环法又称分段法或综合法。即利用检索工具查到某些文献,又利用这些文献所附参考文献追溯查找,这样分期分交替使用直接法和追溯去,循环下去,直到满足检索要求为止。这种方法可以取长补短,相互配合,获得更好的检索结果。(4)交替法交替法就是把引文法和常规法结合起来查找文献的方法,即先利用常规检索工具找出一批有用的文献,然后利用这些文献所附的引文进行追溯查找,由此获得更多文献。实例:用交替法检索大学生心理健康类文献在超星电子图书数据库输入书名“大学生心理健康”,查出一本图书《大学生心理健康向导》,翻页到末页,该书参考文献列出9本图书,第一本是:黄希庭,郑涌。大学生心理健康与咨询。北京:高等教育出版社,2000再使用超星电子图书数据库输入书名“大学生心理健康与咨询”,查出有该书,其列出参考文献22篇,第一篇和第二篇分别是:1仇雨临,等。男女大学生就业竞争力差异之比较.中国人名大学学报,1992(6)。2陶国富.市场经济氛围中上海三千大学生价值取向的演变.当代青年研究,1994(8)以此方式可以检索出越来越多的相关文献。六、检索的途径•分类途径指按照文献所属的类别来检索文献的途径。这种途径主要是利用分类索引或分类号。目前中文图书主要采用《中图法》4版进行分类。比如TP312C,表示“C语言”。•主题途径指通过能表达文献内容的主题词来检索文献的一种途径。主要是利用主题索引、单元词索引、主题轮排索引等。主要利用《汉语主题词表》、《EI叙词表》、《INSPEC叙词表》。•关键词途径指把信息主题内容起关键作用的词组或单词抽取出来检索文献的一种途径。是一种很灵活的词组或单词,不需要规范词表,使用方便,在计算机检索系统中应用较广。•著者途径是从个人著者或团体著者名出发来检索,检索出他们所发表的或主持的文献。•题名途径直接利用信息的题名查找所需信息的方法。题名包括信息标题名(篇名、书名、刊名、标准名、文档名、数据库名等)。•机构途径通过机构名称获取相关信息的方法。机构名称包括著者单位、图书或期刊的出版社或发行单位、数据库的开发建设单位、特定网络系统的维护或信息服务单位的名称或域名等。•代码途径是通过已知号码(包括报告号、合同号、专利号、标准号、TP地址代码等)来查找文献的一种途径。这种途径主要是利用各种号码索引。