第三章网络信息检索工具【知识框架】信息检索的一般流程网络经贸信息资源的概念与类型网络资源查询方法及检索工具按检索机制分:目录型(Subjectdirectory,catalogue)索引型:搜索引擎(SearchEngine)混合型(Hybridtools)按检索内容分:综合型专题型特殊型按包含检索工具数量分:单一型(Singularsearchtools)集合型(Collectivesearchtools):元搜索引擎(MetasearchEngine或MegasearchEngine目录型检索工具(Subjectdirectorycatalogue)搜索引擎(SearchEngine)单一搜索引擎集成搜索引擎检索工具的工具——指南类检索工具和元搜索引擎(一)网络资源指南(ResourceGuide)也称学科门户SIG(二)元搜索引擎集合式搜索引擎、索引式搜索引擎(三)手工检索工具的“工具书指南”、网址簿网络版参考咨询工具(ReferenceTools)智能搜索代理和搜索软件补充教材第二章:检索工具与语言检索策略【主要内容】1、信息资源检索的一般流程分析问题问题分类分析已知和欲知信息分析需求主题广泛利用文献选择检索范围选择检索工具熟悉各种检索工具从检索工具中查找所需信息获取原文2、网络信息资源的概念和类型1)按传输方式分:FTPUsenet/NewsgroupLISTSERV/MailingListTelnetGopherWAIS2)按内容加工一次加工信息网上图书、期刊、报纸、专利、政府出版物、会议资料等二次加工信息文摘索引数据库、搜索引擎、网站导航等三次加工信息百科全书、手册指南等参考型网站3)格式与后缀3、网络检索工具的分类按检索机制分:目录型(Subjectdirectory,catalogue)索引型:搜索引擎(SearchEngine)混合型(Hybridtools)按包含检索工具数量分:单一型(Singularsearchtools)集合型(Collectivesearchtools):元搜索引擎(MetasearchEngine或MegasearchEngine4、目录型检索工具(Subjectdirectorycatalogue)1)网络资源目录这是一种独立型检索工具,网站自身包含可检索的数据库。网络资源目录又称网站目录、分类站点目录、专题目录或主题指南、站点导航系统、主题词典型检索工具等。这是一种将网络资源搜集后,按某种分类法进行组织整理,并和检索法集成在一起的信息检索方式。特点:人工设计和编制的、供检索的等级结构式目录(指南、导航系统)所收录资源经过鉴选和组织减少了检索中的噪音,提高了检索的准确性数据库的规模相对较小新颖性不强,(会有“死链接”deadlink)用户要熟悉其分类体系目录型检索工具比较适合于查找综合性、概括性的主题概念,或对检索准确度要求较高的课题原理:网络资源目录一般:采用人工方式采集网络信息;通常以某种分类体系为依据,将网络信息资源分为若干领域的主体范畴,然后再细分为各学科专题目录。网络资源目录的分类通常采用主题分类法、学科分类法、体系分类法。一个网络资源目录包括许多层,第一层是总目录,将网络资源分成若干领域的主题范畴,然后链接到第二层专题目录,再链接到第三层子目录,依次而下,直至具体的信息资源,形成一个由信息链组成的树状结构。有代表性的目录型检索工具:Yahoo分类目录检索;开放目录项目(OpenDirectoryProject,简称ODP);5、搜索引擎(SearchEngine)特点:-收录、加工信息的范围广、速度快;-检索功能强,一般可称为网络资源的关键词索引;-检索时直接输入关键词或词组、短语,无需判断类目归属,比较方便;-标引过程缺乏人工干预,准确性较差-检索误差(噪音)较大搜索引擎适合于检索特定的信息,及较为专、深、具体或类属不明确的课题工作过程:单一搜索引擎的结构一般由三部分构成:信息采集、索引数据库、用户检索。用户所熟悉的只是占搜索引擎很小部分的人机交互界面——用户通过这一界面输入需要检索的信息,系统则反馈给用户相关的信息。构成搜索引擎主要内容的是不为用户熟悉的后台部分,即作为搜索软件程序的“Robot”、“Crower”、“Spider”。这类程序能自动地在网上漫游,从一个或一组URL开始访问,并进行本地索引,同时记录该URL所指的HTML文件中所有的新的URL链接,不停地以找到的URL为起点进行本地索引,直到再没有满足条件的新的URL地址或超出了某些限制。自动采集信息是搜索引擎的主要功能。自动索引程序要对HTML文档中的超文本标记进行分析,提取出符合用户需要的主要内容,并存放在信息库中。这些软件会定期或不定期地拷贝所访问的国际互联网主机的内容,然后由提供检索服务的公司或单位统一进行标引和组织。自动索引程序将采集和标引的信息汇集成索引数据库,并随时顺着链接跟踪网上新加入的主页,为其建立索引,这是搜索引擎提供检索服务的基础。不同检索工具的数据库一般根据各自的信息资源采集的范围和侧重点设计而成,分类体系差别较大,没有统一的、严格的标准,收录的范围不一样,规模也不一样。数据库收录的内容一般有:网站的名称、标题、网址URL、网页的长度、相关的超文本链接点、关键词、内容简介或摘要等。工作原理:搜索引擎通常使用两种技术实现信息检索。一是使用网站分类技术,即把网站进行树状的归类,对每个网站都有简略的描述(如雅虎)。其优点是为网络信息导航带来方便;缺点是这种描述不能深入到网站内部,造成信息丢失。•二是使用全文检索技术,全文处理的对象是文本,通过网页抓取程序对大量网页数据建立由字(词)组成的倒排索引,以便使用户用关键词对文档进行查询,系统则返回含该关键词的网页。6、单一搜索引擎的结构单一搜索引擎的结构一般由三部分构成:信息采集、索引数据库、用户检索.7、检索工具的工具——指南类检索工具和元搜索引擎1)网络资源指南(ResourceGuide)网络资源指南,一般被称为指南类检索工具,“网络检索工具的工具”,是为用户筛选质量好、效率高、符合需求的网络检索工具,并指出检索途径和方法的网络指南。特点:网络指南多为大范围的网络链接,一般不直接提供检索结果,但却为人们检索其他各类网络信息提供重要的检索入口。这类指南可以克服搜索引擎检索结果杂乱的弱点,通过对网络专业信息资源的挖掘、采集、加工、整理和序化重组,形成一个专门为专业用户服务的信息资源指南,使检索更为系统、有序、快捷。这类指南使用的名称也多种多样,如虚拟图书馆的“咨询中心”、资源链接中心、资源索引(ResourcesIndex)等。2)学科信息门户学科信息门户,亦称门户网站、信息门户(SubjectInformationGateway),是将特定学科领域的信息资源、工具和服务集成为整体,为用户提供可靠的网络学科信息导航、方便的信息检索和服务入口。作用:通常为用户提供对因特网上信息和应用的“密集”访问方式,将来自不同信息源的信息集中在一个页面上,帮助用户通过统一的入口检索不同网站的信息,而无需逐个访问单独的网站。这种信息组织方式,再加上个性化服务和各种附加服务(如公共信息、邮件、信息订阅等),逐渐演变成为网络信息检索的又一高质量工具。特点:1)在线提供对若干站点和文档的链接;2)通过人工筛选信息;3)智能地产生包括注解和评论在内的内容描述信息(如元数据),有的提供信息的分类和主题标引;4)智能地构建分类浏览结构;5)支持手工构建单个信息资源的(书目)元数据。与搜索引擎的比较:学科信息门户:主要不是通过自动化手段来获取和组织信息,而是采用人工选择和标引保证信息的质量,使之在数量上少而精;在信息组织上采取分类浏览结构;在检索手段上不仅支持传统的基于数据库的字段检索、截断检索等功能,还支持在主题词表、后控词表支持下的智能检索.3)元搜索引擎元搜索引擎又称为集合式搜索引擎、索引式搜索引擎,它将多个搜索引擎集成在一起,并提供一个统一的检索界面。当用户发出检索请求后,通过转义在多个单一搜索引擎中查询,对查询结果进行处理(归并、删除重复、校验连接、按相关度排列结果),然后返还给用户。换言之,这是一种“引擎的引擎”,或“引擎指南”,使用户能在更广的范围内,更方便快捷地进行检索。这类搜索引擎的代表是WebCrawler、InfoMarket等。元搜索引擎的类型:元搜索引擎可分为三种类型:搜索引擎目录、多元搜索引擎和多元搜索引擎的其他衍变形式。搜索引擎目录这是一种采用关键词检索、非独立型的检索工具。它把主要的搜索引擎集中在一起,并按类型或检索问题编排组织成目录,帮助用户根据需要来选择适合的搜索引擎。搜索引擎目录集中罗列检索工具,使用户能方便地选择相应的工具进行检索,检索的还是某一搜索引擎的数据库,与普通单一搜索引擎的检索是一样的。常用的搜索引擎目录有ALL-in-one、CUSI、iTools!、悠游、北极星等;还有:iTools:;百度常用搜索导航:;Hao365.com多元搜索引擎这也是一种采用关键词检索、非独立型的检索工具。多元搜索引擎将多个搜索引擎集成在一起,提供一个统一的检索界面,并将一个检索提问同时发给多个搜索引擎,同时检索多个数据库。用户输入检索式后,检索工具将其译码,将检索式同时传送到几个搜索引擎,再将检索结果统一汇集整理后提交给用户。较有代表性的元搜索引擎:Dogpile:Metacrawler:Search.com:万纬搜索:多元搜索引擎的其他衍变形式(1)“一站式搜索引擎”(one-stopsearchengine)没有多元搜索引擎的调度机制和显示机制,因此不能综合显示结果。在编制原理上它与网络资源目录的原理极为相似,在一级标题下列出二级标题,甚至三级标题。用鼠标点击各级标题得到搜索该主题的搜索网页或网站,然后再根据网站的检索原理进行检索。这种检索工具除可采用标题检索外,还可以使用关键词进行检索。这类检索工具主要有:Web-search()、Webtaxi.com()、Search.com()等。(2)链接多个搜索引擎的搜索引擎的工作原理是用户在检索框中输入检索式后,检索式同时在几个搜索引擎上运行,然后在一祯屏幕上显示出在几个搜索引擎上检索的结果。与上述多元搜索引擎不同的是,它不是利用显示机制综合检索结果,而只是列出搜索引擎的名称及网址,并在搜索引擎下列出检索结果。这类检索工具有:Dogpile()等.8、网络版参考咨询工具(ReferenceTools)书目类检索工具有报道出版信息的出版商网站、在版书目数据库、出版在线;报道文献收藏信息的数字图书馆目录、联机目录。仅中国国家图书馆的书目类检索工具就有国家书目数据库、中国数字图书馆书目数据库、民国时期中文图书书目数据库、民国期刊书目数据库、中文报纸书目数据库、善本目录数据库等。论文类检索工具包括以定期连续发行、及时记录与通报报刊论文为主的索引、文摘、专科书目、网络版的期刊篇名数据库等,以及会议录书目、会议录索引、学位论文索引及文摘。9、智能搜索代理和搜索软件1)搜索代理智能搜索代理是另外一种检索互联网信息的工具。它对用户信息需求、偏好进行甄别、归纳、总结,分析用户的兴趣爱好,并借助学习好的规则,自动、独立