第六章网络信息资源检索本章内容一、网络资源概念及划分二、网络资源检索方法三、网络资源检索工具1.分类2.baidu,google搜索引擎3.图书馆加工整理并定期更新的免费资源一、网络信息资源(NetworkInformationResource):1、概念:网络信息资源是以电子计算机技术、通信技术、多媒体技术相互融合而形成的以电子网络为传输性载体和传输媒介的信息资源。2、分类:根据不同的划分标准,可以获得不同的分类结果,主要有:(1)按人类信息交流的方式划分:a、非正式出版信息。指流动性、随意性较强的,信息量大、信息质量难以保证和控制的动态性信息。如电子邮件、专题讨论小组和论坛、电子会议、电子布告版新闻等工具上的信息。b、半正式出版信息。又称“灰色”信息,指受到一定产权保护但没有纳入正式出版信息系统中的信息。如各种学术团体和教育机构、企业和商业部门、国际组织和政府机构、行业协会等单位介绍宣传自己或其产品的描述性信息。c、正式出版信息。指受到一定的产权保护,信息质量可靠、利用率较高的知识性、分析性信息,用户一般可通过Web查询到。如各种网络数据库、联机杂志和电子杂志、电子图书、电子报纸等。(2)按照信息的加工程度划分:a、一次网络信息资源因特网的原始信息,包括电子图书、电子期刊、电子报纸、电子邮件、网络会议论坛、网络新闻组、企业网站(不包括虚拟的网络型网站的商业网站,如Yahoo,搜狐、新浪等)、政府网站、教育科研机构网站等等。b、二次网络信息资源对一次网络信息资源的搜集、加工和处理,主要指搜索引擎、虚拟图书馆等,是网络检索工具的重要组成部分。这类网络信息资源是用户经常利用的工具,是获取一次网络信息资源的门户和入口。c、三次网络信息资源对二次网络信息资源的搜集和对已搜集二次网络信息资源的组织,以元搜索引擎为其典型。(3)按照网络信息的内容和用途划分:a、普通型:主要是反映某个组织或个人相关信息、某类学科知识或者某一方面的信息,一般不具备站内强大的搜索功能,只是通过链接来组织各种内容信息。b、专门资料型:主要指以查检为目的,为用户提供全面内容信息的网络信息资源类型,如网络数据库、搜索引擎、专利检索网站等等,它通常具有全文检索的功能,以免费或收费的方式提供服务。这类网络信息资源是我们进行信息检索时经常利用到的信息资源。c、数据资料型:通常是按内容、地域、时间、出版所有权或者其它分类,组织起来的相关数据集合。如地区或城市介绍,工程实况及记录,企事业机构名录、指南,字典、百科全书、年鉴、手册、产品样本等参考工具等,也包括一些统计数据,产品或商品的规格及价格,各种投资行情和分析等。d、即时资料型:指在网上论坛、新闻组、留言板等上面实时产生的信息资源。这类网络信息由于发表方便,随意性较大,动态性强。(4)按照信息的表现形式划分:a、全文型:各种报纸、期刊文献的全文,政府出版物、专利、标准以及全文型的其他网站。如我国的中国期刊网,能提供几千种国内出版期刊的全文数据查阅服务。b、数值型:如主要提供统计数据、产品或商品的规格及价格的网站或网页。c、书目、索引、文摘型:如图书馆公共联机检索系统就是典型的这类资源。ISI网站上的“WebofScience”是著名的SCISSCJAHCI的Web版,能查阅各类引文数据。d、实时活动型:如各种投资行情和分析,BBS讨论组,网上商务贸易等。(5)按发布机构分:a、企业站点信息资源这类资源站点一般以com为一级或二级域名注册。如中国石化公司。其信息资源一般以初始信息为主,如提供公司整体概况,各类产品信息、商业服务信息等,更新及时、动态性强。b、学校、科研院所站点信息资源这类站点一般以edu或ac为一级或二级域名注册,如(江南大学)现名:lib.jiangnan.edu.cn。主要提供学术性较强的各种信息,如科研活动介绍、学术动态、信息检索、远程教育等。c、信息服务机构站点信息资源这类站点一般以net、com、gov或行政区域为一级或二级域名注册。如(中国科技信息网),(上海图书馆)。主要提供各类专题信息。广泛开展信息资源的开发与利用服务,网络功能的开发与应用服务,如全文数据库查询、建立搜索引擎等。d、行业机构站点信息资源这类站点一般以所属上级部门为域名注册,有com、ac、gov等,如(中国汽车行业经济技术信息网)。它们一般是再现行业信息、系统性、完整性较好。主要信息内容有企业名录、市场行情、行业论坛、政策和法规、统计信息等。(6)按传输协议分:a、基于超文本传输协议(HTTP)的信息资源万维网(WorldWideWeb,简称或Web)信息资源是一种典型的基于HTTP的网络信息资源。HTTP是浏览器与Web服务器之间相互通信的协议。即Web客户机和服务器用于在网上传输、响应用户请求的协议。当用户以http://开始一个链接的名字时,是告诉浏览器去访问使用HTTP的Web页。b、基于文件传输协议(FTP)的信息资源FTP协议的主要功能是完成从一个系统到另一个系统完整的文件复制,即在网络的联网计算机之间传输文件。通过FTP可以获得的信息资源类型广泛。广义地说,如何以计算机方式存储的信息都可以通过FTP协议获取,包括书籍、图像、声音、多媒体、一些书籍的电子版、电子期刊、某些政府机构发布的信息、大量的免费与共享软件等。c、基于远程登录(Telnet)的信息资源这是指通过Telnet协议所访问到的网络信息资源。如各类图书馆的公共查询目录系统、信息服务机构的综合信息系统等。d、用户服务组信息资源包括新闻组(UsenetNewsgroup)、电子邮件群(Listserv)、邮件列表(MailingList)、专题讨论组(DiscussionGroup)等。它们是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛,是网络用户间的信息交流;但又各具特色和用途,锁定各自特定的用户。e、Gopher信息资源Gopher又称信息鼠,这是一种基于菜单的网络服务,类似万维网的分布式客户机/服务器形式的信息资源体系。它是因特网上一种分布式信息查询工具,各个Gopher服务器之间彼此连接,全部操作都在一级级菜单的指引下,用户只需在菜单中选择和浏览相关内容,就完成了对因特网上远程联机信息系统的访问。此外,Gopher还可提供与前文所提及的其他多种信息系统的连接,如、FTP、Telnet等。3、网络信息资源的特点:(1)信息量大,传播广泛;(2)信息层次多,品种多样;(3)自由发布,交流直接;(4)信息传播速度快,变化频繁;(5)检索方便,价廉实惠;(6)分散无序,缺乏管理;(7)内容庞杂,质量不一。二、网络信息检索方法:1、直接浏览:(1)网址查询:如果用户要访问已知地址的信息资源,可以在浏览器地址栏中输入已知的网站或网页地址,直接进行浏览。获取网址的方法:a、用户可以充分利用浏览器中的收藏夹功能,保存和管理浏览过的感兴趣的网站或网页。b、可以通过创建书签(Bookmark)或热链(Hotlink,Hotlist),来将一些常用的,优秀的站点地址记录下来,组织成目录以备今后之需。c、可以通过与他人的交流获取相关的网址。d、可以在一些刊物上有一些专门介绍某些专业网络资源的文章,也可供我们参考使用。(2)偶然发现即在日常的网络阅读、漫游过程中、意外发现一些有用信息。这种方式的目的性不是很强,其具有不可预见性、偶然性。(3)顺“链”而行指用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页。这种方法可以在很短的时间内获得大量相关信息,但也有可能在“顺链而行”中偏离了检索目标,或迷失于网络信息空间中:而且找到合适的检索起点也不容易。2、通过网络资源指南来查找信息对于有目的的网络信息发现具有重要的指导、导引作用。综合性的主题分类树体系的网络资源指南,如:Yahoo!专业性的网络资源指南。局限性在于:由于其管理、维护跟不上网络信息的增长速度,导致其收录范围不够全面,新颖性、及时性可能不够强;且用户还要受标引者分类思想的控制。三、网络信息检索工具:(一)概念:网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。(二)一般构成:网络检索工具一般由索引程序、数据库和检索代理软件组成。1、网络检索工具搜集信息资源主要有两种类型的程序:(1)人工程序是由专门的信息人员收集网上信息,并按规范进行分类标引,组建成索引数据库。这种采集方式可以保证所收集信息的质量和标引质量,但是效率低,更新慢。(2)自动索引程序是现在大多数网络检索工具搜集信息资源时使用的程序。通过采用一些网络自动跟踪索引程序(如Robot、Spider、Crawler、Worms、Wander等)来完成。这种索引程序在网络上自动检索网络资源,并跟踪记录其网址、描述其特征及内容,建立索引数据库,并不断地自动更新数据库。这种程序保证了入库信息的及时性。不同的自动索引软件采用的标引、搜索策略不同,自动索引软件搜寻、标引网页的方式对信息检索的质量有直接影响。现在许多网络检索工具采取自动采集和人工标引相结合的方式建立数据库。2、数据库是网络检索工具提供检索服务的基础。不同的网络检索工具,数据库收录网络资源的类型与范围不同,标引方式也不同:有的收录各种类型的资源,如Web、Usenet、FTP、Gopher等,有的只收录Web、Usenet等;有的标引主页的地址、标题、特定的段落和关键词;有的对主页的全文进行标引。因此,数据库的内容一般有网站的名称、标题、网址URL、网页的长度、网页的时间、相关的超文本链接点、内容简介或摘要等。不同的数据库的规模差异也很大,如google收录索引了近33亿个网页,百度收录索引了一亿多个中文网页。数据库规模的大小决定了查询到的信息是否全面。3、检索代理软件负责处理用户的检索提问,并将检索结果提交给用户。不同的网络检索工具,采用的检索软件不同,提供的检索功能、支持的检索技术不同,对检索结果的处理方式不同。检索软件功能的强弱直接影响检索效果。检索软件功能强弱的判定,主要是看检索界面是否友好、检索技术是否灵活多样、检索途径多少等几方面。(三)类型:1、Web资源检索工具:Web检索工具是指利用超文本(或超媒体)技术在因特网上建立的一种提供网上信息资源导航、检索服务的专门web服务器或网站。目前发展最为迅速、最受人们欢迎的信息检索工具是(即万维网)上的检索工具——搜索引擎。搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。搜索引擎主要分为以下类型:(1)全文搜索引擎(FullTextSearchEngine):全文搜索引擎是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等;国内著名的有百度Baidu)。从搜索结果来源的角度,全文搜索引擎又可细分为:A、拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;B、租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。此类搜索引擎使用关键词匹配方式检索,速度快,用户易学易用,但其不对内容处理的工作方式导致搜索结果数量庞大,这就要求用户在设计构造检索表达式及对反馈结果的限制选择上作一定的技术处理,因而对用户的检索能力要求相对来说反而