3.2因特网信息资源检索因特网信息检索方法基于超文本/超媒体的信息浏览基于目录服务的信息查询基于搜索引擎的信息检索通过嵌入网页中的超链接搜索信息通过目录服务检索信息搜索引擎(SearchEngine)是指对因特网各种信息资源进行标引和检索的工具。搜索引擎使用自动搜索软件来采集、发现、收集并标引网页、建立数据库,以页形式提供给用户一个检索界面,供用户通过关键词、词组或短语等检索项来进行检索。二、搜索引擎的定义搜索引擎工作原理1、信息的采集与存储信息的采集包括人工采集和自动采集两种方式。人工采集由专门的信息人员跟踪和选择有用的站点或页面,并按规范方式分类标引并组建成索引数据库。自动采集是通过自动索引软件(Spider、Robot或Worm)来完成的,Spider、Robot或Worm在网络上不断搜索相关网页来建立、维护、更新索引数据库,自动采集能够搜索、采集和标引网络上众多站点和页面,并根据检索规则和数据类型对数据进行加工处理,因此它收录、加工信息的范围广、速度快,能及时地向用户提供Internet中的新增信息,告诉用户包含这个检索提问的所有网址,并提供通向该网址的连接点,检索比较方便。2、建立索引数据库信息采集与存储后,搜索引擎要对已收集的信息进行整理,建立索引数据库,并定时更新数据库内容。索引数据库中每一条记录基本对应于一个网页,记录包括关键词、网页摘要、网页URL等信息。由于各个搜索引擎的标引原则和方式不同,所以即使是对同一个网页,她们的索引记录内容可能也不一样。3、检索界面的建立每个搜索引擎都必须向用户提供一个良好的信息查询界面,接收用户在检索界面中提交的搜索请求,搜索引擎根据用户输入的关键词,在索引数据库中查找,把查询命中的结果(均为超文本链接形式)通过检索界面返回给用户,用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息。1994年起搜索引擎发展举例产生时间搜索工具开发组或公司网站特点1994.4Yahoo斯坦福大学早期Yahoo数据是手工输入1995.12AltavistaDEC公司第一个支持自然语言关键词和高级检索的引擎1997.10北大天网北大计算机研究室收录网页约6000万,有强大的FTP搜索功能1998.9Google斯坦福大学提供网页评级动态摘要、网页快照,每天更新、多文档格式支持2001.8Baidu百度公司快照、预览、相关词搜索、mp3、flash搜索功能搜索引擎的分类类型定义举例目录搜索网络信息资源按照主题分类,并以层次树状形式进行组织的一类搜索引擎.优点:实实在在找到用户所关心内容分类,网站导航质量高缺点:分类不够细,需要人工介入,目录的维护量大,更新可能不够及时.搜索引擎的分类类型定义举例全文搜索使用关键词到预先建好的或租用其它索引数据库查询信息的一类搜索引擎.优点:信息量大、更新较及时、不需人工干预。缺点:返回信息过多,有很多无关信息。全文搜索引擎输入关键字查询信息排序索引数据库用户查询查询结果检索搜索搜索引擎的分类类型定义举例元搜索引擎元搜索引擎就是通过一个统一的用户界面向多个搜索引擎同时递交用户查询,返回结果去重合并,综合结果返回给用户.优点:结果精确、全面,汇聚各大搜索引擎的结果。缺点:检索速度较慢、牺牲个别搜索引擎性能,并非1+1=2注意的问题搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。分别用目录式搜索引擎、全文搜索引擎、元搜索引擎搜索,并填写下表中的信息进行比较搜索内容搜索引擎名称搜索时间搜索数量重庆园博园://动动手目录式搜索引擎:全文搜索引擎:元搜索引擎:参考资源搜索数量搜索时间搜索数量搜索数量分别用目录式搜索引擎、全文搜索引擎、元搜索引擎搜索,并填写下表中的信息进行比较搜索内容搜索引擎名称搜索时间搜索数量重庆园博园://://动动手目录式搜索引擎:全文搜索引擎:元搜索引擎:参考资源特色信息检索工具这类检索工具专门收集某一类的信息资源。例:MIDI文件检索工具特色信息检索工具地图检索其他信息检索工具以FTP、Telnet、Usenet等资源为检索对象。考考你如果想大致了解某一个领域的信息资源:如果检索的内容专业性较强:如果想全面了解网上信息资源:目录索引类搜索引擎专业搜索引擎元搜索引擎课堂总结这节课我们学习了两大知识点:一是信息检索的方法;二是三大搜索引擎特点及工作原理,这一部分是我们这节课的重点,也是难点,只有你真正理解了它们工作的原理,我们才会真正能够根据不同查询要求,综合并灵活使用各种检索工具,准确、高效地获取我们所需要的信息,这也是我们课标所要求的。