第10章网络信息检索工具

qq475308186
2 ℃
2019-12-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第十章网络信息检索工具目录10.1网络信息检索工具的发展与类型10.1.1发展10.1.2类型10.2搜索引擎10.2.1概述10.2.2特点及功能10.2.3主要SE的介绍10.2.4SE的发展趋及面临的问题目录10.3网络资源目录10.3.1含义、原理10.3.2类型、特点10.3.3网络资源目录的介绍10.4元搜索引擎10.4.1含义、特征10.4.2原理、分类10.4.3技术与评价10.4.4主要元搜索引擎的介绍10.1.1网络信息检索工具的发展1.ArchieArchie是因特网上用来查找其标题满足特定条件的所有文档的自动搜索服务的工具。Archie文档搜索系统是检索匿名FTP资源的工具。诞生于1990年。Archie帮助用户在遍及全世界的FTP服务器上寻找文件，ArchieServer又被称做文档查询服务器。用户只要给出所要查找文件的全名或部分名字，文档查询服务器就会指出在哪些FTP服务器上存放着这样的文件。使用Archie进行查询的前提：要有查找的文件名或部分文件名，知道某个或几个Archie服务器的地址。10.1.1网络信息检索工具的发展2.GopherGopher是基于菜单驱动的因特网信息检索工具。Gopher的菜单项可以是一个文件或一个目录，分别标以相应的标记。是目录则可以继续跟踪进入下一级菜单；是文件则可以用多种方式获取。Gopher内部集成了Telnet，FTP等工具，可以直接取出文件，而无需知道文件所在及文件获取等细节。通过Gopher可以进行文本文件信息查询、电话薄查询、多媒体信息查询、专有格式的文件查询等。例子：1993年开发的Veronica。10.1.1网络信息检索工具的发展3.广域消息服务广域消息服务（WAIS，WideAreaInformationService）是一种数据库索引查询服务。Archie所处理的是文件名，不涉及文件的内容；而WAIS则是通过文件内容(而不是文件名)进行查询。因此，如果打算寻找包含在某个或某些文件中的信息，WAIS便是一个较好的选择。WAIS是一种分布式文本搜索系统，它基于Z39.50标准。用户通过给定索引关键词查询到所需的文本信息，如文章或图书等。检索结果按照相关性排序。10.1.1网络信息检索工具的发展4.SearchEngine（基于超文本的搜索引擎服务）是基于的检索工具。10.1.1网络信息检索工具的发展5.文件传输服务（FTP）文件传输服务是由TCP/IP的文件传送协议FTP（FileTransferProtocol）支持下实现的一种本地计算机和远程服务器间的文件传送功能。用户使用FTP将存放在异地计算机上的文件取回到自己计算机中，可以阅读和处理这些取来的文件；用户也可以将存放在本地计算机上的文件传送到远程的FTP服务器上，让其他人使用。是一种实时服务。10.1.1网络信息检索工具的发展6.TelnetTelnet是TCP／IP协议网络的登录和仿真程序。它的基本功能是允许用户登录进入远程主机系统。Telnet是一种客户机／服务器处理方式；用户在本地系统生成Telnet应用，并和远程主机上运行的Telnet进程建立一条链路。这个用户在客户机上发出请求，然后，Telnet将这个请求传送给远程的Telnet服务器。通过这个过程，用户就能启动远程程序，并且就象他们直接与这个远程主机相连接那样，从他们自己的系统上就可以运行这些程序。10.1.2网络信息检索工具的类型1.照索引方式分类：目录型和索引型2.按照检索时搜索的检索工具数量分：独立型和集合型。3.按检索网络资源的类型分：Web资源检索工具和非Web资源检索工具。10.2.1概述10.2.1.1SE的概念广义：泛指网络上提供信息检索服务的工具和系统。有目录式SE、基于机器人技术的SE、元SE三种类型。狭义：主要指利用自动搜索技术软件，对互联网资源进行搜集、组织并提供检索的信息服务系统。10.2.1概述10.2.1.2国内外SE的发展历程Archie——SE发展的雏形。1993年，诞生第一个Robot程序：MIT学生研发的WorldWideWebWanderer。1994年1月第一个可浏览和可查询的网络目录EINetGalaxy（后更名为TradewaveGalaxy）诞生。1994年4月，诞生Yahoo！，它是一个目录式索引。诞生之初没有Spider程序。1994年4月，诞生第一个支持全文检索的SE——WebCrawler。1994年7月，将Spider程序接入到其索引程序中，诞生了Lycos。它被称为真正现代意义上的搜索引擎。Google：由LarryPage与SergeyBrin与1998年9月在美国硅谷创建的高科技公司创建。第一个中文SE：1997年在香港诞生的Goyoyo。2000年，李彦宏和徐勇创建baidu。10.2.1概述10.2.1.2国内外SE的发展历程第一阶段：始于1994年。以Yahoo！、AltaVista和Infoseek为代表。索引一般少于100万个网页。第二阶段：始于1998年。以google为代表。努力提高数据库规模、响应速度和用户数量。第三阶段：始于2000年。以google、baidu、Yahoo！等为代表。特点：索引DB规模大，成千万上亿的网页索引；开始出现主题搜索和地域搜索；实现一定程度的智能化、可视化检索；检索结果相关度评价称为研究的焦点。搜索引擎索引器（Indexer）搜索器（Crawler）检索器（Searcher）用户接口（UserInterface）10.2.1概述10.2.1.3SE的结构10.2.1概述10.2.1.3SE的结构1.搜索器：本质是一种计算机爬虫程序（Spider、Wanderer、Crawler）。功能是发现和搜集互联网的信息，并从该Web文档中提取一些信息来描述该Web文档，为SE的索引数据库的数据更新提供原始数据，这些数据包括html文件名及URL、标题、长度、文件建立时间、html文件中的各种链接书目等。包括三个模块：文档访问代理模块、路径选择模块、控制访问引擎模块。10.2.1概述10.2.1.3SE的结构文档访问代理模块：负责系统与外界进行双向交流，从访问控制引擎那里取得URL，通过http协议去访问相应的Web文档。路径选择模块：主要负责提取Web文档中的超级链接信息，以选择浏览路径。它要排除那些在目标URL中的已被访问过的URL，对搜索的深度进行限制、确定URL的访问顺序；剔除链接到图像、音频、视频等无法索引的文档URL、将所取得的超级链接信息内容通过访问控制引擎模块传递给文档访问模块。10.2.1概述10.2.1.3SE的结构控制访问引擎模块：控制文档访问代理对Web资源的访问，这主要是因为一方面需要加快系统采集的速度，可启动多个文档访问代理并行运行；另一方面启动太多的文档代理会加重服务器负担并易引起网络堵塞，它又必须控制文档访问代理对服务器的访问频率。控制访问引擎模块路径选择引擎模块文档访问代理模块10.2.1概述10.2.1.3SE的结构搜索器的搜索策略：IP地址搜索策略。先赋予网络搜索器一个起始IP，然后根据IP地址递增的方式搜索本IP地址段后的每一个地址中的文档，完全不考虑各文档中指向其他Web站点的超级链接地址。优点是搜索全面、能够发现那些没有被其他文档引用的新文档资源，缺点是不合适大规模搜索。深度优先。从起始结点开始，一直搜索到不包含任何超级链接的文件为止，这算一个完整的链，然后再返回某一文档，再继续选择该文档中的其他链接，它结束的标志是不再有其他超级链接可以搜索。优点是能遍历一个Web站点或深层嵌套的文档集合，缺点是Web结构很深，可能一旦进去，就出不来的情况发生。10.2.1概述10.2.1.3SE的结构搜索器的搜索策略：广度优先。先搜索一个Web页面中所有的链接，再继续下一层的搜索，直到最底层。优点是能找到两个Web文档之间的最短路径，不会导致陷入深层Web文档出不来的情况。缺点是对于深层Web文档要花很长时间才能到达。10.2.1概述10.2.1.3SE的结构2.索引器：对搜索器搜集来的信息进行分析和理解，抽取标引词，形成索引库。标引词分为客观标引词（与文档内容无关，如著者、URL、更新时间等）和内容标引词（关键词及其权重、短语、单字等）。内容标引词又分为单标引词和多标引词。在SE中，一般给单标引词赋予一个权值，以表示该标引词的重要程度以及对文档的区分度，同时用来计算检索结果的相关度。提取单标引词的方法常见的有：统计法、信息论法和概念法。索引器一般采用某种形式的倒排表，即由单标引词定位相应的文档。10.2.1概述10.2.1.3SE的结构3.检索器：对用户的检索请求进行分析，将其分解为一个或多个关键词，并转换成计算机可识别的规范检索表达式，然后在索引DB中进行匹配，进行文档与查询的相关度评价，对将要输出的结果按匹配程度的高低排序，并实现某种用户相关性反馈机制。目前SE常用的检索模型有：布尔逻辑检索模型、向量空间检索模型、概率模型和扩展布尔逻辑检索模型。4.用户接口：输入用户请求、显示用户查询检索结果、提供用户的相关性反馈机制。10.2.1概述10.2.1.4SE的工作原理搜索器根据一定的搜集策略抓取网页；由索引器对搜集回来的网页信息进行分析、抽取索引项，生成文档库的索引表，形成索引库；用户通过检索接口输入相关的查询请求，并对用户的查询请求进行分析和转换；由检索器在索引数据库中进行查找和匹配，将复合要求的文档按相关性程度的高低排序，形成结果列表，并通过用户接口将检索结果列表返回给用户。提交查询返回结果用户接口分析转换返回检索器索引器搜索器检索返回分析标引抓取网页网络10.2.2特点及功能•10.2.2.1特点1.支持全文检索2.检索功能较为全面、方法多样3.检索结果按相关性排序4.查询速度快，维护更新及时5.支持关键词检索和分类目录浏览检索•10.2.2.1功能基本功能：布尔逻辑检索、词组检索、截词检索、位置检索、字段检索。其他检索功能：自然语言检索、多语种检索、概念检索、过滤检索。10.2.3主要SE的介绍•10.2.3.1Google（）是由LarryPage与SergeyBrin于1998年9月在美国硅谷创建的。2000年7月，成为雅虎公司的全文搜索合作伙伴。有独立的SE网站，并将自己的搜索技术出售给很多公司。目前是世界上最大的SE。•10.2.3.1Google（）1.Google的技术特点（1）独特的PageRank技术基本思想：来源于文献计量学的引文分析法，即一篇文献的质量和重要性可以通过其他文献对其引用的数量来衡量。该技术利用Internet独特的民主特性和巨大的链接性给每个网页一个确定的重要性等级（值）。•10.2.3.1Google（）1.Google的技术特点（1）独特的PageRank技术计算网页的PageRank值不仅考虑网页A的所有链入网页（链接到某网页的其他网页称为该网页的链入网页）对它的推荐能力（即由于它们对网页A的链接，使人们认为网页A的重要程度）和推荐程度（即它们认为网页A的重要程度）。一个网页本身的PageRank值越高，则它对其链出网页（从某个网页链出的网页称为该网页的链出网页）的推荐能力越大；一个网页的链出网页越少，则它对其中一个链出网页的推荐程度就越高。•10.2.3.1Google（）1.Google的技术特点（1）独特的PageRank技术PageRank值计算的简单公式：PR（A）＝（1－d）＋d（PR（T1）/C（T1）＋…＋PR（Tn）/C（Tn））PR(A)：网页A的PageRank值；T1、T2…Tn为网页A链入网页PR（Ti）为网