因特网上的信息检索课件

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

因特网上的信息检索因特网信息检索方法在因特网中信息检索的方法有三种:1、基于超文本/超媒体的信息浏览从一个超文本/超媒体文档入手,沿着嵌入其中的、用户感兴趣的超链接区搜索信息2、基于目录服务的信息查询根据信息的主题降网络上的信息资源进行分类,并以目录的形式组织和表现3、基于搜索引擎的信息检索搜索引擎是一种信息检索工具,它从因特网上接受用户的查询请求,在数据库中进行检索,然后返回查询结果搜索引擎的产生最早的搜索引擎出现于1994年4月。斯坦福大学的两名博士生,美籍华人杨致远和美国人DavidFilo共同创办了超级目录索引雅虎(Yahoo),并成功地使搜索引擎的概念深入人心。搜索引擎的分类按照信息收集方法和服务提供方式,搜索引擎可分为:目录式搜索引擎全文搜索引擎元搜索引擎目录搜索引擎在目录搜索引擎中,通过人工整理分类,网络信息资源按照主题分类,并以层次树状进行组织,形成分类目录树。分类目录树从树的根结点开始逐层列出从一般到特殊的分类和各级子类节点。优点:找到的内容质量高、实用缺点:人工分类,目录的维护量大,信息更新不够及时,目录分类不够细。最著名的目录式搜索引擎:雅虎全文搜索引擎全文搜索引擎是通过从因特网中提取的各个网站的信息(以网页文字为主)而建立的索引数据库,当用户使用关键字查询时,它在库中检索与用户查询条件相符的相关记录,然后按照一定的排列将结果返回给用户。如百度、谷歌等。优点:信息量大、更新较及时、不需要人工干预。缺点:返回信息量过多,有很多无关信息,广告也特别多。元搜索引擎元搜索引擎以单一的查询接口,向各种资源提交相同的查询,并组合这些资源的查询结果。这类搜索引擎没有自己的数据库,而是将用户查询请求同时向多个搜索引擎递交,将返回的结果进行重新排除、重新排序等处理,把综合的结果返回给用户。搜索引擎的工作原理目录式搜索引擎是以人工或半自动方式收集信息,有编辑人员查看信息后,人工形成信息摘要,并将信息至于事先确定的分类框架中。用户通过浏览分类目录来查看自己所需要的信息,在链接信息资源所在的位置。搜索引擎的工作原理1、目录式搜索引擎是以人工或者半自动方式收集信息,由编辑人员查看信息后,人工形式信息摘要,并将信息置于事先确定的分类框架中搜索引擎的工作原理2、全文搜索引擎并不能真正理解用户的查询内容,只能把匹配查询关键词与索引数据库中的内容进行匹配。全文搜索引擎的工作过程是:从网上抓取网页建立索引数据库在索引数据库中搜索排序响应用户查询1、如何从互联网抓取网页使用蜘蛛(Spider)系统程序,自动访问因特网,并沿着网页中所有的URL爬到其他网页,重复这一过程,把爬过的网页收集回来搜索引擎的蜘蛛(Spider)系统程序会定期重新访问所有网页,以实现该网站信息的更新蜘蛛模拟器2、建立索引数据库由分析索引系统程序对蜘蛛收集到的网页进行分析,提取相关网页信息(包括网页的URL、编码类型、页面内容所包含的关键词、关键词位置、生成时间、大小等),进行大量复杂的计算(算出网页中每一个关键词的相关度,即出现的次数),然后放到响应的索引数据库中3、在索引数据库中搜索排序当用户输入关键词搜索后,由搜索程序从网页索引数据库中找到符合该关键词的所有网页,按照该关键词在各网页中的相关度即次数,进行排序,并返回给用户,相关度越高,排名越靠前4、查询和响应选择最好的搜索工具每一个搜索都是不同的,如果你为每一个搜索都选择最好的搜索工具,那么每次你都会得到最好的搜索结果。最常见的选择是使用全文搜索引擎还是网站分类目录。一般的规则是,如果你在找什么特殊的内容或文件,那么使用全文搜索引擎如google和altavista,如果你想从总体上或比较全面的了解一个主题,那么使用网站分类目录如yahoo和odp。对于特殊类型的信息考虑使用特殊的搜索工具,比如你要找人或找地点,那么使用专业的寻人引擎或地图和位置搜索网站。事实上几乎每种主题都有特殊的搜索工具。使用组合搜索关键词如果有个陌生人跑过来对你说anchovypaste!或sibberidge!,你会有什么反映呢?大多数人会笑,或者询问那个人到底想说什么。可是搜索引擎无法作出这种选择——它们只能猜测你的问题,然后提供它们利用这有限的信息能够得到的最好结果。好的搜索请求应该包含多个能限制搜索范围的关键词。使用自然语言搜索多数搜索引擎对自然语言的处理很好。事实上,搜索引擎能够从语句结构得到很有用的信息,不会象仅得到几个关键词那样容易迷失。与其输入几个不合语法的关键词,还不如试一下一句自然的提问。与其搜索“昆明公交车路线”,不如试一下“我在昆明如何乘坐公交车?适当的名词首字母大写多数搜索引擎对特殊名词是很敏感的,这意味着,如果你使用大写的任命、地名或者其他合适的名词,将得到更好的结果。你搜索JohnBull得到的结果可能更多是关于不列颠保护神的,而搜索johnbull可能得到大量的西班牙斗牛场的休息室信息。(虽然看上去也很合理).使用布尔符在检索中,检索提问涉及的概念往往不止一个,而是同一个概念涉及多个同义词或相关词,为了准确表达检索提问,必须使用逻辑算符将不同的检索词组配起来。常用布尔检索。逻辑或检索式AORB检索式A+B逻辑“或”是并列概念关系的一种组配,通常用运算符为“OR”或“+”表示,能够扩大检索结果,运算结果是阴影部分例:周恩来OR周总理少年or儿童至少要有一个出现在记录中AB逻辑与检索式AANDBA*B是具有概念交叉关系和限定关系的一种组配。可缩小检索范围,提高查准率。如:①感冒AND咳嗽②大学生AND心理障碍③市场经济AND诚信(有“市场经济”同时有“诚信”,运算结果是阴影部分)。表明结果必须同时含有A和B才为命中,指必须出现在同一个记录中。ABABC逻辑非检索式ANOTBA-B表达检索词间的排除关系。可缩小检索范围,提高查准率,运算结果是阴影部分。例:①学生NOT小学生②微量元素NOT锌③能源NOT核能AB注意:不同的搜索引擎所使用的语法规则不一样,我们应该仔细阅读各种搜索引擎的使用帮助,或者使用高级搜索功能,比如搜索关键词为“昆明”,但是不包含“旅游的”,用GOOGLE的语法为:昆明-旅游-游;用百度的语法为:昆明-(旅游|游)

1 / 23
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功