第五章搜索引擎

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第五章搜索引擎青岛学院22011-4Outline搜索引擎概述(概念、工作原理、特征)搜索引擎的分类搜索引擎的检索技术常用搜索引擎介绍搜索引擎的缺点使用搜索引擎要注意的问题青岛学院32011-41搜索引擎概述概念在因特网/万维网上进行信息搜索、分析、索引、检索与服务的信息检索系统。青岛学院42011-4工作原理搜索程序青岛学院52011-41搜索引擎的概念:特征没有经过编辑不同的信息类型不同的用户类型信息的覆盖面较大信息新颖大多对搜索结果按相关度排列检索过程不收费青岛学院62011-42、搜索引擎的分类按检索机制划分*目录浏览型搜索引擎[常被称为指南(Directory)或目录(Catalog),如Yahoo!]*关键词检索型搜索引擎(典型代表有Altavista、Excite、Google、Infoseek等等。)青岛学院72011-4按照资源组织形式划分*分类目录型搜索引擎系统将搜索到的Internet资源按主题分为若干大类,每个大类下又分设二级类目、三级类目等,一些搜索引擎可细分到十几级类目。*全文检索型全文检索型搜索引擎处理的对象是因特网上所有网站中的每个网页。用户得到的检索结果,通常是一个个网页的地址和相关文字。在检索结果所列出的网页中,一定有用户查询时输入的词组或与之相关的内容。分类目录搜索引擎数据库中,搜索保存的是因特网上各网站的站点名、网址和内容提要等信息;而全文检索型搜索引擎数据库中,搜索保存的则是因特网上各网站的每一个网页的全部信息内容,其信息资源搜索的范围要大得多。青岛学院82011-4按照数据收录范围划分*综合型(通用型)在采集和标引信息时不限制资源的主题范围和数据类型,是通用型检索工具,用户可以利用它们检索几乎所有方面的资源。Google、Yahoo!、百度、搜狐等*专题型(专业型)专题型搜索引擎专门采集某一主题范围的信息资源,并使用更为详细和专业的方法对信息资源进行加工处理,在检索机制中也设计、利用较多的专业知识和方法。如MacherSearch(其搜索的内容只与犹太文化有关),Checkdomain(域名实时搜索引擎,查询世界各国域名)。*特殊型特殊型搜索引擎是指专门用来检索某一类型信息或数据的检索工具,例如查询电话号码、地图、图像、音频、视频等信息的工具。青岛学院92011-4按照包含检索工具的数量划分*独立搜索引擎独立搜索引擎又称单一搜索引擎或常规搜索引擎,它有自己的数据库,搜索时通常只检索自己的数据库,并根据数据库的内容反馈出相应的查询信息或链接站点。如Yahoo!,Google,AltaVista,百度,Excite,搜狐,Excite,AllTheWeb,Infoseek等。*元搜索引擎元搜索引擎其本质是对多个单一搜索引擎的集成。元搜索引擎在查询时通过网上一个统一的用户界面,调用其他多个搜索引擎,对结果简单合并和去重后返回给用户。如Vivisimo,All-in-one,Dogfile,IxquickMetasearch,Exploratorius,Profusion,Mamma,Metacrawler,万纬等。青岛学院102011-43、搜索引擎的检索技术布尔逻辑检索词组或短语检索截词检索字段限制检索自然语言检索多语种检索区分大小写检索青岛学院112011-4布尔逻辑检索*逻辑与AND(*)*逻辑或OR(+)(l)并行搜索*逻辑非NOT,ANDNOT(-)排除无关结果青岛学院122011-4*武汉AND大学(*)*社会保障*美国*武汉OR湖北(+)*网络出版+数字出版*大学NOT武汉大学(-)*玉米—甜玉米实例练习*查找网络有关的信息InternetOR(WorldWideWeb)ORWeb青岛学院132011-4短语检索(PhraseSearch,ExactSearch)“WuhanUniversity”“TheWorldIntellectualPropertyOrganization”“GeorgeW.Washington”“WashingtonD.C.”“GlobalInformationInfrastructure”“ForeignTradeLaw”除用双引号外,有的搜索引擎还是用短横线(-)来代表词组,如digial-library-definition。青岛学院142011-4截词检索(Truncation/Wildcat)截词检索一般在英文搜索引擎中采用。常有左截断、右截断、中截断和中间屏蔽4种形式。大多数搜索引擎只提供右截断法,截词符常采用星号“*”。如输入cat*可以检索出cat,cats,catalog,catalogue,category等。青岛学院152011-4限制检索(FieldLimiting)*Title(ti):WuhanUniversity*url:gov.cn*Py=2004*La=english*Link:whitehouse.gov*admissionsite:一种限制检索体现在要求检索词出现在特定的位置,以此来控制检索结果的相关性,提高检索效果。青岛学院162011-4另一种限制检索表现为对检索资源类型的限制,如限制检索范围是图片(image)、新闻组(Newsgroup)和E-mail限制等。限制检索(FieldLimiting)青岛学院172011-4自然语言检索(NaturalLanguage)直接采用自然语言中的字、词或句子作提问式进行检索,同一般口语一样。如“WhatisBlog?”或“WhatisClinton?”支持自然语言检索的搜索引擎有英文的Google、AltaVista,Excite,Infoseek,HotBot,AskJeeves等。青岛学院182011-4多语种检索即提供多种语言环境供检索者选择,系统按用户选定的语种进行检索并输出检索结果。如Yahoo!和Google。青岛学院192011-4区分大小写检索大写检索词与小写检索词代表的含义将有所不同。大写检索词被当作专有名词看待(如Internet专指因特网);小写检索词被当作普通词看待(如internet则代表一般的计算机网络)。青岛学院202011-44、常用搜索引擎介绍独立搜索引擎(1)Google简介两位斯坦福大学的博士生LarryPage和SergeyBrin在1998年创立了Google。掌握信息量大,检索速度快,界面简洁,检索准确度高。青岛学院212011-4Google原名Googol,意思是10的100次方,是个巨大的数字。Google的胃口如同它的名字,大得出奇。编入其索引的有80多亿页面,超过10亿幅图片和超过10亿个新闻公告。2000年搜索引擎2000年大会上,按照Google公司总裁LarryPage的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。自1998年至今,Google由于对搜索引擎技术的创新而获奖无数,如美国《时代》杂志评选的“1999年度十大网络最佳技术奖之一、《个人电脑》杂志授予的“编辑选择奖、TheNet授予的“最佳搜索引擎奖等。简介青岛学院222011-4沃尔玛仍然位居全球第一,品牌价值由2009年的406.16亿美元升至2010年的413.65亿美元;谷歌由去年的第五位上升至第二,品牌价值由292.61亿美元升至361.91亿美元;可口可乐由第二降至第三,品牌价值由327.28亿美元升至348.44亿美元;IBM由第三降至第四,品牌价值由315.30亿美元升至337.06亿美元;微软由第四降至第五,品牌价值由308.82亿美元升至336.04亿美元青岛学院232011-4优势和特色搜集的网络信息资源全面;系统响应速度快;支持多语种;搜索效率高;简繁转换、网页翻译功能;“网页快照(Cached)”功能;“类似网页”(Sinilarpages)功能;不足之处数据更新比较慢;图像检索目前仍是基于关键词;视频和音频检索尚缺等;青岛学院242011-4网站首页青岛学院252011-4①基本检索检索方式多个检索词之间支持逻辑组配检索,空格表示“and”关系,“OR”表示并列关系,“-”表示排除关系。;不支持“通配符”(*)搜索;不区分英文字母大小写,所有的字母均当做小写处理;添加英文双引号来搜索英文短语;采用了停用词表技术,对可能被忽略的关键词进行强制搜索时,需要在该关键前加上英文“+”号青岛学院262011-4②高级检索青岛学院272011-4Google的检索结果Google的检索结果按相关性有大到小排列输出,其相关性判断的依据除了检索词在网页中的出现频率、位置等外,另一个重要的依据是通过它所链接的网页与提问的匹配程度来判断其相关度大小。检索结果总数搜索时间网页标题网页内容摘要网址网页文本大小青岛学院282011-4Google其他的常用搜索服务功能青岛学院292011-4图片搜索()青岛学院302011-4新闻搜索()青岛学院312011-4论坛搜索()Google网上论坛是一项免费的服务,其宗旨是实现通过电子邮件和网络来协助群体之间进行有效地交流。论坛中有超过十亿条来自新闻组公告牌服务的的帖子,而且帖子发布日期最早可以追溯到1981年。青岛学院322011-4网页目录搜索(=zh-CN)青岛学院332011-4地图搜索()地图资料涵盖了全国146个城市,提供了四大服务,分别是:动态查看网上电子地图、地图搜索、周边地点搜索和行车路线查询服务。青岛学院342011-4学术搜索()•来自学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要和文章;•用户可以查找特定作者、特定文章标题、特定主题的文献信息,只要在检索框中输入对应的检索词即可;•每一搜索结果都提供了文章标题、作者以及出版信息等编目信息,这些编目数据来自于该组文章中的信息以及其他学术著作对这些文章的引用情况;•搜索结果按照相关性进行排序。青岛学院352011-4标题–链接到文章摘要或整篇文章(如果文章可在网上找到)引用者–提供引用该组文章的其他论文。相关文章–查找与本组文章类似的其他论文图书馆链接(在线)–通过您已建立联属关系的图书馆资源找到该项成果的电子版本。在您登录校园网后将自动显示这些链接。同组文章–查找您可能看到的同属这组学术研究成果的其他文章,可能是初始版本,其中有预印本、摘要、会议论文或其他改写本网络搜索–Google搜索中关于该研究成果的信息青岛学院362011-4图书搜索()青岛学院372011-4Google购物搜索()商品查价。Froogle不支持中文搜索,但是你同样可以据此查看到某项商品的图片、等级、性能和一些文字说明,而且知晓世界各地的同种商品价格,至少能预测该项物品的价格走向,对自己购物一定很有帮助青岛学院382011-4Google的大学搜索();Google视频搜索();Google邮购搜索();Google博客搜索(

1 / 96
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功