武汉大学黄如花信息检索搜索引擎

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第三章搜索引擎Outline搜索引擎概念(定义、工作原理、特征)搜索引擎的分类搜索引擎的选择与评价常用综合性搜索引擎常用学术搜索引擎使用搜索引擎要注意的问题跟踪搜索引擎的变化1搜索引擎概述你最常用的搜索引擎有哪些?你认为搜索引擎是什么?1.1概念一种Web上应用的软件系统以一定的策略在Web上搜集、发现和组织信息使用者的角度:提供一个网页界面供用户输入词语或者短语,系统将返回一个可能和用户输入内容相关的信息列表Source:李晓明,闫宏飞,王继民著.搜索引擎——原理、技术与系统.北京:科学出版社,2005:21.2工作原理1.2工作原理网页采集网站拥有者主动向搜索引擎提交网址蜘蛛(Spider)扫描网站的所有网页并将相关信息存入数据库预处理关键词的提取重复网页或转载网页的消除链接分析网页重要程度的计算用户输入检索式提交检索要求搜索引擎提供查询接受用户提交的查询请求按照要求检索索引数据库返回相关记录•以网页链接形式提供•通过链接指向用户所需网页2搜索引擎的分类按信息内容组织方式划分WebDirectory人工参与,主题目录数据有限,专指性强Yahoo!DirectoryOpenDirectoryKeywordsearchengine无人工控制,由系统完成数据量大,更新及时Google百度2搜索引擎的分类按收录范围划分综合性搜索引擎涵盖各学科涉及生活的各领域GoogleYahoo!百度Bing专业性搜索引擎特定的功能特定的学科特定的用户特定的信息类型特定的地域Lawcrawler,SciseekAskjeevesforkidsIPsearch2搜索引擎的分类按功能划分独立搜索引擎具有独立的数据库GoogleYahoo!百度Bing元搜索引擎一次检索多个数据库有的提供结果去重等功能通常不具有独立的数据库提供多个搜索引擎的统一检索界面Metacrawler独立搜索引擎与元搜索引擎的集成,如万维搜索万维搜索初级检索界面:独立搜索引擎支持关键词检索万维搜索高级检索界面:元搜索引擎集合了多个独立搜索引擎结果可以按照多种方式排序3搜索引擎的选择与评价提问:百度和Google,你更喜欢哪个?为什么?搜索引擎优化网站(SEOMOZ)通过SEO领域多位世界级专家的调查,发布两年一度的搜索引擎排名影响因素调查结果。3搜索引擎的选择与评价SEOMOZ(2009)的调查结果•最重要的5个影响因素为:•关注关键词锚文本的外部链接(73%,非常非常重要)•链接所在页面的热门程度(71%,非常非常重要)•链接资源的多样性(67%,非常非常重要)•标题标签中关键词的使用(66%,非常重要)•链接域名的可信度(66%,非常重要)source:搜索引擎的选择与评价SEOMOZ(2009)的调查结果•前5位的负面影响因素为:•恶意隐藏作弊(68%,非常非常重要)•从链接中介购买链接(56%,非常重要)•指向搜索引擎作弊的站点或网页的链接(51%,比较重要)•基于UserAgent的伪装(51%,比较重要)•频繁的服务器故障或站点无法访问(51%,比较重要)source:搜索引擎的选择与评价收录范围分类检索功能与效果检索结果的处理方式页面组织其他功能与服务4综合性搜索引擎选介全球主要搜索引擎份额(2009.7)Google(67.5%)Yahoo!(7.8%)百度(7.0%)4综合性搜索引擎选介国内搜索引擎首选份额排名(2009.6)百度(77.2%)谷歌(12.7%)搜搜(3.1%)搜狗(2.4%)雅虎(1.6%)source:CNNIC.2009年中国搜索引擎用户行为研究报告(2009年9月).众里寻她千百度2000年1月李彦宏和徐勇创立于中关村全球最大的中文搜索引擎。2005年8月5日,百度在纳斯达克上市4.1百度()百度的首页百度的高级检索页面百度提供的众多产品参见百度的帮助中心百度的检索技巧百度快照拼音提示功能支持繁简中文查询相关搜索支持:-、|、“”、filetype、inurl、intitle、allintitle、site等。百度的检索功能和特点百度的结果处理检索结果排序规则通过超链接分析技术、词频统计和竞价排名相结合的方式对网页进行相关度评价。每一条检索结果显示网页标题、摘要、网址、百度快照等百度快照和相关搜索的关键词检索提示4.2Google()谷歌:1998年9月由斯坦福大学博士生LarryPage,SergeyBrin创立全球使用最广泛的搜索引擎获得30多项奖项,如OutstandingSearchService,BestNewsSearchEngine,BestImageSearchEngine,BestDesign,MostWebmasterFriendlySearchEngine提问:你使用过Google哪些功能?谷歌提供了多样化的服务和功能Google的检索技巧一般不区分英文大小写缺省值AND(and)支持site、inurl、allinurl、intitle、allintitle、filetype、link、define、related等filetype字段:pdf,doc,ppt,xls,rtf,swf等13种非HTML文件filetype:pdfAND“英语四级模拟试题”谷歌的首页-简洁明快谷歌的高级检索页面对多个检索字段进行限定Google的结果处理排序规则:按相关性排序。相关性的评判以网页评级为基础,在全面考察检索词的频率、位置、网页内容(以及该网页所链接的内容)的基础上,评定该网页与用户需求的匹配程度,并确定排序优先级。将独创的网页评级系统(PageRank)作为网络搜索的基础Google的结果处理每条检索结果显示标题、摘要、网址、网页大小,有的还提供“cached(网页快照)”、“similarpages(相关网页)”、“notethis(标记该网页)”以及网页翻译等链接提示可能存在安全风险的网站自动对关键词的相关词进行分析并给出相关链接,提供”百宝箱“功能Google的结果处理4.3Yahoo!()雅虎中国:1994年4月由杨致远和DavidFilo创立最早的目录式搜索引擎之一提供两种检索方式关键词检索分类目录浏览和检索分类目录()分为14个大类,每个大类又分小类检索结果处理:按相关度排序实现网页、图片、博客、视频等资源的整合检索显示人物关系提问:还有哪些常用的综合性搜索引擎?以”信息检索“为关键词,分别使用百度、谷歌、雅虎中国进行搜索,并分析其异同点5中外文学术搜索引擎选介谷歌学术搜索百度国学搜索Scirus5.1谷歌学术搜索(Googlescholar)网址:中文网址:资源来源:学术出版商、专业学会、高等院校、图书馆及其他学术机构文献类型包括:图书、同行评议的期刊论文、学位论文、论文预印本、技术报告。信息来源可靠,学术性强特色功能:显示被引用信息:揭示文献之间的引用与被引用关系显示图书馆链接,用户可搜索参加这一计划的图书馆馆藏资源目录,查看可供访问的资源链接,国家图书馆等多家图书馆参与了该项计划使用偏好设置:用户可以对界面语言、搜索语言、图书馆链接、结果显示数量和方式以及文献管理软件等项目进行个性化定制检索结果按照相关度排序谷歌学术搜索的更多功能对结果中的某一本书:查看介绍、版权信息、目次,章的样例书内信息检索(Searchwithinthisbook)可购买的网上书店链接比较不同网上书店的价格(与Froogle等捆绑)谷歌学术搜索首页查看国内收藏情况5.2百度国学搜索2006年1月份开通免费提供中国古代文化典籍在线搜索及阅读服务收录上起先秦、下至清末两千多年的以汉字为载体的历代典籍,内容涉及经、史、子、集各部。内容进行严格校对,对一些生僻字特别进行造字提供目录浏览和关键词检索5.3Scirus荷兰爱思唯尔公司(ElsevierScience)于2001年4月推出专为搜索科学信息而设计的网上最全面、综合性最强的科技文献门户网站之一信息来源:大学网站、科学工作者的个人站点、学术会议等;文献类型:研究报告、同行评审期刊论文、专利文献、预印本覆盖各个学科:农业、天文、生物、化学、计算机、经济、工程、数学、医学、社会学等与图书馆合作推出“图书馆链接”功能Scirus的检索功能布尔逻辑检索、精确检索和字段限制检索检索途径:篇名、作者、期刊名称等高级检索:可设置信息发布时间、信息类型、文件格式、信息来源、学科领域等多个选项检索结果:依据相关度排序相关度主要与关键词和链接两个基本因素相关前者主要考虑检索词的位置和出现频率一个网页被其他网页参考或链接得越频繁,其排序就越靠前提问:还有哪些学术搜索引擎?如:Search4Science北大天网CNKI知识搜索使用搜索引擎要注意的问题各个搜索引擎的功能有别同一种运算在不同搜索引擎中使用的符号不同各引擎结果排名的计算方法不同优先选用好的搜索引擎选择有针对性的搜索引擎搜索引擎不是万能的竞争激烈,要留意变化7跟踪搜索引擎的最新动态讨论:通过哪些途径可以更好地了解搜索引擎发展的最新动态?搜索引擎主页的介绍与帮助页面搜索引擎的集合与评价站点•中文搜索引擎指南•搜索引擎跟踪•搜索引擎列表思考题什么是搜索引擎?请谈谈其工作原理。搜索引擎有哪些种类?各有什么特点?对搜索引擎进行选择与评价主要考虑哪些因素?谈一谈搜索引擎发展的趋势检索练习请通过某一综合性搜索引擎,分别找出1个你感兴趣问题的PDF文件与PPT文件,并从中挑选最符合你要求的一条记录。请通过某一综合性检索引擎,找出你所在学科或专业有哪几个专门的搜索引擎,并利用其中的一个查找一个专业问题。每一题要求写出使用的检索工具,检索途径、检索式、检出记录的数量和你认为最相关的1条记录的著者、题名、网址,以及你的检索体会。

1 / 73
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功