网络信息资源检索与利用第二次作业

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

《网络信息资源检索与利用》课程实验第2次实验报告实验内容及基本要求:实验项目名称:网络搜索引擎的应用实验类型:验证每组人数:1实验内容及要求:1.请分别针对网络资源目录使用的分类方法进行举例。2.在yahoo的分类目录中找到一条路径指向网站论文:ctr.stanford.edu/Summer98/koumoutsakos.pdf。3.在新浪网的分类目录中找到一条路径指向学校的网站:的分类目录中找到一条路径指向网页:请指出yahoo,sina,sohu的分类目录之间的异同和优劣(500字以内)6.请了解google和baidu在进行关键词检索中语法的异同,并说明这两者在针对某一主题进行检索时检索结果的差异以及对检索意图理解准确度的差异。实验结果:1.请分别针对网络资源目录使用的分类方法进行举例。(1)主题分类法(2)学科分类法(3)图书分类法(4)分面组配法2.在yahoo的分类目录中找到一条路径指向网站论文:ctr.stanford.edu/Summer98/koumoutsakos.pdf。3.在新浪网的分类目录中找到一条路径指向学校的网站:的分类目录中找到一条路径指向网页:请指出yahoo,sina,sohu的分类目录之间的异同和优劣(500字以内)(一)Yahoo()Yahoo是世界上最著名的网络资源目录。Yahoo的魅力,就在于它的可浏览式等级主题目录。Yahoo按照主题建立分类索引,提供全面的分类体系结构,并结合高质量的检索软件,成为网络检索工具的佼佼者和等级式风络资源目录的典型代表。Yahoo采用多标准高类、多维展开的方式,能够为某一信息源在其巨大的分类等级结构中提供不同的路径分支入口,保证了从不同的路径,为检索相同内容的不同用户提供服务。对于交替类目,Yahoo利用了符号“@”来表示,起到了类似于相关参照的作用,能够指引用户由某一子类目进入Yahoo的浏览性等级结构的其他分支中。(二)OpenDirectory()Opendirectory是手工编辑的目录导航式搜索引擎,它由四万多名志愿者编辑标引加工数据并组织类目,自称为世界上最权威的人工编辑的搜索引擎。大多数志愿者都对自己负责的部分相当感兴趣,有的就是该领域的专家权威,因此Opendirectory中有不少分类的内容,特别是一些边缘学科或冷门学科,要比Yahoo提供的全面得多,有的甚至在Yahoo中根本找不到对应的分类。OpenDirectory-开放目录专案提供了一种以互联网自我组织与管理的方式进行发展用来满足快速增长的网站数量。随着互联网的增长,网民数量也随之增加。这些网民能够编辑管理一小部分网站,并且提供负责更多的编辑工作,整理清除没有用的信息内容,只保留最好的内容。Opendirectory也提供关键词检索,分为简单检索和高级检索。在简单检索中,支持布尔逻辑检索。在高级检索中提供了相关的选择,包括选择只检索类目、只检索站点等。同时它还提供了与其他搜索引擎的链接。Opendirectory是一个非常有前景的网络资源目录,它可无限扩展的编辑人员,为其今后的发展注入了极大的活力,它的资源收录的增长速度,内容的更新频次,都是其他网络资源目录所无法比拟的。同时,它详尽的类目体系,开放的管理体制,都形成了其独用的特色,成为用户获取网络信息资源的重要门户网站。(三)搜狐()搜狐的网络资源目录堪称是我国第一部系统的网站分类法,对其他中主文网络资源目录的发展起到了积极的促进作用。搜狐网络资源目录的分类体系的编制,基本上坚持了在符合科学性原则的前提下,充分考虑网站资源和用户的查询习惯的原则。在搜狐的分类体系结构中包括18个大类,涵盖了50000多个不同层次的子类目,形成了一个十分庞大的树状结构,几乎涉及所有的行业或者领域。它采用了“纵向成枝、横向成网”、“主题法与分面组配法结合”的分类方式,根据网站的主题,首先把网站分为18个大类,再按细分主题层层分下去。然后,再根据不同用户的使用习惯,以及不同的分类标准,把不同类目下“相关”的类目“链接”起来,从而形成搜狐的“网状”分类体系。搜狐的网站分类法以主题分类为主设立了娱乐休闲、工商经济、电脑网络、分司企业、教育培训、文学、艺术、体育健身、新闻媒体、卫生健康、科学技术、生活服务、旅游交通、社会文化、政法军事、社会科学、个人主页17个大类,另外结合分面组配的方法设立“国家与地区”类目,把其他17个大类下的所有网站又按所属地域进行分类,因为大多数网站都具有地域性,也便于用户直接查找。搜狐的网站资源目录同样是按照信息所属的类别,层层点击查找信息,所以用目录时首先要考虑清楚想要查找的信息属于哪个类别。6.请了解google和baidu在进行关键词检索中语法的异同,并说明这两者在针对某一主题进行检索时检索结果的差异以及对检索意图理解准确度的差异。百度搜索引擎使用了高性能的“网络蜘蛛”程序自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度搜索引擎的特点1.基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。2.支持主流的中文编码标准。包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。3.智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。4.检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。5.百度搜索支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。6.相关检索词智能推荐技术。在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。7.运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒)8.可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。9.检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率。10.智能性、可扩展的搜索技术保证最快最多的收集互联网信息。拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。11.分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。12.高可配置性使得搜索服务能够满足不同用户的需求。13.先进的网页动态摘要显示技术。14.独有百度快照,15.支持多种高级检索语法,使用户查询效率更高、结果更准。已支持“+”(AND)、“-”(NOT)、“|”(OR)、“site:”、“link:”,还将继续增加其它高效的搜索语法。Google作为全球最大的多语言搜索引擎,在国际上占有的市场越来越大,成为互联网最具潜力的企业,以下就介绍下GOOGLE搜索引擎的主要特点:1.特有的PR技术,PR能够对网页的重要性做出客观的评价。PR是GOOGLE评价一个网站质量高低的重要标准,PR分为十个等级,从容不1至10,PR越高代表网站质量和权威性越高,排名也就越靠前。2.更新和收录快,GOOGLE收录新站一般在十个工作日左右,是所有搜索引擎收录最快的,更新也比较稳定,一般一个星期都会有大的更新。3.重视链接的文字描述和链接的质量,链接的文字描述也就是做链接用的文字,这个文字对GOOGLE排名起一定作用,因此我们建议如果网站要做某些关键词,在交换链接时要用这个关键词做链向你网站,链接的质量与链接网站的权威性和与你站是否相关有关,权威越高侧你站获得的排名越好,4.重视Description描述,多次研究发现,那些在GOOGLE排名好的网站在描述中匀含有关键词,而且有些重复二次,因此可推断其对描述还是相当重视。五、超文本匹配分析:Google的搜索引擎同时也分析网页内容。并不采用单纯扫描基于网页的文本(网站发布商可以通过元标记控制这类文本)的方式,而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素。同时还会分析相邻网页的内容,以确保返回与用户查询最相关的结果。他们的搜索排序方式与广告展现也有不同,百度有竞价排名,而Google是机器程序自动排序,完全按照预先设计的机器程序来处理,没有人为的干预来操纵其排名。成绩评定:该生对待本次实验的态度□认真□良好□一般□比较差。本次实验的过程情况□很好□较好□一般□比较差对实验结果的分析□很好□良好□一般□比较差文档书写符合规范程度□很好□良好□一般□比较差综合意见:成绩指导教师签名日期

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功