1上海商业学院计算机与电子信息学院《商业信息检索》实验(实训)教学指导书2007年8月2实验一搜索引擎技能训练实验目的对网络常见的搜索引擎进行了解,熟悉相关搜索引擎的使用方法和技巧,对信息检索的过程有一个基本认识。实验环境(硬/软件要求):微机:每人1台;软件:Windows2000,Office2000,IE实验内容1、根据搜索要求完成相关的搜索任务;2、给出查询结果,列出搜索到的网页数量和项目,并分析实际任务和结果的差距有多大。实验指导:1、搜索包含两个及两个以上关键字的网页和项目指导:一般搜索引擎需要在多个关键字之间加上“”,而Google无需用明文的“”来表示逻辑“与”操作,只要空格就可以了。搜索任务:搜索所有包含关键词“搜索引擎”和“历史”的中文网页搜索:“搜索引擎历史”2、搜索结果要求不包含某些特定信息指导:Google用减号“-”表示逻辑“非”操作。“A–B”表示搜索包含A但没有B的网页搜索任务:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页3、搜索结果至少包含多个关键字中的任意一个指导:Google用大写的“OR”表示逻辑“或”操作。搜索“AORB”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。搜索任务:搜索如下网页,要求必须含有“搜索引擎”和“历史”,没有“文化”,可以含有以下关键字中人任何一个或者多个:“Archie”、“蜘蛛”、“Lycos”、“Yahoo”。4、通配符使用指导:很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。Google对通配符支持有限。它目前只可以用“*”来替代单个字符,而且包含“*”必须用“”引起来。比如,“”以*治国“”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符。搜索任务:搜索第一个为“以”,末两个为“治国”的四字短语的页面。35、对搜索的网站进行限制指导:“site”表示搜索结果局限于某个具体网站或者网站频道,如“”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。搜索任务:1)搜索中文教育科研网站(edu.cn)上关于搜索引擎技巧的页面2)搜索新浪科技频道中关于搜索引擎技巧的信息注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http://”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。6、找找谁和你链接指导:用link:来获得和目标网站的链接。查询link:siteURL,就会显示所有指向那个URL的网页。举例来说,链接主页的网页。但这种方法不能与关键字查询联合使用。搜索任务:搜索和上海商学院首页链接的网页7、在某一类文件中查找信息指导:“filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80%。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。搜索任务1):搜索几个资产负债表的Office文档搜索任务2):搜索一些关于搜索引擎知识和技巧方面的PDF文档8、搜索的关键字包含在网页标题中指导:网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。用“intitle”和“allintitle”对网页标题进行搜索。搜索任务:查找日本明星藤原纪香的照片集。可以用,intitle:藤原纪香写真集来获得相关网页。4评分标准满分100分,包括:1.内容:70分2.格式:15分3.美观:15分实验报告形式(纸质/电子):电子搜索工具背景介绍Google()是一个搜索引擎,由两个斯坦福大学博士生LarryPage与SergeyBrin于1998年9月发明,GoogleInc.于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。98年至今,Google已经获得30多项业界大奖。到Google的新闻中心(),你可以找到关于一切关于Google的历史和新闻资料。百度,2000年1月创立于北京中关村,是全球最大的中文网站、最大的中文搜索引擎。2000年1月1日,公司创始人李彦宏、徐勇携120万美元风险投资,从美国硅谷回国,创建了百度公司。创立之初,百度就将自己的目标定位于打造中国人自己的中文搜索引擎,并愿为此目标不懈的努力奋斗。2000年5月,百度首次为门户网站——硅谷动力提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商。2001年8月,发布Baidu.com搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式,2001年10月22日正式发布Baidu搜索引擎。2005年8月5日,百度在美国纳斯达克上市,成为2005年全球资本市场上最为引人注目的上市公司。2008年1月23日,百度日本公司正式运营,百度全面启动国际化战略5实验二经济信息检索实验目的通过经济信息检索工具——中国知网、经济信息网站资源、专利数据库、统计数据库的使用对经济文献、公司产品、经济统计信息、专利信息进行查找,为撰写毕业论文和科学研究提供必要的文献支持。实验环境(硬/软件要求):微机:每人1台;软件:Windows2000,Office2000,IE,图书馆相关的数据库实验内容1、根据搜索要求完成相关的搜索任务;2、给出查询结果,列出搜索到的网页数量和项目。实验指导:一、中国知网的使用使用CNKI搜索(中国知网搜索引擎),在CNKI主页点击链接可以进入,或直接输入网址:访问。其界面风格和一般的搜索引擎相似,如图1。图1CNKI搜索6(一)文献搜索()CNKI文献搜索是CNKI推出的针对于学术期刊、博硕士论文、会议论文以及报纸的专业检索。提供近8000种期刊/杂志,300所大学研究院所博士硕士论文,1000种学术会议论文集,1000种重要报纸文章的专业检索。CNKI文献搜索可以帮助用户从任意位置搜索CNKI文献,包括标题、作者、摘要、全文等,这样对毕业论文指导教师有效防范学生的抄袭行为,可以起到很好的作用。另外,系统根据输入的搜索词和搜索结果自动生成文献类型聚类和知识聚类。用户可以点击相应的文献类型或者知识聚类词汇查看搜索结果,例如输入“搜索引擎”得到如下结果,如图2,点击“结果聚类”,用户可缩小查找范围,得到理想的查询结果。如图3。图2查找结果图3点击结果分类,缩小查找范围7(二)学术趋势搜索()CNKI学术趋势是依托于CNKI中国知识资源总库中的海量文献和千万用户的使用情况提供的学术趋势分析服务。1通过关键词在过去一段时间里的“学术关注指数”,您可以知道您所在的研究领域随着时间的变化被学术界所关注的情况,又有哪些经典文章在影响着学术发展的潮流;通过关键词在过去一段时间内的“用户关注指数”,您还可以知道在相关领域不同时间段内哪些重要文献被最多的同行所研读。例如,输入“教师教育技术培训”,了解国内关于此领域的研究情况,如图4可见,其中有若干篇文章多次被引用,起了学术上的带头影响作用。如图5图4CNKI学术趋势8图5学术关注指数(三)学术定义搜索()按照中国知网的解释,CNKI学术定义搜索不同于一般的网页和文献搜索等参考型搜索引擎系统,它是一部不断更新完善的学术定义词典,目标是为用户提供最权威、最准确的学术定义概念。该学术定义搜索库的内容全部来源于CNKI全文库,涵盖了文、史、哲、经济、数理科学、航天、建筑、工业技术、计算机等所有学科和行业。用户不但可以得到想要查询词汇得准确学术定义,并且可直接查询定义出处。例如,在学术定义搜索中输入“倾销”一词,可以得到如下结果,图6CNKI学术定义搜索使用该搜索,可以很方便地查找到比较权威的学术名词解释。(四)数字检索()CNKI数字搜索以“一切用数字说话”为理念,向您提供数字知识和统计数据搜索服务,是一个数字知识问答系统和统计搜索引擎。百度、Google等网页搜索引擎,能为我们提供一定的参考数字;或者在百度知道、新浪“爱问”等知识搜索,也能提供一些参考数字。数字搜索与它们之间有什么区别吗?数字搜索和百度、Google等的网页搜索引擎有何不同?首先,相对于百度、Google这类通用搜索引擎而言,CNKI数字搜索专注于数值知识和统计数据搜索,是一种垂直搜索引擎。其次,该搜索的结果不是一篇篇文献或者网页,而是直接的知识单元,直接为用户提供答案,而非只是给出答案的线索。相对于百度的“知道”、新浪的“爱问”等知识搜索产品,CNKI数字搜索有三个不同之处:一是CNKI数字搜索对数字问题的回答是由程序来完成的,而不是由网友作答;二是数字搜索的每个知识都是有来源的,9可以直接引用并注明出处;三是CNKI的数字搜索的数值知识包罗万象,既有百度“知道”产品中常见的科普知识,也有专深的科学数据,既有经济管理类数字,也有医药卫生的科学数值。只要是期刊、报纸、硕博论文、会议论文和统计类网页等文献中提到的数字均可能被搜索到。图7CNKI数字搜索(五)图片搜索()CNKI图片搜索提供各个行业的图片数据,它不同于一般意义的图片、图表搜索,CNKI图片搜索库中所有的图片数据都出自CNKI全文库收录的优秀的期刊、论文、报纸等,所以搜索结果更加专业、权威。图8CNKI图片搜索10(六)翻译助手不同于一般的英汉互译工具,CNKI翻译助手是以CNKI总库所有文献数据为依据,它不仅为您提供英汉词语、短语的翻译检索,还可以提供句子的翻译检索。不但对翻译需求中的每个词给出准确翻译和解释,给出大量与翻译请求在结构上相似、内容上相关的例句,方便您参考后得到最恰当的翻译结果。CNKI翻译助手汇集从CNKI系列数据库中挖掘整理出的120余万常用词汇、专业术语、成语、俚语、固定用法、词组等中英文词条以及1000余万例句,形成海量中英在线词典和双语平行语料库。数据实时更新,内容涵盖自然科学和社会科学的各个领域。二、经济信息网站资源1)中国价格信息网是国务院批准的国家经济信息系统的子系统,是国家发改委负责建设,由中国价格信息中心组织全国300多个定点城市物价部门信息机构联合各有关部委信息结构建设的综合性价格信息专业网站。2)中国经济信息网年12月3日正式开通。它继承了国家信息中心多年来的丰富的信息资源和信息分析经验,利用自主开发的专网平台和互联网平台,为政府部门、