关键词的选取1.关键词的含义•关键词:指从文献的标题、文摘及正文中抽取的对表达文献主题起关键作用且具有检索意义的词语。•例如:•1)“图书馆自动化系统的设计”•关键词为:图书馆、自动化系统、设计•2)你在“民间借贷风险防范研究”一文中把“信用管理”作为重点论述,则关键词就可以选择:“民间借贷”、“风险防范”、“信用管理”等三个关键词。2.关键词的数量•关键词选取的数量取决于文献论述的内容,如果论文论述的主题较多,则选取的关键词较多,反之则少。•选取3-5个关键词为宜。一般不超过7个。•例如:“论数字图书馆的组织模式”•关键词:数字图书馆、组织模式3.关键词词类的选择•关键词主要选择:名词、动名词、名词化的词组。•冠词、介词、连词、助动词、某些形容词不作关键词。•一些动词和形容词在它们构成名词性词组时才能作为关键词。•动词只有在它们名词化或的确对表达文献主题具有检索意义时才选作关键词。•没有检索意义的通用词也不作关键词。如:分析、报告、方法等。•例如:“计算机在建筑设计和建筑工程中的应用”•关键词:计算机、建筑设计、建筑工程•应用则没有检索意义,不能作为关键词。4.关键词选取的范围•关键词选取的范围不限于文献的标题(篇名),也可以从文献的文摘和正文中选取。•例如:“论搜索引擎的原理和检索特性”一文,由于文中论述的内容涉及Internet信息检索的发展、搜索引擎的服务类型和工作原理、搜索引擎的检索特性以及Web检索与传统联机检索的关系等内容,则可以根据论文的主题内容,选取“搜索引擎”、“信息检索”、“联机检索”、“万维网”、“因特网”作为关键词。5.词组的判断与选择•对于固定搭配且具有特定含义的词组和科技术语,不宜拆分开来,而应以词组和科技术语作为关键词。(这样可以减少关键词的数量,且能更好地表达文献的主题,不致产生歧义和误解。)•例如:“浅谈信息高速公路与资源共享”•关键词:信息高速公路、资源共享•(而非:信息、高速公路、资源、共享)分析下面题目的关键词•1.情报检索系统:从布尔逻辑到向量空间•2.UML在学生管理信息系统分析中的应用选择论文关键词应注意事项•1)不能反映你所写的论文特点的词不要选。例如:“策略”、“研究”、“管理”、“分析”、“探讨”等,这些词一般论文题目都有,太一般化。•2)“词”的特征不明显的用语不能选。例如,“我国”、“我省”、“东北”、“加强”等。•3)关键词之间不要重复。例如:“投资风险”和“风险防范”,两个词中都有“风险”,明显重复。可以把“投资风险”中的“风险”去掉,或者保留“投资风险”,去掉“风险防范”,改选其他关键词。•4)不要把句子写成关键词。例如“强化金融监管”,这明显是一句话,而不是词。•在不影响词义的前提下,关键词应该尽量精炼,选择最小化的词单位。搜索引擎关键词(查询词)的选取•就是选择合适的查询词。选择查询词是一种经验积累,在一定程度上也有章可循。•1.表述准确•2.查询词的主题关联与简练•3.根据网页特征选择查询词1.表述准确•一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。•例如,要查找2010年国内十大新闻,查询词可以是“2010年国内十大新闻”;但如果把查询词换成“2010年国内十大事件”,搜索结果就没有能满足需求的了。•另一类典型的表述不准确,是查询词中包含错别字。•例如,要查找林心如的写真图片,用“林心如影视”,当然是没什么问题;但如果写错了字,变成“林心茹影视”,搜索结果质量就差得远了。2.查询词的主题关联与简练•目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。•例如:某三年级小学生,想查一些关于时间的名人名言。•他的查询词是“小学三年级关于时间的名人名言”。•绝大多数名人名言,并不规定是针对几年级的,因此,“小学三年级”事实上和主题无关,会使得搜索引擎丢掉大量不含“小学三年级”,但非常有价值的信息;“关于”也是一个与名人名言本身没有关系的词,多一个这样的词,又会减少很多有价值信息;“时间的名人名言”,其中的“的”也不是一个必要的词,会对搜索结果产生干扰;“名人名言”,名言通常就是名人留下来的,在名言前加上名人,是一种不必要的重复。•因此,最好的查询词,应该是“时间名言”。•试着找出下述查询词的问题,并想出更好的能满足搜索需求的查询词:•1.所得税会计处理问题探讨2.周星驰个人档案和所拍的电影3.根据网页特征选择查询词•很多类型的网页都有某种相似的特征。经常搜索、总结各类网页的特征现象,并应用在查询词的选择中,就会使得搜索变得准确而高效。例如,小说网页,通常都有一个目录页,小说名称一般出现在网页标题中,而页面上通常有“目录”两个字,点击页面上的链接,就进入具体的章节页,章节页的标题是小说章节名称;软件下载页,通常软件名称在网页标题中,网页正文有下载链接,并且会出现“下载”这个词。等等。•例如,找明星的个人资料页。一般来说,明星资料页的标题,通常是明星的名字,而在页面上,会有“姓名”、“身高”等词语出现。比如找林青霞的个人资料,就可以用“林青霞姓名身高”来查询。而由于明星的名字一般在网页标题中出现,因此,更精确的查询方式,可以是“姓名身高intitle:林青霞”。Intitle,表示后接的词限制在网页标题范围内。•Inurl是百度、Google等搜索引擎支持的高级语法•一、inurl解释•inurl,拆开来,就是inurl,它的作用是限定在url中搜索。URL,全称UniformResourceLocator,中文译为“统一资源定位器”,就是地址栏里的内容。下面都URL:•://news.sina.com.cn/://bbs.sowang.com/list.asp?boardid=47•使用格式是:“inurl:xxx”、“inurl:xxx关键词”、“关键词inurl:xxx”•(XXX可以是任何字符)•1)、inurl:xxx作用是命令搜索引擎查找url中包含xxx的网页。•例子:inurl:news•2)、“inurl:xxx关键词”或“关键词inurl:xxx”•两者意义一样:要搜索引擎查找满足下面两个要求的网页•1.url中包括xxx•2.网页中含有“关键词”•例子:cnkikwinurl:viewthread.php,网页正文包含“cnkikw”,url中有“viewthread.php”•任何网站的url都不是随意设置的,都经过一番过虑,有一定用意的。很多地方,url链接和网页的内容有着密切的相关。所以,可以利用这种相关性,来缩小范围,快速准确地找到所需信息。•1)查找专题资料:提供类似资源的网页url常有相同的字符。•在《Google搜索从入门到精通v4.0》这篇经典文章中,是这样解释的:•“有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。”•上网的时候,注意观察网页的url,总结出那些资源常用什么url,搜索时,用上inurl,能缩小搜索范围,迅速地找到结果。一般来说,•提供书籍下载的,url一般包括book、ebook、shu、shuji、•论坛的url中常含有bbs、forum•音乐方面music、yinyue、mp3、midi•提供软件用soft、software、ruanjian•新闻的用news、xinwen体育的是sports、tiyu•下载photoshopcs,加上inurl:soft,使用“photoshopcs下载inurl:soft”搜索,可以事结果更加准确。•想看看别人对的评价,用“iphone4inurl:bbs”搜索,就能看到论坛里的说法。•美国大选怎么样了,用“美国大选inurl:news”,查找。•2)搜索具体信息:从英文名拼音、缩写、首字母组合等着手•查找书籍•想下载神雕侠侣的电子书,inurl:shendiaoxialv,就加上book,用inurl:shendiaoxialvbook,•代替filetype•filetype可以搜索pdf、doc、ppt等格式的专业文档。同一样格式的文档自然有同样的后缀名。因此,可以用inurl来代替。Google:•信息检索filetype:pdf•信息检索inurl:pdf•可以看出,数量上较多,质量也行•google搜索引擎中的site,inurl,allinurl,intitle,allintitle应用技巧•“site”表示搜索结果局限于某个具体网站或者网站频道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。示例:搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面。搜索:“金庸site:edu.cn”结果:已搜索有关金庸site:edu.cn的中文(简体)网页。共约有2,680项查询结果,这是第1-10项。搜索用时0.31秒。示例:搜索包含“金庸”和“古龙”的中文新浪网站页面,搜索:“金庸古龙site:sina.com.cn”结果:已在sina.com.cn搜索有关金庸古龙的中文(简体)网页。共约有869项查询结果,这是第1-10项。搜索用时0.34秒。•allinurl语法返回的网页的链接中包含所有查询关键字。这个查询的对象只集中于网页的链接字符串。•allintitle和intitle的用法类似于上面的allinurl和inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。•inurl:举个例子,在google上搜索“inurl:videoacne”,那么搜索得到的结果是包含”video”或者是包含”acne”或者是同时包含”video”和”acne”这2个单词的网站URL也就是网址。•allinurl:在google上搜索“allinurl:videoacne”,那么得到的搜索结果会比“inurl:videoacne”范围小很多,使用allinurl这条搜索指令得到的结果是“video”和“acne”这2个单词必须同时包含在网址内。•从上面的例子我们可以看出,inurl这条指令相当于数学中的“或”命题,而allinurl这条指令相当于数学中的“且”命题。相同的,”intitle”“allintitle”这些指令用法也是相似的。