信息检索原理与技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1信息检索的概念与类型2信息检索的途径3信息检索技术4信息检索方法5信息检索步骤与策略第2章信息检索原理1信息检索的概念与类型1.1信息检索的概念1.2信息检索的类型1.3信息检索的流程广义:信息检索包括信息的存储和信息的检索,又称为“信息存储与检索”。狭义:“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜寻”,是指从信息集合中找出用户所需的有关信息的过程。1.1信息检索的概念手工信息检索:通过手工方式利用检索工具来处理和查找文献的过程。如:文摘、目录、参考工具书等。计算机检索:又包括联机检索、光盘检索和网络检索。1.2信息检索的类型按检索方式划分:手工检索和计算机检索联机检索联机检索是指用户利用计算机终端,通过通信线路或网络,在联机中心的数据库中获取信息。特点:同时检索多个数据库、数据质量高、检索机与主机是主仆关系、对检索人员要求高、而且检索需要的费用高。计算机检索1.2信息检索的类型光盘检索用光盘作为信息存储介质的数据库。分为单机检索和局域网内的联机光盘检索。计算机检索1.2信息检索的类型网络信息检索用户在自己的客户端上,通过互联网和浏览器界面对网络信息进行检索。特点数据库分布式存储,数量多,信息量大;由于超文本语传输协议,提供了大量相关链接;内容向多媒体发展,不仅有文本,还有图像、声音等;数据库更新速度快;检索功能强,索引多,易学易懂;但目前各数据库检索界面和检索技巧不尽相同,给使用者造成不必要的麻烦;检索环境宽松,检索费用比联机检索低很多。(网络信息检索也包括通过网络进行的数据库检索)计算机检索1.2信息检索的类型按检索对象的性质划分:书目检索、数据检索、事实检索和全文检索。书目检索:以文献的外表特征和内容特征检索。如题名、著者、文献号码、文献出处和收藏处等。数据检索:以特定数据为检索对象和检索目的的信息检索类型称为数据检索。如:有关计算公式、数据图表、化学分子式等。1.2信息检索的类型事实检索:是获取以事物的实际情况为基础而集合生成新的分析结果的一类信息检索。全文检索:以文献所包含的全部信息内容为检索对象。1.2信息检索的类型1.3信息检索的流程信息存储过程信息检索过程著录标引比较匹配分析选定编制信息资源信息选择收集信息主题数据库记录及信息特征标识信息用户信息需求信息主题检索提问式及提问标识信息检索检索结果评价/反馈检索语言分析不满意满意输出2信息检索的途径信息检索途径是由提取信息源的外部与内部特征形成的,又称为检索点或者检索入口。1.内容特征指由分析构成文献信息源的信息内容要素的特征与学科属性形成的,主要形成分类、主题两种。内容特征途径:从文献包含的信息内容特征来检索信息的途径。2.外表特征指从构成文献信息源的载体、符号系统、记录方式三要素中提取出的特征构成。外表特征途径:利用文献的外表特征来检索文献信息的途径。分类途径主题途径2.1内容特征途径一种按照文献资料所属学科(专业)类别进行检索的途径。检索工具的分类表为我们提供了从分类角度进行检索的途径。是通过文献资料的内容主题进行检索的途径,主题途径依据的是各种主题索引或关键词索引,主题索引或关键词索引按检索词的字顺排列,检索者只要根据课题确定了检索词(主题词或关键词),便可以像查字典那样,按照字顺去逐一查找,从检索词下的索引款目,找到所需文献的线索。《中国图书馆图书分类法》1999年推出了第四版,共分5大部类22个基本大类。22个基本大类是在5在部类的基础上第一次划分得到的,称为一级类目,分别对应一个英文字母;从基本大类起,再连续划分3次,得到二级、三级、四级类目。采用汉语拼音字母和数字相结合的方式对图书进行分类,是目前国内各公共图书馆和高校图书馆普遍使用的图书分类法,我馆藏书也是按照该分类法进行排架。按照学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。目前常用的分类法有《中国图书馆图书分类法》(简称中图法)、《美国国会图书馆分类法》、《杜威分类法》、《国际专利分类表》。分类途径专利分类法《国际专利分类表》《国际专利分类表》(InternationalClassificationofPatentforInvention,简称Int.Cl或IPC)1968年9月1日在国际范围生效,以后每5年修订一次。《IPC》按照技术主题来设立类目表。首先将与发明专利有关的全部技术领域划分为八个部,部号分别用大写英文字母A到H来表示。各部(Section)按等级形式再细分为大类(Class)、小类(Subclass)、主组(Maingroup)、分组(Subgroup),形成五级分类的结构形式。《IPC》由9个分册组成,1~8分册分别对应八个部,第9分册是《使用指南》。在《IPC》中,八个部分别是:A:生活必需B:作业运输C:化学与冶金D:纺织与造纸E:固定建筑物F:机械工程;G:物理H:电学分类途径用于检索信息的特点具有等级结构,便于扩大和缩小检索范围。用分类号做检索标识,不存在文种的限制。分类表中的类目不能随时变化,不能及时反映新的学科技术,边缘交叉学科只能从学科门类进行检索。隶属于一个门类下,造成漏检。例如:查找“金属工艺”类文献图书期刊分类科学系统、族性检索、查全率高主题词:以规范化的词汇来表达文献内容的主题的词语。规范词汇:同义词——“煤炭”与“煤”近义词——“天然资源”与“自然资源”学名和俗名——“计算机”与“电脑”多义词——“cell”(细胞、电池)如何提取主题词?词意应该具体意义广泛的词不应作为检索词技术方面的少数课题,可直接用课题名称中包含的具有检索意义的概念或者代码主题途径关键词:对表征文献主题内容具有实质意义的或对揭示文献内容来说是重要的、关键性的、只做少量规范化处理或不做规范化处理的自然词语。1例如:课题是“经济体制改革有关资料(1998-1999)”,如何确定检索标识?主题词:国企改革、所有制改革、国有资产管理与制度改革、金融改革、社会保障改革、劳动就业改革等。2例如:检索“图书馆虚拟参考咨询服务”方面的文献,如何提取关键词?关键词:虚拟参考咨询服务、图书馆服务、参考咨询服务等题名途径著者途径文献编号途径其它途径2.2外部特征途径是根据文献的题名来查找文献的途径,它依据的是题名索引。是根据已知文献著者来查找文献的途径,它依据的是著者索引,包括个人著者索引和机关团体索引。是以编号为特征,编排和检索文献的途径,如专利文献的检索可根据“专利号索引”进行检索。有些检索工具还附有一些特殊索引,可以通过特殊途径找到所需文献的线索。如专用符号代码索引(分子式,元素符号),专用名词术语索引(地名等)。中国现当代文学基础谭浩强四、信息检索发展历程手工检索到计算机检索题录文摘信息到全文信息的获得计算机检索经历了联机检索、光盘检索和网络检索方式发展趋势是异构数据库的统一平台检索(我们下面的讲课内容侧重于计算机信息检索)1布尔逻辑检索2截词检索4位置检索常用检索技术3全文检索计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。为了提高检索效率,计算机检索系统常采用一些运算方法,从概念相关性、位置相关性等方面对检索提问实行技术处理。检索式(formula,profile,statement)是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种组配算符构成。3信息检索技术布尔逻辑检索逻辑“与”(用and或*表示)逻辑“或”(用OR或+表示)逻辑“非”(用NOT或-表示)1.布尔逻辑检索在检索实践中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。用and或*表示,是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。在网络搜索引擎中习惯用空格代替。如查同时含有概念A和概念B的文献,可表示为:“AandB”或“A*B”。检索结果如图所示,图中阴影部分即为同时包含A和B两个概念的命中文献。(1)逻辑“与”AandBAB例:查找“弱势群体”并且作者是“楼策群”的文献,怎么表达?——弱势群体and楼策群用OR或“+”表示,是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。例如,检索含有检索项A或检索项B的文献,可表示为:“AORB”或“A+B”。检索结果是将含有检索项A的文献集合与含有检索项B的文献集合相加,形成一个新的集合。检索结果如图1-5所示,图中阴影部分即为包含A或B的命中文献。图中两者共同的部分只计一次,故避免了命中文献的重复出现。B(2)逻辑“或”AAorB查找包含计算机或者电脑的所有文章。(3)逻辑“非”AnotBAB用“NOT”或“-”表示,是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。在搜索引擎中,常用“-”号表示。例如,在含有概念A的文献集合中,排除同时含有概念B的文献,可表示为:“ANOTB”或“A-B”。检索结果如图所示,图中空白部分即为包含A且排除B的命中文献。例:查找“大学生信息素养培养”并且不包括“图书馆”的文献,怎么表达?——信息素养培养-图书馆在上述逻辑算符中,其运算优先级顺序为NOT,AND,OR,但是可以用括号改变它们之间的运算顺序。例如,(AORD)ANDB,表示先执行“AORD”的检索,再与B进行AND运算。布尔逻辑检索检索式的构造注意:1.准确反映提问的主要内容2.适应检索规则3.符合检索功能及限制条件的规定是一个能反映检索课题需求,同时能为计算机识别的表达式。检索式构造技巧句子切分网络与当代社会文化的关系词汇剔除网络社会文化概念替换水质细菌的计算方法水质污染的计算方法概念限定与补充食品+食物(近义词补充)计算机+电脑(同义词)地滚球+保龄球线路(无线电)(概念限定)思考:1.检索钱伟长在清华大学以外的机构工作期间所发表的,题名中包含“流体”或者“力学”文章。检索式:题名=流体or力学and(作者=钱伟长not机构=清华大学)2.检索钱伟长在清华大学期间,刊名为“应用数学和力学”的期刊上发表的文章。检索式:作者=钱伟长and机构=清华大学and来源=应用数学和力学4信息检索的方法信息检索的方法是根据检索课题的需要与检索系统的现状灵活选定的。4.1常用法又称直接法,是指直接利用检索工具(系统)检索文献信息的方法,这是文献检索中最常用的一种方法。根据具体的检索需要,可分为3种情况:顺查法、倒查法和抽查法。4.2追溯法4.3综合法顺查法含义:按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。优点:漏检,误检率低缺点:但劳动量较大。重点:能收集到某一课题的系统文献,用于较大课题的文献检索。优点:可以最快地获得新资料,概括了前期的成果,反映了最新水平和动向,这种方法劳动量较小。倒查法含义:是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献信息检索的方法。重点:在近期文献,只需查到基本满足需要时为止。可用于新课题立项前的调研缺点:容易造成漏检。抽查法重点:适合于检索某一领域研究高潮很明显的,某一学科的发展阶段很清晰的,某一事物出现频率在某一阶段很突出的课题。含义:抽查法是针对检索课题的特点,选择有关该课题的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。优点:花费较少时间能查得较多有效文献的一种检索方法。含义:指不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查找“引文”的一种最简单的扩大情报来源的方法。优点:它还可以从查到的“引文”中再追溯查找“引文”,依据文献间的引用关系,获得越来越多的内容相关文献。这些内容相关的文献反映着某一课题的立论依据和背景,也在某种程度上反映着某课题或其中的某一观点,某种发现的发展过程。缺点:原文著者引用的参考文献是有限的,误检,漏检的可能性大。4.2

1 / 83
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功