第四讲信息检索原理方法策略介绍

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第4讲信息检索4.1信息检索及其原理4.2计算机信息检索原理与技术4.3检索词的确定与选择4.4检索词组配算符4.5检索方法4.6原始文献分析4.7检索结果及全文索取4.8信息检索技巧总结4.9提取关键词的用词方法4.1信息检索及其原理4.1.1信息检索概述1.信息检索定义1)国外关于信息检索的定义(Beihang《信息检索原理》课程)信息检索-InformationRetrieval(IR)–thescienceofsearchingfordocuments,forinformationwithindocumentsandformetadataaboutdocuments,aswellasthatofsearchingrelationaldatabasesandtheWorldWideWeb.-FromWikipedia–关于对文档、文档中的信息、文档的元数据的搜索,以及对关系数据库和万维网搜索的科学2)国内定义指为达到某一特定目的,将信息源与用户需求连接起来,查询、鉴别、选择并确定相关信息的过程p159。广义的信息检索包括“存储”和“检索”两个部分,狭义的信息检索仅指广义中的检索部分。4.1信息检索及其原理4.1.1信息检索概述2.信息检索的作用获取知识的途径,学习的助手管理和决策的依据-全面、准确、及时的信息——切合实际、正确无误决策科学研究的工具和指南信息控制的手段4.1信息检索及其原理4.1.1信息检索概述3.信息检索原理即检索者的检索提问词与存储在检索系统中的检索标引词进行匹配对比、取得一致,即为检索命中,命中结果可从检索系统中以各种方式输出。检索者可据此线索对原文进行判断、筛选,以获取自己所需要的信息。广义和狭义(p160)见信息检索原理图4.1信息检索及其原理4.1.1信息检索概述信息检索原理即检索者的检索提问词与存储在检索系统中的检索标引词进行匹配对比、取得一致,即为检索命中,命中结果可从检索系统中以各种方式输出。检索者可据此线索对原文进行判断、筛选,以获取自己所需要的信息。信息检索原理图4.1信息检索及其原理4.1.1信息检索概述4.信息检索途径(p161)所谓检索途径就是检索时切入信息群体的路径。检索途径有两大类,一类是用信息的外部特征,如题名、责任者、某种序号、机构名等作为检索标识;另一类是用能够描述信息内容的分类号、关键词、主题词等作为检索标识。在数据库中检索时,几乎所有的字段都可以作为检索的途径。1)分类途径:分类语言,“分类目录”“分类索引”,便于族性检索2)主题途径:主题语言,“主题索引”“关键词索引”“叙词索引”,便于特性检索3)著者途径:“著者目录”、“著者索引”4)其他途径篇名途径包括书名、刊名和篇名序号途径包括报告号、标准号、专利号、登记号等分子式途径4.1信息检索及其原理4.1.2.信息的组织与标引1.信息组织信息组织是为了方便人们检索获取信息,将大量、庞杂、无序的信息进行系统化和有序化的过程。它包括信息的描述(外部特征),信息的标引(内容),信息的整序等过程。2.信息标引标引是指根据一定的规则和程序对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识(分类号、主题词、关键词等),作为存储与检索的依据。标引的第一步叫“概念标引”,目前自动标引正成为一种新的发展方向:其流程主要包括:自动分词——选出标引词——转换。4.1信息检索及其原理4.1.3信息检索语言1.信息检索语言的概念又称为标引语言、引索语言、文献检索语言、信息存储与检索语言等,它是用于描述信息系统中信息的内部特征和外部特征及表达信息用户需求提问的一种专门语言。是一种把文献的存储与检索联系起来、把标引人员和检索人员沟通起来的约定人工语言2.检索语言的种类按是否受控划分为人工语言和自然语言按内容性质划分为分类语言和主题语言4.1信息检索及其原理4.1.3信息检索语言(p163-177自学,考点)2.1分类语言用分类号和相应分类款目来表达各种概念,它以学科体系为基础将各种概念按学科性质和逻辑层次结构进行分类和系统排序。按照分类方式又分为体系分类语言、组配分类语言和混合分类语言。2.2主题语言对表达信息主题内容特征的主题词汇概念经规范化处理所形成的检索语言。按照主题性质的不同,又分为标题词语言、单元词语言、叙词语言、关键词语言和引文语言。4.1信息检索及其原理4.1.4分类检索语言1.分类的思想文献分类的实质是按照知识体系分类和概念逻辑方法,对文献信息进行区分和归类。类目是组成分类语言的基本单元,每一个类目都是一个相同事物构成的集合。根据文献信息的内容特征和分类词表,把相同内容的文献信息集中起来,又把不同内容的文献信息区别开来,以实现相关集中的功能。4.1信息检索及其原理4.1.4分类检索语言2.分类语言的基本原则类目划分的依据只有一个;上位类可按照一定的标准划分为若干个同级的下位类,任何一个下位类都有而且只能有一个上位类;同位类之间互相排斥。3.分类语言的性能分类语言的主要特点是按学科、专业集中相关文献信息,从知识分类的角度揭示文献信息之间的区别和联系,提供从学科专业领域检索文献信息的途径。4.1信息检索及其原理4.1.4分类检索语言4.分类语言的性能分类语言的符号——利用字母或数字的号码作为分类标识分类语言的词语——语义表达、词间关系、文献信息的集散分类语言的语法——先组配式的信息检索语言分类语言的使用——主题范围较大的文献(如图书),类号的确定较为容易;对于细小、复杂主题的文献(期刊论文),类号的选择相对较难。4.1信息检索及其原理4.1.4分类检索语言5.典型的分类语言——《中国图书馆分类法》《中国图书馆分类法》(原称《中国图书馆图书分类法》)是我国建国后编制出版的一部具有代表性的大型综合性分类法,是当今国内图书馆使用最广泛的分类法体系,是用的最广泛的分类语言。4.1信息检索及其原理4.1.5主题语言1.构成原理利用自然语言表达文献和提问内容的主题标识即主题词。利用各种参照系统等显示主题标识之间各种关系利用主题词的字顺序列排列与检索文献信息。4.1信息检索及其原理4.1.5主题语言2.主题语言的性能符号——直接利用自然语言的词语主题语言的词语——语义表达和它在自然语言中的含义一致,词间关系通过主题词表不同的参照系统和各种注释等来加以展示。主题语言的语法——有先组配式的信息检索语言,如标题语言;也有后组配式的信息检索语言,如叙词语言主题语言的使用——主题范围复杂、细小的、研究特定对象的文献,利用主题语言进行标引和检索,可以充分发挥主题语言的优势主题词表——同义词互见和对检索标引用词规范;上位词、下位词的显示来扩检或缩检;通过有关联主题词的“参见”提高查全率4.1信息检索及其原理4.1.5主题语言3.主题语言的种类标题语言——基本构成单元是主标题、副标题;标题表主要由主表和附表两大部分组成。元词语言——是一种后组式的信息检索语言;基本构成单元是元词,从文献中选出来无法再拆分的词汇。叙词语言——叙词(descriptor)是指以概念为基础、经规范化且具有组配功能并可以显示词间关系的动态性词或词组。叙词表是叙词语言的词典。叙词表通常由字顺主表、范畴表、词族表或其他附表组成。关键词语言——虽然也属主题语言的范畴,但没有经过规范化处理,属非受控语言(Uncontrolledterm)。类型:题内关键词索引、题外关键词索引、双重关键词索引。4.1信息检索及其原理4.1.6自然语言自然语言就是我们说话或写文章时候使用的书面语言,比较自由。自然语言检索计算机技术迅速发展的情况下,自然语言作为检索语言是一种必然的趋势。一条完整的CNMARC数据包含分类和主题两种语言主题语言分类语言分类语言主题语言4.2计算机信息检索原理与技术4.2.1计算机信息检索的发展概况脱机检索阶段、联机检索阶段、光盘检索阶段、网络化联机检索阶段4.2.2计算机检索原理和技术计算机信息检索原理实质就是由计算机将输入的检索策略与系统中存储的文献的特征标识及其逻辑组配关系进行类比、匹配的过程。4.2计算机信息检索原理与技术4.2.2计算机检索原理和技术数据库的结构和类型数据库定义——是至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。数据库的类型参考数据库——书目数据库(BibliographicDatabases)、指南数据库(ReferenceDatabases)源数据库——数值数据库、事实数据库、全文数据库、术语数据库、图像数据库。4.2计算机信息检索原理与技术4.2.2计算机检索原理和技术数据库的结构及全文检索数据库主要由文档、记录、字段三个层次存取号一般由6-9位数字组成基本索引字段主要包括篇名字段、文摘、叙词、自由标引词。辅助索引字段用来描述文献外表特征的字段。P182页数据库的结构图数据库是由若干个互有联系的文档(file)组成的,文档是书目数据库数据组织的基本形式,文档里的数据被称为记录,一个记录又包含若干个字段。数据库文档字、词记录字段1.文档数据库是由若干个互有联系的文档(file)组成的,信息检索数据库的文档包括主文档、索引文档和帮助系统文档三部分。主文档(顺排文档)记录按时间顺序存放,记录之间的逻辑顺序与物理顺序是一致的,是一种线形文档,文档的记录按文献信息获得的先后顺序排列,故又名为顺排文档。但对于所存储数据的某一方面属性,如作者、关键词等,则是无序的,即不能按关键词的字顺查询。索引文档(倒排文档)将顺排文档中各个记录中含有主题性质的字段(如主题词字段、标题字段、叙词字段等)和非主题性质字段(如作者字段、机构字段、来源字段等)分别提取出来,按某种顺序重新组织得到的一种文档。帮助系统文档凡是比较成熟的信息检索系统,还配有完善的在线检索帮助,包括系统使用的检索算符、组配规则、以及使用实例说明性文档,以网页的形式提供给在线用户。2.记录记录是数据库中数据集合的一个单位,是组成文档的基本数据单位。在书目数据库中,一个记录相当于一条题录或文摘记录又由字段构成,字段则是组成记录的基本数据单位。一个记录通常由标题字段、作者字段、来源字段、文摘字段、主题词字段、分类号字段、语种字段等组成。CNKI中的一条记录题名字段作者字段文摘字段关键词字段来源字段EI中的一条记录主题字段辅助字段123.字段字段是组成记录的基本数据单位。字段通常有标题字段、作者字段、来源字段、文摘字段、主题词字段、分类号字段、语种字段等。按照字段所代表记录的性质不同,字段通常分为基本字段和辅助字段两类。基本字段有题名字段、文摘字段、主题词字段等。辅助字段有作者、作者工作单位,文献来源,出版事项等。基本字段辅助字段字段名称字段代码字段名称字段代码标题T/TI记录号AN文摘R/AB作者A/AU叙词DE机构S/OG标识词ID来源SO关键词K/KW出版年PY控制词CT国家CU非控制词UT语种LA字段类型与代码CNKI数据库常用的字段4.3检索词的确定与选择4.3.1相同概念的检索词扩展1.同义词扩展法即在同一概念的范围内,从语言学角度选择不同的名称、不同的拼写方法和单复数形式,不同的名称包括学名俗名简称和全称商品名称和产品名、事物的代码和事物学名的。例.“超声波在污水处理中的应用”超声波是指频率介于20kHz—2MHz,人耳听不到的声波。以往超声波只用于医疗诊断、清洗、探测等方面。目前,超声波在饮用水,工业污水污泥处理中具有巨大的应用潜力。中文关键词:超声波、污水检索策略1:超声波and污水----会漏检很多文献检索策略2:(超声波or声化学)and(污水or废水),检索结果较多,较全面。4.3检索词的确定与选择4.3.1相同概念的检索词扩展2.截词法检索词词干相同、词义相近,但词尾或词中间有变化,可以采用截词方法扩展检索词。截词法举例:检索“微型热管的研究进展”这一课题,就可以使用截词。案例分析:随着计算机芯片中电路数目的增加,其产生

1 / 84
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功