华中师范大学情报学真题笔记(信息检索原理---完全版)

dzd007
0 ℃
2020-02-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

信息检索原理技术1.1.1信息：信息是事物发出的信号所包含的内容。一次文献信息：作者以自己的研究成果为基础创作或撰写的、未经过加工的原始文献。（期刊论文、研究报告、专利说明书、会议论文、学位论文）二次文献信息：对一次信息加工整理而成的文献。（目录、文摘、索引）三次文献信息：对一二次信息综合、分析等深加工的产物。（评论、进展报告、述评、百科全书、年鉴、指南、期刊书目）知识：人类的主观世界对客观世界的概括和反映，是大量有组织的信息，是关于实施和思想的有组织的陈述，提供某种思考的判断和某种实验的结果。文献：是记录有知识的一切载体，即知识信息必须通过文献载体进行存储和传递。1.3.1检索系统包括物理构成和逻辑构成。从物理构成的角度来考察，检索系统一般包括硬件、软件和数据库。硬件：计算机检索系统采用的各种硬件设备的总称。包括具有一定性能的主计算机或服务器、检索系统的外围设备和在数据处理和传送中有关的其他设备。软件：包括与计算机检索相关的各种系统软件及相关应用软件。数据库：至少由一种文档组成，并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。；逻辑构成：文献与数据的选择与抽取子系统（从外部信息源向系统输入，输入时要按照系统既定方针和用户需求进行选择）、词表子系统（分为完全的自然语言检索和后控自然语言检索）、标引子系统（按照一定的词表，对文献赋予标引词）、查寻子系统（把用户的需求，经过概念分析，转换成系统语言的词汇，并指出其逻辑关系的过程）、用户与系统交互子系统（检索系统向用户提供的实现其检索过程的手段）、匹配子系统（文献的标引记录和提问的检索策略进行对比并决定取舍）2.2布尔检索模型的概念：采用布尔代数和集合论的方法，用布尔表达式用户提问，通过对文献标识与提问式的逻辑运算来检索文献。逻辑运算符有三种：逻辑与、逻辑或、逻辑非。优点：逻辑运算符较少，便于用户学习；模式较易构造，可以通过简单的关系来体现检索项的联系；布尔检索模型可以将复杂的检索过程以简单的检索式表达出来，通过逻辑运算符将概念间的逻辑关系体现出来，变成计算机可执行的运算，从而实现自动匹配的过程；检索提问式较灵活，方便修改。缺点：布尔检索中关键词没有权重区别；检索结果的输出没有重要性排序；查全率很难控制；布尔检索要求用户具备诶很高的素质和语义提取能力。3.3无论是人工索引还是自动索引都经历了采集信息、建立数据库到标引信息、形成索引数据库的过程。信息采集：有关机构和个人，根据一定目的，将系统内外各种形态的信息采出并汇集起来的过程。传统的文献信息采集：主要通过人工采集如采购、索取、交换、检索、复制等手段来获得有关文献信息。信息标引：通过对文献或信息的分析，选用确切检索标识，如类号、主题词、关键词、人名、地名等，用以反映该文献或信息资源内容的过程。建立索引---索引包括索引款目、参照系统和索引款目导引标志。索引款目由索引标目和索引地址构成。索引标目又可以分为主标题和副标题。索引主标目揭示被索引概念的核心部分。副标目作用是使所用标目含义更为具体、专指。索引的建立一般有以下的步骤：1、选题，建立主索引文件。2、对主索引关键词进行抽词倒排，建立目标格式文件。3、排序与归并。3.6倒排文档：主要按照某一属性（字段）的字符顺序存入数据库的全部记录，又称主文档。顺排文档的检索，只要将用户的检索表达式与顺排文档中的文献记录依次比较，就可以判断是否又匹配的文献记录。检索可以是顺序检索，也可以分块检索和折半检索。顺序检索：从一个顺排文档的开头部分，依次查找文档中的所有信息，已找到文档中潜在的某一特定信息。分块查找要进行两次查找。首先对按关键字的顺序将主文档分为若干大小适当的记录块，标记每个块的最后一个记录的关键字。查找时，将所要查找的记录在哪一块。折半检索法按照检索关键字值得大小将检索范围分成二分之一，逐步缩小范围检索，知道查到所需要的信息。首先检查文档中间的记录，把中间记录的关键之同用户查询中的关键值比较，如果相匹配，那么中间的记录就是需要查找的记录。如果不匹配，进一步确定所要查找的关键字值在中间的元素的前面或后面。如果在前面，则文档后面的一般就可以忽略，再去检查剩余部分的中间元素，直到找到相关信息。倒排文档：将主文档中的可检字段抽出，按某种顺序重新排列起来所形成的一种索引文档。倒排文档的建立：（1）索引词选择。选择需要做索引的字段属性，抽出其中内容，并在其后附上记录号。（2）对抽取的内容进行排序，便于归并相同内容。（3）对相同内容进行归并，把合并后内容放入倒排文档的主键字段，统计每一数据的频次作为目长，把每一内容后的记录号顺序放于记录号集合字段。倒排文档可以实现对文献的快速查找，只需检索索引就可以确定是哪些文献是与查询请求相关的。6.1.3一般系统的用户接口应满足以下用户需求：1、帮助用户学习系统，使之了解系统内的资源情况、构成和使用方法。2、为用户提供进行检索作业的通道3、为用户提供描述检索问题的工具4、保证在用户满意的时间内，以用户期望的方式，检索准确、完备的信息。5、它应该尊重用户的思想方法和思维习惯。6、能保证用户事先不需要经过过多的培训，即使缺乏信息检索经验和知识，也能在系统自身的帮助下完成检索。7、能够帮助用户认清和确定自己的信息需求，并促使检索依据用户的实际需求进行。信息检索系统的用户接口所具备的功能可分析和总结如下：1、自动登录系统2、访问多个数据库的功能3、数据库选择功能4、帮助功能5、检索式构造功能6、查询扩展7、相关反馈功能8、下载和上载功能9、用户视图定义功能10、后处理功能用户接口的组成：1、面向用户部分2、面向系统部分3、转换部分用户接口的主要形式：1、命令语言形式2、菜单选择方式3、表格填充方式4、直接操作方式5、自然语言的人机对话方式第七章信息检索系统的评价7.2.1系统角度的性能评价指标1、从系统角度来考察检索系统的评价通常是以相关行为标准的。系统角度的相关性是把信息检索定位于一种单方向的信息处理过程，系统根据用户的提问输出检索结果，用户是信息的接受着。这种理解把相关性看作是系统方面的属性，用户提出的查询请求只是被拿来与已确定的文档相比较，二者之间匹配、比较的主要标准就是文档内容与提问的“主体性”。系统相关性是对复杂的相关性概念采取的一种简化处理，只有做出这种简化，信息检索及其评价才能在一种相对“客观”的相关性标准下顺序进行。相应地，评价指标也比较容易观察或测度。2、查全率和查准率的互逆关系查全率和查准率之间具有密确的关系，即互逆关系，反映了某一检索结果集合的不同方面的特性。从查全率与查准率的定义上很难推出两者的变化关系，但从感性角度，许多实例证明了两者的互逆关系。一般说来当选用比较准确和专指的词作为检索词时，所检出的数据信息往往比较符合检索要求，但数量有限，使检索者担心有许多数据被过滤掉。当扩大检索范围，选用广义的词作检索词时，准确率会大大降低，检索结果会很庞大，使检索者不得不进行人工的再次筛选。3、影响查全率和查准率的因素查全率与查准率的变化关系是一个相当复杂的课题，不仅因为两者本身的关系不确定，而且研究中会发现许多影响因素，这些影响因素也存在诸多不确定性。其影响因素表现在：（1）相对值的影响研究查全率与查准率的关系，只是作为一种普遍意义上的规律来研究。要做大量的统计，经过整理分析，得出统计的平均结果作为建立数学模型的基本依据。因此这是相对值的研究，其本身就具有一定的不确定性，其结论也不能是绝对的。（2）检索方式的影响检索方式有委托检索与非委托检索之分。委托检索是指检索者向检索专业人员提出提问，有检索专业人员操作系统进行检索然后将检索结果传递给检索者；非委托检索是指由检索者亲自使用检索系统进行的检索活动。两种方式各有利弊，用户更清楚自己的检索主题和具有更多的专业知识，检索元更熟悉检索系统的指令和运作情况。采用的方式不同，其查全率和查准率受到的影响因素也不同。（3）时限的影响研究查全率与查准率的关系时还要考虑时限的限制，要在时限相等的范围内取样。（4）检索过程中的影响因素数据库中数据信息的组织和标引的科学程度也会影响查全率和查准率。标引得越深，需要与之匹配的检索词越专指，这样查全率可能会升高，而标引词使用得越多，入口就越多，这样查全率可能会升高。同样，检索时检索策略的组织和对被检主题的理解程度词语转化能力都会造成不同的检索结果，成为我们定量研究中的不确定因素。综上所述，在对数据库中查全率与查准率的研究中存在许多的前提，而这些前提包含着多种不确定。4查准率与查全率的适用性目前，查准率与查全率已经广泛的应用与评价检索算法的性能。然而，随着研究的深入，两种测度的一些问题也暴露出来。第一，查询最大查全率的合理估计一般需要了解集合中的所有文献，对于大型的文献集来说，就无法对查全率进行准确的估计了。第二，查全率与查准率是相互关系的测度，它们评价检出文献的不同方面，很多情况下，把查全率和查准率结合在一起形成单个的测度可能更适合些。第三，查全率和查准率测度的是批处理模式下查询集合的性能。但对于现代信息检索系统来说，交互性是检索过程的一个重要特征。因此，那些量化检索过程信息性的指标可能会更适合。第四，当对检索到的文献进行线性排序时，查全率和查准率的计算会比较容易。可是对于那些并不需要排序的系统来说，查全率和查准率可能就不能充分满足要求。7.2.2用户角度的性能评价指标在检索性能评价过程中，脱离用户谈相关是不现实的。一篇文档是否具有相关性，很大程度上取决于用户的主观判断，往往涉及用户的知识状态、待处理（解决）的问题、任务及所处的情境或者用户的目标、动机等众多因素。用户角度的性能评价对检索结果的评价非常关键而不可缺少。用户角度的性能评价指标主要有以下指标：（1）涵盖率（2）新颖率（3）相对查全率（4）查全效果7.2.3搜索引擎的性能评价指标1、建立评价指标的原则搜索引擎评价指标体系的建立应符合以下三个原则：（1）科学就是指新建立的搜索引擎评价指标体系能客观、真实、全面地反映搜索引擎的主要性能及其内在联系。（2）合理就是搜索引擎评价指标体系是对传统的信息检索评价指标体系的扬弃，继承信息检索传统评价指标体系中有用的部分，摒弃信息检索传统评价指标体系中存在的严重缺陷的部分，增加新的适合互联网上信息检索评价需求的内容。是搜索引擎评价指标体系既继承传统评价指标体系，又符合当代科学技术发展的客观要求。（3）有效有效是指搜索引擎评价指标体系既能比较准确的区分各种搜索引擎的主要性能，又能简单易用、方便操作。2、评价指标设计的方面(1)数据规模与内容具体的考察因素（或指标）包括收录范围、数据库内容、更新频率、重复率、死链接率等。（2）索引方法主要考察的内容包括索引方式（自动还是人工）、引索范围和深度等（3）检索功能主要包括两大方面：基本检索功能（包括布尔检索、截词检索、位置/短语检索、限制检索等）和高级（或辅助）检索功能（包括概念检索、相思检索、多语种检索等）。（4）检索结果处理主要考察指标包括排序方式、显示内容/格式、后处理功能（如摘要、聚类、翻译等）。（5）分类功能主要涉及内容包括分类类目体系的深度、数量、合理性等。（6）用户界面主要考虑因素包括界面布局、联机帮助、界面制定、界面广告量等。（7）汉字处理主要考虑的具体方面包括词语切分、多内码处理/转换、中英文混合检等。（8）其他如响应时间、系统稳定性等。3、目前评价活动面临的问题（1）搜索引擎提供（或公开）的信息有限（2）某些指标客观存在（3）各个搜索引擎之间差异较大，测试结果数据的可比性较低。（4）有些评价指标涉及评价者的主观因素较多，或完全取决于评价者的主观判定第八章一DIALOG的优势（1）信息量大。DIALOG系统数据库总数达900多个，涉及40多个文中，相当于internet中可检索内容的50倍，这个数量远远多于其它国际联机系统。（2）数据库的质量比较高。DIALOG系统的数据库都是从世界上著名的数据库生厂商那里租借或购买，因而质量有保障。（3）检索迅速方便。DIALOG系统检索功能强大，为各种信息需求提供了高