在自动文本检索中词加权处理摘要——在过去的20年里累积的实验证据表明基于分配单一词合适的权重的文本索引系统产生的检索结果优越于那些更复杂详尽的文本检索系统代表。这些结果很依赖于有效的词项加权系统的选择。这篇文章概述了在自动文本词加权方面改进的深刻见解,而且提供了单一搜索词索引模型和那些更复杂的内容分析过程可以对比的基线标准。1自动文本分析在1950年代后期,卢恩首次表明自动文本检索系统可以基于存储文本附加的内容标识符和用户的查询信息的内容标识符的对比被设计出来。典型的,某一词从文档中提取出来,而且查询可以被用于内容鉴定。两者选一的,文本代表可以被手动的选择通过熟悉考虑主语区域训练的索引器或通过熟悉文档收集的内容训练的索引器。不论哪一种情况,文档都可以被这种形式的检索词向量代表。在这种形式里,每一个tk识别一个内容词被分配给一些样例的文档D。(1)类似的,信息请求,或查询将会要么被被向量形式代表,要么被布尔表述形式代表。因此,一个典型的查询Q可能表述作为(2)1或者。(3)在这里,qk再一次代表一个搜索词分配给查询Q。一个更加正式的检索词向量方程式(1)和(2)的表示通过所有可能的内容检索词包含在每一个向量当中可以获得。这些内容检索词被允许出现在系统中,增加检索词权重分配以提供在检索词之间的区分。因此,如果Wdk(或者Wqk)代表在文档D(或查询Q)的检索词tk的权重,而且t检索词在所有的内容代表中可用的,那么这个文档D和查询Q的检索词向量可以被写成和(4)在前面讲述的公式中,这个设想是当检索词没有被分配给文档D(或Q)Wdk(或Wqk)等于0,对于被分配的检索词Wdk(或Wqk)等于1。考虑到,反应式(4)的向量表示,一个查询文档相似值可以通过与相应的向量对比被获得。例如,使用传统的向量内积。(5)当检索词的权重局限于在先前的建议中的0和1时,这公式(5)的向量内积测量了同时被分配给查询Q和文档D的检索词的数量。实际上,这被证明是有效的,比权值只有0和1有可能在被分配给内容代表检索词之间提供一个更大程度的区分。特别的,检索词权2重可以被赋予按照检索词重要程度递减的顺序。在这种情况下,权值Wdk(或Wqk)可以被允许是0到1之间连续变化的任意值。越重要的检索词,它的权值越高越接近1,然而,越不重要的检索词,它的权值越低越接近于0。在一些情况下,这可能对于使用标准的权值分配是有效的。这样,单一检索词的权重一定程度上依赖于在同一向量中其他检索词的权值。一个典型的检索词权值使用一个向量长度归一化函数是对于文档(或对于查询)。当长度规范化检索词权值系统和向量相似函数公式(5)一起使用,获得一个众所周知的余弦向量相似性函数,这已经在实验的聪明的检索系统中被广泛使用。。(6)一个表现总体的比较在查询和文档向量之间的向量匹配系统提供以在Q和D之间计算的相似性递减的顺序排序的检索输出。这样一个排序输出是有效的,因为现在检索文档的大小是可控的。基于继承查询再形成的迭代检索策略是简化的。一个首次检索这些项目被认为是对用户主要感兴趣的系统将必然的证明在交互式信息检索中有帮助的。在设计自动文本检索系统中,有两个主要的问题必须面对。首先,在文档和查询代表中包含哪些合适的内容单元。第二,对于内容3标识检索词权重的决定是否有能力区别重要的检索词和那些不重要的检索词。就第一次内容检索词的选择而言,各种各样的可能性必须被考虑。在大多数的早期的实验中,单一的检索词被使用作为内容代表,经常由从文档文本和自然语言查询公式中提取的单词组成。在很多情况下,通过使用单一检索词内容代表,可以获得非常高效的检索输出。最后,然而单一检索词集合不能提供文档内容的完全识别。因为这个原因,多年以来,很多在内容分析和文本索引程序的增强功能被提议,企图形成复杂的文本代表。在这一点上下面的可能性已经被考虑。1,相关检索词集合的产生是基于统计学的在文档集合的某一上下文的单词的共同特征。这正常做出的假设是在文档集合共同出现足够多的频率的单词实际上是互相相关的。2,检索短语的形成由一个或多个统治地位的检索词(短语头)和相应的从属检索词(短语组件)。短语经常通过使用单词的频率计数和其它统计学的方法被选择,可能通过语法程序补充。语法程序被设计检测统地位的检索词和从属检索词的语法关系。3,这种类型的单词分组方法的使用通过辞海提供,在这把相关词的种类分为共同的标题。这些类的标题然后可以被分配给内容识别,而不是包含在类中的个体词。非此即彼的,对内容识别有用的检索词关系可以通过使用现存的机器可读的字典词典获得。4,知识库的建立和相关人工智能结构目的在于代替在考虑之中4的主语区域的内容,然后知识库的词目被用于代替文档和查询的内容。从一开始,这是明显的,复杂文本代表的建立和识别是非常困难的。特别的,大多数仅仅在局部的文档里提取最初的从属检索词组的自动推导检索词依赖性是有效的变得清晰。这意味着从属检索词组不能指望产生有用的内容标识在与那些最初使用的新建文档上下文。从自动产生检索短语的使用获得的实验证明同样地令人沮丧,对于一些集合,在检索效果上的改进达到20%(在研究召回率和准确率)可以获得的通过使用短语识别代替单一检索词。但是对于其他文档集合,这些相同的短语程序没有提供任何改进。而且甚至复杂的语法分析程序不能被依赖产生有用的复杂内容识别。至于预先构建的词汇表调度和检索词分类的使用,问题是可行的程序对于有效的词汇表工具覆盖合理范围的主题区域的建设好像是完全缺乏的。同样地想得到目的在于反映信息披露领域的知识库的构建。直到更多的关于字典,词典的形式和内容的渴望变得出名,从这些在文本分析和文档索引的工具获得的收获很少可以预料到。再回顾在过去的25年里信息检索系统评估领域积累的大量的文学,非常明确的证据是明智的使用单一检索词识别比更多复杂的实体的合并更好。这些实体从文本自身提取或从有效的词汇表调度获得。两个主要的问题出现在产生复杂的文本识别中。1,当严格条件被用于复杂识别的建设,作为通过使用限制性的频率标准和有限的共存上下文为了检索短语的识别的典型,然后很5少新的标识有可能变得可利用的。复杂识别的检索系统的性能与单一检索词索引获得的结果只有少量的不同。2,另一方面,当对于复杂的实体的建设标准是不严格的,不仅可以获得一些好的识别,而且许多边界的没有证明是有用的。总的来说,单一检索词索引通常是优先选的。当单一检索词被用于内容识别,在个体检索词之间一定引进区别,以他们作为文档描述符假设的值为基础。这导致了检索词权重的使用。检索词的权重附加到项目标识符。注意事项控制有效的加权因子的产生在下一部分简单的概述。2检索词权重详述一个检索词加权系统的主要函数是检索效力的放大。有效的检索取决于两个主要因素:一,项目可能与用户的需求相关的必须被找回;二,项目可能是没有关联的必须被拒绝。两个策略通常被用于评价一个系统在文档集合里召回相关的和拒绝非关联的项目的能力。它们分别作为召回率和准确率而出名。召回率是找回的相关文档比例,通过找回的相关文档的数量比上文档集合里相关文档总体数量测量;准确率,另一方面,是检索相关的文档比例,通过找回的相关文档的数量比上找回文档的总体数量测量。大体上,一个体系被认为比较好。它有高的召回率是通过找回相关的任何项目和高的准确率是通过拒绝所有没有关联的项目。检索的召回函数好像是通过使用宽阔的,高频的检索词可以最好的服务。这些检索词在文档集合的很多文档中都出现。这样的检索词可能被期望从很多文档中取出,包括许多的相关的文档。准确度因素,然而,6可能通过使用狭窄的高度的专用词汇可以最好的服务。这些检索词能够从大量非相关文档中隔离出少量相关文档。实际上,通常选取折中的方法,通过使用足够频繁的检索词获得合理的召回率,同时不会产生不合理的低准确率。召回和准确的要求不同,所以喜欢使用同时包含召回和准确增强组件的复合的检索词加权因子。在这一点上,有三个主要的注意事项显得重要。首先,在个别的文档或文档节选里频繁提到的检索词好像是有用的作为召回设备。这表明检索词频率因素被作为检索词加权系统测量检索词在文档或查询文本中出现频率的一部分。检索词频率权重已经在自动索引环境中被使用很多年。第二,单独的检索词频率因子不能确保可接受的检索性能。特别的,当高频检索词不集中于一个很小的特别文档,而是在倾向于被检索的所有文档,整个文档集合中是普遍的,这影响查找精度。因此,一个新的集合依赖因子必须被引进,它支持检索词集中在一个文档集的一些文档中。出名的倒置文档频率表现这个功能。Idf因子使一个检索词被赋予的文档数量n比上文档集合总数量N倒转的变化。一个典型的idf因子可能被计算为log(N/n)。检索词区别的注意事项表明对于文档内容识别最好的检索词是那些有能力从剩余的文档集合区分某一个别的文档。这意味着最好的检索词应该有高的检索词频率而且低的全部的文档集合频率。一个合理的检索词重要性测量可以通过使用检索词频率和倒置文档频率的乘积(tf*idf)获得。7文本区分模型被争议,因为它没有表现出很好的证实的理论的性能。如果把该模型与信息检索的概率模型(把文档相关性考虑在内)相比,概率模型考虑文档的相关属性而且理论的有效的文本相关权重被推导出来。把文本相关权重定义为文本出现在相关文档与不相关文档中的比例,然而,在没有得到文本在在相关文档与不相关文档中的出现的概率时,无法对其进行立即计算。在缺少完整相关信息条件下,有很多被提议进行估算检索词相关因子的方。,这些方法表明,在明确条件的情况下,文本相关性能弱化为一种形式为的倒置文档频率。复合的文本加权系统因此可以直接与其他优秀的检索模型相关联。除了词频和倒置文档频率,第三个文本加权要素,好像在不同的向量长度的系统中有效。在很多情况下,我们倾向于用短文本向量表示短文档,用长文本向量表示长文档。当大量的检索词用于文档的表示,在查询和文档中检索词的匹配机会比较高,因此长文档比短文当更容易被检索到。通常,对于检索目的,所有相关文档都应该有相同的重要性。这表明把归一化因子加入检索词权重公式可以均衡文档的向量长度。假设W表示检索词t的权重,则最后的权重可能被定义为。在之前的检索词权重系统的讨论中,我们都假定文档和查询用加权的检索词集合或者向量表示。文本权重系统也被应用于布尔表达式查询中,同时,设计扩展的布尔查询系统有效的处理简化的向量形式。在某种程度上,前面提到的检索词权重系统也可以用于布尔查询程8序。3文本加权实验在本文的剩余部分介绍一些检索词加权实验。在这些实验中,使用词频,集合频率和长度标准化组件的组合来处理六个不同大小,覆盖不同领域的文档集合。在每一个情况下,用户查询集合作为检索目标,用可用的用户查询的数量代表平均性能。在每个实验中,平均检索精度由3个不同的召回点进行计算,包括低召回率0.25,平均召回率0.50和高召回率0.75。这些平均搜索精确度然后进一步的平均对于所有可用的用户查询。除此之外,对于精度的测量,我们将采用性能降序排列的加权方法作为评测标准。在实验中使用了1800个不同的检索词加权组合,发现了287个界限分明的组合,第一位的为结果最好的,而287是最差。在最近的试验中,每个检索词加权组合都由2个三元组表示。分别是词频,集合频率和向量标准长度分别代表文档文本(第一个三元组)和查询索引项(第二个三元组)。表1定义主要的加权衡量值。使用了3个不同的词频衡量值,包括一个二进制权重(b),标准词频(t)以及标准化词频(n)(0.5到1之间)。这3个词频衡量值代表忽略了集合频率的1(x)的倍数,传统的倒置的集合频率因子(f),和倒置的概率集合频率(p)。最后,长度标准化元素可以存在(c)或不存在(这种情况x就是第三个衡量值)。在先前提到的1800个不同检索词权重的组合,不包含在表1中的附加的加权也被测试了。这些附加的分量没有提供任何本质上的新想法或优点。9表2展示了一些出名的检索词加权系统的实际公式。协调层匹配,简单地反映了在文档和查询中相匹配的检索词数目,分别地,由6倍的bxx*bxx描述。同样地,概率二进