特征加权方法对比

414550231
1 ℃
2019-12-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

特征加权方法1.布尔函数布尔模型是建立在经典的集合论和布尔代数的基础上的一种简单检索模型，它的特点是查找那些于某个查询词返回为“真”的文档。在该模型中，一个查询词就是一个布尔表达式，包括关键词以及逻辑运算符。通过布尔表达式，可以表达用户希望文档所具有的特征。由于集合的定义是非常直观的，Boolean模型提供了一个信息检索系统用户容易掌握的框架。查询串通常以语义精确的布尔表达式的方式输入。根据每个词在一篇文档中是否出现，对应权值为0或1，文档检索也是由布尔逻辑运算来决定的。优点：具有清楚和简单的形式缺点：第一，它的检索策略是基于二元判定标准（binarydecisioncriterion）（例如，对于检索来说一篇文档只有相关和不相关两中状态），缺乏文档分级（文档分级的概念，用一个例子说明：对于一个文档是否属于某一类，我们说，它是属于的，只是属于的程度不同，根据它的定义和该类的定义，如果它完全符合这一类的概念，那么它就是100%属于这一类，如果只有30%符合那就30%属于这类，如果它的定义完全不符合该类的定义，那么，它就0%属于该类。）的概念，限制了检索功能。第二，虽然布尔表达式具有精确的语义，但常常很难将用户的信息需求转换为布尔表达式，实际上大多数检索用户发现在把他们所需的查询信息转换为布尔时并不是那么容易。2.TF-IDF算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。算法思想：如果词w在一篇文档d中出现的频率高，并且在其他文档中很少出现，则认为词w具有很好的区分能力，适合用来把文章d和其他文章区分开来。举例：有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频(TF)是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率(IDF)的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是log(10,000,000/1,000)=4。最后的TF-IDF的分数为0.03*4=0.12。3.向量模型它在查询串和文档之间分配给索引术语非二元的权重，这些术语权重反映了数据库中的每篇文档与用户递交的查询串的相关度，并将查询返回的结果文档集按照相关度的降序排列，所以向量模型得到的文档是部分地匹配查询串。向量模型的优点在于根据秩（rank）返回的结果集要比布尔模型返回的结果集在感觉上更加符合检索用户的需要。1)术语权重的算法提高了检索的性能；2)部分匹配的策略使得检索的结果文档集更接近用户的检索需求；3)根据结果文档对于查询串的相关度通过CosineRanking公式对结果文档进行排序。向量模型的缺点向量模型把文档和查询串都视为词所构成的多维向量，而文档与查询的相关性即对应于向量间的夹角。不过，由于通常词的数量巨大，向量维度非常高，而大量的维度都是0，计算向量夹角的效果并不好。另外，庞大的计算量也使得向量模型几乎不具有在互联网搜索引擎这样海量数据集上实施的可行性。