TFIDF方法在英语句子相似度计算中的应用初探摘要:介绍了一种中文自然语言处理中句子相似度的计算方法—基于向量空间模型的tfidf方法,并将该方法引入到了英语句子相似度的计算中来。对于含有同义词的句子,在计算句子相似度之前,先使用wordnet2.1查询句子中关键词的同义词集进行消歧,再利用tfidf方法进行相似度的计算。计算结果表明,消歧后再计算能得到更好的效果。关键词:tfidf;相似度计算;wordnet中图分类号:tp18文献标识码:a文章编号:1009-3044(2012)17-4127-02studyofenglishsentencesimilarityconputingintfidfmethodyangqian-qian,xudong(collegeofphysicsandelectronics,shandongnormaluniversity,jinan250000,china)keywords:tfidf;similaritycalculating;wordnet在机器翻译中基于实例的方法非常普遍,翻译结果也相对准确。在基于实例的英-汉机器翻译中,要想找到与目标句相匹配的源语言句子就要用到句子相似度的计算。在基于实例的机器翻译中句子相似度的计算非常关键,直接关系到目标句和语料库中源句子的匹配程度。在汉语句子相似度的计算中经常采用的是基于向量模型的tfidf方法,这是一种基于统计的方法,利用句子的词的词频词性等信息进行相关计算。我们将tfidf方法引入到英语句子相似度的计算中来,但是直接利用tfidf方法计算英语句子的相似度并不理想。这种方法没有对语义进行分析,在计算过程中若有同义不同形的词,相似度的结果就会受到影响,导致翻译匹配结果不准确。该文先采用wordnet2.1查询目标句子和源语言句子中关键词的同义词集,进行简单的同义词消岐后,再利用tfidf方法计算英语句子之间的相似度。1英语句子相似度的计算方法要计算英语句子的相似度,对于含有同义词的句子首先要用wordnet查询句子中关键词的同义词集,进行消歧后,再利用tfidf方法计算英语句子间的相似度。下面分别介绍一下wordnet的特点和基于向量空间模型的tfidf方法。1.1wordnet的特点wordnet是在princeton大学认知科学实验室的g.miller教授指导下开发的实际工作始于1985年。wordnet是一个在线的词汇参照系统,它的独特之处在于它是依据词义而不是依据词形来组织词汇信息。wordnet使用同义词集合(synset)代表概念(con?cept),词汇关系在词语之间体现,语义关系在概念之间体现。wordnet构造的核心是如何表示词汇概念节点,及在这些概念节点之间建立起各种语义关系。wordnet将英语词汇组织为一个同义词集合,每个集合表明一个词汇概念,同时力图在概念间建立不同的指针,表达上下位、同义、反义等不同的语义关系。经过这样的过程,原来抽象的概念被形式化了,变得具体且可以通过词汇意义加以操作,概念之间还可以建立多种语义关系的联系和推理。wordnet中词汇概念的语义关系主要包括:上下位、同义、反义、整体和部分、蕴含、属性、致使等。该文查询词语用的是wordnet2.1版本。version2.1主要包括名词、动词、形容词和副词四类实词,虚词并不予考察。我们主要利用的wordnet中的同义词集,若句子中的某个关键词属于另一关键词的同义词,我们将其看作相同的词,为下一步tfidf方法计算句子相似度做准备。例如“scene”与“scenery”两个词,通过wordnet2.1查询知“scenery”位于“scene”的同义词集中,我们就将其看作相同词;类似地,“potato”与“loveapple”也是同义词,也作为相同的词。1.2基于向量空间模型的tfidf方法在信息检索领域中,基于向量空间模型的tfidf方法被广泛地用来计算汉语文本之间的相似度。这里,我们将tfidf方法引入tfidf方法综合考虑了不同的词在句子中的出现频率(tf值)和这个词在整个语料库中对不同句子的分辨能力(idf值)。这种方法不需要任何对文本内容的深层理解,是信息检索领域常用的方法,当句子中次数较多时能产生较好的效果。但是不管英语句子还是汉语句子,往往需要考虑词本身的语义信息,ifidf在计算汉语句子相似度时没有考虑到语义信息。例如,“西红柿是什幺颜色?”和“番茄是什幺颜色?”采用tfidf方法计算相似度为0,但这两个句子表达的意思应该是完全相同的,因为“西红柿”和“番茄”在语义上是完全等价即两个词为同义词。正是tfidf方法中融合进了wordnet的同义词集消岐部分,语义上完全相同但相似度却为0的情况得以改进。下面是通过对一些英语句子进行相似度的计算来对比一下加入wordnet查询后的好处。2试验结果下面的两组数据是英语句子相似度值,一组是直接采用tfidf方法进行计算的结果,一组是采用wordnet进行查询并简单分析后再利用tfidf方法进行计算的结果。1)wordcannotdescribethebeautyofthescence.2)thebeautyofthescenerybeggarsdescription.3)thescenceissobeautifulthatittranscendmypowerofdescription.目标句为:wordcannotdescribethespectacleofthenature.表1相似度计算结果的比较3结束语将tfidf方法用于英语句子之间相似度的计算,不需要对句子进行分词。tfidf方法考虑了词在上下文中的统计特性,不需要任何对文本内容的深层理解,相对来说计算较为简单,对于不需要考虑语义信息且词汇量较大的英语句子来说能获得较准确的结果。先采用wordnet进行简单的关键词语同义消岐,然后利用tfidf方法进行计算可以在一定程度上提高英语句子相似度的准确性。尤其是对于同义词较多的句子中,效果将更为明显。参考文献:[1]张刚,刘挺,郑实福,等.开放域中文问答系统的研究与实现[c].中国中文信息学会二十周年学术会议,2001.[2]burker,hammond,i.questionansweringfromfrequently-askedquestionfiles:experienceswiththefaqfindersystem[r].univ.ofchicago,dept.ofcomputersciencetechnicalreporttr-97-05,1997.[3]李伟.中文语句相似度计算的方法初探[j].兰州工业高等专科学校学报,2009,16(4):194-197.[4]吴思颖,吴扬扬.基于中文wordnet的中英文词语相似度计算[j].郑州大学学报:理学版,2010,42(2):66-69.[5]荀恩东,颜伟.基于语义网计算英语词语相似度[j].情报学报,2006,25(1):43-48.