词项(Term)加权问题细节

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1IR(继续)参考JaimeCarbonell讲稿和《ModernInformationRetrieval》2Today’sTopics•词项(Term)加权问题细节•GeneralizedVectorSpaceModel(GVSM)•最大边界相关法(MaximalMarginalRelevance)•SummarizationasPassageRetrieval(基于片段提取的综述)3词项加权问题•我们有了–“共有词汇”假设:“文档”和“查询”等价于它们含有的词汇集合,它们的相关性可以完全由共有词汇的情况来决定–向量空间模型•最简单的:二元向量,只是刻画一个词项的出现与否•稍复杂些:计数向量,刻画一个词项在文档(查询)出现的次数•一般的:我们可以考虑“以文档集合为背景,一个词项在一篇文档中的权重”4TermWeightingRevisited(1)Definitionswi“ithTerm:”词,词根,或者索引的短语,统称“词项”Dj“jthDocument:”文本索引的单位,例如,一篇网页,一个新闻报道,一篇文章,一个专利,一个法律案例,一本书,书的一章,等等。(根据需要确定这个基本单位)5TermWeightingRevisited(2)DefinitionsC,一个收藏(收集,Collection):一个索引文档的集合(例如,1998年人民日报的所有文章,Web等)Tf(wi,Dj)“TermFrequency:”,词频,wi在文档Dj中出现的次数。人们有时候通过除以该文档中最大的非停用词的TF对Tf进行规格化[Tfnorm=Tf/max_TF].)),((max)(max_jiDwjDwTFDTFji6TermWeightingRevisited(3)DefinitionsDf(wi,C)“documentfrequency,文档频率:”,wi至少在其中出现一次的文档的个数.Df通常,我们取规格化的结果,即除以C中的文档总数。IDf(wi,C)“InverseDocumentFrequency”:[Df(wi,C)/size(C)]-1.多数情况下人们用log2(IDf),而不是直接的IDf。7TermWeightingRevisited(4)词项在TfIDf意义下的权重(相对于一个文档)一般来讲:TfIDf(wi,Dj,C)=F1(Tf(wi,Dj)*F2(IDf(wi,C))通常,F1=0.5+log2(Tf),orTf/Tfmaxor0.5+0.5Tf/Tfmax通常,F2=log2(IDf),“抑制函数”在Salton的SMARTIR系统中:TfIDf(wi,Dj,C)=[0.5+0.5Tf(wi,Dj/Tfmax(Dj)]*log2(IDf(wi,C))8TFIDF的(启发式)含义•一个词项在一篇文档中的“重要性”–和它在该文档中出现的次数成正比(局部)–和它在文档集合中涉及文档的个数成反比(全局)•重要性设计的目地–区别两个文档对同一个查询的相关程度•共有词(频)越多,则相关程度应该越高(同一性强)•如果一个共有词在文档集合中出现得很普遍,则由它反映的相关程度应该越低(区分性差)9探个究竟•K.Papineni,“WhyInverseDocumentFrequency,”Proc.NorthAmericanAssociationforComputationalLinguistics,2001,pp.25-32.•证明了IDF在某种距离函数意义下的优化特性。10TermWeightingbeyondTfIDf(1)概率模型•传统概率方法(计算q和d相关的概率)–R.R.Korfhage,InformationStorageandRetrieval.JohnWiley&Sons,Inc.,NewYork,1997–G.Marchionini,InformationSeekinginElectronicEnvironments.CambridgeUniversityPress,NewYork,1995–Improvesprecision-recallslightly•完整的统计语言学模型(CMU)Improvesprecision-recallmoresignificantly•概率模型的共同缺点是计算效率不够高11TermWeightingbeyondTfIDf(2)神经网络•理论上有吸引力•不幸的是,基本谈不上什么可扩展性(规模不能大)模糊集合•研究还不够深入,也会有扩展性的困难12TermWeightingbeyondTfIDf(3)自然语言分析法•首先分析和理解D’s&Q•采用某种基于自然语言理解的IR理论,从{d}中获取和q相关的子集•一般来讲,自然语言理解依然是一个尚待解决的问题•即使我们能做,还有一个可扩展性问题•到现在为止,自然语言理解的方法只在很有限的领域对IR有所改善。13GeneralizedVectorSpaceModel(1)原理•通过其在多个文档中出现的模式(occurrencepatterns)来定义词项•对查询中的词项也同样定义•相似度的计算基于对d和q中重叠的模式来进行14GeneralizedVectorSpaceModel(2)好处•自动包含了部分相似的效果–如果“heartdisease”,“stroke”和“ventricular”共同出现在许多文档中,那么即使查询只包含其中一个,则包含其他几个的文档也会得一些分,和它们的文档“共生率”成一定比例。•不需要做查询扩展或者相关性反馈15GeneralizedVectorSpaceModel(3)不利因素•计算开销较大•效果=“向量空间+Q扩展”的效果16GVSM的具体实施(1)将文档集合表达为一个向量:LetC=[D1,D2,...,Dm]将每一个词项按照其在文档集合上的分布也表达成一个向量:Letvec(ti)=[Tf(ti,D1),Tf(ti,D2),...,Tf(ti,Dm)]定义词项之间的相似度:sim(ti,tj)=cos(vec(ti),vec(tj))这样,经常同时出现的词,例如“Arafat”和“PLO”,“北大”和“创建一流”等就会较高的相似度(near-synonyms,其实是共生词)17Bytheway…•Synonymy,同义词,影响recall•Polysemy,多义词,影响precision18query-document的相似度计算相应变化,sim(q,d)不再是q和d的向量点乘,而是用上述“词项-词项”相似度的某个函数。例如,对q的每一个词项,分别得到它和d中词项的最大相似度,将这些最大相似度加起来得q和d的相似度:sim(q,d)=Σi[maxj(sim(tqi,tdj)]通常也以q和d的长度为基础做规格化:simnorm(Q,D)=GVSM,HowitWorks(2)||||)],(([DQdqsimMaxji19GVSM,HowitWorks(3)主要问题:需要较大的计算量(sparse=dense)主要好处:自动完成了通过语料的termexpansion20对于单纯追求相关性的一种批评(1)IRMaximizesRelevance•precisionandrecall是关于相关性的度量•忽略了所获取文档的质量问题(高相关不一定是高质量的)21对于单纯追求相关性的批评(2)其他重要的因素•信息的新颖性novelty,时新性timeliness,freshness,合适性appropriateness,有效性validity,可理解性comprehensibility,强度density,...??•信息获取,我们其实是要最大化:P(R(fi,...,fn)|Q&{C}&U&H)其中Q=查询,{C}=文档集合,U=用户背景,H=交互历史,fi=某种因素•...butwedon’tyetknowhow.Darn.22最大边界相关•MaximalMarginalRelevance•一种粗浅的近似:novelty=minimal-redundancy•加权线性组合,重新确定文档序值:(redundancy=cost,relevance=benefit)•自由调整参数:kandλ23MaximalMarginalRelevance(2)MMR(Q,C,R)=ArgmaxkdiinC[λsim(Q,di)-(1-λ)maxdjinR(sim(di,dj))]•Q,查询•C,所有文档的集合•R,已得到的一个以相关度为基础的初始集合•Argmaxk[*],给出集合中k个最大元素的索引24MaximalMarginalRelevance(MMR)(3)利用MMR进行文档重定序的一种计算方法1.用其他常用IR方法取得前K个文档记Dr=IR(C,Q,K)2.选maxsim(diεDr,Q)作为第一个文档,即让Ranked=di,(用这记号表示有序集合)3.LetDr=Dr\{di},从中去掉这个元素4.WhileDrisnotempty,do:a.FinddiwithmaxMMR(Q,Dr,Ranked)b.LetRanked=Ranked•di,(后续追加操作)c.LetDr=Dr\{di}25MMRRankingvsStandardIRquerydocumentsMMRIRλcontrolsspiralcurl26MaximalMarginalRelevance(MMR)(4)应用:•对从IR引擎中获得的文档重新定序•在自动生成综述(summary)的应用中对要包含的片段(passage)的定序。–一篇文章可能有近似的句子或段落,但综述中不宜有。27文档综述简要综述(summarization)的类型任务服务于查询系统(focused)和查询无关(generic)提示性综述indicative,用于过滤(这文章我还需要读吗?)对搜索引擎的结果进行过滤简短摘要abstract内容性综述contentful,用于代替阅读全文帮助那些很忙的人全面综述executivesummary28DocumentSummarizationinaNutshell(2)其他方向•单篇文章还是多篇文章?•不同体裁的自适应,还是一种统一的规格?•一种语言还是跨语言?•线性综述还是超链结构?•仅文本还是多媒体?•...29以片段提取为基础的综述(1)查询驱动的综述:1.将文档分成片段e.g,sentences,paragraphs,FAQ-pairs,....2.用查询来提取最相关的片段,或者考虑MMR来避免冗余。3.将提取的片段装配成综述。30SummarizationasPassageRetrieval(2)一般性综述1.用标题或者最高Tf-IDF的几个词项作为查询。2.参照查询驱动的方法继续。31SummarizationasPassageRetrieval(3)多文档的综述1.将文档聚类为内容相关的组2.对于每一组,将文档分成片段,并记住每个片段的来源文档3.利用MMR提取最相关,非冗余的片段(对多文档的情况,MMR特别有必要)4.对每一个聚类组装配一个综述

1 / 31
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功