11《信息检索原理》课程Beihang内容回顾1.向量空间模型–假设文档集合可用3个关键词索引:t1,t2,t3–文档:D13,0,4,D21,2,3–用户查询请求q:2,2,1–请用余弦相似度计算方法计算D1和D2哪个更相关?2.概率模型–文档d表示为t1,t2,t3–dj=1,0,1,q=0,1,1,文档总数N=10–包含t1,t2,t3的文档数分别为10,8,4–试计算dj和q的初始相似度3.概率模型需要多次迭代才能提高查询结果的质量,如何在迭代的过程中省去与用户的交互?jiidkqkiiiijRkpRkpRkpRkpqdsim))()(1log)(1)((log),(《信息检索原理》课程查询处理与文本操作授课人:孙海龙2013.10.1823《信息检索原理》课程Beihang提纲•查询处理–相关反馈与查询重构–基于用户反馈的查询扩展–自动查询扩展•文本操作4《信息检索原理》课程Beihang问题的提出•给定索引形式和相似度计算方法,检索性能的提高主要依赖于查询的表示和处理•以搜索引擎为例,为了得到理想的结果,经常需要重新构造查询请求35《信息检索原理》课程Beihang解决方法•基于相关性反馈重新构造查询请求–对用户是透明的–包括两方面的内容•扩展昀初查询请求中的关键词•调整关键词的权重•相关性信息从哪里来?–用户的feedback–昀初检索到的文档集合(localsetofdocuments)–全局的文档集信息6《信息检索原理》课程Beihang基本思路•将出现在相关文档中的term添加到原始的query向量中,或者提高这些term的权重•将出现在不相关文档中的term从原始query中删除,或者降低这些term的权重47《信息检索原理》课程Beihang基于用户反馈的方法RankingsIRSystem文档集合经过排序的文档1.Doc12.Doc23.Doc3..1.Doc12.Doc23.Doc3..用户反馈查询字符串修改后的查询重新排序的文档1.Doc22.Doc43.Doc5..查询重构8《信息检索原理》课程Beihang基于用户反馈的方法•向量空间模型中的查询重构•概率模型中的权重调整•布尔模型中的相关反馈59《信息检索原理》课程Beihang相关反馈及查询重构•相关反馈是用户对昀初检索出的相关文档结果的反馈,一般包含以下步骤:–用户提出一个简短的查询–用户将检索返回的文档标识为“相关”或“不相关”–根据用户的反馈结果,检索系统计算出一个更好的查询的表达形式–以上程可以反复多次。•由此过程可以看出,采用相关反馈技术需要用户多次反馈信息–如果在用户反馈信息之前,能将用户的原始查询,由系统自动做进一步的修改,使它更精确化,可大大减少反馈次数,提高精确度10《信息检索原理》课程Beihang向量空间模型中的反馈与查询重构•用Cr表示整个文档集中所有相关文档的集合,|Cr|表示Cr中文档的数量,用N表示整个文档集合,dj表示单一文档j•目标就是希望寻找到•这样可以把用来区分相关文档和不相关文档的昀佳查询向量定义为argmax[(,)(,())]rrqqsimqCsimqNC11||||jrjroptjjdCdCrrqddCNC611《信息检索原理》课程Beihang向量空间模型中的反馈与查询重构•但Cr是一个未知量,而任何对Cr的估计都会有误差•Rocchio提出迭代求精的方法:,1,11||||jijniiijjdDdDiniqqddDDDi表示第i次检索所返回的文档中,用户标明为相关文档的集合。Dn,i表示第i次检索所返回的文档中,不相关文档的集合。|Di|和|Dn,i|分别表示Di和Dn,i中的文档数量12《信息检索原理》课程BeihangIdeRegular方法•利用更多的反馈信息,不对反馈进行归一化处理:njrjDdjDdjmddqq:Tunableweightforinitialquery.:Tunableweightforrelevantdocuments.:Tunableweightforirrelevantdocuments.713《信息检索原理》课程BeihangIde“DecHi”方法•仅考虑负反馈中的昀大值:)(maxjrelevantnonDdjmddqqrj:Tunableweightforinitialquery.:Tunableweightforrelevantdocuments.:Tunableweightforirrelevantdocument.14《信息检索原理》课程Beihang三种方法的比较•实验表明三种方法的结果比较接近•三种方法都能够提高检索性能•一般可将参数置为1:α=β=γ=1815《信息检索原理》课程Beihang向量空间模型中的反馈与查询重构•首先定义一个初始的查询向量q1,提交给检索系统•然后根据返回的检索结果,通过用户的选择,确定D1和Dn,1•通过更新公式,确定查询向量q2•重复执行以上步骤,直到获得理想的检索结果为止•从原始查询q1开始,每一个新产生出的查询都使用户更加靠近相关文档集合的质心,同时更加远离不相关文档集合的质心16《信息检索原理》课程Beihang•根据概率模型定义:•获得初始查询结果之后概率模型中的反馈与查询重构5.0)|(RkPiNnRkPii/)|(ririDDRkP,)|(ririiDNDnRkP,)|(jiidkqkiiiijRkpRkpRkpRkpqdsim))()(1log)(1)((log),(917《信息检索原理》课程Beihang•在实际应用中,|Dr|和|Dr,i|往往比较小,因此需要添加调整因子15.0)|(,ririDDRkP1)|(,riiriDNnDRkP15.0)|(,ririiDNDnRkP1)|(,riiriiDNNnDnRkP(1)(2)18《信息检索原理》课程Beihang分析•优点–与向量空间模型的相关反馈相比,概率模型的相关反馈的优点在于反馈过程与索引词的新权值直接相关–在索引词是相互独立的和利用二元文档索引两个前提下,对词语的重新加权进行了优化•缺点–但使用二元文档索引则会忽略索引词在文档和原始查询表达式中的权值;而这两种信息显然对查询的重构是非常有用的。–概率模型的相关反馈只对索引词语进行了重新的加权,而没有能够扩展查询–由于未像向量空间模型一样将检索结果中的相关文档直接用于查询向量的修改(仅仅间接的决定一个索引词的权重),所以一般认为概率相关反馈方法不如传统的向量空间模型的反馈方法有效1019《信息检索原理》课程Beihang布尔模型中的反馈与查询重构•布尔模型是基于布尔逻辑代数和集合论的检索模型。在该模型中,查询是由索引词通过逻辑操作符否(not)、与(and)、或(or)等连接在一起的•将相关反馈的方法应用于布尔模型时,有如下问题:–传统的布尔模型不会对检索出的文档进行排序,也就无法判断文档的相关性–布尔查询的相关反馈不仅要求选择适当的索引词充实到查询中去,同时还必须为这些索引词选择合适的布尔操作符,将索引词联系起来20《信息检索原理》课程Beihang•将每个索引词的权重根据事先确定的阈值分类–如果索引词的权重位于第一级阈值区间,则将该索引词单独作为单个的子查询表达式;–如果索引词的权重位于第二级阈值区间,则把索引词按照权重的高低依次组合成两两的索引词对,并用and连接共同作为一个子查询表达式;–如果索引词的权重位于第三级阈值区间,则把索引词按照权重的高低依次组合成每三个索引词一组,并用and连接共同作为一个子查询表达式;–依此类推。Dillon方法1121《信息检索原理》课程Beihang分析•该方法也存在一些缺陷:–新构建的查询并不一定包含原始查询中的索引词;–当索引词在不相关文档中出现的频率超过在相关文档中出现的频率时,索引词的value为负值;–重构的查询表达式可能由大量的子查询表达式组成,这样就会大大影响检索系统的性能。22《信息检索原理》课程Beihang相关性反馈的检索性能评估•修改后的查询缺省将把明确标记为相关的文档赋予更高级别的排序,而将明确标记为不相关的文档赋予较低级别的排序.•但不能基于此来评价相关性反馈的效果。•在机器学习中,这种错误称为“testingonthetrainingdata.”•Evaluationshouldfocusongeneralizingtootherun-rateddocuments.1223《信息检索原理》课程Beihang更公平的的评估方法•将用户提供反馈的文档从整个文档集中剔除。•Measurerecall/precisionperformanceontheremainingresidualcollection.•Comparedtocompletecorpus,specificrecall/precisionnumbersmaydecreasesincerelevantdocumentswereremoved.•However,relativeperformanceontheresidualcollectionprovidesfairdataontheeffectivenessofrelevancefeedback.24《信息检索原理》课程Beihang基于反馈的方法:存在的问题•用户有时不愿提供显式的反馈.•Resultsinlongqueriesthatrequiremorecomputationtoretrieve,andsearchenginesprocesslotsofqueriesandallowlittletimeforeachone.•Makesithardertounderstandwhyaparticulardocumentwasretrieved.(例如:与任何查询关键词都不直接相关的文档)1325《信息检索原理》课程Beihang基于全局和局部信息进行自动查询扩展(PseudoFeedback)•Userelevancefeedbackmethodswithoutexplicituserinput.•Justassumethetopmretrieveddocumentsarerelevant,andusethemtoreformulatethequery.•Allowsforqueryexpansionthatincludestermsthatarecorrelatedwiththequeryterms.26《信息检索原理》课程Beihang基于“伪”用户反馈的方法RankingsIRSystem文档集合经过排序的文档1.Doc12.Doc23.Doc3..查询字符串修改后的查询重新排序的文档1.Doc22.Doc43.Doc5..查询重构1.Doc12.Doc23.Doc3..伪反馈1427《信息检索原理》课程BeihangThesaurus•Athesaurusprovidesinformationonsynonymsandsemanticallyrelatedwordsandphrases.•Example:physiciansyn:||croaker,doc,doctor,MD,medical,mediciner,medico,||sawbonesrel:medic,generalpractitioner,surgeon,28《信息检索原理》课程BeihangThesaurus-basedQueryExpansion•Foreachterm,t,inaquery,expandthequerywithsynonymsandrelatedwordsoftfromthethesa