信息检索实验室1信息检索的评价信息检索实验室评价的目的技术评测为科研提供了一种统一的评价基准评测技术本身的进步,对科学研究的进展也起着不可忽视的促进作用技术评测还对技术的发展起到一种引导作用爱因斯坦1938年在《物理学的进化》中说:“提出一个问题往往比解决一个问题更为重要”在某种意义上,技术评测就可以起到一个提出问题的作用2信息检索实验室3评价评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量信息检索实验室信息检索的评价针对一个检索系统,可以从功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能,因此相对来说较容易性能评价对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序4信息检索实验室相关性相关性理论假定:对于一个给定的文档集合和一个用户查询,存在并且只存在一个与该查询相关的文档集合检索系统的目标就在于检出相关文档而排除不相关文档5信息检索实验室6评价IR系统的困难相关性不是二值评价,而是一个连续的量即使进行二值评价,很多时候也很难从人的立场上看,相关性是:主观的,依赖于特定用户的判断情景相关的,依赖于用户的需求认知的,依赖于人的认知和行为能力时变的,随着时间而变化信息检索实验室7检索的评价检索性能的评价检索结果的准确度检索任务批处理查询交互式查询实验室环境下主要是批处理查询,具有良好的可重复性和可扩展性信息检索实验室在评价和比较检索系统的检索性能需要以下条件:一个文档集合C。系统将从该集合中按照查询要求检出相关文档一组用户查询要求{q1,q2,…,qn}。每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集{R1,R2,…,Rn}。该集合可由人工方式构造一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值8信息检索实验室相关性判断在早期的检索实验集合中,相关性判断是全方位的,就是说,由专家事先对集合中每一篇文献与每一个主题的相关性做出判断。由于TREC的文献集合如此庞大,全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合,并采用一种“pooling”的技术来完成。9信息检索实验室“pooling”方法两个假设假设绝大多数的相关文档都收录在这个文档池中没有进行判断的文档即未被认为是不相关的“pooling”技术的具体操作方法是:针对某一检索问题,所有参与其检索试验的系统分别给出各自检索结果中的前K个文档(例如K=100),将这些结果文档汇集起来,得到一个可能相关的文档池“pool”由检索评价专家进行人工判断,最终评判出每一文档的相关性10信息检索实验室11相关文本检索出的文本全部文本集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关准确率和召回率(查全率和查准率)召回率(Recall)=检出的相关文档数/相关文档数准确率(Precision)=检出的相关文档数/检出文档数假设:文本集中所有文献已进行了检查信息检索实验室12准确率和召回率的关系101准确率召回率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾信息检索实验室13举例ExampleRq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通过某一个检索算法得到的排序结果:1.d1236.d911.d382.d847.d51112.d483.d568.d12913.d2504.d69.d18714.d1135.d810.d2515.d3(precision,recall)(100%,10%)(66%,20%)(50%,30%)(40%,40%)(33%,50%)信息检索实验室14一个查询的11个标准查准率11个标准查全率水平所对应的查准率:0%,10%,20%,…,100%02040608010012020406080100120interpolationprecision信息检索实验室15平均准确率上述准确率召回率的值对应一个查询每个查询对应不同的准确/召回率曲线为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下:Nq:thenumberofqueriesusedPi(r):theprecisionatrecalllevelrforthei-thquery1()()qNiiqPrPrN信息检索实验室多个查询下进行检索算法的比较对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。如下为两个检索算法在多个查询下的查准率/查全率的值。第一个检索算法在低查全率下,其查准率较高。另一个检索算法在高查全率下,其查准率较高0102030405060708090100020406080100120RecallPrecision信息检索实验室17适应性合理估计需要了解集合的所有文献这两个指标相互关联,评价不同方面,结合在一起形成单个测度更合适测的是批处理模式下查询集合性能,对现代信息检索系统,交互式是重要特征,对量化检索过程的性能指标可能会更合适信息检索实验室新的评价指标随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值概括信息检索实验室19单值概括(1)已检出的相关文献的平均准确率逐个考察检出新的相关文献,将准确率平均Example1.d123(1)6.d9(0.5)11.d382.d847.d51112.d483.d56(0.66)8.d12913.d2504.d69.d18714.d1135.d810.d25(0.4)15.d3(0.3)(1+0.66+0.5+0.4+0.3)/5=0.57信息检索实验室20单值概括(2)R-Precision计算序列中前R个位置文献的准确率R指与当前查询相关的文献总数1.d1236.d92.d847.d5113.d568.d1294.d69.d1875.d810.d25R=10and#relevant=4R-precision=4/10=0.42.1.d1232.d843.d56R=3and#relevant=1R-precision=1/3=0.33信息检索实验室21单值概括(3)准确率直方图多个查询的R-Precision测度用来比较两个算法的检索纪录RPA/B=0:对于第i个查询,两个算法有相同的性能RPA/B0:对于第i个查询,算法A有较好的性能RPA/B0:对于第i个查询,算法B有较好的性能querythitheforBandAalgorithmsretrievalofvaluesprecisionRare)(and)(where)()()(/iRPiRPiRPiRPiRPBABABA信息检索实验室22单值概括(3-1)0.00.51.01.5-0.5-1.0-1.512345678910QueryNumber28信息检索实验室23单值概括(4)概括统计表查询数检出的所有文献数量相关文献数应检出的相关文献数……信息检索实验室评价指标的不足前面提到的一些评价指标,如R-准确率,MAP,P@10等,都只考虑经过pooling技术之后判断的相关文档的排序对判断不相关文档与未经判断的文档的差别并没有考虑而目前随着互联网的发展,测试集越来越大,由于相关性判断还基本上是人工判断,因此建立完整的相关性判断变得越来越难24信息检索实验室Bpref指标只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下,bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为:251|rankedhigherthan|1rnrbprefRR信息检索实验室举例下面举个例子来说明bpref的性能,假设检索结果集S为:S={D1,D2·,D3*,D4*,D5·,D6,D7·,D8,D9,D10}其中D2、D5和D7是相关文档,D3和D4为未经判断的文档。对这个例子来说,R=3;bpref=1/3[(1-1/3)+(1-1/3)+(1-2/3)]26信息检索实验室单一相关文档检索的评价对于搜索引擎系统来讲,由于没有一个搜索引擎系统能够保证搜集到所有的网页,所以召回率很难计算,因而准确率成为目前的搜索引擎系统主要关心的指标。而当用户在使用Web搜索引擎的时候,用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。只找出一个相关的文档的高准确率就是信息检索系统的一个重要任务27信息检索实验室RR排序倒数和MRR平均排序倒数RR(ReciprocalRanking)是第一个相关文档出现位置的倒数经常用于评价只找到一个相关文档的情况,RR值具体为1/r,其中r为第一个相关文档在结果中排序数如果检索结果中没有相关文档,那么RR值为028信息检索实验室MRR(MeanReciprocalRanking)平均排序倒数MRR是在RR的基础上对多个查询的RR结果取平均值。即对一个检索系统输入多个查询,分别得到每个查询的排序倒数,取平均即为MRR。计算公式如下:例如MRR=0.25就意味着检索系统平均在返回结果的第四个位置找到相关文档。然而RR评价是基于2元相关判断基础上的,因此RR与MRR都不能区分一个高相关性的文档与低相关性文档之间的区别。11nqrankqMRRn信息检索实验室30其它测度方法调和平均值R(j):therecallforthej-thdocumentintherankingP(j):theprecisionforthej-thdocumentintheranking2()11()()FjrjpjRPRPF2信息检索实验室31Example1.d1236.d911.d382.d847.d51112.d483.d568.d12913.d2504.d69.d18714.d1135.d810.d2515.d3(33.3%,33.3%)(25%,66.6%)(20%,100%)36.067.0125.012)8(F33.033.0133.012)3(F33.01120.012)15(F信息检索实验室32其他测度方法(cont.)E指标允许用户根据需要调整精确率和召回率的比例221()11()()bFjbrjpjRPbRPbF22)1(信息检索实验室33其他测度方法(cont.)面向用户的测度方法覆盖率:实际检出的相关文献中用户一致的相关文献所占比例新颖率:检出的相关文献中用户未知的相关文献所占的比例covkRerageUuukRnoveltyRR信息检索实验室34图示覆盖率和新颖率相关文献|R|结果集|A|用户已知的相关文献|U|检出的用户以前未知的相关文献|Ru|检出的用户已知的相关文献|Rk|信息检索实验室35测试集(TestCollections)组成要素文件集(DocumentSet;DocumentCollection)查询问题(Query;Topic)相关判断(RelevantJudgment)用途设计与发展:系统测试评估:系统效能(Effectiveness)之测量比较:不同系统与不同技术间之比较评比根据不同的目的而有不同的评比项目量化的测量准则,如Precision与Recall信息检索实验室国外的评测