信息检索的评价指标高海燕2010114014信息检索的评价指标体系评价IR的意义IR评价研究的内容和程序如何评价效果评价指标分类单个查询的评价指标多个查询的评价指标评价IR的意义信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。IR评价研究的内容效率(Efficiency)—可以采用通常的评价方法时间开销空间开销响应速度效果(Effectiveness)返回的文档中有多少相关文档所有相关文档中返回了多少返回得靠不靠前其他指标覆盖率(Coverage)访问量数据更新速度IR评价研究的程序一项完整的检索评价工作可分为以下5个步骤:(1)确定评价范围和目标(2)选择评价方式(3)设计或者制定评价方案(4)实施评价方案(5)总结与评价结论的形成在评价和比较检索系统的检索性能需要以下条件:一个文档集合C。系统将从该集合中按照查询要求检出相关文档一组用户查询要求{q1,q2,…,qn}。每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集{R1,R2,…,Rn}。该集合可由人工方式构造一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值6如何评价效果相同的文档集合,相同的查询主题集合,相同的评价指标,不同的检索系统进行比较。TheCranfieldExperiments,CyrilW.Cleverdon,1957–1968(上百篇文档集合)SMARTSystem,GeraldSalton,1964-1988(数千篇文档集合)TREC(TextRetrievalConference),DonnaHarman,美国标准技术研究所,1992-(上百万篇文档),信息检索的“奥运会”评价指标分类对单个查询进行评估的指标对单个查询得到一个结果对多个查询进行评估的指标(通常用于对系统的评价)求平均9相关文本检索出的文本全部文本集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关单个查询的评价指标(1)召回率(Recall)=检出的相关文档数/相关文档数,也称为查全率,R∈[0,1]准确率(Precision)=检出的相关文档数/检出文档数,也称为查准率,P∈[0,1]假设:文本集中所有文献已进行了检查10举例ExampleRq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通过某一个检索算法得到的排序结果:1.d1236.d911.d382.d847.d51112.d483.d568.d12913.d2504.d69.d18714.d1135.d810.d2515.d3(precision,recall)(100%,10%)(66%,20%)(50%,30%)(40%,40%)(33%,50%)关于召回率的计算对于大规模语料集合,列举每个查询的所有相关文档是不可能的事情,因此,不可能准确地计算召回率缓冲池(Pooling)方法:对多个检索系统的TopN个结果组成的集合进行标注,标注出的相关文档集合作为整个相关文档集合。这种做法被验证是可行的,在TREC会议中被广泛采用。关于召回率和正确率的讨论(2)虽然Precision和Recall都很重要,但是不同的应用、不用的用户可能会对两者的要求不一样。因此,实际应用中应该考虑这点。垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量少将正常邮件判定成垃圾邮件。有些用户希望返回的结果全一点,他有时间挑选;有些用户希望返回结果准一点,他不需要结果很全就能完成任务。单个查询评价指标(3)—P和R融合F值:召回率R和正确率P的调和平均值,ifP=0orR=0,thenF=0,else采用下式计算:E值:召回率R和正确率P的加权平均值,b1表示更重视P)0,0()(1)(12)(RPjPjRjF)0,0()(1)(11)(22RPjPjRjEbb14Example1.d1236.d911.d382.d847.d51112.d483.d568.d12913.d2504.d69.d18714.d1135.d810.d2515.d3(33.3%,33.3%)(25%,66.6%)(20%,100%)36.067.0125.012)8(F33.033.0133.012)3(F33.01120.012)15(F15R-Precision计算序列中前R个位置文献的准确率R指与当前查询相关的文献总数1.d1236.d92.d847.d5113.d568.d1294.d69.d1875.d810.d25R=10and#relevant=4R-precision=4/10=0.42.1.d1232.d843.56R=3and#relevant=1R-precision=1/3=0.33单个查询评价指标(4)—引入序的作用单个查询评价指标(5)—引入序的作用正确率-召回率曲线(precisionversusrecallcurve)检索结果以排序方式排列,用户不可能马上看到全部文档,因此,在用户观察的过程中,正确率和召回率在不断变化(vary)。可以求出在召回率分别为:0%,10%,20%,30%,…,90%,100%上对应的正确率,然后描出图像。P-R曲线的例子某个查询q的标准答案集合为:Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}某个IR系统对q的检索结果如下:1.d123R=0.1,P=16.d9R=0.3,P=0.511.d382.d847.d51112.d483.d56R=0.2,P=0.678.d12913.d2504.d69.d18714.d1135.d810.d25R=0.4,P=0.415.d3R=0.5,P=0.33P-R曲线的例子P-R曲线的插值问题对于前面的例子,假设Rq={d3,d56,d129}3.d56R=0.33,P=0.33;8.d129R=0.66,P=0.25;15.d3R=1,P=0.2不存在10%,20%,…,90%的召回率点,而只存在33.3%,66.7%,100%三个召回率点在这种情况下,需要利用存在的召回率点对不存在的召回率点进行插值(interpolate)对于t%,如果不存在该召回率点,则定义t%为从t%到(t+10)%中最大的正确率值。对于上例,0%,10%,20%,30%上正确率为0.33,40%~60%对应0.25,70%以上对应0.2P-R曲线的优缺点优点:简单直观既考虑了检索结果的覆盖度,又考虑了检索结果的排序情况缺点:单个查询的P-R曲线虽然直观,但是难以明确表示两个查询的检索结果的优劣单个查询评价指标(6)—P-R曲线的单一指标BreakPoint:P-R曲线上P=R的那个点这样可以直接进行单值比较11点平均正确率(11pointaverageprecision):在召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率求平均,等价于插值的APP-R曲线中的BreakpointBreakpoint单个查询评价指标(7)—引入序的作用平均正确率(AveragePrecision,AP):对不同召回率点上的正确率进行平均未插值的AP:某个查询Q共有6个相关结果,某系统排序返回了5篇相关文档,其位置分别是第1,第2,第5,第10,第20位,则AP=(1/1+2/2+3/5+4/10+5/20+0)/6插值的AP:在召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率求平均,等价于11点平均只对返回的相关文档进行计算的AP,AP=(1/1+2/2+3/5+4/10+5/20)/5,倾向那些快速返回结果的系统,没有考虑召回率单个查询评价指标(8)—不考虑召回率Precision@N:在第N个位置上的正确率,对于搜索引擎,考虑到大部分作者只关注前一、两页的结果,P@10,P@20对大规模搜索引擎非常有效NDCG:后面详细介绍。单个查询评价指标(8)—不考虑召回率Bpref:Binarypreference,2005年首次引入到TREC的Terabyte任务中只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下,bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为:251|rankedhigherthan|1rnrbprefRR举例下面举个例子来说明bpref的性能,假设检索结果集S为:S={D1,D2·,D3*,D4*,D5·,D6,D7·,D8,D9,D10}其中D2、D5和D7是相关文档,D3和D4为未经判断的文档。对这个例子来说,R=3;bpref=1/3[(1-1/3)+(1-1/3)+(1-2/3)]26多个查询评价指标(9)平均的求法:宏平均(MacroAverage):对每个查询求出某个指标,然后对这些指标进行算术平均微平均(MicroAverage):将所有查询视为一个查询,将各种情况的文档总数求和,然后进行指标的计算如:MicroPrecision=(对所有查询检出的相关文档总数)/(对所有查询检出的文档总数)宏平均对所有查询一视同仁,微平均受返回相关文档数目比较大的查询影响多个查询评价指标(10)宏平均和微平均的例子两个查询q1、q2的标准答案数目分别为100个和50个,某系统对q1检索出80个结果,其中正确数目为40,系统对q2检索出30个结果,其中正确数目为24,则:P1=40/80=0.5,R1=40/100=0.4P2=24/30=0.8,R2=24/50=0.48MacroP=(P1+P2)/2=0.65MacroR=(R1+R2)/2=0.44MicroP=(40+24)/(80+30)=0.58MicroR=(40+24)/(100+50)=0.43多个查询评价指标(11)MAP(MeanAP):对所有查询的AP求宏平均•多个查询下的查准率/查全率曲线,可通过计算其平均查准率得到,公式如下(Nq为查询的数量):•P(r)是指查全率为r时的平均查准率,pi(r)指查全率为r时的第i个查询的查准率.1()()NqiPirMAPPrNq面向用户的评价指标前面的指标都没有考虑用户因素。而相关不相关由用户判定。假定用户已知的相关文档集合为U,检索结果和U的交集为Ru,则可以定义覆盖率(Coverage)C=|Ru|/|U|,表示系统找到的用户已知的相关文档比例。假定检索结果中返回一些用户以前未知的相关文档Rk,则可以定义出新颖率(NoveltyRatio)N=|Rk|/(|Ru|+|Rk|),表示系统返回的新相关文档的比例。相对查全率:检索系统检索出的相关文档数量与用户期望得到的相关文档的数量的比例。查全努力:用户期望得到的相关文档与为了得到这些相关文档而在检索结果中审查文档数量的比率。31图示覆盖率和新颖率相关文献|R|结果集|A|用户已知的相关文献|U|检出的用户以前未知的相关文献|Ru|检出的用户已知的相关文献|Rk|搜索引擎的性能评价研究及评价指标1.搜索引擎性能评价指标(1)数据库规模与内容:收录范围、数据库内容、更新频率、重复率、死链接率等;(2)索引方法:索引方式、索引范围与深度等;(3)检索功能:基本检索功能和高级检索功能(4)检索结果处理:排序方式、显示内容/格式、后处理功能(5)分类功能:分类类目体系的深度、数量、合理性等(6)用户界面:界面布局、联机帮助、界面定制、界面广告量