lecture8-evaluation-信息检索导论-王斌-PPT-课件-第8章

feiyang297
0 ℃
2019-10-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

IntroductiontoInformationRetrieval现代信息检索中科院研究生院2011年秋季课程《现代信息检索》更新时间：ModernInformationRetrieval授课人：王斌~wangbin*改编自”AnintroductiontoInformationretrieval”网上公开的课件，地址第8讲检索评价&结果摘要Evaluation&Snippets12011/10/11提纲2❶上一讲回顾❷有关检索评价❸评价指标❹相关评测❺结果摘要提纲3❶上一讲回顾❷有关检索评价❸评价指标❹相关评测❺结果摘要现代信息检索44现代信息检索5回转归一化source:LilianLee5现代信息检索6快速返回topK结果的启发式方法以文档为单位(Document-at-a-time）的处理计算查询-文档相似度时，先计算完文档di的得分，再开始文档di+1的计算文档在所有倒排记录表中的顺序应该保持一致以词项为单位(Term-at-a-time)的处理计算查询-文档相似度时，先处理完词项ti的倒排记录表，再处理词项ti+1的倒排记录表需要对每个未处理完的文档建立一个累加器6堆结构7现代信息检索8分层索引8现代信息检索本讲内容信息检索的评价指标不考虑序的检索评价指标(即基于集合)考虑序的评价指标信息检索评测语料及会议检索结果的摘要9提纲10❶上一讲回顾❷有关检索评价❸评价指标❹相关评测❺结果摘要现代信息检索关于评价评价无处不在，也很必要工作、生活、娱乐、找对象、招生评价很难，但是似乎又很容易人的因素、标准、场景评价是检验学术进步的唯一标准，也是杜绝学术腐败的有力武器11现代信息检索从竞技体育谈起(曾经的一说)世界记录vs.世界最好成绩110米栏世界记录：罗伯斯，古巴，12’’87男子马拉松世界最好成绩：保罗·特尔加特，肯尼亚，2小时4分55秒评价要公平！环境要基本一致：天气、风速、跑道等等比赛过程要一样：竞走中的犯规指标要一样：速度、耐力12现代信息检索为什么要评估IR？通过评估可以评价不同技术的优劣，不同因素对系统的影响，从而促进本领域研究水平的不断提高类比：110米栏各项技术---起跑、途中跑、跨栏、步频、冲刺等等信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。13现代信息检索IR中评价什么？效率(Efficiency)—可以采用通常的评价方法时间开销空间开销响应速度效果(Effectiveness)返回的文档中有多少相关文档所有相关文档中返回了多少返回得靠不靠前其他指标覆盖率(Coverage)访问量数据更新速度14现代信息检索如何评价效果？相同的文档集合，相同的查询主题集合，相同的评价指标，不同的检索系统进行比较。TheCranfieldExperiments,CyrilW.Cleverdon,1957–1968(上百篇文档集合)SMARTSystem,GeraldSalton,1964-1988(数千篇文档集合)TREC(TextREtrievalConference),DonnaHarman,美国标准技术研究所,1992-(上百万篇文档)，信息检索的“奥运会”15现代信息检索评价任务的例子两个系统，一批查询，对每个查询每个系统分别得到一些结果。目标：哪个系统好？系统&查询1234…系统1，查询1d3d6d8d10系统1，查询2d1d4d7d11系统2，查询1d6d7d3d9系统2，查询2d1d2d4d1316现代信息检索评价的几部分评价指标：某个或某几个可衡量、可比较的值评价过程：设计上保证公平、合理17提纲18❶上一讲回顾❷有关检索评价❸评价指标❹相关评测❺结果摘要现代信息检索评价指标分类对单个查询进行评估的指标在单个查询上检索系统的得分对多个查询进行评估的指标在多个查询上检索系统的得分19现代信息检索评价指标分类对单个查询进行评估的指标在单个查询上检索系统的得分对多个查询进行评估的指标在多个查询上检索系统的得分20现代信息检索回到例子系统&查询1234…系统1，查询1d3d6d8d10系统1，查询2d1d4d7d11系统2，查询1d6d7d2d9系统2，查询2d1d2d4d1321对于查询1的标准答案集合{d3,d4,d6,d9}√√√√整个文档集合的划分22RRNNNRRN未检索出的不相关文档检索出的不相关文档检索出的相关文档未检索出的相关文档整个文档集合现代信息检索评价指标召回率(Recall):RR/(RR+NR)，返回的相关结果数占实际相关结果总数的比率，也称为查全率，R∈[0,1]正确率(Precision):RR/(RR+RN)，返回的结果中真正相关结果的比率，也称为查准率，P∈[0,1]两个指标分别度量检索效果的某个方面，忽略任何一个方面都有失偏颇。两个极端情况：返回有把握的1篇，P=100%，但R极低；全部文档都返回，R＝1，但P极低23现代信息检索四种关系的矩阵表示RRRNNRNN24真正相关文档RR+NR真正不相关文档系统判定相关RR+RN(检索出)系统判定不相关(未检索出)RecallPrecisionAns=RR+NRRet=RR+RN现代信息检索基于集合的图表示25RR标准答案Ans返回结果RetRNNRPrecisionRecall现代信息检索回到例子系统&查询12345系统1，查询1d3d6d8d10d11系统1，查询2d1d4d7d11d13系统2，查询1d6d7d2d9系统2，查询2d1d2d4d13d1426对于查询1的标准答案集合{d3,d4,d6,d9}√√√√对于系统1，查询1，正确率2/5，召回率2/4对于系统2，查询1，正确率2/4，召回率2/4现代信息检索课堂提问：另一个计算例子一个例子：查询Q，本应该有100篇相关文档，某个系统返回200篇文档，其中80篇是真正相关的文档Recall=80/100=0.8Precision=80/200=0.4结论：召回率较高，但是正确率较低27现代信息检索正确率和召回率的应用领域拼写校对中文分词文本分类人脸识别……28现代信息检索关于正确率和召回率的讨论(1)“宁可错杀一千，不可放过一人”偏重召回率，忽视正确率。冤杀太多。判断是否有罪：如果没有证据证明你无罪，那么判定你有罪。召回率高，有些人受冤枉如果没有证据证明你有罪，那么判定你无罪。召回率低，有些人逍遥法外29现代信息检索关于正确率和召回率的讨论(2)虽然Precision和Recall都很重要，但是不同的应用、不用的用户可能会对两者的要求不一样。因此，实际应用中应该考虑这点。垃圾邮件过滤：宁愿漏掉一些垃圾邮件，但是尽量少将正常邮件判定成垃圾邮件。有些用户希望返回的结果全一点，他有时间挑选；有些用户希望返回结果准一点，他不需要结果很全就能完成任务。30现代信息检索31P/R指标的方差对于一个测试文档集来说，某些信息需求上效果很差(比如,在R=0.1点上P=0.2)，但是在一些其他需求上又相当好(如在R=0.1点上P=0.95)实际上，同一系统在不同查询上的结果差异往往高于不同系统在同一查询上的结果也就是说，存在容易的信息需求和难的信息需求31现代信息检索课堂提问：正确率和召回率的定义或者计算有什么问题或不足？32系统&查询12345系统1，查询1d3d6d8d10d11系统1，查询2d1d4d7d11d13系统2，查询1d6d7d2d9系统2，查询2d1d2d4d13d14对于查询1的标准答案集合{d3,d4,d6,d9}√√√√对于系统1，查询1，正确率2/5，召回率2/4对于系统2，查询1，正确率2/4，召回率2/4现代信息检索回到例子系统&查询12345系统1，查询1d3d6d8d10d11系统1，查询2d1d4d7d11d13系统2，查询1d6d7d2d9系统2，查询2d1d2d4d13d1433对于查询1的标准答案集合{d3,d4,d6,d9}√√√√对于系统1，查询1，正确率2/5，召回率2/4对于系统2，查询1，正确率2/4，召回率2/4现代信息检索正确率和召回率的问题召回率难以计算解决方法：Pooling方法，或者不考虑召回率两个指标分别衡量了系统的某个方面，但是也为比较带来了难度，究竟哪个系统好？大学最终排名也只有一个指标。解决方法：单一指标，将两个指标融成一个指标两个指标都是基于(无序)集合进行计算，并没有考虑序的作用举例：两个系统，对某个查询，返回的相关文档数目一样都是10，但是第一个系统是前10条结果，后一个系统是最后10条结果。显然，第一个系统优。但是根据上面基于集合的计算，显然两者指标一样。解决方法：引入序的作用34现代信息检索关于召回率的计算对于大规模语料集合，列举每个查询的所有相关文档是不可能的事情，因此，不可能准确地计算召回率缓冲池(Pooling)方法：对多个检索系统的TopN个结果组成的集合进行人工标注，标注出的相关文档集合作为整个相关文档集合。这种做法被验证是可行的(可以比较不同系统的相对效果)，在TREC会议中被广泛采用。35现代信息检索4个系统的Pooling36系统1TOPN系统2TOPN系统3TOPN系统4TOPN全部文档Pool现代信息检索课堂提问(某个系统的某个查询)通过Pooling计算出的召回率、正确率和真正的召回率、正确率的大小之间有什么关系？情况1(常见情况)：如果只有部分结果进行了Pooling操作，那么显然在计算正确率时有RRP=RR，分母都是很Ret，不变，此时计算出来的正确率会小于真实的正确率。而对于召回率，计算中的分子分母都变小，所以结果不一定。情况2：如果所有的结果都进行了Pooling，那么正确率计算时的分子分母都不变，此时计算出的正确率等于真实的正确率。此时，由于分子不变，而分母显然小于真实的相关文档总数，所以计算出来的召回率大于真实的召回率。37现代信息检索P和R融合F值(F-measure)：召回率R和正确率P的调和平均值，ifP=0orR=0,thenF=0,else采用下式计算：Fβ：表示召回率的重要程度是正确率的β(=0)倍，β1更重视召回率，β1更重视正确率E(Effectiveness)值：召回率R和正确率P的加权平均值，b1表示更重视P，E=1-Fβ,,b2=1/β222PR=(P0,R0)11P+RFPR2211(P0,R0)1bEbPR3822(1)(P0,R0)PRFPR现代信息检索39为什么使用调和平均计算F值为什么不使用其他平均来计算F，比如算术平均如果采用算术平均计算F值，那么一个返回全部文档的搜索引擎的F值就不低于50%，这有些过高。做法：不管是P还是R，如果十分低，那么结果应该表现出来，即这样的情形下最终的F值应该有所惩罚采用P和R中的最小值可能达到上述目的但是最小值方法不平滑而且不易加权基于调和平均计算出的F值可以看成是平滑的最小值函数39现代信息检索40F1及其他平均计算方法40现代信息检索41精确率(Accuracy)精确率是所有判定中正确的比率accuracy=(RR+NN)/(RN+RR+NR+NN)为什么通常使用P、R、F而不使用精确率？Web信息检索当中精确率为什么不可用？41现代信息检索42课堂练习计算P、R、F1下面的一个搜索引擎无论对于什么查询都返回0结果，为什么该引擎例子表明使用精确率是不合适的？42相关不相关返回182未返回821,000,000,000现代信息检索43精确率不适合IR的原因由于和查询相关毕竟占文档集的极少数，所以即使什么都不返回也会得到很高的精确率什么都不返回可能对大部分查询来说可以得到99.99%以上的精确率信息检索用户希望找到