1TREC现况简介及针对RobustTrack开展研究的建议2主要内容TREC概况TREC评测方法及标准RobustTrack简介3第一部分TREC概况历史发展目标4TREC的历史TREC:TextREtrievalConference,文本检索会议通过所发展出的大型测试集,制定各种测试项目、测试程序及测量准则,组合成一个评估检索系统的机制组织者:NIST(NationalInstituteofStandardsandTechnology)美国国家标准及技术局DARPA(DefenseAdvancedResearchProjectsAgency)美国国防部高等研究计划局会议:1992~2003,125TREC的运行过程TREC由一个程序委员会(包括来自政府、工业界和学术界的代表)管理。TREC以年度为周期运行。过程为:确定任务(1~2):NIST选择某些任务,制定规范参加者报名(2~3):参加者根据自己的兴趣选择任务(报名免费,大部分数据也免费)参加者运行任务(3~9):参加者用自己的系统运行测试问题,给出结果并将它们提交给NIST结果评估(10):NIST使用固定的评测软件和工具对结果进行评估,并将结果返回给参加者大会交流(11,马里兰州的Gaithersburg):论文交流6TREC目标总目标:支持在信息检索领域的基础研究,提供对大规模文本检索方法的评估办法鼓励对基于大测试集合的信息检索方法的研究提供一个可以用来交流研究思想的论坛,增进工业界、学术界和政府部门之间的互相了解;示范信息检索理论在解决实际问题方面的重大进步,提高信息检索技术从理论走向商业应用的速度为工业界和学术界提高评估技术的可用性,并开发新的更为适用的评估技术。7历届TREC参加单位数及任务Org.TracksTREC125Adhoc/RoutingTREC231Adhoc/RoutingTREC332Adhoc/RoutingTREC436Spanish/Interactive/DatabaseMerging/Confusion/FilteringTREC538Spanish/Interactive/DatabaseMerging/Confusion/Filtering/NLPTREC651Chinese/Interactive/Filtering/NLP/CLIR/Highprecision/SDR/VLCTREC756CLIR/HighPrecision/Interactive/Query/SDR/VLCTREC866CLIR/Filtering/Interactive/QA/Query/SDR/WebTREC970QA/CLIR(E-C)/Web/Filtering/Interactive/Query/SDRTREC1089QA/CLIR/Web/Filtering/Interactive/VideoTREC1195QA/CLIR/Web/Filtering/Interactive/Video/Novelty/8参加过TREC的部分单位Corp.UniversityAsianOrganizationIBMMITSingaporeU.(KRDL)AT&TCMUKAISTMicrosoftCambridgeU.KoreaU.SunCornellU.PohangU.(釜项?)AppleMarylandU.TinghuaU.(Mainland,清华)TREC11FujitsuMassachusettsU.TsinghuaU.(Taiwan)TREC7NECNewMexicoStateU.TaiwanU.TREC8&9&10XEROXCaliforniaBerkeleyU.HongkongChineseU.TREC9RICOHMontrealU.MicrosoftResearchChinaTREC9&10CLRITECHJohnsHopkinsU.FudanU.TREC9&10&11(复旦)NTTRutgersU.ICTTREC10&11(中科院计算所)OraclePennsylvaniaU.HITTREC10(哈工大)9测试数据和测试软件由LDC(LinguisticDataConsortium)等多家单位免费提供,但少数数据有所修改,而且必须签订协议每年使用的数据可以是新的,也可以是上一年度已经使用过的TREC使用的评估软件是开放的,任何组织和个人都可以用它对自己的系统进行评测10第二部分TREC评测方法及标准相关名词、评测方法11名词定义Track:TREC的每个子任务。ATRECworkshopconsistsofasettracks,areasoffocusinwhichparticularretrievaltasksaredefined.12名词定义TREC目前所包含的Tracks:Cross-LanguageTrackFilteringTrackGenomicsTrackHARDTrackInteractiveTrackNoveltyTrackQuestionAnsweringTrackRobustRetrievalTrackTerabyteTrackVideoTrackWebTrack13名词定义Topic预先确定的问题,用来向检索系统提问Topicquery(自动或者手工)Question(QA)Document包括训练集和测试集合RelevanceJudgments相关性评估14Topic的一般结构Title:标题,通常由几个单词构成,非常简短Description:描述,一句话,比Title详细,包含了Title的所有单词Narrative:详述,更详细地描述了哪些文档是相关的15Topic示例numNumber:351titleFalklandpetroleumexplorationdescDescription:WhatinformationisavailableonpetroleumexplorationintheSouthAtlanticneartheFalklandIslands?narrNarrative:AnydocumentdiscussingpetroleumexplorationintheSouthAtlanticneartheFalklandIslandsisconsideredrelevant.DocumentsdiscussingpetroleumexplorationincontinentalSouthAmericaarenotrelevant.16Topic的建构方式以模拟的方式建立,并非实际搜集而来每届的测试主题均由一至二人建构发展——描述方式及词汇运用的一致性利用PRISE系统,从1005017使用Topic的方式按照会议要求,可以利用Topic文本中的部分或者全部字段,构造适当的查询条件可以使用任何方式构造查询条件,这包括手工的和自动的两大类。但提交查询结果时要注明产生方式。18Document收录的主要是新闻性文件及杂志期刊文件的异质性,esp.长度19RelevanceJudgments原则主要根据主题的Narrative栏位进行。对相关与否的判断原则是,只要文件部分与主题相关即可(即使只是数句),并不要求文件的每个部分均与主题相关20相关性评估过程(1)对于每一个topic,NIST从参加者取得的结果中挑选中一部分运行结果,从每个运行结果中取头100个文档,然后用这些文档构成一个文档池,使用人工方式对这些文档进行判断。相关性判断是二值的:相关或不相关。没有进行判断的文档被认为是不相关的。21相关性评估过程(2)NIST使用trec-eval软件包对所有参加者的运行结果进行评估,给出大量参数化的评测结果(主要是precision和recall)。根据这些评测数据,参加者可以比较彼此的系统性能。各个track也有相应的公开评测工具22评测准则(1)主要依据:召回率精确率23评测准则(2)主要生成图表:摘要统计表(SummaryStatisticsTable)召回率与精确率对应表(RecallLevelPrecisionAveragesTable)文件数与精确率对应表(DocumentLevelAveragesTable)召回率/精确率图(Recall/PrecisionGraph)平均精确率柱状图(AveragePrecisionHistogram)24第二部分RobustTrack简介25引入RobustTrack的意义Animportantcomponentofeffectivenessforcommercialretrievalsystemsistheabilityofthesystemtoreturnreasonableresultsforeverytopic.Usersrememberabjectfailures.Arelativelyfewsuchfailurescausetheusertomistrustthesystemanddiscontinueuse.Thestandardretrievalevaluationparadigmbasedonaveragesoversetsoftopicsdoesnotsignificantlypenalizesystemsforfailedtopics.Therobustretrievaltracklookstoimprovetheconsistencyofretrievaltechnologybyfocusingonpoorlyperformingtopics.26RobustTrack的主要任务Atraditionaladhoctasktheperformanceofsystemsthatsearchastaticsetofdocumentsusingpreviously-unseentopicsForeachtopic,createaqueryandsubmitarankingofthetop1000documentsforthattopic.27adhoc运作示意图TrainingTopicsTestTopicsTrainingDocumentsQ1(Training)Q2(Adhoc)28RobustTrack数据集TopicSet:100个topic,50oldtopicsand50newtopicsDocumentcollection:approximately528,000documentsand1,904MBoftext29oldtopics的选择方式UsetheeffectivenessoftheretrievalrunsinTRECsForeachtopic,createaboxplotoftheaverageprecisionscoresforallrunssubmittedtotheadhoctaskinthattopic’sSelectedtopicswithlowmedianaverageprecisionscoresbutwithatleastone(therewasusuallymorethanone)highoutlier30Oldtopics的使用Fullrelevancedataforthesetopicswasavailabletotheparticipantsonlyrestrictionplacedontheuseofrelevancedataforthe50oldtopicswasthattherelevancejudgmentscouldnotbeusedduringtheprocessingofthesubmittedruns.31Topics’RelevanceJudgmentsOldTopic