SEWM2007中文Web检索评测李静静,ljj@net.pku.edu.cn北京大学网络实验室2007-03提纲评测任务介绍CWT200g测试集构建评测结果总结评测任务之一:主题提取(TopicDistillation)对于一个特定主题发现一组关键资源–注重以站点作为资源的查询–要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站的入口页面表示)判断是否一个好的入口页面,应该考查结果是否符合下面三个条件:–是否大部分切合主题;–提供主题的可靠的信息;–不是一个更大的切合主题站点的一部分评测任务之二:导航搜索(Navigationsearch)主页查询(HomePagefinding,HP)–通常是一个网站的主页指定页面查询(NamedPagefinding,NP)–满足用户需求的特定页面评测准则–第一个正确答案出现位置的倒数平均值(MRR)测试集使用框架CWT200g文档集CWT200g–根据天网搜索引擎在2005年11月份数据中的627,036个站点为数据基础–容量:197GB–覆盖29,100个网站,37,482,913个网页–网页本身是压缩保存,以天网格式保存Topic示例:主题提取(TD)topnumNumber:TD217title体育新闻/titledescDescription:足球,篮球,奥运,亚运等等的新闻报道/topTopic示例:导航搜索(HP/NP)topnumNumber:NP890title中国政法大学学工部/title/toptopnumNumber:NP1145title政府网站2005年十件大事/title/top相关答案集的构建采用pooling方法,pooling的深度比去年加大–每个主题1000个待判断的文档相关判断结果–保留了56个主题,共1848个相关文档–各主题平均答案数SEWM2007:33个vs.SEWM2006:33.5个各主题相关答案数分布020406080100120140160180161116212631364146515661Rankoftopic(byrelevantnumber)NumberrelevantpertopicSEWM2007SEWM2006pool深度对相关答案数的影响之一02004006008001000120014001600180020002503003504004505005506006507007508008509009501000pool深度总的相关答案数pool深度对相关答案数的影响之二020406080100120140160180216219222225228231235239242249254258261264267270274278282主题号相关答案数depth300depth400depth500depth600depth700depth800depth900depth10002007年提交结果的参赛队TEAMNAMETD-RUNSNPHP-RUNS北京工业大学BJUT55大连理工大学DUT45江西师范大学JXNU33华南理工大学木棉队SCUT55山东大学计算机科学与技术学院IRSDU55TD评测结果根据保留的56个主题来评分的结果不同pool深度结果与评测结果一致性0.80.820.840.860.880.90.920.940.960.9811.02250300350400450500550600650700750800850900950pool深度Kendalltau值P@10R-PbprefNPHP评测结果HP评测结果NP评测结果HP/NP/NPHP的MRR分布图00.10.20.30.40.50.60.70.80.91BJUT_NPHP_RUN_1BJUT_NPHP_RUN_2BJUT_NPHP_RUN_3BJUT_NPHP_RUN_4BJUT_NPHP_RUN_5Dut_IRLab_NPHP_RUN1Dut_IRLab_NPHP_RUN2Dut_IRLab_NPHP_RUN3Dut_IRLab_NPHP_RUN4Dut_IRLab_NPHP_RUN5IRSDU_NP_RUN1IRSDU_NP_RUN2IRSDU_NP_RUN3IRSDU_NP_RUN4IRSDU_NP_RUN5JXNU_NPHP_RUN1JXNU_NPHP_RUN2JXNU_NPHP_RUN3SCUT_KSE_NPHP_RUN1SCUT_KSE_NPHP_RUN2SCUT_KSE_NPHP_RUN3SCUT_KSE_NPHP_RUN4SCUT_KSE_NPHP_RUN5AverageNPHP总结人工评测耗费的资源较大pooling深度对评测结果的影响不大,即答案集不全对评测的影响不大不同的主题对pooling深度的要求不同,采用更好的pooling方法可提高构建答案集的效率谢谢!