厦门大学数据库实验室-谢荣东-论文阅读报告-20150727ppt

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

厦门大学数据库实验室论文阅读报告(2)报告人:谢荣东指导老师:林子雨2015年7月27日论文方向介绍1Diversity-AwareTop-kPublish/SubscribeforTextStream2EfficientDiversity-AwareSearch3目录CONTENTS论文方向介绍11.1关键词检索从web2.0时代开始,用户上网一般都是通过搜索引擎。随着网络的发展,人们对于搜索的需要遍布网络世界的方方面面,例如商品信息检索、社交网络信息检索以及推荐系统等。传统的搜索服务一般关注点在与搜索的精确性,要求结果与关键词尽量匹配。然而,现在的用户对搜索结果的要求更趋于多元化,不仅要求结果的相关性,也要求结果的多样性。1.2用户的多样性需求由于网络信息的特性,在搜索引擎返回的具有相当长度的结果列表中,和查询最相关的一些结果非常相似。另外,由于关键词查询具有语义不确定性,同样的关键词查询背后可能用户的搜索意图并不完全一样。比如对于关键词“苹果”,用户的潜在意图可能有:“苹果”公司及其产品由于食用的苹果及其生长树木一部名为“苹果”的电影用户对于第一类的关注度比较高,如果搜索引擎只根据第一种搜索意图评价结果的相关性,则持有后两种意图的用户很难在搜索结果中找到想要的结果。1.3应用场景多样性检索已经应用到网络的方方面面,尤其在一下几个领域有很广阔的运用:Diversity-AwareTop-kPublish/SubscribeforTextStream22.1摘要问题描述:网络上信息浩如烟海,而用户往往只关心最新的感兴趣的信息,故信息检索服务应该能够提供给用户“对他们的查询主题不同方面覆盖面广的查询结果”。领域现状:现在最先进的是tweet使用的Top-k发布\订阅查询系统,但是还是未充分的考虑结果的多样性。若充分考虑多样性,可以提高用户对搜索结果的满意度。面临的困难困难一:定义多样性感知Top-k订阅查询问题,一方面要考虑将会影响搜索结果的三个方面,即:相关性、时效性、多样性,并能定量的表示它们;另一方面设计高效的算法计算三个特性,并能实现快速的比较以及结果的更新困难二:所提出的多样性感知Top-k发布/订阅系统应该能有效地应对巨量的查询;对于新加的数据,能够实现快速的结果更新本文的解决方法本文采用组筛选条件和个别筛选条件来对新加入的数据进行分类鉴别。主要解决组筛选策略问题。本文提出了一个minimalcoveringset(MCS)概念,即最小覆盖集,定义为:结果集中能覆盖所有查询的最小结果集。解决一个MCSmaximizationproblem,即MCS最大话问题,寻找尽可能多的MCS,尽量覆盖所有的结果集。2.2问题的定量描述对于检索结果q.R,需要计算其相关性以及多样性。相关性与文本距离成反比相关性与时间衰减因子成反比用余弦相似度来度量多样性组筛选条件个别筛选条件2.3MCSMCSmaximizationproblem本质上用贪心算法ChenL,CongG.Diversity-AwareTop-kPublish/SubscribeforTextStream[C]//Proceedingsofthe2015ACMSIGMODInternationalConferenceonManagementofData.ACM,2015:347-362.EfficientDiversity-AwareSearch33.1数据模型用一个加权向量来表示数据,可以表示多元的数据,比如文本数据,空间数据等待。D=(d1,d2,d3…)数据的得分=关键词相关性*不冗余性fq是一个可调参数,对于答案多元性需求不高的问题,设置低的fq对于多元性要求高的问题,设置高的fqTheDIVGENAlgorithmAngelA,KoudasN.Efficientdiversity-awaresearch[C]//Proceedingsofthe2011ACMSIGMODInternationalConferenceonManagementofdata.ACM,2011:781-792.THANKS

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功