实体链接技术进展韩先培孙乐存储与信息检索研究室存储与信息检索研究室中科院软件所中科院软件所大纲大纲实体链接•实体链接•基于实体知识的链接基于实体知识的链接•基于文本主题的链接•融合实体知识与文本主题•总结•总结大纲大纲实体链接•实体链接•基于实体知识的链接基于实体知识的链接•基于文本主题的链接•融合实体知识与文本主题•总结•总结为什么需要链接为什么需要链接计算机需要理解文本的意义•计算机需要理解文本的意义•苹果发布了新的iPad水果苹果,苹果公司,还是苹果银行?果银行?•中关村市场的苹果产品卖的不错•新发地市场的苹果产品卖的不错新发地市场的苹果产品卖的不错•影响许多任务的性能影响许多任务的性能•查询意图分析•文本挖掘文本挖掘•知识库构建•…实体链接定义实体链接定义给定篇文本中的实体指称i确定这•给定一篇文本中的实体指称(mention),确定这些指称在给定知识库中的目标实体用于实体链接的信息用于实体链接的信息实体相关知识•实体相关知识•指称的上下文与实体越匹配,则越可能链接到对应实体应实体•上下文中出现水果,超市,维生素这些词,则苹果更有能指向水果苹果是苹果公果更有可能指向水果苹果,而不是苹果公司•篇章主题•同一篇文本中的实体应当与文本的主题相关同篇文本中的实体应当与文本的主题相关•出现实体ipad和iphone的文章也更有可能出现苹果公司,而不是水果苹果或苹果银行苹果公司,而不是水果苹果或苹果银行6大纲大纲实体链接•实体链接•基于实体知识的链接基于实体知识的链接•基于文本主题的链接•融合实体知识与文本主题•总结•总结基于实体-提及模型的实体链接基于实体-提及模型的实体链接人们在进行链接工作时使用了大量关于人们在进行链接工作时,使用了大量关于实体的知识实体的知名度实体的名字分布实体的名字分布实体的上下文分布提出了实体-提及模型来融合上述异构知识实体知名度实体知名度水果苹果苹果公司水果苹果苹果公司苹果苹果银行苹果电影苹果0.00%10.00%20.00%30.00%40.00%实体的名字分布实体的名字分布个实体的名字通常定的以定的•一个实体的名字通常是固定的,且以一定的概率出现概率出现IBM和国际商用机器公司都可以作为IBM公•IBM和国际商用机器公司都可以作为IBM公司的名字,但是BMI,Oracle不会作为它的名字•IBM比全称国际商用机器公司更常作为IBM的名字出公司的名字出现实体名字模型实体名字模型我们假设实体名是实体全名f的个模型1翻•我们假设实体名s是实体全名f的一个IBM模型1翻译•一个词可以通过如下方式翻译•保持原始形式:迈克尔迈克尔保持原始形式迈克尔迈克尔•缩写:亲爱的顾客亲(淘宝体)•省略:温家宝总理总理•省略:温家宝总理…总理•翻译为其它词语:乔丹佐顿,科比大神实体的上下文词分布实体的上下文词分布实体的上文词分布通常有极大的差异•不同实体的上下文词分布通常有极大的差异苹果公司苹果银行基于实体提及模型融合上述知识基于实体-提及模型融合上述知识知识库知识库苹果(水苹果(水果)苹果公司知名度苹果Apple名字今年的苹果丰收了但价格降了Apple的iphone4s价格又跌了上下文词了,但价格降了4s价格又跌了上下文词融合这些知识进行推断融合这些知识进行推断基上述模型实体提标实体的概•基于上述模型,实体e是提及m目标实体的概率率==(,)(,,)()(|)(|)PmePscePePsePce(,)(,,)()(|)(|)PmePscePePsePce知名度名字概率上下文概率实验性能实验性能ToBToLeaLeaEMEM准BoWopicIndeBoWopicIndearn2Linkarn2LinkMModelModel确率exexkk大纲大纲实体链接•实体链接•基于实体知识的链接基于实体知识的链接•基于文本主题的链接•融合实体知识与文本主题•总结•总结主题致性假设主题一致性假设文章中的实体通常与文本主相关此这•文章中的实体通常与文本主题相关,因此这些实体相互之间语义相关实体相间语义相关•出现实体ipad和iphone的文章也更有可能出现苹果公司而不是水果苹果或苹果银行苹果公司,而不是水果苹果或苹果银行AttheWWDCconference,Appleintroducesitsnewintroducesitsnewoperatingsystemrelease-Lion.基于图的协同推断基于图的协同推断大灌篮宇宙大0.20在公牛期间,乔丹出演了电影大灌篮宇宙大灌篮乔丹(NBA球星)0.080.66出演了电影大灌篮乔丹球星)乔丹(好莱芝加哥公牛队0.130.82公牛乔丹(机器乔丹(好莱坞影星)公牛(动0.120.03乔丹(机器学习)公牛(动物)0.030.01协同推导协同推导通过将证据在上的依存结构上传递来协•通过将证据在图上的依存结构上传递来协同增强证据直至收敛增强据收敛1(1)ttrTrs(1)rTrs在时间证据传递率矩阵(Referent初始证据重在时间t+1的证据证据传递率矩阵(ReferentGraph的归一化相邻矩阵)初始证据证据重分配率基于图的协同推断基于图的协同推断大灌篮宇宙大0.20在公牛期间,乔丹出演了电影大灌篮宇宙大灌篮乔丹(NBA球星)0.080.66出演了电影大灌篮乔丹球星)乔丹(好莱芝加哥公牛队0.130.82公牛乔丹(机器乔丹(好莱坞影星)公牛(动0.120.03乔丹(机器学习)公牛(动物)0.030.01基于图的协同推断基于图的协同推断实体宇宙大灌篮芝加哥公牛队乔丹(NBA球星)链接概率35%23%5%链接概率增链接概率(增强后)21%30%46%实体公牛(动物)乔丹(机器学习)乔丹(好莱坞演员)链接概率2%5%21%链接概率(增02%07%3%链接概率(增强后)0.2%0.7%3%大纲大纲实体链接•实体链接•基于实体知识的链接基于实体知识的链接•基于文本主题的链接•融合实体知识与文本主题•总结•总结仅有实体知识是不够的仅有实体知识是不够的水苹水苹苹果公司水果苹果苹果公司水果苹果电影苹果苹果银行电影苹果苹果银行0.00%10.00%20.00%30.00%40.00%普通新闻0.00%20.00%40.00%60.00%80.00%100.00%IT新闻水果苹果苹果公司水果苹果电影苹果苹果银行0.00%20.00%40.00%60.00%娱乐新闻建模文本主题建模文本主题假设每篇文本都有个内在主题每个主•假设每一篇文本都有N个内在主题,每一个主题是实体的多项式分布•苹果发布iPhone{IT0.41,手机0.23,苹果公司0.33}•苹果丰收{植物0.45,水果0.33,贸易0.21}苹果丰收{植物,水果,贸易}661024624605100计算机CPU硬件内存0视频手机音乐流媒体计算机娱乐酒基于实体-主题模型融合实体知识苹果公司Document内在结构基于实体主题模型融合实体知识AppleInc.(NASDAQ:AAPL;formerlyAppleComputer,Inc.)产品人物财务Document内在结构主题yppp,)isanAmericanmultinationalcorporationthatdesignsandsellsconsumerelectronics,computersoftwareandpersonal产品人物财务software,andpersonalcomputers.Thecompany'sbest-knownhardwareproductsaretheMacintoshlineofcomputers,theiPod,theiPhonedthiPdItftiPodiPadMac乔布斯乔纳森·艾NASDAQ实体andtheiPad.Itssoftware…iPhoneMac乔纳森艾维NASDAQ设计师,英CEO,狂人…词设计师,英国,简洁,…………实验结果实验结果大纲大纲实体链接•实体链接•基于实体知识的链接基于实体知识的链接•基于文本主题的链接•融合实体知识与文本主题•总结•总结展望28展望•长尾(longtail)实体的处理•现有的消歧系统通常只对重要实体进行消歧•将Web文本中实体与长尾上的实体如sina微博将Web文本中实体与长尾上的实体,如sina微博、Facebook上的用户相连,可创造广阔的应用前景FromExtractiontoDiscovery•FromExtractiontoDiscovery•蝙蝠侠—三部曲之终章这是新出来的电影,还是老电或其他电影、漫画、或其他?•黎明演了不少电影黎明是一个演员,而不是常用词•可以与知识库构建相互补充,从而滚动式的构建大规模知识库•概念/实体级别的IR和NLP技术与应用欢迎各位批评与指导!欢迎各位批评与指导!