开放式中文实体关系抽取研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

开放式中文实体关系抽取研究大纲•绪论•面向句子级的开放式实体关系抽取•面向互联网的开放式实体关系抽取•开放式实体关系类型体系自动构建•结论大纲•绪论•面向句子级的开放式实体关系抽取•面向互联网的开放式实体关系抽取•开放式实体关系类型体系自动构建•结论绪论•问题的提出–预先定义关系类型局限性•人工定义,类型少,限定域,移植性差–实体关系往往由上下文中的关系指示词描述•关系指示词主要是动词和名词–此次爱丽丝的身边多了一位女战士,就是华人女星李冰冰饰演的艾达·王。–媒体试图联系徐妈妈求证,但电话一直处于人工秘书台状态,汪小菲妈妈张兰也始终拒接电话。–三元组识别•(李冰冰,饰演,艾达·王)•(汪小菲,妈妈,张兰)OpenIE绪论•研究内容第2章面向句子的开放式中文实体关系抽取第3章面向互联网的开放式中文实体关系抽取第4章关系类型体系自动构建关系类型体系大规模网络文本句子关系三元组第5章开放式关系抽取平台大纲•绪论•面向句子级的开放式实体关系抽取•面向互联网的开放式实体关系抽取•开放式实体关系类型体系自动构建•结论面向句子级的开放式实体关系抽取•基于有指导的机器学习方法–语料预处理–语料分析–先识别实体对的方法–先识别关系指示词的方法基于有指导的机器学习方法(1)•语料以及预处理–Ontonotes4.0中选取1000篇文本•分词、命名实体、共指关系、实体关系•使用ltp工具对其进行词性标注•正例(包含关系的实体对)3656个,反例(不包含关系)95401个–过滤反例•利用共指关系–如果两个实体存在共指,那么这两个实体不存在实体关系•正例3656个,反例86323个基于有指导的机器学习方法(2)•语料分析–93.6%的关系实例存在关系指示词•使用三元组来描述一个关系实例是可行的•其中大部分关系指示词在两个实体中间或者右边–占有关系指示词实例的95.94%–哈尔滨工业大学ORG校长relation_word王树国PER。–梁朝伟PER是刘嘉玲PER的老公relation_word。•尝试了两种不同的方法–先识别实体对的方法–先识别关系指示词的方法基于有指导的机器学习方法(3)•先识别实体对的方法–最大熵模型判断实体之间是否有关系•特征–实体类型»PER,LOC,ORG,TIME–实体的词序列(特征泛化)»Feature(哈尔滨工业大学)={哈尔滨,工业,大学}–实体上下文的词性–CRF模型识别关系指示词•如果实体对存在关系,使用该模型识别关系指示词•特征–词、词性、是否是实体习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。习近平胡锦涛{特征集合}中华人民共和国中央军事委员会胡锦涛{特征集合}实体识别特征抽取实体对过滤识别关系指示词习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。习近平中华人民共和国中央军事委员会{特征集合}习近平中华人民共和国中央军事委员会主席习近平中华人民共和国中央军事委员会{特征集合}基于有指导的机器学习方法(4)•先识别实体对方法的实验结果–最大熵模型判断实体之间是否有关系•训练数据不平衡导致正例召回率低–CRF模型识别关系指示词–两步级联后的实验结果类别准确率(%)召回率(%)F值(%)存在关系622131不存在关系969998评测标准准确率(%)召回率(%)F值(%)标注结果75.9872.9674.44评测标准准确率(%)召回率(%)F值(%)标注结果47.1015.3223.12基于有指导的机器学习方法(5)•先识别关系指示词的方法–直接在实体的上下文中识别关系指示词•如果识别出关系指示词则实体对存在关系•如果没有识别出关系指示词则不存在关系–CRF模型•特征和先识别实体对的方法相同基于有指导的机器学习方法(6)•先识别关系指示词方法的实验结果•先识别关系指示词的方法比先识别实体对的方法好–先识别关系指示词的方法融合了反例的信息评测标准准确率(%)召回率(%)F值(%)先识别指示词90.2446.5461.41评测标准准确率(%)召回率(%)F值(%)先识别指示词90.2446.5461.41先识别实体对47.1015.3223.12大纲•绪论•面向句子级的开放式实体关系抽取•面向互联网的开放式实体关系抽取•开放式实体关系类型体系自动构建•结论面向互联网的开放式实体关系抽取•方法来源•算法设计•实验方法来源•方法的大概思想–关系指示词功能的单一性•“爸爸”=“人-人”•“总裁”=“人-机构”•……–利用这种特性,把关系指示词找出来算法设计(1)大规模网页网页正文提取自然语言处理预处理模块根据限制条件从文本中抽取候选关系三元组生成候选三元组模块全局排序和类型排序过滤关系指示词生成关系指示词词表模块过滤三元组补全关系指示词后处理模块关系三元组算法设计(2)•预处理•生成候选三元组•生成关系指示词词表•后处理预处理•网页正文提取•自然语言处理–LTP•断句•分词•词性标注•命名实体识别算法设计•预处理•生成候选三元组•生成关系指示词词表•后处理生成候选三元组(1)•实体之间的距离限制(5,0.7457)00.20.40.60.8105101520253035关系三元组所占比例两个实体之间其他词的数目候选三元组的两个实体之间词的数目不能超过maxDistance生成候选三元组(1)•实体之间的距离限制(4,0.9855)00.20.40.60.810510152025关系三元组所占比例两个实体之间其他实体数目候选三元组的两个实体之间词其他实体数量不能超过maxEntityDistance生成候选三元组(2)•关系指示词的位置限制–实体之间的名词和动词–第一个实体左边leftWordNumber个名词和动词–第二个实体右边rightWordNumber个名词和动词关系指示词的位置关系实例数目(个)比例(%)两个实体之间317775.36第二个实体右边60914.44第一个实体左边1603.80没有指示词2406.40算法设计•预处理•生成候选三元组•生成关系指示词词表•后处理生成关系指示词词表算法设计•预处理•生成候选三元组•生成关系指示词词表•后处理后处理•使用关系指示词词表过滤三元组•使用句式规则过滤三元组–规则1:双动词结构(肖民找到黎恩)•寻妹心切的肖民找到黎恩告诉他自己为恩怜输血的事。–规则2:所有格(钟汉良饰演叶开)•钟汉良与饰演叶开的陈楚河就被网友吐槽说“关系微妙”。•补全关系指示词–王树国担任哈尔滨工业大学校长实验(1)•语料来源–百度百科160W个网页–新浪娱乐新闻(2008年-2012年)–搜狗新闻语料(2006年)–搜狗新闻语料(2012年6月到7月)实验(2)•关系指示词词表实体对类型关系指示词词表前20个关系指示词LOC-PER总统选手首相市长名将作家国务卿省长雄鹰舞台笔画大使诗人科学家物理学家村民数学家国防部长哲学家国王PER-LOC出生祖籍离开原籍下台率领躬耕生于故里南巡病逝访问回到追悼会流放统一全家遗体走遍来到ORG-PER主任书记局长所长秘书长董事长院长部长会长主席司长委员长总经理总裁研究员执行官科室理事长校长总工程师PER-ORG现任担任做客调任哀思代表考入致辞出任考上毕业当选母校杀人案考取辞去加入兼任受聘主持PER-PER妻子儿子女儿饰演弟弟丈夫扮演哥哥妹妹遗孀女友母亲夫人父亲扮演者神似好友男友女婿长子实验(2)•从文本中抽取的三元组实体对类型关系三元组句子LOC-PER香港导演严浩能说双语的香港著名导演严浩也积极加盟。美国总统奥巴马涨工资后,他的年薪是美国总统奥巴马的5倍。PER-LOC佟铁鑫出生辽宁锦州男中音歌唱家佟铁鑫出生于辽宁锦州的一个音乐世家。秦始皇统一中国秦始皇统一中国后,置齐地东部为琅琊郡,郡驻地在今天的琅琊镇。ORG-PER英特尔公关经理牛大鹏英特尔公关经理牛大鹏并没有正面确认该信息。腾讯董事长马化腾昨天,腾讯董事长马化腾在其微博上直接表态,重申腾讯不会做手机。PER-ORG林茨效力布拉加队林茨目前效力于布拉加队,本赛季中前期表现出色。李开复担任院长微软亚洲研究院上世纪90年代末,李开复曾担任微软亚洲研究院首任院长。PER-PER李冰冰妹妹李雪李冰冰为妹妹李雪补办婚礼。奥多姆经纪人杰夫﹒施瓦茨小牛已经给了奥多姆的经纪人杰夫﹒施瓦茨充分的自由去为奥多姆寻求下家。实验(3)•实验设置–UnCORE•完整的系统–UnCORE-post•UnCORE除去句式规则过滤和补全关系指示词两个步骤后的系统实验(4)•实验结果实体对类型三元组数量准确率(%)UnCORE-postUnCOREUnCORE-postUnCORELOC-PER2893092660807278PER-LOC17873411024437.556ORG-PER2110072033189599PER-ORG315741866539.579PER-PER764983598261.578.5微平均68.0180.97实验(5)•正确的三元组数量050000100000150000200000250000LOC-PERPER-LOCORG-PERPER-ORGPER-PERUnCORE-postUnCORE实验(6)•关系指示词数量随语料规模的变化0200400600800100012001400160012345678910关系指示词数量语料规模PER_PERPER_ORGPER_LOCORG_PERLOC_PER实验(7)•三元组数量随语料规模的变化05000010000015000020000025000030000012345678910关系三元组数量语料规模PER_PERPER_ORGPER_LOCORG_PERLOC_PER实验(8)•Ontonotes4.0上的实验结果抽取方法准确率(%)召回率(%)F值(%)UnCORE69.1950.2058.18UnCORE-post77.1848.5559.61大纲•绪论•面向句子级的开放式实体关系抽取•面向互联网的开放式实体关系抽取•开放式实体关系类型体系自动构建•结论开放式实体关系类型体系自动构建•算法设计–相似度计算–聚类•实验算法设计(1)•系统流程关系指示词词表基于HowNet基于RNN-LM相似度计算层次聚类近邻传播关系指示词聚类关系类型体系算法设计(2)•相似度计算–HowNet–RNN-LM•聚类–层次聚类•单连通•全连通–近邻传播算法实验(1)•实验设置方法相似度计算方法聚类算法Baseline无随机HowNet+APHowNetAPHowNet+HAC(singlelink)HowNetHAC(singlelink)HowNet+HAC(completelink)HowNetHAC(completelink)RNN-LM+APRNN-LMAPRNN-LM+HAC(singlelink)RNN-LMHAC(singlelink)RNN-LM+HAC(completelink)RNN-LMHAC(completelink)实验(2)•实验结果方法类别数目纯度(%)F值(%)baseline54091.7533.43RNN-LM+AP26665.9844.65RNN-LM+HAC(completelink)23062.8941.72RNN-LM+HAC(singlelink)58083.5135.97HowNet+AP32584.5458.3HowNet+HAC(completelink)36078.3564.25HowNet+HAC(singlelink)42085.5759.37大纲•绪论•面向句子级的开放式实体关系抽取•面向互联网的开放式实体关系抽取•开放式实体关系类型体系自动构建•结论结论•针对句子级的开放式实体关系抽取任务,提出了有指导的方法•针对互联网的开放式实体关系抽取任务,提出了无指导的方法•自动构建关系类型体系,避免了人工参与•搭建了开放式实体关系抽取演示系统–面向句子级–面向互联网

1 / 46
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功