命名实体识别-江会星

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

命名实体识别——交流报告人:@江会星jhx0129@163.com2012年8月1目录1命名实体识别定义及应用2命名实体识别常用方法3命名实体识别流程4基于主动学习的实体资源库构建5基于实体资源的命名实体识别系统21命名实体识别定义及应用命名实体识别的定义MUC-6(theSixthMessageUnderstandingConference)中提出例:“中共中央政治局常委、国家副主席胡锦涛今天上午在北戴河会见了日本自民党前干事长野中广务一行。”“命名(Named)”一词在Kripke[2]中限定为用来描述固定指示词(rigiddesignators),包括专有名称、确定的自然生物物种和物质术语。命名实体的新范围Nadeau[3]汽车品牌识别Brin[4]和Wittem等[5]图书名识别Etzioni等[6]电影名识别Bick[7]和Samuel[8]产品名、产品属性等识别;“蛋白质”、“DNA”、“RNA”、“细胞”名称识别;基因、药物和化学名等识别。31命名实体识别定义及应用信息抽取、信息检索、机器翻译等中广泛应用信息抽取事件发生的时间、地点、人物等都是命名实体信息检索为得到准确的对“张三”这一人物的检索结果,就需要NER先行对文档中的人名进行准确的识别机器翻译“文章马伊琍夫妇”中,如不能提前识别出“文章”为人名,就无法准确地对其进行翻译(如google翻译中,由于没有识别出“文章”为人名,错译为“Article”)。42命名实体识别常用方法命名实体识别的方法规则词法、语法构成、上下文搭配、用词等规律,槽等形式统计Bikel等提取基于HMM的英文NERYamada、Isozaki等利用SVM进行NERKazama在生物领域使用SVM进行NERBorthwiek等在英文NER中使用MEMcallum等使用CRF进行NER统计中使用知识Wikipedia数据无标语料的利用5目录1命名实体识别定义及应用2命名实体识别常用方法3命名实体识别流程4基于主动学习的实体资源库构建5基于实体资源的命名实体识别系统6小结63命名实体识别流程7数据规模海量化实体类型多样化3命名实体识别流程8实体资源库4基于主动学习的NE资源库构建资源库构建局部信息有时不足以对所有命名实体类别的判定;例如“孙倩倩视频下载”,“功夫熊猫视频下载”和“麻辣藕片视频”的“视频”的前接实体中“孙倩倩”为人名,“功夫熊猫”为电影名,“麻辣藕片”为菜名;在有限规模的标注语料上不能习得NER所有模式,利用NE资源库有助于在上下文信息不充足的情况下辅助识别命名实体;部分NE类别的名称不具有歧义性或歧义性小,且可以在小范围数据集上挖掘全部该NE类别的NE。例如“NokiaLumia900”指的是品牌为“Nokia”型号为“Lumia900”的手机,不具有歧义性。94基于主动学习的NE资源库构建实体抽取器从大数据上抽取实体候选实体筛选器从实体候选库中抽取实体构建最终的实体库104基于主动学习的NE资源库构建图4-1实体资源库构建流程图11实体抽取器主动学习实时更新、增量型数据上学习在训练过程中对训练进行调整在大量无标数据上快速构建NER模型12主动学习13主动学习效用函数最小置信度(leastconfidence,LC):最小间隔(lowmargin,LMargin):后验熵14MU*()1(|;)LCxPyx**12()(|;)(|;)MxPyxPyx()(|;)log(|;)Eiiixpyxpyx主动学习效用函数最小置信度最小间隔新的效用函数:候选词的平均效用值选择𝑈(𝑡)最大的前𝐵个候选名,其中𝑋𝑡为含有实体候选词𝑡的样例集。其次在𝑋𝑡中选择使得𝑈𝑀(𝑥𝑡)最大的样例𝑥𝑡。15MU*()1(|;)LCxPyx**12()(|;)(|;)MxPyxPyx||11()(),||tXMtttntUtUxxXX***112**12()1((|;)(1)((|;)(|;)))1((|,)(1)(|,))MUxPyxPyxPyxPyxPyx主动学习效用函数新的效用函数:候选词的平均效用值迭代停止条件选择协议(SelectionAgreement,SA)验证集协议(ValidationSetAgreement,VSA)学习偏置种子样例影响学习器的学习方向,使得学习器偏向于种子样例集所指引的方向学习。种子语料生成时模型选择时CRF模型16MU实体筛选器命名实体选择方法(4-3)(4-4)17**1211()((|,)(|,))log(1)NEtNnnnnNEntNENEtttscoretPyxPyxNNNN**1211((|,)(|,))1NEtNnnnntNEntPyxPyxUN实验:互联网中命名实体分布的一类特性人名实体分布广,但具体人名实体不是在所有领域都会出现。机构名实体、地名也具有人名分布特点影视名实体分布较广,但每个影视名实体几乎都会在影视类领域站点内出现。音乐类、图书类及游戏类等实体也具有与影视类实体相似的分布特点。各类实体都会集中在特定领域内的web站点中出现。类似地,数码、家电、服装等商品类实体,基本都会在电子商务等购物类站点中出现。18人名实体资源库构建影视类命名实体资源库构建种子语料人名种子语料种子人名(46593,2000年人民日报)时效性,最常用:1771个种子人名覆盖广:多领域(新闻,娱乐,财经,体育,科技,历史)全领域新闻,娱乐,财经,体育,科技,历史影视类种子语料影视类web站点19人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程人名实体选择协议:在第5轮迭代后F值为0.8087时停止迭代20人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程影视类实体选择协议:在第4轮迭代后F值为0.8383时停止迭代21序列最小置信度实体平均最小置信IterCorpuslabeledCRRRCorpusLabeledCRRR12263000.61630.30642263000.51840.672325262950.55330.32455262940.64890.668238212910.67260.37078202990.79760.8333411123000.87840.448311192980.81400.8641人名种子语料4638条人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程影视类实体选择协议:在第4轮迭代后F值为0.8383时停止迭代22序列最小置信度实体平均最小置信IterCorpuslabeledCRRRCorpusLabeledCRRR12263000.61630.30642263000.51840.672325262950.55330.32455262940.64890.668238212910.67260.37078202990.79760.8333411123000.87840.448311192980.81400.8641人名种子语料4638条Iter序列最小置信度实体平均最小置信10.40930.585420.40910.658430.47800.815040.59360.8383人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程实体词表23**1211()((|,)(|,))log(1)NEtNnnnnNEntNENEtttscoretPyxPyxNNNN人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程实体词表人名词表三个月浏览器日志上共识别出3242576个人名候选串T=0.5人名资源库:86391,抽样正确率为97%影视类词表三个月浏览器日志上共识别出33626个影视候选串T=0.5影视资源库:18617,抽样正确率91%24人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程实体词表人名词表三个月浏览器日志上共识别出3242576个人名候选串T=0.5人名资源库:86391,抽样正确率为97%影视类词表三个月浏览器日志上共识别出33626个影视候选串T=0.5影视资源库:18617,抽样正确率91%25利用每轮模型抽取实体词表,排序后每10%抽取20个词,验证准确率人名实体资源库构建影视类命名实体资源库构建其它领域相关性命名实体词表构建26人名实体资源库构建影视类命名实体资源库构建其它领域相关性命名实体词表构建274基于主动学习的NE资源库构建小结实体抽取器:新的效用函数直接考虑目标(实体词)的效用值在影视类上,新的基于候选词平均效用值的效用函数的F值比基于最小置信度效用函数时高24.47%实体筛选器:实体得分的计算最优标记序列概率最优与次优标记序列概率间隔命名实体候选串的历时性命名实体候选串的共时性命名实体候选串的歧义性一段时间内实体候选词的频次信息基于NE资源的命名实体识别系统28目录1命名实体识别定义及应用2命名实体识别常用方法3命名实体识别流程4基于主动学习的实体资源库构建5基于实体资源的命名实体识别系统295基于实体资源的命名实体识别系统基于资源的人名实体识别基于资源的影视类实体识别30图5-6基于资源库的命名实体识别系统框架图。5基于实体资源的命名实体识别系统基于资源的人名实体识别31图5-2人名实体识别线上流程①输入原始文本串②CRF标注器&切分,切分、词性标注,CRF识别人名③人名标记,对未标注人名标记的词查询实体资源库④后处理,依据人名规则集校验5基于实体资源的命名实体识别系统后处理规则集交集型歧义处理“未登录词和基本词汇的交叠歧义”“蓝燕泳NH池中胸罩脱落”符号处理停用字符、译名等特殊字符“•”或“-”并列(multi-mentionscene)处理“瓦格纳/NH的《婚礼进行曲》mp3试听下载,瓦格纳的《婚礼进行曲》歌词-搜狗音乐”;“小柔新浪微博照片_黄小柔/NH吧_贴吧”“YouTubeCEO萨拉·卡曼加/NH(SalarKamangar/NH)日前在…”重复字处理连续两个以上汉字译名符号不能连续出现常用词处理32基于资源的人名实体识别33基于资源的人名实体识别基于资源的影视类实体识别34CRF?在影视类领域站点内的语料上进行训练基于资源的影视类实体识别分类算法常用于NER的多分类器:K近邻分类KNN,多类别回归模型MLR,支持向量机SVM,最大熵模型ME等。LR分类特征字词频率,TF*IDF,互信息,熵,信息增益等35基于资源的影视类实体识别分类算法常用于NER的多分类器:K近邻分类KNN,多类别回归模型MLR,支持向量机SVM,最大熵模型ME等。LR分类特征字词频率,TF*IDF,互信息,熵,信息增益等36基于资源的影视类实体识别实验数据随机抽取的10000条标题数据,其中含有影视类命名实体词表中的实体词的句子为3131句,对该10000条标题数据进行人工标注,共1138个影视类实体词为正确标记。实验结果37模型准确率召回率F值CRF0.71750.65450.6846List0.35570.99150.5236CRF+List0.57110.80.6664List+LR0.94790.95380.9508基于资源的影视类实体识别表5-7去除某类特征后分类性能下降百分数38基于资源的影视类实体识别表5-8不同分类器在影视类实体分类上的性能对比39分类模型准确率召回率F值

1 / 43
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功