命名实体识别——交流报告人:@江会星jhx0129@163.com2012年8月1目录1命名实体识别定义及应用2命名实体识别常用方法3命名实体识别流程4基于主动学习的实体资源库构建5基于实体资源的命名实体识别系统21命名实体识别定义及应用命名实体识别的定义MUC-6(theSixthMessageUnderstandingConference)中提出例:“中共中央政治局常委、国家副主席胡锦涛今天上午在北戴河会见了日本自民党前干事长野中广务一行。”“命名(Named)”一词在Kripke[2]中限定为用来描述固定指示词(rigiddesignators),包括专有名称、确定的自然生物物种和物质术语。命名实体的新范围Nadeau[3]汽车品牌识别Brin[4]和Wittem等[5]图书名识别Etzioni等[6]电影名识别Bick[7]和Samuel[8]产品名、产品属性等识别;“蛋白质”、“DNA”、“RNA”、“细胞”名称识别;基因、药物和化学名等识别。31命名实体识别定义及应用信息抽取、信息检索、机器翻译等中广泛应用信息抽取事件发生的时间、地点、人物等都是命名实体信息检索为得到准确的对“张三”这一人物的检索结果,就需要NER先行对文档中的人名进行准确的识别机器翻译“文章马伊琍夫妇”中,如不能提前识别出“文章”为人名,就无法准确地对其进行翻译(如google翻译中,由于没有识别出“文章”为人名,错译为“Article”)。42命名实体识别常用方法命名实体识别的方法规则词法、语法构成、上下文搭配、用词等规律,槽等形式统计Bikel等提取基于HMM的英文NERYamada、Isozaki等利用SVM进行NERKazama在生物领域使用SVM进行NERBorthwiek等在英文NER中使用MEMcallum等使用CRF进行NER统计中使用知识Wikipedia数据无标语料的利用5目录1命名实体识别定义及应用2命名实体识别常用方法3命名实体识别流程4基于主动学习的实体资源库构建5基于实体资源的命名实体识别系统6小结63命名实体识别流程7数据规模海量化实体类型多样化3命名实体识别流程8实体资源库4基于主动学习的NE资源库构建资源库构建局部信息有时不足以对所有命名实体类别的判定;例如“孙倩倩视频下载”,“功夫熊猫视频下载”和“麻辣藕片视频”的“视频”的前接实体中“孙倩倩”为人名,“功夫熊猫”为电影名,“麻辣藕片”为菜名;在有限规模的标注语料上不能习得NER所有模式,利用NE资源库有助于在上下文信息不充足的情况下辅助识别命名实体;部分NE类别的名称不具有歧义性或歧义性小,且可以在小范围数据集上挖掘全部该NE类别的NE。例如“NokiaLumia900”指的是品牌为“Nokia”型号为“Lumia900”的手机,不具有歧义性。94基于主动学习的NE资源库构建实体抽取器从大数据上抽取实体候选实体筛选器从实体候选库中抽取实体构建最终的实体库104基于主动学习的NE资源库构建图4-1实体资源库构建流程图11实体抽取器主动学习实时更新、增量型数据上学习在训练过程中对训练进行调整在大量无标数据上快速构建NER模型12主动学习13主动学习效用函数最小置信度(leastconfidence,LC):最小间隔(lowmargin,LMargin):后验熵14MU*()1(|;)LCxPyx**12()(|;)(|;)MxPyxPyx()(|;)log(|;)Eiiixpyxpyx主动学习效用函数最小置信度最小间隔新的效用函数:候选词的平均效用值选择𝑈(𝑡)最大的前𝐵个候选名,其中𝑋𝑡为含有实体候选词𝑡的样例集。其次在𝑋𝑡中选择使得𝑈𝑀(𝑥𝑡)最大的样例𝑥𝑡。15MU*()1(|;)LCxPyx**12()(|;)(|;)MxPyxPyx||11()(),||tXMtttntUtUxxXX***112**12()1((|;)(1)((|;)(|;)))1((|,)(1)(|,))MUxPyxPyxPyxPyxPyx主动学习效用函数新的效用函数:候选词的平均效用值迭代停止条件选择协议(SelectionAgreement,SA)验证集协议(ValidationSetAgreement,VSA)学习偏置种子样例影响学习器的学习方向,使得学习器偏向于种子样例集所指引的方向学习。种子语料生成时模型选择时CRF模型16MU实体筛选器命名实体选择方法(4-3)(4-4)17**1211()((|,)(|,))log(1)NEtNnnnnNEntNENEtttscoretPyxPyxNNNN**1211((|,)(|,))1NEtNnnnntNEntPyxPyxUN实验:互联网中命名实体分布的一类特性人名实体分布广,但具体人名实体不是在所有领域都会出现。机构名实体、地名也具有人名分布特点影视名实体分布较广,但每个影视名实体几乎都会在影视类领域站点内出现。音乐类、图书类及游戏类等实体也具有与影视类实体相似的分布特点。各类实体都会集中在特定领域内的web站点中出现。类似地,数码、家电、服装等商品类实体,基本都会在电子商务等购物类站点中出现。18人名实体资源库构建影视类命名实体资源库构建种子语料人名种子语料种子人名(46593,2000年人民日报)时效性,最常用:1771个种子人名覆盖广:多领域(新闻,娱乐,财经,体育,科技,历史)全领域新闻,娱乐,财经,体育,科技,历史影视类种子语料影视类web站点19人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程人名实体选择协议:在第5轮迭代后F值为0.8087时停止迭代20人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程影视类实体选择协议:在第4轮迭代后F值为0.8383时停止迭代21序列最小置信度实体平均最小置信IterCorpuslabeledCRRRCorpusLabeledCRRR12263000.61630.30642263000.51840.672325262950.55330.32455262940.64890.668238212910.67260.37078202990.79760.8333411123000.87840.448311192980.81400.8641人名种子语料4638条人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程影视类实体选择协议:在第4轮迭代后F值为0.8383时停止迭代22序列最小置信度实体平均最小置信IterCorpuslabeledCRRRCorpusLabeledCRRR12263000.61630.30642263000.51840.672325262950.55330.32455262940.64890.668238212910.67260.37078202990.79760.8333411123000.87840.448311192980.81400.8641人名种子语料4638条Iter序列最小置信度实体平均最小置信10.40930.585420.40910.658430.47800.815040.59360.8383人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程实体词表23**1211()((|,)(|,))log(1)NEtNnnnnNEntNENEtttscoretPyxPyxNNNN人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程实体词表人名词表三个月浏览器日志上共识别出3242576个人名候选串T=0.5人名资源库:86391,抽样正确率为97%影视类词表三个月浏览器日志上共识别出33626个影视候选串T=0.5影视资源库:18617,抽样正确率91%24人名实体资源库构建影视类命名实体资源库构建种子语料时效性,最常用,覆盖广AL迭代过程实体词表人名词表三个月浏览器日志上共识别出3242576个人名候选串T=0.5人名资源库:86391,抽样正确率为97%影视类词表三个月浏览器日志上共识别出33626个影视候选串T=0.5影视资源库:18617,抽样正确率91%25利用每轮模型抽取实体词表,排序后每10%抽取20个词,验证准确率人名实体资源库构建影视类命名实体资源库构建其它领域相关性命名实体词表构建26人名实体资源库构建影视类命名实体资源库构建其它领域相关性命名实体词表构建274基于主动学习的NE资源库构建小结实体抽取器:新的效用函数直接考虑目标(实体词)的效用值在影视类上,新的基于候选词平均效用值的效用函数的F值比基于最小置信度效用函数时高24.47%实体筛选器:实体得分的计算最优标记序列概率最优与次优标记序列概率间隔命名实体候选串的历时性命名实体候选串的共时性命名实体候选串的歧义性一段时间内实体候选词的频次信息基于NE资源的命名实体识别系统28目录1命名实体识别定义及应用2命名实体识别常用方法3命名实体识别流程4基于主动学习的实体资源库构建5基于实体资源的命名实体识别系统295基于实体资源的命名实体识别系统基于资源的人名实体识别基于资源的影视类实体识别30图5-6基于资源库的命名实体识别系统框架图。5基于实体资源的命名实体识别系统基于资源的人名实体识别31图5-2人名实体识别线上流程①输入原始文本串②CRF标注器&切分,切分、词性标注,CRF识别人名③人名标记,对未标注人名标记的词查询实体资源库④后处理,依据人名规则集校验5基于实体资源的命名实体识别系统后处理规则集交集型歧义处理“未登录词和基本词汇的交叠歧义”“蓝燕泳NH池中胸罩脱落”符号处理停用字符、译名等特殊字符“•”或“-”并列(multi-mentionscene)处理“瓦格纳/NH的《婚礼进行曲》mp3试听下载,瓦格纳的《婚礼进行曲》歌词-搜狗音乐”;“小柔新浪微博照片_黄小柔/NH吧_贴吧”“YouTubeCEO萨拉·卡曼加/NH(SalarKamangar/NH)日前在…”重复字处理连续两个以上汉字译名符号不能连续出现常用词处理32基于资源的人名实体识别33基于资源的人名实体识别基于资源的影视类实体识别34CRF?在影视类领域站点内的语料上进行训练基于资源的影视类实体识别分类算法常用于NER的多分类器:K近邻分类KNN,多类别回归模型MLR,支持向量机SVM,最大熵模型ME等。LR分类特征字词频率,TF*IDF,互信息,熵,信息增益等35基于资源的影视类实体识别分类算法常用于NER的多分类器:K近邻分类KNN,多类别回归模型MLR,支持向量机SVM,最大熵模型ME等。LR分类特征字词频率,TF*IDF,互信息,熵,信息增益等36基于资源的影视类实体识别实验数据随机抽取的10000条标题数据,其中含有影视类命名实体词表中的实体词的句子为3131句,对该10000条标题数据进行人工标注,共1138个影视类实体词为正确标记。实验结果37模型准确率召回率F值CRF0.71750.65450.6846List0.35570.99150.5236CRF+List0.57110.80.6664List+LR0.94790.95380.9508基于资源的影视类实体识别表5-7去除某类特征后分类性能下降百分数38基于资源的影视类实体识别表5-8不同分类器在影视类实体分类上的性能对比39分类模型准确率召回率F值