移动生活与新媒体实验室徐源北京邮电大学知识库构建与应用目录语义信息抽取知识库语义检索海量数据处理语义信息抽取泛网资源与信息语义抽取内容模式抽取层级构建语义信息抽取——海量资源与信息泛在网为我们提供了无所不在的资源及信息。如何在海量信息中获取我们需要的信息?如何快捷的获取?机器理解?如何让机器更好的理解?语义抽取语义信息抽取——语义抽取内容实体抽取(Namedentityextraction):人物、地点、机构、疾病,等命名或专有实体。属性抽取(Attributeextraction):实体的自身属性。关系挖掘(Relationmining):实体之间的关系。事件挖掘(Eventmining):由多个关系元组所构成。语义信息抽取——实体抽取识别文本中出现的实体MUC(1997):Person,Location,Organization,Date/Time/CurrencyACE(2005):100多种更具体的类型针对不同实体类型与领域考虑不同方法封闭类(e.g.,geographicallocations,diseasenames,gene&proteinnames):人工规则+词典语法相关(e.g.,phonenumbers,zipcodes):正则表达式语义相关(e.g.,personandcompanynames):综合考虑上下文,句法特征,词典,启发式规则等语义信息抽取——实体抽取人工规则方法某些情况构建简单:电话号码、邮政编码等。调试和维护简单拓展性问题机器学习方法当容易构建大量训练数据时适合采用能够捕捉复杂的模板主要方法:NaiveBayes;HiddenMarkovModels;MaximumEntropyMarkovModels;ConditionalRandomFields(CRF)语义信息抽取——属性抽取属性包括:属性名属性值语义信息抽取——属性抽取语义信息抽取——属性抽取基于无结构化与前面方法类似模板改变:AofI—AofIisV;VisAofI种子改变:(China,capital)—(China,capital,Beijing)基于WikipediaInfobox基于HTML表格语义信息抽取——关系抽取ACE(AutomaticContentExtraction)会议将关系抽取任务表述为:探测和识别文档中特定类型的关系,并对这些抽取出的关系进行规范化表示。一个比较完整的关系抽取系统应包括依次相连的5个模块:NLP处理和实体抽取、模式匹配或分类、共指消解、新关系处理以及规范化输出。关系抽取的困难可以归纳为3个方面:特定领域标引数据集的获取模式的获取共指消解语义信息抽取——关系抽取基于模式匹配的关系抽取先构造出若干基于语词、基于词性或基于语义的模式集合并存储起来。当进行关系抽取时,将经过预处理的语句片段与模式集合中的模式进行匹配。一旦匹配成功,就可以认为该语句片段具有对应模式的关系属性。基于词典驱动的关系抽取基于词典驱动的关系抽取方法非常灵活,新的关系类型能够仅仅通过向词典添加对应的动词入口而被抽取。但只能识别以动词为中心词的关系。基于机器学习的关系抽取将关系抽取看作是一个分类问题。在人工标引语料的基础上构造分类器,然后将其应用在领域语料关系的类别判断过程中。目前使用比较多的学习算法有MBL算法和SVM算法。混合抽取方法基于词汇:“companylocatedinlocation”基于句法结构:“((Objcompany)(Verblocated)(*)(Subjlocation))”机器学习方法有监督学习:基于人工标注数据训练模型(SVM,MaxEnt,KNN等)1.基于特征的方法2.核方法:核函数Kernel(x,y)定义对象x与y之间的相似度,则可直接使用核函数代替上述公式中基于显式特征的点积运算半监督学习:基于自举方法从种子样例中训练模型自举方法(Bootstrapping)轮流发现实体关系对与抽取模板。无监督学习:自动发现主要的关系与相应的对象基于对象对与关系上下文的对偶性利用聚类算法语义信息抽取——事件抽取事件由事件触发词和描述事件结构的元素构成,通常需要共指消解,消岐,去重,推理。事件抽取由两个步骤组成:事件类别识别:事件模板由事件的类别决定。ACE2005定义了8种事件类别以及33种子类别。事件元素识别:事件元素是指事件的参与者。根据所属的事件模板抽取相应的元素,并为其标上正确的元素标签。语义信息抽取——事件抽取事件抽取主要有两种方法:模式匹配和机器学习的方法。模式匹配的方法对某类事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配。机器学习的方法把事件抽取任务看作分类问题,把主要的精力放在分类器的构建和特征的发现、选择上。语义信息抽取——模式抽取一阶共现:模版(PB)Hoursmayvaryonholidays,suchasEaster,ThanksgivingandChristmas.Pattern:(suchas|including)T{,T}*(and|,|.){Easter,Thanksgiving,Christmas}二阶共现:分布式相似性(DS)前提是假设:出现在相似上下文(词语、句法)中的词语比较相似。定义上下文(句法上下文,词语上下文...)将每个短语表示为一个特征向量(特征:短语出现的一个上下文;特征值:上下文针对短语的权重)计算短语相似性(特征向量之间的相似性:Cosine,Jaccard)语义信息抽取——语义层级构建为短语(term)赋予类标签或上位词(label)Beijing-》city,capital…;Apple-》company,fruit…方法:Patternmatching+counting为语义类(semanticclass)赋予类标签(label){Beijing,Shanghai,Dalian...}-》cities,Chinesecities...方法:投票(Voting)构建层级知识库典型知识库构建方式应用知识库——典型知识库人工构建的知识库WordNet:专家构建、英语Wikipedia:社区网民构建,实体/属性自动抽取得到的知识库YAGO:Wikipedia+WordNet,自动构建,准确率高DBpedia:Wikipedia+社区网民创建的映射规则,召回率高Freebase:Wikipedia+其他数据库+用户编辑知识库——构建方式YAGO自动构建方式1.利用WordNet和Wikipedia(Infobox和Categories)抽取相关知识,再合并构成联通本体。2.一致性检查:包括实体的唯一性;关系领域与范围;类型的一致性。知识库——构建方式Dbpedia自动构建方式1.人工构建分类体系ontology:259classes,6levels,1200properties。2.映射规则:将Wikipediainfoboxesandtables映射到其自有的ontology,人工映射规则。知识库——构建方式Freebase自动构建方式1.从Wikipedia,ChefMoz,NNDB和MusicBrainz等多个数据源导入数据。2.用户可贡献数据。Totaltriples:1.9billion知识库——应用自动问答系统语义相似性计算情感倾向Web数据标注地图标注侧面搜索……语义检索语义解析语义计算文本推理文本复述语义检索——语义解析(词法分析)词法分析(英语:lexicalanalysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。如下所示句法分析—语义解析(短语结构分析)短语结构指的是词法分析之后词和词之间的结构关系,包括并列,动宾等等。如下所示句法分析—语义解析(依存关系分析)依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。如下所示句法分析—语义解析(语义角色标注)语义角色标注是指在语法分析的基础上,对句子中各种词语进行更深一层的角色分析。如下所示语义计算词汇语义计算是语义计算的基础,也是关键技术点语义计算应用问答系统知识检索其他语义计算情感分析文本推理与复述语义抽取句子与篇章级语义计算语义角色标注篇章分析代指分析词汇级语义计算词汇语义相关度词义消歧语义计算—词汇语义计算词语相似度的计算主要分两类:(1)基于语义词典的方法,如wordnet、知网等(2)基于语料统计的方法语义计算—基于语义词典的词汇语义词典一般由多个同义词集合组成,每个集合里面是表示相同词义的词的集合。每个词条包括多个同义词集合,同义词集合通过不同的词义关系相连。使用同义集合代表概念,词汇关系在词语之间体现,语义关系在概念之间体现。基于语义词典的词汇语义计算方法很多,如下介绍几种典型的:(1)WuAndPalmer算法通过与概念词最近的公共父结点概念词的位置关系来计算其相似度;(2)LeacockAnd-Chodorow算法则是将两概念间的路径长度转化为信息量来进行相似度计算;(3)在基于信息内容的算法上,Resnik提出了直接利用公共父结点概念词的信息内容来计算概念词之间的相似度的算法。语义计算—基于语义词典语义词典方法的缺点:(1)对于很多语言并没有好用的语义词典(2)有些词不被语义词典包含,例如实体、新词等(3)大部分方法依赖于上下位层次关系:这限于名词,对于形容词和动词并不完善语义计算—基于语料统计上下文共现向量方法潜在语义分析LSA(LatentSemanticAnalysis)词向量语义计算—上下文共现向量方法构建上下文向量,每个词为一个1xV(V为所有词总数)的向量,记录其他词是否与该词一起出现基于向量距离/相似度公式(典型的胃余弦距离)进行计算两个词的相似度语义计算—潜在语义分析LSA构建词和文档的矩阵A给词赋予权重,例如TF-IDF权重对矩阵进行SVD(SingularValueDecomposition)分解留下奇异值不为0对应的k行和k列矩阵U中的每一行表示相应词语与隐含语义空间中语义维度之间的关联语义计算—词向量词向量是用来将语言中的词用数学方式表示成一个向量的形式,一种最简单的词向量方式是one-hotrepresentation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的位置。但这种词表示有两个缺点:(1)容易受维数灾难的困扰,尤其是将其用于DeepLearning的一些算法时;(2)不能很好地刻画词与词之间的相似性(术语好像叫做“词汇鸿沟”)。针对这种情况,Hinton于1986年提出DistributedRepresentation,之后对词向量的研究成为学术界的热点,尤其是在2000年之后,提出了多种词向量训练模型。语义计算—词向量解释模型中的隐层有多少个节点,词向量就是多少维,隐层中的每一个节点相当于一个语义,从输入层到隐层的映射,相当于将一个词映射到不同的语义维度上。语义越相近的词,向量相似度越高。语料库越大,训练出来的词向量越准确。语义计算—文本推理从自然语言表示角度,在词法层,句法层,语义层,将文本依次看成字符串形式,成分结构或依存关系和语义表达/逻辑表达式。在基于各个表达层级选择推理逻辑方法。文本推理的难点:需要大量背景知识的支持句式结构、语义表达的多样化需要构建使用完整的推理规则语义计算—文本复述根据在知识库索引中找到的信息,进行文