知识图谱发展报告(2018)

ddlovedd
3 ℃
2020-04-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

I前言1.知识图谱的研究目标与意义知识图谱（KnowledgeGraph）以结构化的形式描述客观世界中概念、实体及其关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力，同时也在智能问答中显示出强大威力，已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起，成为推动互联网和人工智能发展的核心驱动力之一。知识图谱技术是指知识图谱建立和应用的技术，是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等方向的交叉研究。知识图谱于2012年由谷歌提出并成功应用于搜索引擎，知识图谱属于人工智能重要研究领域——知识工程的研究范畴，是利用知识工程建立大规模知识资源的一个杀手锏应用。94年图灵奖获得者、知识工程的建立者费根鲍姆给出的知识工程定义——将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。在大数据时代，知识工程是从大数据中自动或半自动获取知识，建立基于知识的系统，以提供互联网智能知识服务。大数据对智能服务的需求，已经从单纯的搜集获取信息，转变为自动化的知识服务。我们需要利用知识工程为大数据添加语义/知识，使数据产生智慧（smartdata），完成从数据到信息到知识，最终到智能应用的转变过程，从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。知识图谱在下面应用中已经凸显出越来越重要的应用价值：-知识融合：当前互联网大数据具有分布异构的特点，通过知识图谱可以对这些数据资源进行语义标注和链接，建立以知识为中心的资源语义集成服务；-语义搜索和推荐：知识图谱可以将用户搜索输入的关键词，映射为知识图谱中客观世界的概念和实体，搜索结果直接显示出满足用户需求的结构化信息内容，而不是互联网网页；-问答和对话系统：基于知识的问答系统将知识图谱看成一个大规模知识库，通过理解将用户的问题转化为对知识图谱的查询，直接得到用户关心问题的答案；-大数据分析与决策：知识图谱通过语义链接可以帮助理解大数据，获得对大数据的洞察，提供决策支持。II2.知识工程的发展历程知识图谱的发展是人工智能重要分支知识工程在大数据环境中的成功应用。回顾知识工程四十年来发展历程，总结知识工程的演进过程和技术进展，体会知识工程为人工智能所做出的贡献和未来面临的挑战，可以将知识工程分成五个标志性的阶段，前知识工程时期、专家系统时期、万维网1.0时期，群体智能时期以及知识图谱时期。图1.知识工程发展历程1950-1970时期：图灵测试人工智能旨在让机器能够像人一样解决复杂问题，图灵测试是评测智能的是手段。这一阶段主要有两个方法：符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要条件，连结主义则认为大脑（神经元及其连接机制）是一切智能活动的基础。这一阶段具有代表性的工作是通用问题求解程序（GPS）：将问题进行形式化表达，通过搜索，从问题初始状态，结合规则或表示得到目标状态。其中最成功应用是博弈论和机器定理证明等。这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。这一时代人工智能和知识工程的先驱Minsky，Mccarthy和Newell以Simon四位学者因为他们在感知机、人工智能语言和通用问题求解和形式化语言方面的杰出工作分别获得了1969年、1971年、1975年的图灵奖。1970-1990时期：专家系统通用问题求解强调利用人的求解问题的能力建立智能系统，而忽略了知识对智能的支持，使人工智能难以在实际应用中发挥作用。70年开始，人工智能开始转向建立基于知识的系统，通过知识库+推理机实现智能，这一时期涌现出很多成功的限定领域专家系统，如MYCIN医疗诊断专家系统、识别分子结构的DENRAL专家系统以及计算机故障诊断XCON专家系统等。94年图灵奖获得者Feigenbaum教授在70年代提出知识工程的定义，确立了知识工程在人工智能中的核心地位。这一时期知识表示方法有新的演进，包括框架和脚本等。80年代后III期出现很多专家系统的开发平台，可以帮助将专家的领域知识转变成计算机可以处理的知识。1990-2000时期：万维网Web1.0在1990年代到2000年，出现了很多人工构建大规模知识库，包括广泛应用的英文WordNet,采用一阶谓词逻辑知识表示的Cyc常识知识库，以及中文的Hownet。Web1.0万维网的产生为人们提供了一个开放平台，使用HTML定义文本的内容，通过超链接把文本连接起来，使得大众可以共享信息。W3C提出的可扩展标记语言XML，实现对互联网文档内容的结构通过定义标签进行标记，为互联网环境下大规模知识表示和共享奠定了基础。这一时期还提出了本体的知识表示方法。2000-2006时期：群体智能Web2.0Web1.0万维网的出现使得知识从封闭知识走向开放知识，从集中知识成为分布知识。原来专家系统是系统内部定义的知识，现在可以实现知识源之间相互链接，可以通过关联来产生更多的知识而非完全由固定人生产。这个过程中出现了群体智能，最典型的代表就是维基百科，实际上是用户去建立知识，体现了互联网大众用户对知识的贡献，成为今天大规模结构化知识图谱的重要基础。也是在2001年，万维网发明人、2016年图灵奖获得者TimBerners-Lee提出语义Web的概念，旨在对互联网内容进行结构化语义表示，并提出互联网上语义标识语言RDF（资源描述框架）和OWL（万维网本体表述语言），利用本体描述互联网内容的语义结构，通过对网页进行语义标识得到网页语义信息，从而获得网页内容的语义信息，使人和机器能够更好地协同工作。2006年至今：知识图谱“知识就是力量”，将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。从2006年开始，大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步，使得大规模知识获取方法取得了巨大进展。与Cyc、WordNet和HowNet等手工研制的知识库和本体的开创性项目不同，这一时期知识获取是自动化的，并且在网络规模下运行。当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产，在大型行业和领域中正在得到广泛使用。典型的例子是谷歌收购Freebase后在2012年推出的知识图谱（KnowledgeGraph），Facebook的图谱搜索，MicrosoftSatori以及商业、金融、生命科学等领域特定的知识库。最具代表性大规模网络知识获取的工作包括DBpedia，Freebase，KnowItAll，WikiTaxonomy和YAGO，以及BabelNet，ConceptNet，DeepDive，NELL，Probase，Wikidata，XLore，Zhishi.me等。这些知识图谱遵循RDF数据模型，包含数以千IV万级或者亿级规模的实体，以及数十亿或百亿事实（即属性值和与其他实体的关系），并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中。现在我们看知识图谱的发展和应用状况，除了通用的大规模知识图谱，各行业也在建立行业和领域的知识图谱，当前知识图谱的应用包括语义搜索、问答系统与聊天、大数据语义分析以及智能知识服务等，在智能客服、商业智能等真实场景体现出广泛的应用价值，而更多知识图谱的创新应用还有待开发。3.知识图谱技术人们通过概念掌握对客观世界的理解，概念是对客观世界事物的抽象，是将人们对世界认知联系在一起的纽带。知识图谱以结构化的形式描述客观世界中概念、实体及其关系。实体是客观世界中的事物，概念是对具有相同属性的事物的概括和抽象。本体是知识图谱的知识表示基础，可以形式化表示为，O={C，H，P，A，I}，C为概念集合，如事物性概念和事件类概念，H是概念的上下位关系集合，也称为Taxonomy知识，P是属性集合，描述概念所具有的特征，A是规则集合，描述领域规则，I是实例集合，用来描述实例-属性-值。Google于2012年提出知识图谱，并在语义搜索中取得成功应用。知识图谱可以看做是本体知识表示的一个大规模应用，Google知识图谱的知识表示结构主要描述客观存在实体和实体的关系，对于每个概念都有确定的描述这个概念的属性集合。知识图谱技术是知识图谱建立和应用的技术，是语义Web、自然语言处理和机器学习等的交叉学科。我们将知识图谱技术分为三个部分:知识图谱构建技术、知识图谱查询和推理技术，以及知识图谱应用。在大数据环境下，从互联网开放环境的大数据中获得知识，用这些知识提供智能服务互联网/行业，同时通过互联网可以获得更多的知识。这是一个迭代的相互增强过程，可以实现从互联网信息服务到智能知识服务的跃迁。3.1知识图谱构建知识表示与建模知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识，特别是常识知识才能实现真正类人的智能。从有人工智能的历史开始，就有了知识表示的研究。知识图谱的知识表示以结构化的形式描述客观世界中概念、实体及其关系，将互联网的信息表达成更接近人类认知世界的形式，为理解互联网内容提供了基础支撑。知识表示学习随着以深度学习为代表的表示学习的发展,面向知识图谱中实体和关系的表示学习也取得了重要的进展。知识表示学习将实体和关系表示为稠密的低维向量,V实现了对实体和关系的分布式表示，可以高效地对实体和关系进行计算,、缓解知识稀疏、有助于实现知识融合，已经成为知识图谱语义链接预测和知识补全的重要方法。由于知识表示学习能够显著提升计算效率，有效缓解数据稀疏，实现异质信息融合，因此对于知识库的构建、推理和应用具有重要意义，值得广受关注、深入研究。实体识别与链接实体是客观世界的事物，是构成知识图谱的基本单位（这里实体指个体或者实例）。实体分为限定类别的实体（如常用的人名、地名、组织机构等）以及开放类别实体（如药物名称、疾病等名称）。实体识别是识别文本中指定类别的实体。实体链接是识别出文本中提及实体的词或者短语（称为实体提及），并与知识库中对应实体进行链接。实体识别与链接是知识图谱构建、知识补全与知识应用的核心技术。实体识别技术可以检测文本中的新实体，并将其加入到现有知识库中。实体链接技术通过发现现有实体在文本中的不同出现，可以针对性的发现关于特定实体的新知识。实体识别与链接的研究将为计算机类人推理和自然语言理解提供知识基础。实体关系学习实体关系描述客观存在的事物之间的关联关系，定义为两个或多个实体之间的某种联系，实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系，也称为关系抽取。实体关系抽取分类预定义关系抽取和开放关系抽取。预定义关系抽取是指系统所抽取的关系是预先定义好的，比如知识图谱中定义好的关系类别，如上下位关系、国家—首都关系等。开放式关系抽取。开放式关系抽取不预先定义抽取的关系类别，由系统自动从文本中发现并抽取关系。实体关系识别是知识图谱自动构建和自然语言理解的基础。事件知识学习事件是促使事物状态和关系改变的条件，是动态的、结构化的知识。目前已存在的知识资源（如谷歌知识图谱）所描述多是实体以及实体之间的关系，缺乏对事件知识的描述。针对不同领域的不同应用，事件有不同的描述范畴。一种将事件定义为发生在某个特定的时间点或时间段、某个特定的地域范围内，由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。一种将事件认为是细化了的主题，是由某些原因、条件引起，发生在特定时间、地点，涉及某些对象，并可能伴随某些必然结果的事情。事件知识学习，即将非结构化文本文本中自然语言所表达的事件以结构化的形式呈现，对于知识表示、理解、计算和应用意义重大。知识图谱中的事件知识隐含互联网资源中，包括已有的结构化的语义知识、VI数据库的结构化信息、半结构化的信息资源以及非结构化资源，不同性质的资源有不同的知识获取方法。3.2知识图谱查询和推理计算知识存储和查询知识图谱以图（Graph）的方式来展现实体、事件及其之间的关系。知识图谱存储和查询研究