张坤索引排序检索自然语言文本表示索引自然语言查询排序网页结果检索自然语言文本表示自然语言查询丰富展现查询翻译结果翻译推理预测统计推荐复杂查询信息翻译知识库半结构化信息抽取半结构化数据结构化数据文本数据实体对齐推理补充数据异构数据整合重要度计算实体抽取属性抽取属性值决策关系建立知立方数据本体生成系统索引生成检索系统实体识别本体库Pattern挖掘标签消岐SPARQL查询语句排序推理推荐统计Query展现检索系统索引生成•本体构建–各类型实体挖掘、属性名称挖掘–编辑系统•实例构建–纯文本属性、实体抽取–半结构化数据抽取•异构数据整合–实体对齐、属性值决策、关系建立•实体重要度计算•推理完善数据Wolframalpha•计算知识引擎,而不是搜索引擎•10万亿条的信息Freebase•6800万实体•10亿的关系DBpedia•Wikipedia结构化•364万个条目(本体)Yago•6.4亿条数据半结构化网页属性名计算和聚类属性+属性值(候选)实体+属性查询日志刘德华年龄张学友年龄($人)年龄查询日志分析1314数据管理和自动抽样系统网页库可视化UI系统模板库模板监控系统结构化数据抓取器步步惊心新西游记电视剧主题曲插曲片尾曲歌曲歌手张艺谋Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)•属性值的决策:•关系建立与补齐链接提取统计链接数,计算链接重要性类型验证,关联已有实体出生日期身高•实体搜索李娜实体名称知立方实体库按重要度排序0.90.80.70.61,初始化:根据实体的属性及实体间关系初始化实体的重要度2,迭代:重要度在实体关系图中传递Entity-rankvsPage-rank•从原始三元组数据,推理生成新的数据,建立更多的实体间的链接关系,增加知识图的边的密度,例如:tripleentityid=“1”name=“莫言”/entityproperty![CDATA[作品]]/propertyentityid=“2”name=“红高粱家族”/entity/tripletripleentityid=“3”name=“生死疲劳”/entityproperty![CDATA[作者]]/propertyentityid=“1”name=“莫言”/entity/tripletripleentityid=“4”name=“白棉花”/entityproperty![CDATA[作者]]/propertyentityid=“1”name=“莫言”/entity/triple•••莫言的作品:红高粱家族生死疲劳白棉花推理作者=作品•人物关系•配偶+男性=丈夫,配偶+女性=妻子;•电影演员•电影的主演=演员出演了这部电影半结构化信息抽取半结构化数据结构化数据文本数据实体对齐推理补充数据异构数据整合重要度计算实体抽取属性抽取属性值决策关系建立知立方数据本体生成系统索引生成检索系统实体识别本体库Pattern挖掘标签消岐SPARQL查询语句排序推理推荐统计Query展现检索系统索引生成用户输入查询词预处理语义分析查询语句生成查询纠错分词基于CFG的句法分析基于词典和CRF的分词和实体识别基于模式挖掘的属性识别基于模版匹配的SPARQL生成基于需求重要度的SPARQL排序知识库通用词典属性模式实体别名基于规则的挖掘策略网页对齐百科Sogou点击日志知识库实体实体别名自然语言查询基于字典的序列标注模型CRF实体标记实体归一美国罗恩尼女抢匪美国LOC罗恩尼PERSON女抢匪MOVIE美国LOC乔阿吉姆·罗恩尼PERSON侠盗魅影MOVIE互联网问题答案库知识库打上标记后的问题答案属性的表达模式去噪频繁模式挖掘标记实体和属性值1.无间道谁演的?刘德华2.谁是无间道的主演?刘德华3.让子弹飞谁演的?葛优无间道E主演P刘德华V让子弹飞E主演P葛优V主演的Pattern1.MOVIE谁演的2.谁是MOVIE的主演1.MOVIE谁演的?PERSON2.谁是MOVIE的主演?PERSON3.MOVIE谁演的?PERSONLDA半结构化信息抽取半结构化数据结构化数据文本数据实体对齐推理补充数据异构数据整合重要度计算实体抽取属性抽取属性值决策关系建立知立方数据本体生成系统索引生成检索系统实体识别本体库Pattern挖掘标签消岐SPARQL查询语句排序推理推荐统计Query展现检索系统索引生成SPARQL解析正排索引推理展现层倒排索引SPARQL支持按属性筛选索引层检索层计算层推荐预测统计排序本体知立方数据图检索系统半结构化信息抽取半结构化数据结构化数据文本数据实体对齐推理补充数据异构数据整合重要度计算实体抽取属性抽取属性值决策关系建立知立方数据本体生成系统索引生成检索系统实体识别本体库Pattern挖掘标签消岐SPARQL查询语句排序推理推荐统计Query展现检索系统索引生成•提供知识库信息的展示载体–将知识库中的信息转化为用户可消费的内容•提供更加丰富的富文本信息–提供文本之外的图片、列表、动画等更加丰富的展现形式•提供更友好的用户交互体验–更多的交互元素,如图片浏览,点击试听等–能够引导用户在更短的时间获取更多的信息谢谢!Email:zhangkun@sogou-inc.com