知识图谱系列(一)十分钟入门知识图谱

网友投稿 1437 2022-05-29

一、知识图谱的定义

人们通过概念掌握对客观世界的理解,概念是对客观世界事物的抽象,是将人们对世界认知联系在一起的纽带。知识图谱以结构化的形式描述客观世界中概念、实体及其关系。实体是客观世界中的事物,概念是对具有相同属性的事物的概括和抽象。本体是知识图谱的知识表示基础,可以形式化表示为,O={C,H,P,A,I},C 为概念集合,如事物性概念和事件类概念,H 是概念的上下位关系集合,也称为 Taxonomy 知识,P 是属性集合,描述概念所具有的特征,A 是规则集合,描述领域规则,I 是实例集合,用来描述实例-属性-值。知识图谱可以看作是本体知识表示的一个大规模应用,知识图谱的知识表示结构主要描述客观存在实体和实体的关系,对于每个概念都有确定的描述这个概念的属性集合。

下图是一个知识图谱示例,节点代表了实体(概念),边代表了实体之间的关系。

实体:对应现实世界的语义本体

关系:对应本体间的关系,连接了不同类型的实体

属性:描述一类实体的 common 特性,实体被属性所标注

二、知识图谱的起源和发展趋势

知识图谱得益于Web的发展(更多的是数据层面),有着来源于知识表示(Knowledge Representation,KR)、自然语言处理(Natural Language Processing,NLP)、Web、AI多个方面的基因。Web1.0万维网的产生为人们提供了一个开放平台,使用 HTML 定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。W3C 提出的可扩展标记语言 XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。 当前知识图谱发展还处于初级阶段,面临众多挑战和难题,如:知识库的自动扩展、异构知识处理、推理规则学习、跨语言检索等。

三、知识图谱的作用与应用

刻画事物关系、沉淀领域知识

知识图谱旨在利用图结构建模、识别和推断事物之间的复杂关联关系和沉淀领域知识,是实现认知智能的重要基石,已经被广泛应用于搜索引擎、智能问答、语言语义理解、大数据决策分析、智能物联等众多领域。

四、大型知识图谱

最具代表性大规模网络知识获取的工作包括 DBpedia,Freebase,KnowItAll,WikiTaxonomy 和 YAGO,以及 BabelNet,ConceptNet,DeepDive,  NELL,Probase,Wikidata,XLore,Zhishi.me  等。这些知识图谱遵循 RDF 数据模型,包含数以千 III 万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中。除了通用的大规模知识图谱,各行业也在建立行业和领域的知识图谱。

大规模的中文百科知识图谱:

Zhishi.me:Zhishi.me是由三大中文在线百科全书:百度百科全书(https://baike.baidu.com)、互动百科全书(http://www.baike.com)和中文维基百科(https://zh.wikipedia.org)组成的第一个中文百科全书知识图谱谱。它采用与DBpedia类似的方法,从这三种在线百科全书中提取结构化知识,并通过固定的规则将它们之间的等价实体链接起来,从而构建一个大规模的中文通用知识图谱谱。它现在包含超过1000万个实体和1.25亿个三元组。

CN-DBpedia: CN-DBpedia是继Zhishi.me之后的中文知识图谱的又一个里程碑。类似于Zhishi.me, CN-DBpedia也是一个大型的中文百科知识图谱,它使用Zhishi.me的相同数据源。不同于Zhishi.me (CN-DBpedia)的是它不仅从中文三大在线百科全书中提取结构化知识,而且对提取的知识进行整合、补充和纠正,极大地提高了知识图谱谱的质量。此外,CN-DBpedia也是一个不断更新的知识图谱。在CN-DBpedia中有940万个实体和8000万个三元组。

PKU-PIE:是由北京大学构建的中文百科全书知识图谱。它从维基百科、DBpedia、百度百科等多种来源中提取知识。并将其与定义的再分配系统和类别结合在一起。PKU-PIE的开发人员不发表任何论文或技术报告,因此我们无法了解构建此知识图谱的技术细节。PKU-PIE现在包含约900万个实体和4000万个三元组。

XLORE: 大多数中文知识图谱,如Zhishi.me、CN-DBpedia和PKU-PIE,都不考虑中文知识图谱与其他语言知识图谱之间的跨语言知识共享。清华大学构建的大规模英汉双语知识图谱XLORE是解决这一问题的一项重要工作。它是通过分别从中英在线百科全书中提取半结构化数据,挖掘中英实体之间的等价关系来构建的。XLORE包含1000多万个双语实体。

Belief Engine:Belief Engine也是一个由百度百科、互动百科和维基百科构建的英汉双语知识图谱。与Xlore不同,Belief Engine仅从这三个在线百科全书中提取陈述性知识,并通过概念化陈述性知识来进一步产生概念级的常识。每个常识将在这个过程中得到一个置信值。Belief Engine包含大约5000万个三元组,并且没有任何介绍其构建细节的论文。

知识图谱系列(一)十分钟入门知识图谱

知识图谱

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:利用flasgger生成FlaskAPI文档
下一篇:使用 Pycco 生成代码文档
相关文章