2 知识图谱表示与建模

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.1什么是知识表示
● 基于向量的方式表示知识的研究由来已有。 ● 随着表示学习的发展,以及自然语言处理领域词向量等嵌入(Embedding)技术手段的出现, ● 启发了人们用类似于词向量的低维稠密向量的方式表示知识。 ● 通过嵌入将知识图谱中的实体和关系投射到一个低维的连续向量空间, ● 可以为每一个实体和关系学习出一个低维度的向量表示。 ● 这种基于连续向量的知识表示可以实现通过数值运算来发现新事实和新关系, ● 并能更有效发现更多的隐式知识和潜在假设, ● 这些隐式知识通常是人的主观不易于观察和总结出来的。 ● 更为重要的是,知识图谱嵌入也通常作为一种类型的先验知识辅助输入很多深度神经网络模型中,
2.1什么是知识表示
● 无论是语义网络,还是框架语言和产生式规则,都缺少严格的语义理论模型和形式化的语义定义。 为了解决这一问题,人们开始研究具有较好的理论模型基础和算法复杂度的知识表示框架。
● 比较有代表性的是描述逻辑语言(Description Logic)[4]。 ● 描述逻辑是目前大多数本体语言(如OWL)的理论基础。 ● 第一个描述逻辑语言是1985年由RonaldJ.Brachman等提出的KL-ONE[5]。 ● 描述逻辑主要用于刻画概念(Concepts)、属性(Roles)、个体(Individual)、关系
2
● W3C采用了以描述逻辑为逻辑基础的本体语言OWL作为定义Web术语的标准语言。 ● W3C还推出了另外一种用于表示Web本体的语言RDF Schema(简称RDFS)。 ● 目前基于向量的知识表示开始流行,这类表示将知识图谱三元组中的主谓宾表示成数值向量, ● 通过向量的知识表示,可以采用统计或者神经网络的方法进行推理, ● 对知识图谱中的实体直接的关系进行预测。 ● 本章将对知识表示的常见方法进行介绍,并且讨论如何用这些知识表示方法对知识进行建模。
2 知识图谱表示与建模
单击输入您的封面副标题
2
● 知识图谱表示(Knowledge GraphRepresentation)指的是用什么语言对知识图谱进行建模, 从而可以方便知识计算。
● 从图的角度来看,知识图谱是一个语义网络,即一种用互联的节点和弧表示知识的一个结构[1]。 语义网络中的节点可以代表一个概念(concept)、一个属性(attribute)、一个事件(event) 或者一个实体(entity)
2.2.2 霍恩子句和霍恩逻辑
● 霍恩子句(Horn Clause)得名于逻辑学家Alfred Horn[6]。 ● 一个子句是文字的析取。 ● 霍恩子句是带有最多一个肯定(positive)文字的子句,肯定文字指的是没有否定符号的文字。
例如,Øp1∨…∨Øpn∨ q是一个霍恩子句,它可以被等价地写为(p1∧…∧pn)→ q。Alfred Horn于1951年撰文指出这种子句的重要性。 ● 霍恩逻辑(Horn Logic)是一阶逻辑的子集。 ● 基于霍恩逻辑的知识库是一个霍恩规则的集合。 ● 一个霍恩规则由原子公式构成:B1∧…∧ Bn→ H, ● 其中H是头原子公式, B1,…,Bn是体原子公式。 ● 事实是霍恩规则的特例,它们是没有体原子公式且没有变量的霍恩规则。 ● 例如,→图灵奖得主(Tim Berners源自文库Lee)是一个事实,可以简写为图灵奖得主(Tim BernersLee)。
2.2.1 一阶谓词逻辑
● 1.一阶谓词逻辑优点 ● ●结构性。能把事物的属性以及事物间的各种语义联想显式地表示出来。 ● ●严密性。有形式化的语法和语义,以及相关的推理规则。 ● ●可实现性。可以转换为计算机内部形式,以便用算法实现。 ● 2.一阶谓词逻辑缺点 ● ●有限的可用性。一阶逻辑的逻辑归结只是半可判定性的。 ● ●无法表示不确定性知识。
2.2.3 语义网络
● 2.语义网络的缺点 ● 1)无形式化语法。语义网络表示知识的手段多种多样,虽然灵活性很高, ● 但同时也由于表示形式的不一致提高了对其处理的复杂性。 ● 例如,“每个学生都读过一本书”可以表示为多种不同的语义网络, ● 例如图2-2和图2-3中的语义网络。 ● 在图2-2中,GS表示一个概念节点,指的是具有全称量化的一般事件, ● g是一个实例节点,代表GS中的一个具体例子, ● 而s是一个全称变量,是学生这个概念的一个个体, ● r和b都是存在变量,其中r是读这个概念的一个个体,b是书这个概念的一个个体, ● F指g覆盖的子空间及其具体形式,而∀代表全称量词。 ● 而图2-3则把“每个学生都读过一本书”表示成: ● 任何一个学生s1都是属于读过一本书这个概念的元素。
用来约束和监督神经网络的训练过程。 ● 如图2-1所示为基于离散符号的知识表示与基于连续向量的知识表示对比
2.1什么是知识表示
● 综上所述,与传统人工智能相比,知识图谱时代的知识表示方法已经发生了很大的变化。 ● 一方面,现代知识图谱受到规模化扩展的影响, ● 通常采用以三元组为基础的较为简单实用的知识表示方法,并弱化了对强逻辑表示的要求; ● 另一方面,由于知识图谱是很多搜索、问答和大数据分析系统的重要数据基础, ● 基于向量的知识图谱表示使得这些数据更易于和深度学习模型集成, ● 使得基于向量的知识图谱表示越来越受到重视。
2.2.3 语义网络
2.2.3 语义网络
● 2)无形式化语义。 ● 与一阶谓词逻辑相比,语义网络没有公认的形式表示体系。 ● 一个给定的语义网络表达的含义完全依赖处理程序如何对它进行解释。 ● 通过推理网络而实现的推理不能保证其正确性。 ● 此外,目前采用量词(包括全称量词和存在量词)的语义网络表示法在逻辑上是不充分的, ● 不能保证不存在二义性。
组。 ● 由于所有的节点均通过联想弧彼此相连,语义网络可以通过图上的操作进行知识推理。
2.2.3 语义网络
● 1.语义网络的优点 ● 1)联想性。它最初是作为人类联想记忆模型提出来的。 ● 2)易用性。直观地把事物的属性及其语义联系表示出来,便于理解, ● 自然语言与语义网络的转换比较容易实现, ● 故语义网络表示法在自然语言理解系统中的应用最为广泛。 ● 3)结构性。语义网络是一种结构化的知识表示方法, ● 对数据子图特别有效。它能把事物的属性以及事物间的各种语义联想显式地表示出来。
2.2.2 霍恩子句和霍恩逻辑
● 1.霍恩逻辑的优点 ● ●结构性。能把事物的属性以及事物间的各种语义联想显式地表示出来。 ● ●严密性。有形式化的语法和语义,以及相关的推理规则。 ● ●易实现性。可判定,可以转换为计算机内部形式,以便用算法实现。 ● 2.霍恩逻辑的缺点 ● ●有限的表达能力。不能定义类表达式,不能够任意使用量化。 ● ●无法表示不确定性知识。
● 而弧表示节点之间的关系,弧的标签指明了关系的类型。 ● 语义网络中的语义主要体现在图中边的含义。 ● 为了给这些边赋予语义,研究人员提出了术语语言(Terminological Language ), ● 并最终提出了描述逻辑(Description Logic),描述逻辑是一阶谓词逻辑的一个子集, ● 推理复杂度是可判定的。
2.1什么是知识表示
● 语义网的基础数据模型RDF受到了元数据模型、框架系统和面向对象语言等多方面的影响, ● 其最初是为人们在Web上发布结构化数据提供一个标准的数据描述框架。 ● 与此同时,语义网进一步吸收描述逻辑的研究成果,发展出了用OWL系列标准化本体语言。 ● 现代知识图谱如DBpedia、Yago、Freebase、Schema.ORG、Wikidata等 ● 大多以语义网的表达模型为基础进行扩展或删减。 ● 无论是早期专家系统时代的知识表示方法,还是语义网时代的知识表示模型, ● 都属于以符号逻辑为基础的知识表示方法。 ● 符号知识表示的特点是易于刻画显式、离散的知识,因而具有内生的可解释性。 ● 但由于人类知识还包含大量不易于符号化的隐性知识, ● 完全基于符号逻辑的知识表示通常由于知识的不完备而失去鲁棒性, ● 特别是推理很难达到实用。由此催生了采用连续向量的方式来表示知识的研究。
2.1什么是知识表示
● 有关知识表示的研究可以追溯到人工智能的早期研究。 ● 例如,认知科学家M.Ross Quillian和AllanM.Collins提出了语义网络的知识表示方法[2], ● 以网络的方式描述概念之间的语义关系。 ● 典型的语义网络如WordNet属于词典类的知识库, ● 主要定义名词、动词、形容词和副词之间的语义关系。 ● 20世纪70年代,随着专家系统的提出和商业化发展, ● 知识库构建和知识表示更加得到重视。 ● 传统的专家系统通常包含知识库和推理引擎(InferenceEngine)两个核心模块。
2.2.3 语义网络
● 语义网络是由Quillian等人提出用于表达人类的语义知识并且支持推理[3]。 ● 语义网络又称联想网络,它在形式上是一个带标识的有向图。 ● 图中“节点”用以表示各种事物、概念、情况、状态等。 ● 每个节点可以带有若干属性。 ● 节点与节点间的“连接弧”(称为联想弧)用以表示各种语义联系、动作。 ● 语义网络的单元是三元组:(节点1,联想弧,节点2)。 ● 例如(Tim Berners-Lee,类型,图灵奖得主)和(Tim Berners-Lee,发明,互联网)是三元
2.1什么是知识表示
● 20世纪90年代,MIT AI实验室的R.Davis定义了知识表示的五大用途或特点: ● ●客观事物的机器标示(A KR is a Surrogate), ● 即知识表示首先需要定义客观实体的机器指代或指称。 ● ●一组本体约定和概念模型(A KR is a Set ofOntological Commitments), ● 即知识表示还需要定义用于描述客观事物的概念和类别体系。 ● ●支持推理的表示基础(A KR is a Theory ofIntelligent Reasoning), ● 即知识表示还需要提供机器推理的模型与方法。 ● ●用于高效计算的数据结构(A KR is a mediumfor Efficient Computation), ● 即知识表示也是一种用于高效计算的数据结构。 ● ●人可理解的机器语言(A KR is a Medium ofHuman Expression), ● 即知识表示还必须接近于人的认知,是人可理解的机器语言。
(Relationships)、元语(Axioms,即逻辑描述Logic Statement)等知识表达要素。 ● 与传统专家系统的知识表示语言不同, ● 描述逻辑家族更关心知识表示能力和推理计算复杂性之间的关系, ● 并深入研究了各种表达构件的组合带来的查询、分类、一致性检测等推理计算的计算复杂度问题。
2.2 人工智能早期的知识表示方法
● 知识是智能的基础。人类智能往往依赖有意或无意运用已知的知识。 ● 与此类似,人工智能系统需要获取并运用知识。 ● 这里有两个核心问题:
● 怎么表示知识? ● 怎样在计算机中高效地存储与处理知识?本章主要阐述第一个核心问题。
2.2.1 一阶谓词逻辑
● 一阶谓词逻辑(或简称一阶逻辑)(First Order Logic)是公理系统的标准形式逻辑。 ● 不同于命题逻辑(PropositionalLogic), ● 一阶逻辑支持量词(Quantifier)和谓词(Predicate)。 ● 例如,在命题逻辑里,以下两个句子是不相关的命题: ● “John MaCarthy是图灵奖得主”(p)、“TimBerners-Lee是图灵奖得主”(q)。 ● 但是,在一阶逻辑里,可以用谓词和变量表示知识, ● 例如,图灵奖得主(x)表示x是图灵奖得主。 ● 这里,图灵奖得主是一元谓词(Predicate),x是变量(Variable), ● 图灵奖得主(x)是一个原子公式(Atomic Formula)。 ● Ø 图灵奖得主(x)是一个否定公式(Negated Formula)。 ● 在上面的例子中,若x为John MaCarthy,图灵奖得主(x)为第一个命题p。 ● 若x为TimBerners-Lee,图灵奖得主(x)为第二个命题q。
相关文档
最新文档