第13章++知识图谱与知识推理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第13章知识图谱与知识推理

王泉

中国科学院大学网络空间安全学院

2016年11月

•13.1概述

•13.2知识图谱构建

•13.3 知识图谱中的知识推理–13.3.1 表示学习技术

–13.3.2 张量分解技术

–13.3.3 路经排序算法•13.4 本章小结

•13.1概述

•13.2知识图谱构建

•13.3 知识图谱中的知识推理–13.3.1 表示学习技术

–13.3.2 张量分解技术

–13.3.3 路经排序算法•13.4 本章小结

实体和关系

•实体 (entity):现实世界中可区分、可识别的事物或概念–客观对象:人物、地点、机构

–抽象事件:电影、奖项、赛事

•关系 (relation):实体和实体之间的语义关联

–BornInCity, IsParentOf, AthletePlaysForTeam

•知识图谱 (knowledge graph):实体和关系所构成的异质、有向图,是表征实体间语义关联的语义网络

−节点代表实体

−边代表不同类型的关系 (异质) −两个节点之间有边相连表明它们之间存在相应关系 −边是有向的表明关系是非对称的

•三元组 (triple/triplet):也称事实 (fact),是最基本的知识存储方式,表现为(主语, 谓词, 宾语)形式

(Tom, BornInCity, Paris)

(Tom, LivedInCity, Lyon)

(Tom, Nationality, France) (Tom, ClassMates, Bob)

(Paris, CityLocatedInCountry, France) (Lyon, CityLocatedInCountry, France) (Bob, BornInCity, Paris)

•三元组 (triple/triplet):也称事实 (fact),是最基本的知识存储方式,表现为(主语, 谓词, 宾语)形式

BornInCity(Tom,Paris) LivedInCity(Tom,Lyon) Nationality(Tom,France) ClassMates(Tom,Bob) CityLocatedInCountry(Paris,France) CityLocatedInCountry(Lyon,France) BornInCity(Bob,Paris)

谓词逻辑/一阶逻辑表达式

•模式 (schema):除三元组以外的高级知识形式–实体语义类别间的从属关系

•(Athlete, SubclassOf, Person)

•(City, SubclassOf, Location)

•(Country, SubclassOf, Location)

–关系的定义域(domain)和值域(range)

•(AthletePlaysForTeam, Domain, Athlete)

•(AthletePlaysForTeam, Range, SportTeam)

•(CityLocatedInCountry, Domain, City)

•(CityLocatedInCountry, Range, Country)

•知识图谱的作用

–知识图谱能够提供海量、有组织的知识体系,使机器语言认知、概念认知成为可能,进而为自然语言处理和理解相关任务提供技术支撑

–知识图谱为海量无结构数据提供了结构化的存储方式,方便计算机储存和管理信息

–知识图谱还能借助其图结构和海量知识,帮助学习和发现事物之间的关联规律,理解事物全貌

•研究现状及应用前景

国际Read the Web

Research Project at Carnegie Mellon University

中国教育合作项目

Representing and Reasoning Knowledge

目录

•13.1概述

•13.2知识图谱构建

•13.3 知识图谱中的知识推理–13.3.1 表示学习技术

–13.3.2 张量分解技术

–13.3.3 路经排序算法•13.4 本章小结

知识图谱构建

•几种主流构建方式

NELL

专家人工创建

•典型代表:WordNet [Miller, 1995]

•方法优点

–知识的准确性高

–知识的完备性高,较少出现知识缺失问题•方法缺点

–人力和时间成本极高

–知识的覆盖面有限,知识图谱的规模有限

–知识的实时更新较难,滞后性严重

大众协作编辑创建

•典型代表:Freebase [Bollacker et al., 2008], Wikidata •方法优点

–知识的准确性较高

–知识的覆盖面广,知识图谱的规模大

•方法缺点

–人力和时间成本较高

–知识的完备性较差,知识缺失现象较为普遍

–知识的实时更新较难,滞后性严重

基于信息抽取自动创建

•典型代表:NELL [Carlson et al., 2010], YAGO [Suchanek et al., 2007] –指定关系类型,通过人工标注的种子知识,自动实现关系抽取•方法优点

–人力和时间成本较低

–知识的覆盖面广,知识图谱的规模大

–知识的实时更新较为容易

•方法缺点

–依赖众多NLP任务,错误累积问题严重,知识准确性较低

–知识的完备性较差,知识缺失现象较为普遍

相关文档
最新文档