知识图谱实现大数据应用的智能化

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

融合论坛INTEGRATION FORUM

56软件和集成电路SOFTWARE AND INTEGRATED CIRCUIT

知识图谱

实现大数据应用的智能化

目前,在市场中的知识图谱有很多,这些知识图谱给我们的应用带来大量的数据基础,同时我们利用这些知识图谱的过程,也会给我们带来巨大的价值。市场中对知识图谱的定义有很多,而我们认为知识图谱是A I进步的阶梯。人类的进步其实也是知识的积累过程,而知识图谱也需要通过神经网络技术,让机器自动学习,但是只建立知识图谱的自动学习还远远不够。我们发现在无监督的情况下,知识图谱的自动学习有可能会出现学习错误的情况。所以我们建立了有监督的知识图谱器学习,并添加固定模型专家系统,形成人与机器相互合作的闭环状态。提到知识图谱就不得不提知识体系,而知识体系的搭建需要从知识获取开始,然后过渡到知识图谱的建设。在建设知识图谱体系之初,需要工具对它进行编辑,但是依靠工具无法完成知识图谱的建设,还需要提出一个动态体系理念。对于动态本体而言,我们需要找到两个部分。第一,属性。第二,关系。通过属性和关系来产生知识,这是我们建立知识图谱的主要流程。

拓尔思在建立知识图谱体系的过程中,也遵循了这一路线,先从知识获取开始。同时我

们开发了自己的产品,包括内容抽取、E TL等,并且我们知识图谱中添加了知识理解,包括自然语言处理、自动抽取、自动分类、自动聚类等,同时建立关联图谱。

那么知识图谱系统应当如何构建?我们构建系统的过程中,采用多层结构的方法,包括

—北京拓尔思信息技术股份有限公司

副总裁刘瑞宝

知识图谱给我们的应用带来

大量的数据基础,同时我们利

用这些知识图谱的过程,也会

给我们带来巨大的价值。

主题演讲

各种数据来源,在体系中进行融合和整合,最终形成数据中心和知识中心,我们通过数据中心和知识中心进行图谱的应用。同时,我们依靠多年的经验积累建立了一整套体系。比如我们针对知识图谱系统的构建,应用了NLB和自然语言处理等技术。在案件侦破方面,机器可以自动对案件笔录进行知识抽取,并抽取案件发生的时间、地点、人物、作案手段等信息。然后机器会自动定位地址信息,再通过机器学习的方式将案件类型和级别进行分类。

什么是开源情报?在互联网中有很多信息是公开的,而这些公开的信息就可以作为我们的情报,所以我们可以针对这些情报,将它们转变成知识,最后我们会建立图谱。我们开发了知识图谱的工具—水晶球。该工具可完成从知识到图谱的建立过程。比如水晶球可随时进行知识拖动、知识抽取、知识感知、知识统计、知识分析以及建立时间轴等。该工具可以使我们建立知识图谱的流程变得更加便利,在建立知识图谱过程中它可以将知识合并和融合形成新的知识。

那么是否可以将所有信息放在图谱中?其实并没有必要。我们在管理知识图谱时,第一需要建立汇聚库。在汇聚库中存储了大量数据,我们并不是把大量数据直接存储在知识图谱中。第二我们在中间环节建立了动态体本建模系统。在该系统中我们可以进行建模,在建模后我们将有价值的数据,导入到知识图谱系统中最终形成闭环。比如知识图谱一定以目标为中心,然后将数据进行加工,并建立数据之间的关系,后通过水晶球对目标进行分析。除此之外,我们针对社交软件也建立了图谱,该图谱可以分析社交软件中人与人之间的关系和关键点,最终形成情报。

比如在媒体领域,各种信息都是以文本的方式构成,我们可对文本信息进行抽取,最后

将时间点和关键的信息形成图谱。同时我们针

对金融企业,开发了自动关联和自动分类系统,

我们可以通过机器学习技术,来抽取该行业的

知识点,并建立企业与企业之间的关系,最后

将金融企业进行分类,并将该项应用作用到打

击金融犯罪等领域。

此外,我们也开发了专业的智能审查系统,

众所周知专利是以文本的方式构成的,但是文

本中的知识较为分散。我们可以把文本、图像

抽取出来,之后按照专利的需求进行自动分析,

形成专利的自动审查。在知识点关联方面,我

们开发了知识图谱问答系统,来完善如税务、银

行等专业领域系统内部的知识汇聚和统计。

同时我们也开发了中医知识挖掘系统,在

中医的文本中,很多散落的文本对于计算机而

言很难理解。所以我们把中医所有文本让计算

机进行分析,让计算机寻找出病理与症状之间

的关系,同时寻找出治疗某种病理所需要的药

物和药方,最后分析出药物之间的相通性。而且

我们还开发了网络态势感知,可以针对网络中

的信息种类、来源和访问进行分析。

介绍一下水晶球的使用方法。当我们得到

一份邮件时,便可以交给水晶球。水晶球可以

识别出发件人与收件人之间的关系,并可以显示

出某一个人的属性,以及邮件中的知识点,来分

析知识与知识之间的联系,最后将其他行业的

相关数据全部关联起来,形成数据融合。通过

这项操作,我们便可以追踪某个人的活动情况

与活动范围,并建立该人物的时间轴,同时我

们可依靠邮件来发现所追踪的对象与其他人的

关系,然后寻找出人与人之间的共同点包括时

间、地点、属性等,最终形成知识图谱,可随时

进行点击查看。

(根据演讲内容整理,未经本人审核)

57

2018年第8期

相关文档
最新文档