基于多数据源融合的医疗知识图谱框架构建研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于多数据源融合的医疗知识图谱框架构建研究
作者:庞震刘剑
来源:《科学与信息化》2019年第35期
摘要随着科学技术的发展,我国逐渐进入到大数据时代,基于数据驱动的医疗辅助决策以及医疗健康知识挖掘受到人们的极大关注。医疗知识图谱是医疗信息分析和知识服务的基础,在医疗人工智能和医疗信息检索中发挥着重要作用。本文以医疗领域的实际应用需求为出发点,提出了多数据源融合的医疗知识图谱构建的理论框架。
关键词医疗知识图谱;多源数据融合;实体识别;实体链接;实体关系
引言
近年来,随着计算机科学与互联网技术的飞速发展,人们的生活方式发生了巨大的改变。电子商务以及移动互联网技术的风起云涌,使得人们平时并不在意的一些生活数据正在以洪水之势从互联网的四面八方向各大网站及数据中心汇集,引发了数据规模的爆炸式增长。受复杂网络系统和社会网络分析的引入以及信息可视化技术的突破发展,基因图谱、GIS和超文本的可视化影响,知识图谱被正式提出。
1 知识图谱概念
知识图谱是语义网络的一种表现形式,语义网络是指由数据构成的网络,是以信息为节点、关系为边的有向图,核心思想是可视化地展现结构化的信息和信息之间的逻辑关系。谷歌高级副总裁艾米特·辛格博士提出,“构成这个世界的是实体,而非字符串”。因此知识图谱在此基础上以现实世界中的“实体”为节点,以实体之间的关系为边,将现实世界不同种类的信息以关系的形式结合在一起。通过知识图谱,可以获取知识和知识之间的逻辑关系,将抽象的知识可视化地展现出来,以及得到每一知识点全面的结构化信息[1]。
2 知识图谱的构建方法
2.1 多数据源融合的医疗知识图谱构建思路
融合多源数据的医疗知识图谱首先通过各个渠道获取医疗文本大数据,然后对各类数据采用XML 统一格式、进行数据清洗、分词和詞性标注,接着采用机器学习方法进行医疗实体识别及实体关系标注;然后以疾病为中心,挖掘其他实体与疾病之间的关系,并利用 RDF 和Neo4j 进行存储和呈现;针对不断增长的各类医疗大数据和实际应用需要,可以利用 Spark 技术
生成动态医疗知识图谱,最后在医疗知识图谱基础上,为临床辅助诊断决策和医疗健康问答系统提供医疗知识来源。
2.2 基于外部知识库的知识图谱构建方法
基于外部知识库的知识图谱构建方法,主要是以在线百科类网站的数据为研究数据的主要来源。这些数据包含大量高质量的常识性知识,更新速度慢,并且具有一定的格式。以互动百科为例,通过摘要抽取各种相关实体,通过目录模块内子目录对应的内锚链接获得各种相关实体概念的上下位关系;通过开放分类抽取实体所对应的类别;通过信息模块抽取实体所对应的属性-值对和实体-关系对。通过类似互动百科中信息模块抽取实体属性-值和实体-关系对时,常用的一种重要方法是 AVP 知识抽取(Attribute-value PairsMining)。类似地可以从其他的多个在线百科知识网站抽取数据,来弥补单个百科知识网站上抽取知识不足的情况。百科类知识网站除了以上提及的中文在线百科互动百科之外,还有与互动百科并肩的百度百科,包含多种语言的全球在线百科维基百科。Freebase 是另外一个重要的百科知识源,它包 3900 万多个实体和 18 亿条事实,占据着谷歌知识图谱数据来源的半壁江,规模上远胜于维基百科[2]。
2.3 医学知识融合
由于医学数据库中的知识来源复杂,存在知识质量良莠不齐、不同数据源知识重复、知识间关联关系模糊等问题,所以必须将来自不同数据源的多源异构、语义多样、动态演化的医学知识在同一框架规范下进行异构数据的整合、消歧、加工、推理验证、更新等,对知识进行正确性判断,去粗取精,达到数据、信息、方法、经验与人思想的融合,将验证正确的知识通过对齐关联、合并计算有机地组织成知识库.通过知识融合的定义可以看出,知识融合建立在知识抽取的基础上。如何消除知识理解中的不确定性,发现知识的真值,并将正确的知识更新扩充到知识库中是知识融合研究中关注的重点。
2.4 中文医疗知识图谱表示及存储
知识图谱表示和存储是将医疗实体以及实体关系按照一定规范存储,为后续的医疗知识分析和知识服务做好准备。目前较为广泛的数据描述模型有RDF以及最近兴起的图数据库两种存储方案。在医疗知识图谱存储时,可以基于RDF语法,构建以疾病为中心,其他四类为属性的疾病——属性——关系三元组,以此存储实体识别及实体间关系。每一个实体都有一个URL(Uniform Resource Locator,统一资源定位符)与之对应,通过URL就能跳转到相应的实体,实现实体数据间的链接。
3 知识图谱在医疗领域的应用
近年来,医疗卫生信息平台、医疗设备在医疗卫生机构迅速普及开来,同时产生了大量的医疗数据。如何利用这些海量的医疗信息资源更好地为人们服务,已成为人们所关注的热点问
题。知识图谱技术给解决这个问题,提供了一个新的技术手段。知识图谱能够解决医疗大数据中的知识分散、异构、冗余和碎片化的问题,提供有效的整合和组织医疗知识的途径。在医疗领域的知识图谱应用在目前取得的成果可以应用到其他领域中,例如,利用知识图谱识别互联网金融的欺诈行为;知识图谱与商业大数据分析结合,可以有效提取商业领域的知识单元,提供辅助情报分析;知识图谱与搜索引擎和智能问答的结合更加可以给我们的生活带来纯净的信息环境[3]。
4 结束语
综上所述,在医疗领域中,随着医学信息化水平的逐步深入,积累了大量医学数据,医疗数据的有效使用对精准医疗、疾病防控、研发新药、医疗费用控制、攻克顽疾、健康管理等工作都有着重要的意义。构建医疗领域的知识图谱提供了一种从海量医学文本和图像中抽取结构化知识的手段,具有广阔的应用前景。
参考文献
[1] 徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016,(4):589-606.
[2] 刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,(3):582-600.
[3] 袁旭萍.基于深度学习的商业领域知识图谱构建[D].上海:华东师范大学,2015.
作者简介
庞震(1985-),男,籍贯:北京;工程师,现就职单位:中国中医科学院西苑医院,研究方向:医疗信息系统项目管理。