基于医学领域的知识图谱
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于医学领域的知识图谱
作者:帕尔哈提·吐尼牙孜
来源:《电脑知识与技术》2020年第08期
摘要:随着科学技术的快速发展,知识图谱的构建也受到了越来越人的重视,并为广泛应用到了各行各业,取得了非常优异的成果。然而,通过对实际情况进行分析可以发现,知识图谱在医学领域方面的应用却还存在着像是拓展性差、限制多以及效率多等问题,对其作用发挥造成了非常大的消极影响。在这种背景下,要想将知识图谱的作用更大程度地发挥出来,为医学事业的发展提供更有力的支持和保障,相关人员必须要跟上时代发展的脚步,采用自上而下的方式展开对相关技术的全面解析,这样才可以构建出一个更为科学合理的医学领域知识图谱,为相关工作的顺利展开提供更有力的支持和保障。鉴于这种情况,该文首先详细分析了医学知识图谱构建的方法,最后以此为基础提出了几点有效应用医学知识图谱的策略。
关键词:医学领域;知识图谱;构建技术
中图分类号:TP399 文献标识码:A
文章编号:1009-3044(2020)08-0201-03
自从2012年知识图谱被提出以后开始就获得了突飞猛进的发展,并被广泛应用到了各个领域当中,取得了非常优异的成果。但是,到现在为止,知识图谱在医学领域当中应用却还有一定问题存在。并且随着信息技术的快速发展,各种和医学相关的网络非结构化数据更是正在以指数级的速度快速增加,这里面更是包涵了非常多还没有被挖掘出来的医学方面知识。在当前这个新的发展时代,通过人工智能技术的有效利用以及借鉴专家经验进行知识图谱构建,可以将医学实体之间存在的潜在联系更为充分的挖掘出来,切实做好数据反哺工作,为临床决策以及循证医学的进一步发展和医患人员工作效率提高起到更大的推动作用。所以,本文展开基于医学领域的知识图谱探究有着重要的现实意义。
1 医学知识图谱构建的方法
1.1医学知识表示
所谓知识表示实际上指的就是相关人员为了对世界进行描述所做出的约定,属于一个推动知识模式化、形式化以及符号化发展的重要过程。其表示方式会对系统的知识获得、储存以及运用效率都造成非常大的影响[1]。但是,医学数据拥有储存方式不同、电子病历标准和格式不同、会频繁遇到交叉领域以及种类繁杂等特征,造成了其和其余领域的知识表示出现了比较大的差异,给知识表示工作的顺利展开带去了非常大的挑战。在早期阶段,在进行医学知识图谱构建的时候,常用的知识表示方法主要有框架表示法、语义网表示法、产生式表示法以及谓
词逻辑表示法等几种。但是,随着时代的快速发展[2],知识图谱中所蕴含的知识量也越来越庞大,关系相对来讲也更加复杂,这也就造成了其表示能力极度缺少灵活性,并且能力非常有限,只能用作医学知识的补充和辅助,并不属于最主要的知识表示方法。同时,知识图谱所蕴含的节点数量情况更是对推理工作的难度效率以及网络结构复杂程度都有着非常密切的联系[3]。通过机器的有效利用进行知表示学习不仅仅可以使数据稀疏问题得到有效解决,提高推理性能以及知识融合度,更好地完成人脑模仿,从更多的维度完成对象语义信息的展示。除此之外,知识表示学习中的代表模型主要有隐变量模型[4]、单层神经网络模型以及结构表示法等几种。这些模型充分考虑到了实体之间的计算开销以及协同性,并且可以使用向量对实体进行表示,而且还可以完成实体关系以及向量矩阵变换的有效表示,得出实体之间所存在的相关性口],从而为后续的推理以及知识补全提供更有力的支持和保障。
1.2医学知识抽取
所谓医学知识图谱构建实际上指的就是通过人工或者自动等方式在非结构化数据当中进行实体、关系以及属性的提取。其中,人工提取指的就是相关工作人员以相关规则为依据进行信息知识的提取[6],现在常见的以人工方式构建的医学知识库主要包涵了临床医学知识库以及ICD-10等几种。而自动提取指的则是相关工作人员通过机器、数据挖掘以及人工智能等技术展开信息抽取,并在数据源里面完成知识图谱所具备基础组成元素的自动提取以及医学知识库的自动构建,最典型的例子就是UMLS这个一体化的医学语言系统。和自动提取相比,人工提取需要花费更多的时间、成本以及精力[7]。所以,自动提取已经成了人们展开研究的重点方向。也正是因为如此,相关工作人员应该从实体、关系以及属性等多个方面展开数据的自动抽取,这样才可以更加高效地完成医学知识抽取工作,为医学知识图谱的构建夯实根基。
1.3医学知识融合
知识融合属于层次非常高的知识组织,可以把来源不同的知识放在相同框架规范当中完成数据的整合、消歧、更新、加工以及推理验证等工作。推动医学知识融合的主要目标就是有效解决知识复用所存在的问题,以此来提高知识库内部当中所存在的表达能力以及逻辑性。同时,根据知识图谱里面知识对象的粒度不同,知识融合可以分成知识库融合以及实体对齐等两种[8];首先,在医疗知识图谱当中,知识来源非常多样化,这也就造成了知识出现了关联模糊、质量参差不齐以及重复等问题。并且在不同数据源里面医学实体更是有着极为恶劣的多元指代问题存在。现在当今世界常用的对齐算法主要有成对以及实体两种。其中前者考虑的只有实例及其属性的相似度[9],虽然拥有比较客观的运行速度以及召回率,但是精确度却相对较差。而后者则可以利用不同的匹配决策对实体相似度进行调整,更加符合大规模知识库的实际需要。然而,要想将其作用充分发挥出来,必须要展开人工干预[10];其次,在推动知識库融合的过程中。由于实际需要以及设计理念有区别存在,这也就造成了知识库里面的数据有异构性以及多样性存在。同时,又因为医疗知识非常庞杂[11],绝大多数的知识库都是以某类疾病、
药物以及科室进行构建的,需要进行不断地更新优化,并以此为基础推动知识图谱的不断更新迭代。
1.4 医学知识推理
推理实际上指的就是从现有知识当中进行隐含信息的深入挖掘。而知识推理实际上更为重视知识方法的运用以及选择[12],应该尽可能降低人工参与的频率,并完成缺失事实的准确推出,提升问题解决质量[13]。特别是在进行医学知识图谱构建的时候,通过知识推理的有效利用可以帮助医生更好地完成病患数据收集、分析以及总结工作,完成医疗差错率的准确控制。但是,即便是同一种疾病,医生也需要按照病人的实际情况做出存在差异的判断[14],这也就代表了医学知识图谱必须要完成大量重复矛盾信息的有效处理[15],极大地提高医学推理构建模型的复杂性。然而,通过传统方法却没有办法有效完成推理工作,而利用基于图的推理方法则可以切实解决这些问题,为医学知识图谱的构建起到更大的推动作用。所以,相关人员必须要提升对医学知识推理的重视,采用更新更为多样化的方法展开工作。
1.5质量评估
数据质量对其运用有着决定性影响。所以,质量评估更是提升数据准确性的最主要方法,完成数据质量的有效量化,完成可信度更高数据的筛选。也正是因为如此,相关工作人员必须要明确认识到质量评估对医学知识图谱构建的重要影响,并清楚了解现在所用方法存在的缺陷和不足,综合利用更加符合实际需要的方法展开质量评估,这样才可以为知识图谱的构建贡献更大的力量。
2 医学知识图谱的实际应用探究
2.1 医疗信息搜索引擎
过去我国常用的医疗搜索引擎需要展开对高达上百亿的医疗相关网页展开检索、储存以及处理工作。然而,其却没有办法完成用户语义的有效查询。而以医学知识图谱为依据展开搜索工作[16],不单单需要为用户提供网页间的超链接文档关系,还需要推动类型不同实体间语义关系变得更加丰富。同时,应用知识图谱对医疗信息搜索引擎进行优化还可以有效提高查询扩展质量,为用户的查询理解工作提供更有力的支持和保障。除此之外,随着时代的快速发展,以医学知识图谱为核心的搜索引擎已经成为当今世界最主要的医学搜索引擎,其技术框架也在不断改进,并逐渐变得更加完善[17]。现在影响医疗搜索引擎质量的主要问题就是医学知识图谱当中的质量以及数量,只有构建更为健全完善的医学知识图谱才可以为医疗信息搜索引擎的发展以及作用发挥做出更大的贡献。
2.2 医疗问答系统