深度学习基础上的中医实体抽取方法研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

深度学习基础上的中医实体抽取方法研究张艺品关贝吕荫润王耕

!1中国科学院软件研究所协同创新中R北京100190)

(2中国科学院大学北京100049)(1中国科学院软件研究所协同创新中R北京100190)

(2中国科学院大学北京100049)

(3中国科学院软件研究所计算机科学国家旺实验室北京100190)

吴炳潮王永吉

(1中国科学院软件研究所协同创新中R北京100190)

(2中国科学院大学北京100049)(1中国科学院软件研究所协同创新中R北京100190)

(2中国科学院大学北京100049)

(3中国科学院软件研究所计算机科学国家重点实验室北京100190)

毕诗旋

!北京工业大学北京100190)

〔摘要〕介绍命名实体识别及模型应用研究情况,以中医典籍作为数据源,采用深度学习方法,进行中医

疾病、方剂、中草药等实体抽取,设计BiCSTM-CRF序列标注模型,构建中医典籍实验语料进行实验,结果表明该模型算法具有高度准确性$

〔关键词〕知识图谱;实体抽取;中医;深度学习

〔中图分类号〕R-056〔文献标识码〕A〔DOI〕10.3969/j.issn.1673-6036.2019.02.012

Strdy on the Entity Extraction Method of Traditional Chinest Meeicine on the Basis of Deep Learning ZHANG Yipim,1X-Lab Instituth cf Scfhars Chinese Academy f Sciencn,Beijing100190,China$2Uni/ve%ih f Chinese Academy f Sciences,Beijing100049$ GUANBe%LV Yinrun,WANG Chong,1X-Lab,Instituth of Sofha%,Chinese Accdemy of Sciences,Beijing100190$2Universith of Chinese Academy f Sciences,Beijing100049$3Stah Key Laborator%f Computer Sciencc,Instituth f Sfha%,Chinese Academy f Sci­ences,Beijing100190,China$WU Bingchaf,1X-Lab,Insthuh f Sofha%,Chinese Accdemy f Sciences,Beijing100190$ 2Universith of Chinese Academy f Sciencee,Beijing100049,China$WANG Yongji,1X-Lab,Uh f Sftha%,Chinese Academy

〔修回日期〕2018-09-28

〔作者简介〕张艺品,硕士研究生;通讯作者:关贝,助理研究员%

〔基金项目〕科技部国家重点研发计划重点专项(项目编号:2017YFB1002300)$大数据驱动的中医智能辅助诊断服务系统课题一“多模态异构中医药大数据高效获取与资源库建设”(项目编号:2017YFB1002301)和课题三“基

于深度学习的中医多尺度认知方法和辩证论治分析模型”(项目编号:2017YFB1002303)%

-58-

f Sciencee,Beijing100190;2Universith f Chinese Academy f Sciencee,Beijing100049;3Stath Kj Labor%or%f Compuhr Sciencc,H f Sfwa%,Chinese Academy f Sciencee,Beijing100190,China$BI Shixuan,Bejin

g Unme%m f Technology,Beijing100124,China "Abstract]The paper inWoduces the study on named entity acognition and model application,conducts extraction of entities suc

h as TradiConal Chinese Medicine(TCM)diseases,prescription,Chinese herbal medicine,etc.,by adoption of deep learning method and taking TCM classics as data sources,desians the model for sequencing tagging-BiCSTM-CRF.It also conducts experiments by building coepu0ooexpeeimeniin TCM cea0ic0.Theee0uei0how0ihaiiheaooee0aid modeeaegoeiihm ioohigh accueacy.

〔Keywords]knowledge graph;entity extraction;TradiConal Chinese Medicine(TCM);deep learning

1引言

中医知识图谱是对中医知识内容的结构化存储、语义化表示,有助于实现中医知识的检索、推送与可视化,也是中医辅助诊断系统的底层数据核心。知识抽取是知识图谱构建研究的重要问题,其分为两个模块,即抽取实体与实体间关系,本文在中医领域中就实体抽取问题进行研究。

中医典籍是中医知识的重要来源,从中医典籍中抽取知识是中医知识图谱规模化和知识全面化的必然要求。中医典籍作为一种非结构化的自然语言,其文法和词法与白话语言多有不同。以《备急千金方》的一段方剂为例,观察发现中医典籍中有大量的生僻词,且语法与现在普通汉语有极大的不同,分词困难。此外中医方剂往往参照其主药命名,命名实体间易存在嵌套关系,如“泽兰汤”与“泽兰”、“茯神煮散”与“茯神”、“半夏补心汤”与“半夏”等。另外不同医书对于中医内容的阐述习惯不同,没有统一标准。

传统实体抽取方法需要手动构建特征,如词性标注、解析语法树等,这些方法难以适用于中文文言文形式的中医典籍。为适应中医典籍的特点需手动构建更为复杂的特征,这无疑会在源数据中引入大量额外内容增加计算负荷。此外特征构建需要详细的设计,耗时耗力且迁移性较差。为解决上述问题,本文采用深度学习方法来实现知识获取模块的实体抽取。根据中医典籍文本特点,设计字级别的基于BiC­STM-CRF的实体抽取模型%通过字向量来表征字所携带的语义信息,利用双向的长短期记忆神经网络获取字的上下文表征向量%最后将上下文表征向量作为条件随机场的直接输入,利用其求取全局最优标注序列的特性,完成整个句子的序列标注。

2相关研究

2.1命名实体识别

实体抽取是知识图谱自动化构建的核心,决定知识图谱的质量与规模。实体抽取又称为命名实体识别(Named Entity Recognition,NER),是自然语言处理(Natural Language Processing,NLP)中的一■项基础任务,是指从文本中识别出命名性指称项,如人名、地名和组织机构。在不同领域中其定义的实体类型也不同,本研究抽取的实体是中医领域的中药材、方剂、病症3类实体。命名实体抽取的技术与方法主要有3种:基于规则和知识的方法、基于统计的方法以及两者混合的方法。基于规则和知识的方法通过观察文本结构特征,人工设计规则,利用正则表达式等方式抽取实体,对于简单的命名实体识别任务十分简捷高效[1],但对于复杂的任务要避免规则间的相互冲突,制定规则需要消耗大量的时间和精力,可移植性差。基于统计学习的方法将命名实体识别看成序列标注问题[2],采用隐马尔可夫模型(HiCden Markov Model,HMM)+最大爛模型、条件随机场等机器学习序列标注模型[3_6]O Zhou和Su等[7]设计4种不同的特征,提高隐马尔可夫模型在实体抽取任务中的效果。Borthwick等⑷在最大爛模型中通过引入额外的知识集合提高标注的准确性。Laffety等⑼提出将条件随机场用于序列标注任务,后来McCallum和Li[10]提出特征自动感应法,将条件随机场应用于命名实体识别任务中%

2.2模型应用

近年来随着深度学习的兴起,将深度神经网络

-59-

相关文档
最新文档