基于双向lstm和gbdt的中医文本关系抽取模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

TCM textrelationshipextractionmodelbasedonbidirectionalLSTM andGBDT
LuoJigen,DuJianqiang,NieBin,XiongWangping,LiuLei,HeJia
(SchoolofComputer,JiangxiUniversityofTraditionalChineseMedicine,Nanchang330004,China)
表1三种语料库信息tcmrecoupussemeval2010acl2007关系数量关系数量关系数量方药3850其他1864制造使用1440药症2982因果1331类属1776药证1839整体与部分1253转喻470方证3642实体与目标1137组织从属2460方症2869实体与来源974局部整体981方病1683生产者产品948人物3116病症2258会员与组织923地理位置2157证症2754实体与主题895药症2115内容与包含732舌证2863工具使用者660脉证2651表2lstm神经网络参数设置超参数调参值超参数调参值learningrate0001optimizeradamdropout05batchsize64gradientclipping50hiddendim300embeddingdim300epoch30表3bilstmgbdt模型实验结果关系类别prf关系类别prf方药932592539288病症882087068762药症865385218586证症912289389029药证851286748592药症842382718346方证924193859312舌证903689278981方症839681238257脉证912892069167方病812982568192所有879887518774由表3可知对于自定义的11种中医关系其中方药方证证症脉证四类关系的精确率召回率和f值达到90以上
中医诊断知识是中华民族千百年遗留下的瑰宝,对中医临床 具有很强的指导作用。随着中医诊断数据的不断增加,语句表达 形式上具有一定的灵活性,实体关系也随之变得复杂。中医实体 关系识别[1,2]是中医领域信息抽取[3]的一部分,是指在给定实体 对和非结构文本情况下,识别两者之间存在的语义关系。
例如下面这个句子包含方剂、中药、症状、舌像、脉象、证型 等多 类 实 体:补 天 大 造 丸 由 牛 膝、当 归、小 茴 香 等 多 味 中 药 组 成,其主治为咳逆喘息少气、咯痰色白有沫、血色暗淡、潮热、自 汗、盗汗、声嘶或失音、面浮肢肿、心慌、唇紫、肢冷、形寒、口舌 生糜。苔黄而剥,舌 质 光 淡,脉 微 细 而 数 的 肺 痨 阴 阳 两 虚 证。 对于上面句子在关系抽取任务中,需要准确地识别出实体“补 天大造丸”和实体“牛膝”“当归”和 “小茴香”之间的语义关 系,其大类关系为“方药”,小类关系为“组成”,实体“补天大造 丸”与实体“肺痨阴阳两虚证”是“治疗”关系,实体“肺痨阴阳 两虚证”与实体“脉微细而数”是“脉象”,也就是脉微细而数是 痨阴阳两虚证的脉象,此外还有证型和症状、证型和舌像的关 系。整个句子的关系表现形式如图 1所示。
Abstract:Inordertosolvetheproblemthattheuseofsoftmaxasalongshorttermmemorynetworkclassifierleadstothelack ofgeneralizationabilityoftheentityrelationshiprecognitionmodel,itisnotsuitablefortheextractionofTCM entityrelation ships.Thispaperproposedabidirectionallongshorttermmemory(BILSTM)relationalidentificationalgorithm(BILSTMGB DT)thatincorporatesagradientboostingdecisiontree(GBDT).Firstly,ittrainedtheChinesemedicinetextvectorby word2vec,thenextractedthehighorderfeaturesbythebidirectionallongshortterm memorynetworkbasedontheattention mechanism.Finally,itusedtheintegratedclassificationmodelgradientliftingtreeasthefeatureclassifiertoimprovetherela tionshiprecognitioneffect.ExperimentalresultsonmultiplerelationalcorporasuchasChinesemedicineshowthatthemodel hashigheraccuracy,recallandFvaluethantraditionalSVM method,GBDTmethodanddeeplearningmethod. Keywords:relationshipextraction;LSTM;GBDT;attentionmechanism;Chinesemedicinetext
第 36卷第 12期 2019年 12月
计算机应用研究 ApplicationResearchofComputers
Vol.36No.12 Dec.2019
基于双向 LSTM 和 GBDT的中医文本关系抽取模型
罗计根,杜建强,聂 斌,熊旺平,刘 蕾,贺 佳
(江西中医药大学 计算机学院,南昌 330004)
摘 要:为解决采用 softmax作为长短期记忆网络分类器导致实体关系识别模型泛化能力不足,不能较好适用 中医实体关系抽取等问题,提出一种融合梯度提升树的双向长短期记忆网络的关系识别算法(BILSTMGBDT)。 先采用 word2vec对中医文本进行向量化表示,再利用基于注意力机制的双向长短期记忆网络提取高阶特征,最 后采用集成分类模型梯度提升树作为特征分类器,提高关系识别效果。在中医等多个关系语料库上的实验结果 表明,该模型与传统 SVM方法、GBDT方法及其深度学习方法相比,均有更高的精确率、召回率和 F值。 关键词:关系抽取;长短期记忆网络;梯度提升树;注意力机制;中医文本 中图分类号:TP39141 文献标志码:A 文章编号:10013695(2019)12047374404 doi:10.19734/j.issn.10013695.2018.07.0420 Nhomakorabea1 相关工作
关系抽取对于信息检索、篇章理解、知识图谱构建等研究
都具有极其重要的研究意义。目前较流行的关系抽取方法有: 基于特征工程的抽取方法、基于核函数的抽取方法和基于深度 学习的抽取方 法 [4]。 在 基 于 特 征 工 程 的 抽 取 方 法 中,主 要 是 利用词汇特征、句 法 特 征 和 语 义 特 征 [5]。 虽 然 基 于 特 征 工 程 的关系抽取方法在一定程度上取得了不错的效果,但是由于句 子的表达形式越来越复杂,特征提取越来越困难,导致基于特 征的关系抽取效果很难提升。基于核函数[6]的关系抽取方法 不同于特征工程,它主要考虑的是句子本身的结构信息,无须 建立高维的数据特征向量。它使用句法结构树作为输入对象, 通过核函数比较语料之间的结构相似性进行关系分类。但是 由于句子隐形特征中存在人们无法识别的噪声,且语义相同存 在不同的表达形式,句子的长短表达能力不一样导致基于核函 数的关系抽取也存在一定的弊端。
相关文档
最新文档