基于SimBERT 的中医医案实体间关系抽取
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第21卷第11期2022年11月
Vol.21No.11
Nov.2022软件导刊
Software Guide
基于SimBERT的中医医案实体间关系抽取
刘逍1,龚庆悦1,李铁军2,王红云1
(1.南京中医药大学人工智能与信息技术学院,江苏南京210046;
2.南京中医药大学第二附属医院(江苏省第二中医院),江苏南京210017)
摘要:自然语言处理中,实体与关系抽取是构建知识图谱、设计问答系统、语义分析等任务中不可或缺的环节。
中
医领域的信息多数以非结构化文本形式储存,中医文本关键信息抽取对挖掘名老中医的经验有重要作用。
然而,中
医文本往往存在样本不均衡、实体关系多词一义的问题,如多种诊断结果指向同一证候。
为解决这些问题,构建半监
督学习框架下基于SimBERT的关系抽取模型对中医文本的实体关系进行抽取,利用SimBERT的相似文本生成功能
进行文本增强,以解决样本不均衡问题,SimBERT的相似句检索功能较好地解决了多词一义的问题。
实验结果证明,
半监督学习框架下的SimBERT模型在构建的中医医案数据集上能更精确地抽取中医文本中的实体关系。
关键词:关系抽取;SimBERT;中医医案
DOI:10.11907/rjdk.221699开放科学(资源服务)标识码(OSID):
中图分类号:TP391.1文献标识码:A文章编号:1672-7800(2022)011-0012-07
Extraction of Relationships between Entities in TCM Medical Cases
Based on SimBERT
LIU Xiao1,GONG Qing-yue1,LI Tie-jun2,WANG Hong-yun1
(1.College of Artificial Intelligence and Information Technology,Nanjing University of Chinese Medicine,Nanjing210046,China;
2.The Second Affiliated Hospital of Nanjing University of Chinese Medicine(Jiangsu Second Hospital of Traditional Chinese Medi⁃
cine),Nanjing210017,China)
Abstract:In natural language processing,entity and relation extraction is an indispensable part of knowledge graph construction,question answering system design,semantic analysis and other tasks.Most of the information in the field of TCM is stored in the form of unstructured texts.The extraction of key information in TCM texts plays an important role in mining the experience of famous TCM practitioners.However,traditional Chinese medicine texts often have the problems of imbalanced samples and multiple words and one meaning in entity relationship,such as multiple diagnosis results pointing to the same syndrome.To solve these problems,constructed a relationship extraction model based on SimBERT under the semi-supervised learning framework to extract entity relations of traditional Chinese medicine texts.The similar text generation function of SimBERT is used to enhance the text to solve the problem of unbalanced samples.The similar sentence retrieval function of SimBERT solves the problem of multiple words with one meaning.The experimental results show that the SimBERT model based on semi-su⁃pervised learning framework can extract entity relations from TCM texts more accurately on the TCM medical case data set constructed in this paper.
Key Words:relational extraction;SimBERT;cases of traditional Chinese medicine
0引言
中医作为一门学科,在传承过程中,往往需要大量医案经验作为学习材料。
中医的发展以如今的眼光看来可以算作大数据分析的一种,即通过海量的同证候相似患者的四诊信息,总结出适用于此证候的通用及更细化的治疗手段。
如果有充足的同一证候的不同患者医案,提取其中的症状三元组,通过深度学习方法抽取其中的实体及关系,有助于构建中医医案知识图谱,更有利于四诊信息与治疗手段的实体关系预测。
实体关系抽取是自然语言处理中读取文本获得重要
收稿日期:2022-06-30
作者简介:刘逍(1997-),女,南京中医药大学人工智能与信息技术学院硕士研究生,研究方向为智能信息处理与软件技术;龚庆悦(1972-),女,博士,南京中医药大学人工智能与信息技术学院副教授,研究方向为中医药信息学。
第11期刘逍,龚庆悦,李铁军,等:基于SimBERT的中医医案实体间关系抽取
信息的核心任务之一,其目的是发现和识别隐含在实体之间的关系。
其定义如下:给定一个句子S,其中包含实体A (Entity A)和实体B(Entity B),预测两个实体间的关系
r∈R(R代表数据集中所有关系的集合)。
或者说,抽取实体之间的关系是将非结构化的文本信息转化为结构化的信息,最终以关系三元组〈S,P,O〉的形式来描述。
其中,S 和O为主、客实体,P为预测出的两个实体之间的关系。
实体关系抽取研究成果对命名体识别和关系抽取[1]、推荐系统[2]、机器翻译[3]和知识图谱[4]等相关领域的研究都有重要意义。
根据给定句子中实体是否已被明确标注,可作如下分类:若原始文本中已标记出实体,则称该任务为实体关系分类,或者称其为流水线式关系抽取;若原始文本中未标记出实体,关系抽取任务既要完成实体识别,又要完成关系抽取,则该任务被称为联合关系抽取。
1相关工作
在中医领域的关系抽取任务中,有学者采用流水线式关系抽取模型对中医文本进行关系抽取。
Xie等[6]使用长短期记忆网络(Long-Short Term Memory,LSTM)对已标注好的数据进行实体识别,再对提取的实体进行关系分类以完成整个三元组的提取。
在分类过程中,通过卷积神经网络(Convolutional Neural Network,CNN)对一词多义的实体关系进行知识融合。
Zhang等[7]使用条件随机场(Condi⁃tional Random Field,CRF)进行实体识别和抽取,采用爬虫爬取实体属性,并使用带注意力机制的BiLSTM进行关系抽取,通过实体属性实现对一词多义的处理。
Wang等[8]采用综合交叉熵损失函数与分段注意力机制的SEGATT 层进行关系分类,并使用CNN进行知识融合。
2018年,Google公司发布预训练模型BERT(Bi-directional Encoder Representations from Transformers),此模型在自然语言处理的分类、命名体识别、关系抽取等任务中相较以往可获得更好的效果。
Liu等[9]采用BERT+BiLSTM+CRF进行实体识别和关系抽取。
也有学者采用联合模型进行关系抽取。
Lu等[10]提出一个基于分层二进制标注框架(Hierarchical Binary Tag⁃ging Framework,HBT)的中医文本联合抽取方法;Tan等[11]构建基于Bert-wwm-ext与损失优化的多头选择中医知识联合抽取模型;Yang等[12]提出一种融合数据增强和注意力机制的实体关系联合抽取方法;Pang等[13]提出一种基于三元组信息抽取策略的新型实体抽取模型,以解决传统命名实体识别方法应用于高血压中医电子病历医疗实体识别时出现的实体离散问题。
本文将改进后的BERT模型应用于中医关系抽取任务,利用SimBERT模型获取中医文本中汉字的向量表示,从而降低中医文本连续字符串分词界限不明确对实体关系抽取造成的影响。
该模型首先利用SimBERT模型作为嵌入层获得中医文本的语义表示,再经过相似检索模块获取相似句,与原句共同传入关系抽取模块,最终通过Soft⁃
max函数输出实体关系类型。
本文提出的半监督学习框架下基于SimBERT的中医实体关系分类方法在李铁军医案数据集上取得了较好效果。
本文贡献如下:①构建李铁军医案数据集;②构建半监督学习框架下基于SimBERT的中医实体关系抽取模型,并获得较好的F1值,证明了模型的有效性;③实验结果表明,半监督学习框架下基于Sim⁃BERT的中医实体关系抽取模型能较好地解决样本不均衡和多词一义的问题。
2总体设计
半监督学习[14]是用一部分有标签样本和更多无标签样本训练模型,通过半监督学习,利用有标签样本提供的监督信息给无标签样本打上伪标签,在一定程度上缓解了样本的不均衡问题,最终提升模型的分类效果。
415份医案根据诊断结果划分疾病类型,其中176份肝阳亢,89份乙肝大三阳,45份胸痹,44份乙肝小三阳,20份房颤。
其他41份医案中每类医案少于5份,不进入类型统计。
由统计结果可知,本医案数据集存在样本数量分布不均衡的问题,这也是现实数据集中的常见问题。
同时,数据集中存在多词一义现象,如“上盛下虚,肝阳上亢,肾气虚弱”与“肝阳上亢,肾水虚亏,上实下虚”是同一证候的不同描述形式。
针对如上问题,本文设计了半监督学习框架下基于SimBERT的关系抽取模型,模型整体流程如图1所示。
Fig.1Flow of relation extraction model based on SimBERT in semi-
supervised learning framework
图1半监督学习框架下基于SimBERT的关系抽取模型流程
·
·13
2022年
软件导刊首先,使用改进后的SimBERT 对不均衡文本进行相似文本生成,以解决样本不均衡问题。
生成的相似文本通过3个在原始数据集上预训练后的关系抽取模型(BERT 、
Chinese-base-BERT 、BERT-wwm )进行抽取,将3个模型中两个及以上预测为正例的样本作为伪标签正例。
然后将得到的伪标签样本都加入到候选数据集中,将伪标签样本和真实标签样本输入关系抽取模型中进行训练,并将训练后F1值大于0.90的伪标签样本加入到真实数据集中,F1值不足0.90的伪标签样本则舍去,构建文本增强后的中医文本数据集。
接下来将增强后的数据集放入4个模型(BERT 、Chinese-base-BERT 、BERT-wwm 、SimBERT )中进行关系抽取。
最后的实验结果表明,通过SimBERT 的相似句检索功能计算文本相似度,将相似度较高的句子进行匹配后再进行关系抽取,可获得更好的关系抽取效果。
本实验采用的SimBERT 模型是以目前流行的BERT 模型为基础,以UniLM 思想为核心,兼具相似句生成和检索能力的关系抽取模型。
2.1
SimBERT 文本增强原理
SimBERT 属于有监督训练,其文本增强[15]能力通过特
殊的Attention Mask 来实现。
Attention Mask 使模型具有Seq2Seq 的能力,Seq2Seq 任务是输入一段文本,模型会输出另外一段文本。
利用编码器加上解码器的结构,编码器
会将输入的一段文本编码成固定大小的向量h n ,然后解码器会根据该向量h n ,通过自回归的方式解码生成对应文本。
以本文的医案数据集为例,输入是“肝阳上亢”,目标句子是“肝阳偏亢”,SimBERT 会将两个句子拼成:[CLS ]肝阳上亢[SEP ]肝阳偏亢[SEP ],然后接如图2所示的Atten⁃tion Mask 。
SimBERT 做Seq2Seq 任务模型图如图3所示,“[CLS ]
肝阳上亢[SEP ]”这几个token 之间是双向的Attention ,而“肝阳偏亢[SEP ]”这几个token 是单向Attention ,从而允许递归地预测“肝阳偏亢[SEP ]”这几个token 。
2.2
SimBERT 实体关系抽取模型结构图
基于SimBERT 的中医实体关系抽取模型结构如图4所示。
该模型分为2个模块:相似检索模块和关系抽取模块。
句子S1通过相似检索模块获取与之相似度最高的句子S2,然后S1与S2共同传入到关系抽取模块中,最终获取关系类型。
输入的数据在预处理过程中,通过在文本序列首位加入特殊标记“[CLS ]”来表示一条文本或一个句子对,并且在句子的分隔处加上“[SEP ]”来表示句子的衔接。
将标注后的中医文本输入模型后,经过词嵌入层将文本中的单词标记化,其中包含标记词的嵌入向量、句子词的嵌入向量以及位置词的嵌入向量。
Tok i 表示句子的第i 个标记,并且在训练过程中,会随机地遮挡部分,E i 表示第i 个标记的嵌入向量,H i 表示第i 个标记在经过模型处理后最终得到的特征向量。
2.3SimBERT 相似检索模块
如图4所示,SimBERT 把整个batch 内的[CLS ]向量都拿出来,得到一个句向量矩阵V ∈R b ×d (b 是batch_size ,d
是hidden_size ),然后对d 维度作L2归一化。
L2归一化公式如式(1)所示:
v =
(
)
d 1||D ||2,d 2||D ||2,⋯,d
n ||D ||2
=d 1
d 2
1
+d 22
+⋯+d
2n
,
d 2
d 2
1
+d 22
+⋯+d
2n
,⋯,
d n
d 2
1
+d 22
+⋯+d
2n
(1)
得到v ,然后两两作内积。
内积公式如式(2)所示:v ∙v =v 1v 1+v 2v 2+⋯+v n v n =v ∙v T (2)
得到b×b 的相似度矩阵v v T ,接着乘以一个scale ,并
mask 掉对角线部分,最后每一行进行softmax ,转化为分类任务,每个样本的目标标签是与其相关度较高的句子。
即把batch 内所有非相似样本都当作负样本,借助softmax
增
肝
阳 偏
亢
Fig.2Attention Mask of SimBERT 图2
SimBERT 的Attention Mask
[CLS] 肝 阳 上 亢 [SEP] 肝 阳 偏 亢
肝 阳 偏 亢 [SEP]
Fig.3Diagram of Seq2Seq's task on SimBERT 图3
SimBERT 做Seq2Seq 任务模型图
··14
第11期刘逍,龚庆悦,李铁军,等:基于SimBERT 的中医医案实体间关系抽取
加相似样本的相似度,并降低其余样本相似度,接着作相似句检索任务,匹配相似句后与之一起传入关系抽取模块。
2.4
SimBERT 关系抽取模块
如图5所示,将S1与相似检索获得的S2传入到关系抽取模块,并为句子中每个实体添加标签。
第一个实体前后加特殊符号“$”,第二个实体前后加特殊符号“#”。
如
S1:“$舌$淡红而#晦#”,S2:“$舌$#晦暗#淡红”。
输出包括
3部分:第1部分为[CLS ]标签,第2部分为第一个实体的向量,第3部分为第二个实体的向量。
第一部分可以保存
整个句子的语义内容,后两部分则是保存实体信息。
(1)[CLS ]表征。
该部分为单一向量,直接将其传入前馈神经网络中,公式如式(3)所示:
H ′0=W 0
tan h
H 0
+b
(3)
Fig.5SimBERT relation extraction module structure 图5
SimBERT 关系抽取模块结构
Fig.4Structure of TCM entity relation extraction model based on SimBERT
图4
基于SimBERT 的中医实体关系抽取模型结构
·
·15
2022年软件导刊
(2)实体信息。
将每个实体内部全部向量进行平均后,传入前馈神经网络中,公式如式(4)、式(5)所示:
H′1=W1[tan h(1j-i+1∑t=i j H t)]+b1(4)
H′2=W2[tan h(1m-k+1∑t=k m H t)]+b2(5)其中i、j、k、m分别为第一个实体的首字符位置、第一个实体的末字符位置、第二个实体的首字符位置、第二个实体的末字符位置。
同时,权重系数为共享参数W0=W1= W2,偏向也为共享参数b0=b1=b2。
(3)分类。
3个部分(H′0,H′1,H′2)进行拼接并传入全连接层中,S1最终获得H′′1,S2最终获得H′′2。
将(H′′1,H′′2)进行拼接并传入全连接层中,最后通过softmax进行分类,公式如式(6)-式(8)所示:
h′′=W3[concat(H′0,H′1,H′2)]+b3(6)
h′′′=W4[concat(H′′1,H′′2)]+b4(7)
p=softmax(h′′′)(8)
3实验与分析
3.1实验数据
本文以名老中医李铁军的心血管医案为实验对象,研究中医医案的实体关系抽取。
首先通过正则表达式对400多个医案进行数据清洗,去除不相关字母、数字和字符。
处理结束后以句子为单位,按照《中医诊断学》[16]中对四诊信息的划分方式,参考中医古籍分词规范标准[17]对医案中的脉诊、舌诊表现等全部四诊信息进行拆分并标注,得到5400多个句子,构建中医心血管医案数据集。
3.2数据标注内容
3.2.1概述
根据《中医诊断学》对四诊信息的设定,定义了22类细粒度实体类型,8类关系类型,对划分的细粒度实体进行重组,共产生19类三元组。
具体三元组类型有:(感受,表现,部位)、(浮脉,脉象,脉位置)、(沉脉,脉象,脉位置)、(迟脉,脉象,脉位置)、(数脉,脉象,脉位置)、(虚脉,脉象,脉位置)、(实脉,脉象,脉位置)、(相兼脉,脉象,脉位置)、(舌神,舌象,舌质)、(舌色,舌象,舌质)、(舌形,舌象,舌质)、(舌态,舌象,舌质)、(苔质,舌象,舌苔)、(苔色,舌象,舌苔)、(证候,对应,症状)、(治法,选取,症状)、(治法,应选,证候)、(处方,选择,治法)和(处方,决定,证候)。
3.2.2实体类型
按照《中医诊断学》的划分方法,根据症状类别所在部位的不同,将医案中的关系类型大致分为脉诊、舌诊和其他。
其中脉诊实体类型有:浮脉、沉脉、迟脉、数脉、虚脉、实脉、相兼脉。
舌诊实体类型有:舌神、舌色、舌形、舌态、苔质、苔色。
其他实体类型有:证候、治法、处方、症状、感受、部位。
依据前文对实验数据的定义进行实体类型统计,如表1-表3所示。
3.2.3关系类型
为确保设定实体能相互对应,根据设定的目标设置为<位置,关系,表现>的三元组形式,其中关系类型有表现、脉象、舌象、对应、选取、应选、选择、决定。
依据前文对实验数据的定义进行关系类型统计,如表4所示。
3.2.4数据标注方案
采取单人标注与监督校对相结合的方式进行数据标注,如图6所示。
以肝阳亢疾病类型中某一医案标注为Table1Statistics of pulse diagnosis entity types
表1脉诊实体类型统计
实体类型
浮脉
沉脉
迟脉
数脉
虚脉
实脉
相兼脉
脉位置
总计
个数
50
43
42
57
557
247
425
1421
2842
百分比(%)
7.76
1.51
1.48
2.01
19.60
8.69
14.95
50.00
Table2Statistics of tongue diagnosis entity types
表2舌诊实体类型统计
实体类型
舌神
舌色
舌形
苔质
苔色
舌质
舌苔
总计
个数
212
468
162
421
121
842
542
2768
百分比(%)
7.66
16.91
5.85
15.21
4.37
30.42
19.58
Table3Statistics of other entity types
表3其他实体类型统计
实体类型
证候
治法
处方
症状
感受
部位
总计
个数
790
933
693
582
1148
1148
5294
百分比(%)
14.92
17.62
13.09
10.99
21.68
21.68
Table4Statistics of relationship types
表4关系类型统计
关系类型
表现
脉象
舌象
对应
选取
应选
选择
决定
总计
个数
1148
1421
1384
274
315
272
365
270
5452
百分比(%)
21.06
26.06
25.39
5.03
5.78
4.99
6.69
4.95
··16
第11期刘逍,龚庆悦,李铁军,等:基于SimBERT 的中医医案实体间关系抽取例,此医案原句为:“全身乏力,耳鸣,头晕。
寸关沉取细弦而涩,两尺微。
舌两边暗,舌心裂。
肝肾阴虚,肝阳上亢。
治当滋补肾阴,平肝潜阳。
方用地黄饮子进退。
”将此医案
按照脉诊、舌诊和其他划分后进行标注,再将标注后的句子与原文本一同放入模型中训练,用此模型抽取实体和关系。
3.3
实验结果
3.3.1
文本增强效果分析
本文主要采用基于相似句生成的SimBERT 模型进行
文本增强。
在进行数据预处理,划分训练集、验证集和测
试集之后,通过文本数据增强技术将医案数据集的数据量扩充至原来的2.5倍,重新进行模型训练,并与未进行数据增强的模型进行比较与分析。
增强前数据与增强后数据对比如表5所示。
3.3.2
关系抽取模型效果对比分析
为对比原始数据集和增强后数据集中中医文本关系
抽取任务的效果,本文设计了4种对比模型,并在训练集上进行训练。
通过验证集优化模型参数,在测试集上使用F1指标进行模型效果评价。
具体实验结果如表6、表7所
示。
由表7可见,使用SimBERT 进行文本增强后,关系抽
取效果更佳,这是因为SimBERT 通过相似句检索功能在关系抽取过程中对相似度较高的句子进行匹配分类,从而获得比其他模型更好的关系抽取效果。
4结语
本文构建了半监督学习框架下基于SimBERT 的关系
抽取模型,对中医心血管医案的语义特征和句法结构等进行分析。
针对中医医案数据集样本数量不均衡和中医文本关系抽取过程中的多词一义问题,通过SimBERT 的相似文本生成功能进行文本增强,以解决数据集样本数量不均衡问题,并通过相似句检索功能对中医文本中相似度较高
舌 两 边 暗,舌 心 裂。
舌诊示例其他示例 2
肝肾阴虚,肝阳上亢。
治当滋补肾阴,平肝潜阳。
方用地黄饮子进退。
Fig.6Example map of medical case annotation
图6
医案标注示例图
Table 5
Text enhanced data comparison display
表5
文本增强数据对比展示
未增强数据
全身乏力,耳鸣,头晕。
寸关沉取细弦而涩,两尺微。
舌两边暗,舌心裂。
肝肾阴虚,肝阳上亢。
治当滋补肾阴,平肝潜阳。
方用地黄饮子进退。
头昏头痛心慌胸前区痛脘胀。
舌淡红而晦。
脉来微细,右寸细关尺微,左寸尺微,关细。
诉乳胀痛。
胸痹症也。
SimBERT 增强后数据
整个身体没有力气,耳鸣头昏。
寸关部位沉取细弦而涩,两尺部微。
舌两边位置晦暗舌心有裂痕。
肝阳亢。
治疗应该滋阴壮阳。
处方用地黄饮子进退。
头昏痛心悸胸痛。
舌色红且晦暗。
脉微细,右寸部细关尺部微,左寸部微,关部细。
告诉乳房胀痛。
胸痹症。
医案类别肝阳亢房颤
Table 7Experimental results of different models on enhanced data
sets
表7不同模型在增强后数据集上的实验结果
模型
BERT
Chinese-base-BERT
BERT-wwm SimBERT
F1值(%)92.5493.6795.1295.71
Table 6
Experimental results of different models on the original data
sets
表6
不同模型在原始数据集上的实验结果
模型
BERT
Chinese-base-BERT
BERT-wwm SimBERT
F1值(%)91.6292.0193.1693.58
·
·17
2022年软件导刊
的句子进行匹配,以解决多词一义问题,从而获得更好的关系抽取效果。
参考文献:
[1]WANG C D,XU J,ZHANG Y.Review of entity relationship extraction [J].Computer Engineering and Applications,2022,56(12):25-36.
王传栋,徐娇,张永.实体关系抽取综述[J].计算机工程与应用,2020,56(12):25-36.
[2]HUANG L W,JIANG B T,LYU S Y,et al.A review of recommendation systems based on deep learning[J].Journal of Computers,2018,41(7):1619-1647.
黄立威,江碧涛,吕守业,等.基于深度学习的推荐系统研究综述[J].
计算机学报,2018,41(7):1619-1647.
[3]LI Y C,XIONG D Y,ZHANG M.A review of neural machine translation [J].Journal of Computers,2018,41(12):2734-2755.
李亚超,熊德意,张民.神经机器翻译综述[J].计算机学报,2018,41(12):2734-2755.
[4]OU Y P.A review of knowledge graph technology[J].The Electronic World,2018(13):54-56.
欧艳鹏.知识图谱技术研究综述[J].电子世界,2018(13):54-56.[5]DUAN M S,XIAO L.Review of knowledge mapping technology and its ap⁃plication in the field of food and insect[J].Software Guide,2021,20(8):241-246.
段梦诗,肖乐.知识图谱技术综述及在粮虫领域的应用[J].软件导刊,2021,20(8):241-246.
[6]XIE X Z.Research on disease knowledge map construction technology for traditional Chinese medicine orthopedic consultation[D].Kunming:Kun⁃
ming University of Science and Technology,2019.
谢先章.面向中医骨科问诊的疾病知识图谱构建技术研究[D].昆明:昆明理工大学,2019.
[7]ZHANG Y Y.Research and construction of tongue image diagnosis and treatment system based on knowledge graph[D].Chengdu:University of
Electronic Science and Technology of China,2019.
张莹莹.基于知识图谱的舌像诊疗系统研究与构建[D].成都:电子科
技大学,2019.
[8]WANG S.Research and application of knowledge extraction method of Chinese herbal medicine literature[D].Changchun:Ji′lin University,2020.
王尚.中草药文献知识抽取方法研究与应用[D].长春:吉林大学,2020.
[9]LIU Y Q.Research and application of knowledge map construction and link prediction model of TCM famous prescriptions[D].Changchun:
Northeast Normal University,2021.
刘禹琪.中医名方知识图谱构建与链路预测模型的研究及应用[D].
长春:东北师范大学,2021.
[10]LU M M.Joint extraction of TCM text entity relation[D].Tangshan:North China University of Science and Technology,2021.
卢苗苗.中医文本实体关系的联合抽取[D].唐山:华北理工大学,
2021.
[11]TAN C.Joint extraction of traditional Chinese medicine knowledge with multiple selection based on Bert-WWM-EXT and loss optimization[D].
Qinhuangdao:Yanshan University,2021.
檀晨.基于Bert-wwm-ext与损失优化的多头选择中医知识联合抽取
[D].秦皇岛:燕山大学,2021.
[12]YANG Y Y.Research on joint extraction method of TCM text entity rela⁃tion based on deep learning[D].Nanchang:Jiangxi University of Tradi⁃
tional Chinese Medicine,2021.
杨延云.基于深度学习的中医文本实体关系联合抽取方法研究[D].
南昌:江西中医药大学,2021.
[13]PANG Z,GU J Y,WU Y F,et al.Study on extraction of medical entity in diagnosis and treatment of hypertension in traditional Chinese medicine
[J].Journal of Medical Informatics,2021,42(9):45-51.
庞震,顾继昱,吴宇飞,等.中医诊治高血压医疗实体提取问题研究
[J].医学信息学杂志,2021,42(9):45-51.
[14]TAI L T.Research on entity relation extraction algorithm based on semi-supervised machine learning[D].Beijing:Beijing University of Posts
and Telecommunications,2018.
台丽婷.基于半监督机器学习的实体关系抽取算法研究[D].北京:
北京邮电大学,2018.
[15]SHI G L,CHEN Y Q.A comparative study on the integration of text-en⁃hanced and pre-trained language models in online political message clas⁃
sification[J].Library and Information Work,2021,65(13):96-107.
施国良,陈宇奇.文本增强与预训练语言模型在网络问政留言分类中
的集成对比研究[J].图书情报工作,2021,65(13):96-107.
[16]ZHU W F,YUAN Z K.Diagnostics of traditional Chinese medicine[M].
Beijing:People′s Medical Publishing House,2011.
朱文锋,袁肇凯.中医诊断学[M].北京:人民卫生出版社,2011.[17]FU L,LI S,LI M Z,et al.Taking Qing dynasty medical books as an ex⁃ample,discusses the standard of word segmentation in ancient Chinese
medicine books[J].Chinese Journal of Traditional Chinese Medicine,
2018,33(10):4700-4705.
付璐,李思,李明正,等.以清代医籍为例探讨中医古籍分词规范标准
[J].中华中医药杂志,2018,33(10):4700-4705.
(责任编辑:黄健谢文利)
··18。