古代中国医学文献的命名实体识别研究——以Flat-lattice增强的SikuBERT预训练模型为例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
*本文系国家社会科学基金项目“古代中国医学文献的知识标注与知识挖掘研究”(项目编号:17BTQ060)研究成果和国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)研究成果。
古代中国医学文献的命名实体识别研究
——以Flat-lattice 增强的SikuBERT 预训练模型为例*
谢靖,刘江峰,王东波
摘要标注古代中医文献的命名实体能挖掘其蕴藏的中医学知识,推进中医现代化发展。
文章基
于BERT-base 、RoBERTa 、SikuBERT 、SikuRoBERTa 预训练模型,以《黄帝内经·素问》为研究对象、Flat-lattice Transformer (FLAT )结构为微调模型,构建中医文献中病证、病理、经络、穴位、五行等命名实体识别任务。
实验结果表明:直接使用古文繁体BERT 模型对古代中医文献进行领域命名实体识别,基于繁体《四库全书》的SikuBERT 、SikuRoBERTa 预训练模型效果优于BERT-base 、RoBERTa 模型;引入FLAT 结构作为微调模型后,SikuBERT 在有标点情况下表现最优,识别效果可提升4%左右,SikuRoBERTa 在无标点情况下表现最优,识别效果可提高2%~3%。
实验验证了FLAT 作为微调模型对BERT 模型在中医专业领域中古文献命名实体识别工作上的有效性。
该微调模型可以有效避免分词错误引起的实体识别传播错误,提高中医命名实体的识别效率。
关键词命名实体识别中医典籍素问SikuBERT FLAT
引用本文格式谢靖,刘江峰,王东波.古代中国医学文献的命名实体识别研究——以Flat-lattice 增强的SikuBERT 预训练模型为例[J].图书馆论坛,2022,42(10):51-60.
Study on Named Entity Recognition of Traditional Chinese Medicine Classics :Taking SikuBERT Pre-training Model Enhanced by the Flat-lattice Transformer for Example
XIE Jing ,LIU Jiangfeng &WANG Dongbo
Abstract
Named Entity Recognition (NER )can help to further excavate the knowledge of Traditional Chinese
Medicine (TCM ),and promote the modernization of TCM as well.With the traditional Chinese Siku Quanshu version of Huangdi Neijin ·Suwen as the corpus ,this paper tries to testify the performance of BERT-base ,
RoBERTa ,SikuBERT ,SikuRoBERTa pre-training models in NER of TCM classics ,especially in the recognition of named entities related to disease syndrome ,pathology ,meridian ,acupoint ,etc.The result shows that :When directly used to perform NER of TCM classics ,the pre-training models of SikuBERT and SikuRoBERTa are better than those of BERT-base and RoBERTa.When enhanced and modified by the Flat-lattice Transformer (FLAT ),SikuBERT Pre-training Model performs best under the premise of punctuation ,and its recognition efficiency can be improved by about 4%;while SikuRoBERTa Pre-training Model performs best under the premise of no punctuation ,and its recognition efficiency can be improved by 2%~3%.In short ,FLAT performs well in the enhancement and modification of BERT pre-training models in NER of TCM classics ,and it should be further used to improve the recognition efficiency of TCM classics.
Keywords named entity recognition ;traditional Chinese medicine classics ;Suwen ;SikuBERT ;FLAT
0引言
古代中国医学文献所记录的中医知识是中华传统科学文化的重要分支,对中医文献进行深度加工和知识标注,有助于挖掘蕴含在其中的古代医学知识及中医哲学思想。
比如,青蒿素的发现就是从古代中医文献《肘后备急方》中得到启发。
古代中医文献以文言文的形式存在,是中国古籍文献的重要组成部分,其中的医学知识又形成了独立的医学和哲学体系,涉及较多中医学概念。
古代中医文献的数字化、智能化加工,对中医知识的深度挖掘具有重要价值。
其中,对古代中医文献进行命名实体识别,有助于理清古代中医文献的知识概念表达,是古代中医文献信息化、智能化处理的重要任务。
数字人文近年来成为中国古代文献研究的新范式,极大推动了中国古代文献智能化处理的进程。
以古文献分词、词性标注、命名实体识别、语义消歧等为研究内容的文本挖掘方法得到了广泛关注,如王姗姗等在多维领域知识下对《诗经》的自动分词研究[1];李娜等对古籍方志地名的自动识别[2];王东波等对先秦典籍历史事件的自动识别[3];刘浏等对《春秋经传引得》中同名异指和异名同指现象的自动识别[4]。
BERT预训练模型的提出为中国古文献智能处理提供了新思路,用户可以使用预训练模型完成断句、分词、词性标注、信息抽取等任务。
例如,王倩等通过BERT-LSTM-CRF模型对《四库全书》进行断句和标点标注,调和平均值分别达86.41%与90.84%[5];张琪等构建了先秦典籍分词、词性一体化标注BERT模型,分词和词性标注准确率分别达到95.98%、88.97%[6];喻雪寒等采用RoBERTa-CRF模型实现对《左传》战争句论元的抽取,准确率达87.6%[7]。
以上研究为数字人文环境下运用BERT预训练模型,实现中国古代医学文献的智能化处理提供了借鉴思路。
本文以古代中医文献的代表作《黄帝内经·素问》(以下简称《素问》)为研究对象,通过分词、命名实体标注构建“素问语料库”,该语料库能够体现《黄帝内经》所包含的中医学理论体系。
在素问语料库基础上,利用由南京农业大学信息管理学院牵头、南京师范大学文学院共同构建的SikuBERT及SikuRoBERTa预训练模型,考查其对于古代中医文献命名实体自动标注的效果,并通过Flat-Lattice Transformer平面格子结构增强对《素问》中命名实体词汇的词向量表达,进而优化SikuBERT、SikuRoBERTa预训练模型对古代中医文献命名实体识别的效果,为古代中国医学文献的智能化处理做出益探索。
1我国古代文献命名实体研究概述
1.1命名实体研究
命名实体识别(Named Entity Recognition,NER)是信息抽取技术的重要组成,能从文本文献中识别预定义的命名实体,如新闻语料中的人物、地点、时间、事件。
命名实体识别术语在MUC(Message Understanding Conferences)第六次会议上提出[8],并在其他相关国际会议中由人名、地名、机构名等逐渐细化扩展至跨语言、多领域的命名实体,如CoNLL-2003(Con-ference on Computational Natural Language Learning2003)中提出的语言无关命名实体识别[9]。
命名实体识别是自然语言处理的关键任务,相关研究的发展主要历经了4个阶段。
一是基于词典与规则的早期阶段,向晓雯等利用统计与规则相结合的方法,通过词性序列识别命名实体,实验结果F1值达到80.02%[10];王昊构建基于层次模式匹配的实体识别模型,并应用于学术论文术语缩略语的识别,取得较好识别效果[11]。
二是基于传统机器学习模型的阶段,陈怀兴等提出利用HMM词对齐结果抽取命名实体翻译等价对的方法,具有较高的识别率[12];陆伟等采用条件随机场模型,利用词汇、词法及词型特征,实现对商务领域产品的命名实体识别,取得较为满意的识别效果[13]。
三是基于深度学习模型的阶段,李丽双等提出基于CNN-BLSTM-CRF的神经网络模型,其在BiocreativeⅡGM和JNLPBA2004生物医学语料上的F1值可达89.09%和74.40%[14];丁晟春等运用Bi-LSTM-CRF深度学习模型对商业领域中的企业全称实体、企业
简称实体、人名实体进行自动识别,识别率平均F1值达90.85%[15]。
四是基于自注意力及迁移模型的阶段,崔竞烽等对菊花古典诗词的7类命名实体进行标注,比对BiLSTM、BiLSTM-CRF和BERT模型的识别效果,结果表明预训练模型BERT的F1值最高[16];陈美杉等提出基于KNN-BERT-BiLSTM-CRF的实例及模型迁移框架,对肝癌自动问答中的命名实体进行标注,迁移效果表明F1值可以提升1.98%[17]。
从以上研究可看出,命名实体的研究文本对象包括新闻、商业产品资料、学术文献、网络社区文本、生物医学文本及病历等,实体对象也由人名、地名、机构名扩展至商务企业名、生物医学术语、古代诗词实体等。
从近年来研究技术的发展来看,在深度学习和神经网络算法基础上,加入注意力、迁移学习等机制成为主流方案。
在中文命名实体的识别应用中,由于中文分词的特殊性,分词效果对于命名实体识别效果具有一定影响,基于字的识别机制会丢失词汇级的上下文信息。
Zhang等提出了用于中文命名实体识别的Lattice(格子结构),并将Lattice结构词向量应用于LSTM模型,避免了由于分词而导致的命名实体识别错误[18];Li等在Lattice结构上进一步提出了平面结构的Flat-lattice Transformer微调索引机制,该机制可以继续提升Lattice-LSTM模型对命名实体识别的效果[19]。
本文在选择适合古代中医文献命名实体识别的模型时,考虑到古文及中医术语构词的特殊性,采用Flat-lattice Transformer结构完成对《素问》中《黄帝内经》术语的标注,并考查其对于现有古文BERT 预训练模型的提升效果。
1.2中文古籍BERT预训练模型研究
BERT模型是2018年由Google
提出的一种双向Transformer预训练
模型[20]。
Transformer是Vaswani等
提出的基于“自注意力机制(Self-attention)”叠加形成的深度网络,
能够有效表达词汇上下文的特征[21]。
BERT在大规模数据集上进行了预训
练,用户可以直接下载预训练模型,而后通过微调(fine-tuning)获得更好的训练效果。
对于用户而言,BERT预训练模型可以作为实验的组件进行搭配,所有任务无需从零开始。
自提出以来,BERT预训练模型在自然语言处理相关领域均取得了优异效果。
陆伟等基于BERT和LSTM方法构建对关键词的自动分类模型,实验效果中F1值达85%[22];赵旸等比对了BERT中文基础模型(BERT-Base-Chinese)和中文医学预训练模型(BERT-RePretraining-Med-Chi)在中文医学文献摘要数据上的分类效果,实验结果表明,BERT模型在大规模文本分类中能取得较好效果,而BERT-RePretraining-Med-Chi则能进一步提高分类效果[23];吴俊等在BERT 中嵌入BiLSTM-CRF模型,令自建数据集的术语提取效果(F1值)达到92.96%[24]。
在数字人文研究领域,BERT相关预训练模型的构建得到了国内学者的重视,包括中文RoBERTa(Chinese-RoBERTa-wmm-ext)、SikuBERT及SikuRoBERTa等。
中文RoBERTa 是由哈工大讯飞联合实验室发布的中文预训练语言模型,其中Whole Word Masking(全词掩码,WWM)可以保证在BERT进行Mask任务时将粒度由字延伸至词,确保中文词汇整体参与BERT自注意力机制[25]。
SikuBERT、SikuRo-BERTa预训练模型是在Bert-Base-Chinese、Chinese-RoBERTa-wwm基础上加入繁体《四库全书》继续训练后得到的预训练模型,在《左传》的分词、词性标注、断句、命名实体识别等多项任务中均表现优异[26]。
文章以主流中文古籍BERT预训练模型为基础,探索在中医这个特色主题文献集上BERT预训练模型对中医学命名实体的识别效果。
预训练模型见表1。
表1古文BERT预训练模型简介
模型
具体模型
训练数据
训练方式
词表字形
训练数据标点句子切分
词表大小NSP* WWM
BERT-base
BERT-Base-Chinese
中文维基百科
从头训练
简繁体中文
含
以字为粒度
21,128
是
否
RoBERTa
RoBERTa-wwm-ext-Chinese
中文维基百科
继续训练
简繁体中文
含
以词为粒度
21,128
否
是
SikuBERT
SikuBERT
《四库全书》
继续训练
简繁体中文
不含
以字为粒度
21,128
否
否
SikuRoBERTa
SikuRoBERTa
《四库全书》
继续训练
简繁体中文
不含
以字为粒度
21,128
否
否
注:*NSP:Next Sentence Prediction,预测下一个句子。
2数据与研究框架
2.1语料来源与数据标注
《黄帝内经》是中国最早的中医典籍,成书于先秦两汉时期,由《素问》《灵枢》两部分构成。
《素问》系统阐述了中医的基础理论体系,包括病因、病证、病理、脏腑、经络、阴阳五行等,而《灵枢》则以经络腧穴、针灸治法等主题为主。
《黄帝内经》是中医思想的源泉,其理论体系成为后世中医理论的先导,相关术语为后世中医广泛继承使用。
在中国古代医学文献研究中,对《黄帝内经》《伤寒论》《难经》《神农本草经》等典籍的研究相对较多、相关词典资源相对丰富,但大量的其他中医古籍文献仍有待进一步深度加工处理。
本文以《素问》为主要研究对象,利用词典资源完成
《素问》文本内中医学概念实体的
识别及标注,在此基础上通过现
有BERT古文预训练模型实现对
中医命名实体术语的自动提取。
BERT预训练模型为中国古籍文
献的智能化处理提供了新思路,
以BERT模型为框架、《四库全
书》等典籍为全文语料进行无监督训练而获得的预训练模型,可以作为工具直接运用于特定古籍文献的分词、词性标注、命名实体识别等任务中。
但对于中医这一特殊专业领域的文献,需要对领域知识词汇进行补充。
现有的中医学词典可提供相关词型知识,而通过以Word2Vec 为代表的词向量模型可以进一步获取领域词典的上下文特征。
《黄帝内经》(特别是《素问》)对后世的中医文献影响深远,因而《黄帝内经》相关的词典资源及其在具体中医文献中的上下文信息,可以作为BERT预训练模型在中国古代医学文献处理中的有力补充。
在《素问》语料的版本来源上,选择郭霭春先生校注的《黄帝内经素问校注》[27]。
该版本详细梳理了《素问》的各个古籍注版,是《素问》研究集大成著作。
在《黄帝内经》医学术语的词典选择
上,本文选择了周海平等主编的《黄帝内经大词典》。
该词典是目前收录《黄帝内经》词条最多、词义最为详尽的工具书[28],共包含词型1.9万多种。
需要说明的是,在对《素问》相关命名实体语料的加工过程中,笔者对《黄帝内经大词典》收录词型做进一步加工,如提取在词型说明中包含“病证名词”“运气学说术语”“病理名词”“穴位名词”“五行术语”“经络名词”等命名实体明确标识的词条,并对命名实体同义词条(如别称、缩略语等)进行了提取。
在《黄帝内经大词典》收录的《黄帝内经》术语实体分类基础上,以其中主要命名实体词汇为研究对象,并将脉学及脉象等关联密切的术语类别进行合并,最终形成本文命名实体识别的主要分类(类目),如表2所示。
文章以《黄帝内经大词典》收录词条为基础,通过最大匹配算法对《素问》繁体文本语句进行了分词并加以人工校对,对其中由于分词歧义引起的词汇切分错误进行了核对。
比如,“則脈充大而血氣亂”可以切分为“則/脈/充大/而/血氣/亂”和“則/脈/充大/而/血/氣亂”,这里根据上下文信息选择“則/脈/充大/而/血氣/亂”。
在此基础上利用词典词条内的术语分类标记对《黄帝内经》术语命名实体进行标注,样例如下:
【nbz霍亂】/,刺/【nxw俞】/傍/五/,【njl 足陽明】/及/上/傍/三/。
分词后,《素问》含词汇6,753个,其中术语词型1,553个、词例6,711条。
在所有术语词型及词例中,病证名词最多,人名、经络名词次之,五行术语出现最少。
从构词及上下文特征来看,不同术语类型有不同特点:病证名词的构词
实体标记nbz
nr
nyq
nbl
nxw nmx nwx
njl
含义
病证名词
人名
运气学说术语
病理名词
穴位名词
脉学及脉象名词
五行术语
经络名词
词型量
908
7
111
199
100
85
34
109
词例量
2,427
1,190
703
457
322
383
69
1,160
样例
腰痛、頭痛、心痛、腹滿、身熱
黃帝、帝、岐伯、鬼臾區
蒼化、長化合德、反勝、火運、金運
陽盛、氣虛、逆氣、傷肺、上逆
少商、至陰、風府、胃脘、背俞
脈至、胃脈、心脈、腎脈、脈氣
寒勝熱、肉生肺、思傷脾、思勝恐、酸傷筋
手太陰、足少陰、足陽明、足太陰、足太陽表2《素问》主要命名实体标记集及其样例
多包括“厥、聾、攣、痛、脹”等字样;经络及穴位名词,前后多出现“刺”字。
《素问》分词及中医命名实体标注后的基本情况如表3所示。
表3语料基本统计数据
典籍《素问》句子数
4,484
平均句
长(字)
22.27
字数
99,878
标点数
13,688
命名实体
词例数
6,711
词例数/
句子数比
1.4967
在已分词、已命名实体标注的繁体《素问》文本基础上,文章将其转为序列标注格式。
本实验的序列标注集合为{B,I,E,S,O},其中B代表命名实体词汇首字符,I代表命名实体中间字符,E代表命名实体词汇尾字符,S代表单字型命名实体字符,O代表非命名实体相关字符,正常实体序列由B标记开始、E标记结束。
在标记BIESO的同时,文章还在相关标记记号后附上实体分类,标记样例见表4。
2.2研究框架及模型微调过程
2.2.1研究整体思路
在已切分词语及已标注术语实体的语料上,本文利用现有的4种古文繁体BERT预训练模型,对《素问》术语命名实体自动标注展开研究。
研究主要分为3个阶段:一是直接考查现有古文繁体BERT模型对中医术语命名实体的标注效果,遴选效果较好的预训练模型进入下一阶段微调过程;二是为防止由于预训练模型词典中医学词汇缺失而导致词汇向量切分有误,选用了Flat-lattice结构对中医学术语进行标注序列转化,并通过Word2Vec模型在“中醫笈成”[29]全文数据库收录的繁体中医典籍文本上获取《素问》中医学术语的上下文知识;三是用Flat-lattice Transformer微调后的中医术语词向量结合古文繁体BERT模型,观察“预训练+微调”模型处理后《素问》中医术语命名实体的自动标注效果。
在所有命名实体识别的训练和标注中,均采用十折交叉验证的方法,即将已标注的素问语料库平均分为10份,展开10轮训练,每次选出其中9份用于训练,1份用于结果验证;在考查结果时,以通过10轮交叉验证的均值来验证效果。
研究思路框架如图1所示。
2.2.2Flat-lattice Transformer结构转化
Flat-lattice Transformer(FLAT)结构源自对
汉语词汇标识的Lattice(格)
结构,该结构能避免因分
词错误的传递而引起的命
名实体识别问题。
中文的
命名实体识别与分词任务
密切相关,命名实体的边
界也是词汇边界,词汇切
分错误会影响命名实体识
别效果。
在现有古文繁体
BERT预训练模型中,多以
字为粒度(见表1),然而古
代中国医学文献含有大量
的中医学术语,以字为粒
度的训练并不能满足医学
字其但熱而不寒者,陰氣先絕
含义
非实体
非实体
非实体
非实体
非实体
非实体
非实体
非实体
非实体
非实体
非实体
非实体
序列标签
O
O
O
O
O
O
O
O
O
O
O
O
字
,
陽
氣
獨
發
,
則
少
氣
煩
冤
,
含义
非实体
非实体
非实体
非实体
非实体
非实体
非实体
非实体
非实体
病证名词
病证名词
非实体
序列标签
O
O
O
O
O
O
O
O
O
B-nbz
E-nbz
O
字
手
足
熱
而
欲
嘔
,
名
曰
癉
瘧。
含义
病证名词
病证名词
病证名词
非实体
非实体
非实体
非实体
非实体
非实体
病证名词
病证名词
非实体
序列标签
B-nbz
I-nbz
E-nbz
O
O
O
O
O
O
B-nbz
E-nbz
O
表4《素问》命名实体数据集的标注示例
《黄帝内经
大词典》分词
Flat-lattice
词向量
NER
HanLP Word2Vec
Flat-lattice
Fine-tumed
Model
Fine-tuning
测试数据
1/10
《素问》语料库
分词及实体标注
《素问》
9/10
训练数据
Pre-training Models
BERT-base
SikuBERT
RoBERTa
SikuRoBERTa
图1研究框架
领域的知识表达。
Lattice 结构可以利用显性的词和词序信息,且不会出现分词误差。
Flat-lattice结构在Lattice结构基础上标记词汇Token 及其头尾位置Head、Tail。
这种标记方式可以简单地将命名实体标记BIESO 序列进行转换及还原。
同时,Flat-lattice Transformer结构的自我注意机制使字符能够直接与任何潜在的单词交互(含自我匹配),并可有效防止标记序列出现“OIE”表达错误。
本文涉及的《素问》语料Flat-lattice Transformer 微调标记过程如图2所示,包括BIESO序列标记及实体类型标记。
2.2.3《素问》命名实体的词向量生成
BERT 预训练模型的出现为小规模语料智能处理提供了新的解决方案:在大规模语料训练基础上,BERT 模型能够快速、准确地为小规模语料提供预训练数据支持。
RoBERTa、SikuBERT 及SikuRoBERTa 等预训练模型在大规模古汉语文本基础上进行了训练,尤其是《四库全书》语料的加入,使它们能够覆盖经、史、子、集等多种题材的古籍文本。
但对于古代中医文献这个领域,由于有大量中医实体名词存在,命名实体在分词阶段就可能存在切分错误。
基于词典的方式可以获取相关中医命名实体,但如何对这些实体的上下文信息进行充分获取又亟待解决。
刘耀等提出,可以由医学网站定期、批量提取相关知识并建立索引[30]。
文章借鉴这个思路,收集“中醫笈成”
网站收录的843部中医典籍文本作为本次实验中《素问》涉及中医学术语的上下文知识补充。
在《素问》中医命名实体词向量的补充表达上,文章选择词向量生成模型Word2Vec作为解决方案。
Word2Vec是谷歌公司提出的一种将词汇表达为数值向量的工具技术,以词汇作为特征并将其
映射至K维向量空间,进而为文本词汇获取更深层次的上下文特征表达[31]。
Word2Vec 模型主
要有CBOW和Skip-Gram这两种算法。
CBOW 算法是给定上下文预测当前词的词向量,Skip-Gram 算法是给定当前词预测上下文词向量;CBOW算法的训练速度更快且对频次较高的词汇表征较好,Skip-Gram算法则对稀有词汇和短语表征较好,因而本文选用Skip-Gram 算法。
王名扬等引入Word2Vec模型实现情感词及其所在微博语句的向量化表达,进而提升文本情感分类结果[32]。
文章借鉴了这个思路,将《黄帝内经大词典》内收录与《素问》相关的中医命名实体作为研究对象,通过Word2Vec获取其上下文的词向量表达。
这部分词向量以FLAT格子结构补充进从《四库全书》训练而来的BERT模型中。
在计算Word2Vec词向量之前,对从“中醫笈成”中采集的中医典籍文本进行数据清洗和分词。
具体步骤为:(1)分词前预处理,去除文献txt 文本中的异常字符和开头题录信息;(2)以《黄帝内经大词典》作为自定义词典,使用HanLP对中医典籍文本进行分词,并使用自定义词典进行最大匹配词汇切分以优化分词结果[33]。
本文运用Word2Vec处理词向量过程中的相关参数见表5。
图2Flat-lattice Transformer 结构示意图
Token Head Tail
手11
足22
而44
欲55
B-nbz I-nbz E-nbz O
O O
Transfonmer Encoder
表5Word2Vec 词向量生成参数设置
超参数
sg
vector_size
window
min_count*
workers sample
解释
用于设置训练算法,默认为0,对应CBOW
算法;若为1,则采用Skip-Gram算法表示特征向量的维度,默认为100,推荐值
从几十到几百均可
表示当前词与预测词在一个句子中的最大
距离
可以对字典做截断;词频少于min_count次
数的单词会被丢弃,默认值为5
表示训练的并行数
高频词汇的随机降采样的配置阈值,默认为
1e-3,范围是(0,1e-5)值150101151e-3
注:*为避免词典词条由于出现频次太少而被丢弃,
本文实验将默认值设置为1。
3实验环境及结果
3.1实验环境及模型参数
本实验中,操作系统为CentOS3.10.0;硬件配置为:CPU,Intel(R)Xeon(R)CPU E5-**************,总核心数48;内存256GB;GPU,NVIDIA Tesla P40(6块)。
在实验过程中,对于选用的4种古文繁体BERT预训练模型(BERT-base、RoBERTa、SikuBERT、Siku-RoBERTa),文章选取了相同的结构进行训练,训练模型的超参数见表6。
表6实验的主要超参数设置
超参数
max_seq_length train_batch_size learning_rate warmup_proportion num_train_epochs
解释
最大输入序列长度
每批次训练数据量大小
学习率
预热学习率
训练周期
值
256
32
2.0E-5
0.4
10
在Flat-lattice Transformer的词向量训练中,相关参数的最优设置如表7所示。
需要说明的是,用于观测F1值变化的数据集与4种古文繁体BERT预训练模型使用的数据集相同。
表7中的部分测试指标说明如下:(1)当epochs设置较小时,直至运行结束,模型尚未完全收敛,F1值仍然在波动中上升。
经过不断尝试将epochs分别设置为10、20、50、70,发现当模型训练至50-60轮左右时,F1值基本保持稳定,因而epochs参数选择为70;(2)batch_size 越大,训练速度越快。
本实验对比了batch_size 为4、8、16时模型的效果,发现batch_size为4时,模型训练速度较慢;batch_size为16时,模型性能出现了可见的下降,而运行速度并未显著提升,因而batch_size最终取值为8;(3)实验对比learning_rate学习率分别为2e-5、5e-5、6e-4的情况,结果表明学习率为2e-5、5e-5时,训练50轮结果不及6e-4训练10轮结果,且50轮后F1值仍处于缓慢上升,因而学习率选择默认为6e-4。
3.2实验评价指标及结果
实验以分词、命名实体标注后的《素问》为语料来源,选用交叉验证的方式考查多种中文繁体BERT预训练模型及Flat-lattice结构对中医命名实体自动标注的效果。
3.2.1实验评价指标
文章采用命名实体识别的3个常见指标作为评价模型性能的标准:准确率P(Precision)、召回率R(Recall)、调和平均数F1值(F1-score)。
在实体标注结果中,会出现4种标注情况:实体数据标记为实体(正确标注,True Positive)、实体数据未能标记(错误标注,True Negative)、非实体数据标记为实体(错误标注,False Positive)及非实体数据未标记为实体(正确标注,False Negative)。
相关实体识别结果说明见表8,而P、R、F1值计算公式如下:
P=TP
TP+FP×100%(1)
R=TP
TP+FN×100%(2)
F1=2×P×R
P+R×100%(3)表8实体识别结果混淆矩阵表
真实情况
Positive
Negative
预测结果
Positive
True Positive(TP)
False Positive(FP)
Negative
False Negative(FN)
True Negative(TN) 3.2.2基于原始BERT预训练模型的《素问》命
名实体识别
文章首先考查现有4种古文繁体BERT预训练模型在《素问》命名实体标注语料上的识别效果。
在处理数据时,将实验在有标点、无标点两种情况下分别展开,具体结果如表9所示。
直接使用4种古文繁体BERT预训练模型,考察多轮实验结果可知:(1)有标点训练和无标点训练下,有标点训练平均F1值为73.70%,无标
表7本实验Flat-lattice模型最优超参数设置
超参数epochs
batch_size learning_rate early_stop encoding_type
解释
训练周期
每批次训练数据量
学习率
提前终止训练周期数
序列标记集
值
70
8
6e-4
25
BIOES。