基于CRF与规则的工程领域命名实体识别方法
CRF与规则相结合的军事命名实体识别研究
ifr t n so l etekyt mit yifr t net cin S a detyrcg io NE ) l s inf at nomai . h udb e la omai xr t . on me ni o nt n( R pa s icn o h o ir n o a o t e i ya g i
第 3卷 3
第4 期
指挥 控制 与仿 真
Co mma dCo t l Smuain n nr & i lto o
V 1 3 No4 O 3 l_ .
Aug 201I .
2 1 年 8月 O1 文章 编 号 :17 .8 92 1)40 1-3 6 33 1(0 0 -0Байду номын сангаас30 1
i r v d E p r n s h w a r a p i z to a e n a h e e . mp o e . x e i me t o t t e t t s h g o mia i n h sb e c iv d Ke r s C I c n i o a r n o f l s n me n i c g i o ; e t r n to ; x e n I e i o s ywo d : : o d t n l a d m e d ; a d e t yr o n t n fa u e f ci n e t r a lx c n i i t e i u
CRF与 规 则 相 结 合 的 军 事 命 名 实 体 识 别 研 究
姜 文志 ,顾 佼 佼 ,丛林 虎
( 海军航空工程学院 ,山东 烟台 摘 240 ) 6 0 1 要 :作战命令的分词是作战指令 自动化 生成 、文图转换等 各种 指挥 自动化技 术的重要基础 。在作战指令进行
基于双向GRU-CRF的中文包装产品实体识别
文章编号:1006-3080(2019)03-0486-05DOI: 10.14135/ki.1006-3080.20180407001基于双向GRU-CRF 的中文包装产品实体识别李一斌, 张欢欢(华东理工大学信息科学与工程学院,上海 200237)摘要:为了实现包装行业的信息自动抽取,需要对文本中的包装产品进行命名实体识别工作。
设计了一种基于双向GRU-CRF 的中文包装产品实体识别方法。
以预训练的领域词向量为输入,通过双向GRU 网络对上下文语义信息进行建模,并使用输出端的CRF 层对最佳标签序列进行预测。
将该模型与传统的序列标注模型以及循环神经网络模型在包装产品文本数据集上进行了对比,实验结果表明,本文模型具有较少人工特征干预、更高准确率和召回率等优点。
关键词:命名实体识别;双向GRU 网络;CRF 模型;包装产品;深度学习中图分类号:TP391文献标志码:A智能化是继数字化和网络化之后新一代信息技术发展的重要方向[1],随着信息技术的不断发展,包装产业也进入了高度智能化时代。
在包装产业高度智能化的环境下,大量的产品说明、用户手册等都是以电子文档的形式呈现。
为了给用户提供更好、更人性化的服务,必须结合用户的个性化需求,从多而杂的信息中找到有价值的商业信息。
然而在包装产业领域,产品名的构成复杂、长度较长,如“防静电透明PVC 板棒”、“双通道连卷背心袋机”等,这种结构使得产品实体识别比一般的实体识别更为复杂和困难。
为了充分挖掘包装产业信息中的价值,并为接下来的包装产业知识图谱构建、包装产业智能问答等基础应用打下良好的数据基础,包装产品实体识别是必不可少的步骤。
1 相关工作在产业信息处理领域,由于产品实体的结构特征多变、边界模糊,不适合用一般的命名实体识别的方法来处理。
根据命名实体的定义和已有的产品命名实体研究,一般认为产品命名实体包括品牌、系列、型号、种类和属性5个方面,但它们并非不可或缺,一些品牌的产品没有系列名,而一些品牌独有的系列则可以省略品牌名,如“JD-111电子式纸张耐折度测定仪”,这种复杂的名称组成结构对命名实体识别技术带来了很大的挑战。
lstm+crf 命名实体识别 项目实例
一、概述在当今信息时代,海量的数据需要被有效地管理和利用,而命名实体识别技术(Named Entity Recognition,NER)就是其中一种非常重要的数据挖掘技术。
命名实体识别旨在从文本中识别并分类出命名实体,例如人名、地名、组织机构名等。
基于深度学习的命名实体识别模型在这一领域取得了很大的成功,而其中的LSTM+CRF模型更是备受关注。
二、LSTM+CRF模型的原理1. LSTM模型LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),它的主要特点是能够解决传统RNN在处理长序列时出现的梯度消失和梯度爆炸的问题。
LSTM通过引入遗忘门、输入门和输出门等机制,有效地记忆和遗忘过去的信息,从而更好地处理长序列数据。
2. CRF模型CRF(Conditional Random Field)是一种概率图模型,它主要用于对序列化数据进行建模。
CRF能够在标注样本数据的基础上学习出模型参数,进而对新的序列化数据进行标注。
3. LSTM+CRF模型LSTM+CRF模型将LSTM和CRF两种模型进行了结合,其主要思想是利用LSTM来提取文本中的特征,然后将这些特征输入到CRF模型中进行标注。
这样的结合能够有效地解决传统LSTM模型在命名实体识别任务上存在的问题,提高了模型的识别准确率和鲁棒性。
三、LSTM+CRF在命名实体识别中的应用1. 数据集准备在应用LSTM+CRF模型进行命名实体识别之前,需要准备好相应的数据集。
数据集通常包括已经标注的文本数据,以及相应的命名实体标签。
这些数据可以通过人工标注、开源数据集或者其他手段获取。
2. 模型训练在数据集准备完毕后,就可以开始对LSTM+CRF模型进行训练。
在训练过程中,需要将文本数据输入到LSTM模型中进行特征提取,然后将得到的特征输入到CRF模型中进行标注。
训练过程通常采用反向传播算法,并通过调整模型参数使得模型的损失函数最小化。
《蒙古文命名实体识别研究》范文
《蒙古文命名实体识别研究》篇一一、引言随着信息技术的快速发展,自然语言处理技术逐渐成为人工智能领域的重要研究方向。
其中,命名实体识别(Named Entity Recognition,NER)是自然语言处理中的一项关键技术。
针对蒙古文文本处理领域,命名实体识别研究具有重要的应用价值和意义。
本文旨在探讨蒙古文命名实体识别的研究现状、方法、存在的问题以及未来发展方向。
二、蒙古文命名实体识别的研究现状蒙古文是一种特殊的语言文字,其书写系统、语法结构等方面与汉语等语言存在较大差异。
因此,在蒙古文命名实体识别方面,国内外学者进行了大量的研究工作。
目前,蒙古文命名实体识别的研究已经取得了一定的成果,但仍然存在一些问题和挑战。
在蒙古文命名实体识别的研究方面,主要涉及到命名实体的类型、特征提取、模型构建等方面。
其中,命名实体的类型主要包括人名、地名、机构名等。
在特征提取方面,研究者们采用了基于规则、统计和深度学习等方法。
在模型构建方面,研究者们提出了各种机器学习算法和深度学习模型,如隐马尔可夫模型(HMM)、条件随机场(CRF)、长短期记忆网络(LSTM)等。
三、蒙古文命名实体识别的研究方法针对蒙古文命名实体识别的研究方法,本文主要介绍基于规则、统计和深度学习三种方法。
1. 基于规则的方法基于规则的方法主要是通过人工总结的规则对蒙古文文本进行命名实体识别。
这种方法需要大量的人力投入,但可以针对特定领域进行优化,具有一定的适用性。
在规则的制定过程中,需要考虑到蒙古文的书写规则、语法结构等方面。
2. 统计方法统计方法主要是通过计算命名实体的概率分布来实现命名实体识别。
其中,最常用的统计方法是基于隐马尔可夫模型(HMM)和条件随机场(CRF)等方法。
这些方法可以通过对大量语料库进行训练,得到较为准确的命名实体识别结果。
3. 深度学习方法深度学习方法是一种基于神经网络的自动学习算法,可以自动提取文本中的特征并进行分类。
ner方法
ner方法NER(Named Entity Recognition),即命名实体识别,是自然语言处理中的一项重要技术,能够将文本中的具有特定意义的实体识别出来,如人名、地名、组织机构、时间、日期等。
NER方法可以分类为基于规则的方法和基于机器学习的方法。
基于规则的方法需要手工编写规则,对于不同类型的实体需要编写不同的规则,工作量较大,但对于一些特定领域的实体识别效果较好。
基于机器学习的方法则是让计算机通过学习大量标注好的数据,自动学习如何识别实体,效果相对较好,但需要大量标注好的数据作为输入。
下面介绍几种常用的基于机器学习的NER方法。
一、CRF(Model-based)CRF(Conditional Random Fields),即条件随机场,是目前应用最广泛的序列标注模型之一。
CRF在实体识别任务中被广泛应用,其主要思想是用特征函数表示样本的不同特征。
特征函数的表达方式可以是基于字符层面的特征、基于词层面的特征和基于上下文的特征等。
在CRF中,一个句子中的每个词都是一个隐状态,而观测到的是其对应的特征。
CRF通过学习条件概率P(Y|X)来预测标注序列Y。
X表示输入的特征序列,Y表示输出的标注序列。
CRF可以学习到输入与输出之间的复杂概率关系,从而取得较好的实体识别效果。
二、BiLSTM-CRF(Model-based)BiLSTM-CRF是一种结合了BiLSTM和CRF的模型。
BiLSTM(双向长短时记忆网络)是一种循环神经网络,可以很好地处理序列标注任务。
BiLSTM-CRF的主要思想是利用BiLSTM学习输入序列的上下文信息,然后再使用CRF模型输出每个词的标注结果。
在BiLSTM-CRF中,首先经过字符嵌入层和词嵌入层对输入文本进行向量化表示,然后输入到BiLSTM中进行序列标注。
通过CRF对标注结果进行校正,保证标注的上下文一致性和合理性。
这种方法的优点在于可以处理长序列上的标注任务,并且可以同时捕捉前后上下文信息,提高了实体识别的准确率。
基于crf命名实体识别实验总结
基于crf命名实体识别实验总结基于CRF的命名实体识别实验总结近年来,随着人工智能技术的不断发展,命名实体识别(Named Entity Recognition, NER)作为自然语言处理领域的一个重要任务,受到了越来越多研究者的关注。
基于条件随机场(Conditional Random Fields, CRF)的命名实体识别模型,因其在序列标注任务中表现出色而备受推崇。
在进行基于CRF的命名实体识别实验时,首先需要准备标注好的语料数据集,包括文本内容和对应的命名实体标签。
然后,将数据集划分为训练集和测试集,用于模型的训练和评估。
接着,构建CRF 模型,定义特征函数,设置超参数等。
在训练过程中,通过最大化对数似然函数,使用梯度下降等方法优化模型参数,以提高命名实体识别的准确率和召回率。
在实验过程中,我们发现基于CRF的命名实体识别模型具有以下优点:1. 考虑了序列标注任务中的上下文信息,能够更好地捕捉实体之间的关系,提高了识别的准确性。
2. 可以灵活定义特征函数,结合领域知识和实际需求,对模型进行定制化,提高了适用性和泛化能力。
3. 在处理未知实体和模糊边界时,具有较强的鲁棒性,能够有效应对各种复杂情况。
4. 训练速度较快,适用于大规模数据集和实时场景,具有较好的实用性和效率。
然而,在实验中我们也发现了一些挑战和改进空间:1. 对于长距离依赖关系的建模能力仍有待提高,特别是在处理长文本和复杂实体结构时容易出现误差。
2. 特征工程的设计对模型性能有着重要影响,需要更多的经验和实践来挖掘有效的特征。
3. 模型的解释性相对较弱,难以解释模型如何做出决策,需要进一步研究可解释性机制。
总的来说,基于CRF的命名实体识别模型在实验中表现出了较好的性能和潜力,但仍有一些问题和挑战需要解决。
未来,我们将继续优化模型结构,改进特征工程和参数调优方法,提升模型的性能和可解释性。
同时,我们也将探索更多领域的应用场景,推动CRF在命名实体识别领域的进一步发展和应用。
基于条件随机场(CRF)的命名实体识别
基于条件随机场(CRF)的命名实体识别 很久前做过⼀个命名实体识别的模块,现在有时间,记录⼀下。
⼀、要识别的对象 ⼈名、地名、机构名 ⼆、主要⽅法 1、使⽤CRF模型进⾏识别(识别对象都是最基础的序列,所以使⽤了好评率较⾼的序列识别算法CRF) 2、使⽤规则对相关数据进⾏后过滤、 三、具体实现 1、训练数据的⽣成 主要使⽤了⼈民⽇报免费部分,以及⼀些及它从⽹上找到的资源(时间长了,记不住了,好像还⾃⼰标注了些) 2、模板的⽣成 使⽤的是Unigram,由于考虑到要识别的实体⼀般情况下没有长距离依赖以及训练时的效率问题,所以模板没有写得过长。
经过⼏次测试,最终确定的模板如下。
#UnigramU00:%x[-3,0]U01:%x[-2,0]U02:%x[-1,0]U03:%x[0,0]U04:%x[1,0]U05:%x[2,0]U06:%x[3,0]U07:%x[-3,0]/%x[-2,0]U8:%x[-2,0]/%x[-1,0]U9:%x[-1,0]/%x[0,0]U10:%x[0,0]/%x[1,0]U11:%x[1,0]/%x[2,0]U12:%x[2,0]/%x[3,0]# BigramB 3、参数寻优 参数寻优,使⽤⽹上提供的python脚本,进⾏参数寻优。
(脚本的具体使⽤⽅法不在这⾥赘述) 4、迭代训练 a)使⽤初始的训练数据及调优过的参数进⾏训练 b)使⽤训练好的model对⽂本进⾏实体识别 c)对识别错误的结果进⾏⼈⼯标注,添加到训练集,转⾄步骤a) 这⾥的采⽤了⼈⼯⼲预的⽅法,来提⾼识别⾼性能,可能有些⿇烦,但这是个⽐较有效的⽅法。
5、总体性能 经测试,总体准确度(A ccuracy)在94%以上。
注:没有经过严格的测试,只是取了300篇⽂章,对其中的实体标注了,然后⽤模型识别了⼀遍,统计了Acc,⽽recall⼏乎100%,我感觉测试⽂章⽐较少,所以这个测试结果可能不太严谨,由于最后领导感觉达到要求了,所以我也没有继续提⾼。
实体类的识别方法
实体类的识别方法实体类识别是自然语言处理领域中的一个重要任务,其目标是从文本中识别出具体的实体对象。
下面是关于实体类识别的50种方法,并对每种方法进行详细描述:1. 基于规则的方法: 使用预定义的规则或模式来识别特定类型的实体。
使用正则表达式识别电话号码或邮件地址。
2. 基于词典的方法: 使用预先构建的词典来匹配文本中的实体。
词典可以包含各种实体类型,如人名、地名、组织名等。
3. 基于统计的方法: 利用统计模型来识别实体。
这种方法通常使用标记序列模型,如隐马尔可夫模型(HMM)或条件随机场(CRF)。
4. 基于机器学习的方法: 使用机器学习算法来训练模型,从而识别实体。
常用的机器学习算法包括支持向量机(SVM)和神经网络。
5. 基于深度学习的方法: 使用深度神经网络模型来学习文本的表示,并从中提取实体信息。
使用循环神经网络(RNN)或卷积神经网络(CNN)。
6. 基于模式匹配的方法: 根据已知的模式来匹配实体。
使用关键词匹配来识别特定类型的实体。
7. 基于依存句法分析的方法: 利用句子的依存句法结构来识别实体。
通过分析句子中的依存关系,可以确定实体的范围和类型。
8. 基于词性标签的方法: 使用词性标签来过滤出可能是实体的词。
通过识别名词短语来识别人名或地名。
9. 基于实体关系的方法: 根据实体之间的关系来识别实体。
通过分析实体的上下文来确定实体的类型。
10. 基于上下文信息的方法: 使用文本中的上下文信息来识别实体。
通过分析实体周围的词语来确定实体的类型。
11. 基于语义角色标注的方法: 利用语义角色标注来识别实体。
语义角色标注可以帮助确定词语在句子中的语义角色,从而识别实体。
12. 基于实体链接的方法: 使用实体链接技术将文本中的实体链接到知识图谱或数据库中的实体。
通过实体链接,可以进一步获取实体的更多信息。
13. 基于预训练模型的方法: 使用在大规模数据集上预训练的模型来识别实体。
预训练模型通常具有强大的语义表示能力。
结合自注意力的BiLSTM-CRF的电子病历命名实体识别
第38卷第3期 计算机应用与软件Vol 38No.32021年3月 ComputerApplicationsandSoftwareMar.2021结合自注意力的BiLSTM CRF的电子病历命名实体识别曾青霞1 熊旺平2 杜建强2 聂 斌2 郭荣传11(江西中医药大学岐黄国医书院 江西南昌330004)2(江西中医药大学计算机学院 江西南昌330004)收稿日期:2019-08-21。
国家自然科学基金项目(61762051,61562045);江西省科技厅重点研发计划项目(20171ACE50021,20171BBG70108);江西省教育厅科学技术研究项目(GJJ170747)。
曾青霞,硕士,主研领域:机器学习,医药数据挖掘。
熊旺平,副教授。
杜建强,教授。
聂斌,硕士。
郭荣传,硕士。
摘 要 为弥补现有方法不能很好捕获电子病历实体之间的长距离依赖关系的缺陷,提出一种结合自注意力的BiLSTM CRF的命名实体识别方法。
将输入文本转成神经网络可识别的数值形式;经过BiLSTM网络并结合自注意力计算得到每个字的输出特征向量;通过CRF层找到句子最适合的输出标签序列,从而确定命名实体。
采用CCKS2018数据集进行实验,结果表明,改进的命名实体识别方法对电子病历具有一定的适应性,且与现有的方法相比,测试集的准确率提高了6.50~9.25个百分点。
关键词 电子病历 命名实体识别 自注意力 BiLSTM CRF中图分类号 TP3 文献标志码 A DOI:10.3969/j.issn.1000 386x.2021.03.024ELECTRONICMEDICALRECORDNAMEDENTITYRECOGNITIONCOMBINEDWITHSELF ATTENTIONBILSTM CRFZengQingxia1 XiongWangping2 DuJianqiang2 NieBin2 GuoRongchuan11(QihuangMedicalCollege,JiangxiUniversityofTraditionalChineseMedicine,Nanchang330004,Jiangxi,China)2(ComputerSchool,JiangxiUniversityofTraditionalChineseMedicine,Nanchang330004,Jiangxi,China)Abstract Tocompensatefortheshortcomingsofthelong distancedependencebetweenelectronicmedicalrecordentitiesthatarenotwellcapturedbyexistingmethods,thispaperproposesnamedentityidentificationofBiLSTM CRFcombinedwithself attention.Theinputtextwasconvertedintoarecognizablenumericalformoftheneuralnetwork;theoutputfeaturevectorofeachwordwascalculatedthroughtheBiLSTMnetworkandcombinedwithself attention;theCRFlayerwasusedtofindthemostsuitableoutputtagsequenceofthesentence,therebydeterminingthenamedentity.TheexperimentswerecarriedoutusingtheCCKS2018dataset.Theexperimentalresultsshowthattheimprovednamedentityrecognitionmethodhascertainadaptabilitytoelectronicmedicalrecords.Comparedwiththeexistingmethods,theaccuracyofthetestsetisimprovedby6.5%~9.25%.Keywords Electronicmedicalrecord Namedentityrecongition Self attention BiLSTM CRF0 引 言命名实体识别(NamedEntityRecongition,NER)是自然语言处理(NaturalLanguageProcessing,NLP)任务中的重要步骤之一,其主要目的是识别给定文本中的命名实体。
基于BERT-BiLSTM-CRF_古籍文献命名实体识别
第44卷㊀第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.44,No.3㊀2024年6月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Journal of Hubei University of Science and Technology㊀㊀㊀㊀㊀㊀㊀㊀Jun.2024文章编号:2095-4654(2024)03-0151-06㊀㊀㊀㊀基于BERT-BiLSTM-CRF古籍文献命名实体识别㊀㊀㊀㊀蔡维奕(西北民族大学㊀数学与计算机科学学院,甘肃㊀兰州㊀730030)摘㊀要:古籍文献中存在着大量的多字词㊁歧义词㊁异体字等问题,使得古籍文献命名实体识别成为了一项具有挑战性的任务㊂本文提出一种基于BERT-BiLSTM-CRF模型的古籍文献命名实体识别方法㊂该方法首先用预训练语言模型BERT来建模字的上下文表示,然后通过BiLSTM模型对BERT的输出进行加工,解决长距离依赖问题,得到更加丰富的特征信息,最后通过CRF模型对这些特征进行联合建模,从而实现对古籍文献中命名实体的精确识别㊂实验结果显示,BERT-BiLSTM-CRF性能超过了所有基线模型㊂关键词:BiLSTM模型;BERT模型;古籍文献中图分类号:TP391.1㊀㊀㊀㊀㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀㊀开放科学(资源服务)标识码(OSID ):㊀㊀古籍文献包含了丰富的历史㊁文化和语言信息,对于人类文明的研究和传承具有重要意义㊂古籍文献的命名实体识别旨在自动识别出古籍文本中人名㊁地名㊁机构名等实体㊂它是正确分析处理古籍文献文本的基础步骤,也是深度挖掘㊁分析古代人文知识与文化的重要前提㊂然而,由于古籍文献的特殊性,如书写方式㊁语言习惯等,使得古籍文献命名实体识别(Named Entity Recognition,NER)成为了一项具有挑战性的任务㊂近年来,学界已有多项研究[1-3]关注史籍㊁方志㊁诗词㊁中医等类目的古籍命名实体识别,构建了一些针对垂直领域的小型标注数据集,实体标注的体系和规范有所差异,识别范围往往由三种基本实体类别扩充至人文计算研究所需的多种特殊类别,如书名㊁药物名㊁疾病名㊁动植物名等㊂这些研究所构建针对特殊领域的小型标注数据集,实体类型有差异㊂另一方面,古文字词含义的多样性㊁行文结构的连续性以及多用繁体字㊁无句点等特点,也增加了古籍文献命名实体识别任务的复杂和困难程度㊂在过去的几年中,深度学习技术在自然语言处理领域取得了巨大的成功,BERT(Bidirectional En-coder Representations from Transformers)模型[4]作为其中的代表之一,以其卓越的性能和广泛的应用受到了广泛关注㊂基于BERT的古籍文献NER任务[3]已经成为了当前研究的热点之一㊂然而,由于BERT模型本身是一个字词级别的模型,而古籍文献中存在着大量的多字词㊁歧义词㊁异体字等问题,这就需要我们对BERT进行改进和优化㊂本文提出了一种基于BERT-BiLSTM-CRF模型的古籍文献NER方法㊂该方法首先用预训练语言模型BERT来建模字的上下文表示的基础上,引入了BiLSTM[5](Bi-directional Long Short Term Memo-ry)和CRF[6](conditional Rondom Fields)模型,通过BiLSTM模型对BERT的输出进行加工,得到更加丰富的特征信息,然后通过CRF模型对这些特征进行联合建模,从而实现对古籍文献中命名实体的精确识别㊂本文的主要贡献包括:∗收稿日期:2023-12-08(1)提出了一种基于BERT-BiLSTM-CRF模型的古籍文献命名实体识别方法;(2)在公开数据集上进行了大量实验,并与其他方法进行了对比;(3)分析了实验结果,探讨了该方法的优缺点和改进方向㊂一㊁相关工作在自然语言处理领域,命名实体识别(NER)是一个重要的任务,其目的是从文本中识别出具有特定意义的实体,如人名㊁地名㊁机构名等㊂近年来,深度学习技术在自然语言处理领域取得了巨大的成功,其中基于预训练语言模型的NER方法已经成为了当前研究的热点之一㊂1.预训练语言模型预训练语言模型是指在大规模文本数据上进行无监督预训练的语言模型,它可以学习到丰富的语言知识,并将这些知识应用于各种自然语言处理任务中㊂其中BERT是一种基于Transformer架构的预训练语言模型,它通过双向编码器对输入序列进行编码,从而学习到上下文相关的词向量表示㊂BERT 模型在多项自然语言处理任务上取得了卓越的性能,如情感分析[7,8]㊁问答系统[9]㊁文本分类等[10]㊂2.基于BERT的命名实体识别方法基于BERT的命名实体识别方法是自然语言处理领域中的研究热点之一,在多个数据集上均取得了优秀的表现㊂目前,基于BERT的命名实体识别方法的研究现状主要包括以下几个方面: (1)模型结构的改进:通过引入不同的模型结构来提高命名实体识别的性能㊂例如,将BERT与BiLSTM㊁CRF等模型结合[11-13],可以更好地捕捉上下文信息和标签之间的依赖关系㊂(2)数据增强的研究:由于命名实体识别数据集通常较小,对模型的训练和泛化能力造成了一定的影响㊂因此,研究者通过数据增强等方法来扩充训练数据集[14],从而提高模型的性能㊂(3)多语言命名实体识别:由于BERT在多语言上均有较好的表现,因此研究者将其应用于多语言命名实体识别任务中㊂例如,通过使用跨语言预训练模型来进行多语言实体识别[15]㊂(4)迁移学习:在预训练阶段,BERT学习了大量无标签的语言数据,从而捕获了丰富的语言特征㊂然而,对于特定的下游任务,这些预训练的语言表示可能不够精确,因此需要进行微调㊂迁移学习是一种常用的微调方法,它利用预训练模型已经学习到的知识来帮助解决新的任务㊂在迁移学习中,预训练模型首先被加载并冻结(即不参与训练),然后使用任务特定的数据来微调模型的顶部层(通常是全连接层)㊂通过这种方式,模型可以利用已经学习到的知识来改善对新任务的适应能力㊂将BERT预训练模型进行微调,可用于不同领域和不同任务的命名实体识别[16,17]㊂本文把中文训练的BERT-Base-Chinese语言模型,运用于古籍文献,本质上将BERT预训练模型作微调,进行迁移学习,并结合BiLSTM㊁CRF等模型结合更好地捕捉上下文信息和标签之间的依赖关系㊂图1㊀模型总体结构图二㊁模型基于BERT-BiLSTM-CRF的古籍文献NER方法旨在提高古籍文献NER任务的准确性㊂它是一种基于预训练语言模型BERT㊁双向LSTM和条件随机场(CRF)的命名实体识别方法㊂该方法BERT-BiLSTM-CRF模型的结构如图1所示㊂首先使用BERT预训练语言模型对输入序列进行编码,然后将编码结果输入到BiLSTM序列模型中,从而学习到上下文相关的特征表示㊂最后,通过CRF模型对标签序列进行建模,从而实现对命名实体的识别㊂1.BERT层BERT是一种基于Transformer架构的预训练语言模型,它通过双向编码器对输入序列进行编码,在本文方法中主要学习古文字的上下文相关的向量表示㊂BERT通过两个阶段的训练来获得上下文相关的输出字向量表示:第一阶段是无监督的预训练,用于学习通用的语言知识;第二阶段是有监督的微调,用于将BERT模型应用于特定的自然语言处理任务㊃251㊃湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀总第44卷中㊂在古籍文献NER任务中,一个输入可表示为s =(w1,w2, ,w n),其中w i表示输入的第i的字㊂每个字w i编码由三部分组成:(1)token embedding:将字转换成固定维度的向量㊂每个字会被转换成768维的向量表示㊂此外,两个特殊的token会被插入到tokenization的结果的开头([CLS])和结尾([SEP])㊂(2)segment embedding:用于区分一个token属于句子对中的哪个句子㊂Segment Embeddings包含两种向量表示㊂前一个向量是把0赋给第一个句子中的各个token,后一个向量是把1赋给第二个句子中的各个token㊂如果输入仅仅只有一个句子,那么它的segment embedding就是全0㊂(3)position embedding:由于Transformers无法编码输入的序列的顺序性,所以BERT在各个位置上学习一个向量表示来将序列顺序的信息编码进来㊂最终,古文字w i由三个embedding编码连接得到,即E i=E token E seg E pos㊂经过BERT层,得到每个字的向量表示:X i=Bert(E i)㊂2.Bi-LSTM层本文采用双向LSTM来学习每个古文字的中间表示,其优点可利用远距离的特征㊂对每一个LSTM 单元由多个实向量组合而成,包括输入门向量i t,忘记门向量f t,输出门向量o t,内存单元c t和隐藏状态h t㊂各变量内计算公式如下:i t=σ(W(i)x t+U(i)h t-1+b(i)f t=σ(W(f)x t+U(f)h t-1+b(f)o t=σ(W(o)x t+U(o)h t-1+b(o)u t=tanh(W(u)x t+U(u)h t-1+b(u)c i=i t☉u t+f t☉c t-1h t=o t☉tanh(c i)式中σ,tanh表示神经元的激活函数㊂W,U是权重矩阵,b是偏差向量㊂对于序列中的每个字,其输入为BERT层的输出,即x t㊂输出为h t,在Bi-LSTM网络中,其输出向量为左㊁右LSTM的输出连接组成,即h t=[h➝t,h t]㊂3.CRF层最后,本文采用CRF对标签序列进行全局建模,并考虑标签之间的依赖关系㊂具体地,对BiL-STM层的输出序列h1, ,h n作为CRF的特征输入,一个标签序列y=y1, ,y n的条件概率采用下面公式计算为:o i=Wh ip(y|s)=eði o i[y i]+T[y i,y i-1]ðy'eði o i[y'i]+T[y'i,y'i-1]其中y'=y'1, ,y'n是一个候选标签序列输出, W为发射矩阵,T为状态转移矩阵㊂在推断时,采用Viterbi算法发现概率最高的标签序列㊂在训练时,采用交叉熵损失,具体地,假设给定古文序列的黄金标签是g=g1, ,g n该实例的损失函数定义如下:L ner=-log p(g|s)三、实验与分析1.数据集文本采用2023中国计算语言学大会古籍命名实体识别评测数据集,由北京大学数字人文研究中心组织标注,语料来源是网络上公开的部分中国古代正史纪传文本㊂数据集以 二十四史 为基础语料,包含13部书中的22卷语料,随机截断为长度约100字的片段,标注了人名(PER)㊁书名(BOOK)㊁官职名(OFI)三种实体,总计15.4万字(计标点)㊂数据集统计如下:表1㊀实验用数据集统计总字数实例数人名数书名数官职数实体总数15.4万字23476670213336310246㊀㊀标签方案采用 BISO ,其中 B 表示实体的开始字符, I 表示实体的其它字符, S 表示只含单字实体, O 表示非实体字符㊂下面给出一个标签例子:友_B-PER倫_I-PER幼_O亦_O明_O敏_O,_ O通_O論_B-BOOK語_I-BOOK㊁_O小_B-BOOK 學_I-BOOK,_O曉_O音_O律_O㊂_O存_S-PER已_O死_O,_O太_B-PER祖_I-PER以_O友_B-PER 倫_I-PER為_O元_B-OFI從_B-OFI馬_I-OFI軍_I -OFI指_I-OFI揮_I-OFI使_I-OFI},_O表_O右_B -OFI威_I-OFI武_I-OFI將_I-OFI軍_I-OFI㊂2.实验设置实验时标注语料按8ʒ1ʒ1分别分为训练集㊁开发集和测试集㊂主要超参数设置如表2所示㊂㊃351㊃2024年第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀蔡维奕:基于BERT-BiLSTM-CRF古籍文献命名实体识别表2㊀超参设置表超参值超参值dropout0.5L21e-8 Batch size16Learing rate1e-5 Optimizer Adm Learning rate decay0.05 Momentum0.9Learning rate clipping 5.0㊀㊀实验采用精度(P)㊁召回率(R)和F1值三个指标评估模型性能,分别表示如下:P=预测正确的实体数预测的总实体数R=预测正确的实体数总实体数F1=2∗P∗RP+R3.实验结果为了比较本文采用的模型,实验引入3个基线,分别描述如下:(1)CRF:结合了最大熵模型和隐马尔可夫模型的特点,在序列标注任务中取得了很好的效果,特征采用相连5个窗口内的字符及其组合㊂(2)BiLSTM-CRF:结合BiLSTM与CRF,字向量表示随机初始化㊂模型参数与本文所提出模型的对应组件相同㊂(3)BERT-CRF:使BERT学习到字符的表示,并做为特征直接输出到CRF㊂模型参数与本文所提出模型的对应组件相同㊂表3给出基线与本文所提模型的实验结果㊂可以发现,仅采用离散特征的CRF模型性能远低于采用密向量表示的模型㊂在三个密向量表示的模型,采用预训练语言模型的BERT-CRF的性能高于未采用预训练语言模型的BiLSTM-CRF㊂本文所采用模型充分利用BERT与BiLSTM的优点,在精度㊁召回率和F1值都取得最高的分数㊂表3㊀基线与本文所提模型的实验结果模型P R F1CRF82.4882.3282.40BiLSTM-CRF89.8787.5488.69BERT-CRF92.590.6591.57BERT-BiLSTM-CRF93.591.292.34 4.实验分析本节从学习率㊁训练批大小方面分析了超参对性能的影响,此外,也比较分析了不同实体类型㊁不同文本长度的性能㊂(1)学习率影响图2显示了不同学习率对性能的影响,可以看到,当学习率为1e-5时,本文模型在精度㊁召回率和F1值达到了最好的性能㊂图2㊀不同学习率的性能(2)批训练大小的影响批训练大小也是重要超参之一㊂图3显示了不同批训练大小的F1值,可以看出,当批训练大小为16时,模型取得了最好的性能㊂图3㊀不同批训练大小的性能(3)不同类型实体识别结果表3给出不同类型的命名实体的识别比较结果㊂可以看出,书名实体的识别效果最差,人名识别效果最好,主要原因是书名的训练实例太少,而人名的训练实例比较多㊂此外,本文采用模型在所有的类型上都超过了BERT-CRF的识别性能㊂表3㊀模型对不同类型命名实体的识别比较类型BERT-CRF BERT-BiLSTM-CRF 人名(PER)92.4593.86书名(BOOK)83.4685.6官职名(OFI)91.1391.65 (4)不同文本长度的实验结果BiLSTM能抓住长距离依存特征㊂实验比较了不同文本长度的识别性的影响㊂我们样本按句子长度分为4组:小于10㊁大于等于10及小于30㊁大于等于30及小于50㊁大于等于50.表4给出本文模型与BERT-CRF的比较结果㊂可以看出,当文本长度㊃451㊃湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀总第44卷小于10时,两个模型性能基本相同㊂随着文本长度增大,两个模型的识别性能差距不断变大,当长度大于50时,本文模型超过BERT-CRF模型达到2.11%㊂这显示本文模型能有效抓住长文本的长距离依存信息㊂表4㊀不同长度文本的识别F1值比较文本长度BERT-CF BERT-BiLSTM-CRF<1097.3197.3410ɤ㊃ɤ3094.1094.2130<㊃ɤ5088.5389.04>5078.3580.46㊀㊀(5)实例分析为了更好地与基线进行比较,表5给出了本文方法与BiLSTM-CRF在古文命名实体识别的实例分析㊂在例子1中,BiLSTM-CRF方法由于缺少更多的上下文语义信息,并没有识别出人名{王鐵槍| PER}㊂在例子2中,本文所提方法识别出了所有的实体,而BiLSTM-CRF把两个OFI实体没有识别准确,这说明本文所提方法能获得更多边界信息㊂表5㊀实例分析与比较序号句子实例BiLSTM-CRF BERT-BiLSTM-CRF1持一鐵槍,騎而馳突,奮疾如飛,而佗人莫能舉也,軍中號{王鐵槍|PER}㊂持一鐵槍,騎而馳突,奮疾如飛,而佗人莫能舉也,軍中號王鐵槍㊂持一鐵槍,騎而馳突,奮疾如飛,而佗人莫能舉也,軍中號{王鐵槍|PER}㊂2壬午,{匡國軍節度使|OFI}{劉知俊|PER}爲{潞州行營招討使|OFI}㊂癸巳,改卜郊㊂{張文蔚|PER}薨㊂壬午,匡國軍{節度使|OFI}{劉知俊|PER}爲潞州行營{招討使|OFI}㊂癸巳,改卜郊㊂{張文蔚|PER}薨㊂壬午,{匡國軍節度使|OFI}{劉知俊|PER}爲{潞州行營招討使|OFI}㊂癸巳,改卜郊㊂{張文蔚|PER}薨四㊁结论古籍文献命名实体识别是正确分析处理古籍文献文本的基础步骤,也是深度挖掘㊁分析古代人文知识与文化的重要前提㊂本文采用BERT-BILSTM-CRF模型实现对古籍文献命名实体识别,实验表明模型的准确率㊁召回率和F1值均达到了较好的效果㊂此外实验也显示本模型能有效抓住长距离文本的依存信息㊂虽然书名实体识别性能不佳,这主要是由于训练语料太少,模型训练不充分所致㊂本文主要研究人名㊁书名㊁官职名三类古籍文献命名实体㊂后期研究工作中,将收集整理更大规模的古籍文献命名实体语料,研究更多的不同类型的古籍文献命名实体,并进一步研究模型各项参数,训练更好的模型,为古籍文献命名实体识别提供帮助㊂参考文献:[1]㊀崔丹丹,刘秀磊,陈若愚,等.基于Lattice LSTM的古汉语命名实体识别[J].计算机科学,2020,47(S2):18-22.[2]㊀胡为,刘伟,石玉敬.基于BERT-BiLSTM-CRF的中医医案命名实体识别方法[J].计算机时代,2022(9):119-122+135.[3]㊀余馨玲,常娥.基于DA-BERT-CRF模型的古诗词地名自动识别研究 以金陵古诗词为例[J].图书馆杂志,2023,42(10):87-94+73.[4]㊀Devlin J,Chang MW,Lee K.Bert:Pre-training of deepbidirectional transformers for language understanding[J/OL].https:///pdf/1810.04805.pdf.11Oct.2018.[5]㊀Schuster M,Paliwal KK.Bidirectional recurrent neuralnetworks[J].IEEE transactions on Signal Processing.1997,45(11):2673-2681.[6]㊀McCallum A.Efficiently inducing features of conditionalrandom fields[C].//Inproceedings of the Nineteenthconference on Uncertainty in Artificial Intelligence,USA,7Aug.2002.[7]㊀Gao Z,Feng A,Song X,etal.Target-dependent senti-ment classification with BERT[J].Ieee Access,2019(7):154290-154299.[8]㊀Catelli R,Pelosi S,Esposito M.Lexicon-based vs Bert-based sentiment analysis:A comparative study in Italian[J].Electronics,2022,11(3):374.[9]㊀Guven Z A,Unalir M O.Natural language based analysisof SQuAD:An analytical approach for BERT[J].ExpertSystems with Applications,2022,195:116592. [10]Esmaeilzadeh A,Taghva K.Text classification using neu-ral network language model(nnlm)and bert:An empiri-cal comparison[C].//Intelligent Systems and Applica-tions:Proceedings of the2021Intelligent Systems Confer-ence(IntelliSys)Volume3.Springer International Pub-lishing,2022:175-189.[11]Souza F,Nogueira R,Lotufo R.Portuguese named entityrecognition using BERT-CRF[J/OL].https://arxiv.㊃551㊃2024年第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀蔡维奕:基于BERT-BiLSTM-CRF古籍文献命名实体识别org/pdf/1909.10649.pdf.23Sep.2019. [12]Alsaaran N,Alrabiah M.Arabic named entity recogni-tion:A BERT-BGRU approach[J].Computers,Materi-als and Continua,2022,68:471-485.[13]Jiang S,Zhao S,Hou K,etal.A BERT-BiLSTM-CRFmodel for Chinese electronic medical records named entityrecognition[C].//12th international conference on intelli-gent computation technology and automation(ICICTA).IEEE,2019:166-169.[14]Tikhomirov M,Loukachevitch N,Sirotina A,ingbert and augmentation in named entity recognition for cy-bersecurity domain[C].//Natural Language Processingand Information Systems:25th International Conference onApplications of Natural Language to Information Systems,Germany,24–26June,2020.[15]Hakala K,Pyysalo S.Biomedical named entity recogni-tion with multilingual BERT[C].//Proceedings of the5thworkshop on BioNLP open shared tasks.ACL,2019:56-61.[16]Labusch K,Kulturbesitz P,Neudecker C,etal.BERTfor named entity recognition in contemporary and historicalGerman[C].//Proceedings of the15th conference on nat-ural language processing.ACL,2019:8-11. [17]Montejo-Ráez,A and Jiménez-Zafra,S.M.Current Ap-proaches and Applications in Natural Language Processing[J].Applied Sciences,2022,12(10):4859.Named Entity Recognition in Ancient Books andLiterature Based on BERT-BiLSTM-CRFCAI Wei-yi(School of Mathematics and Computer Science Northwest Minzu University,Lanzhou730030,China)Abstract:There are a lot of complex words,ambiguous words,variant characters,and other problems in ancient texts,making named entity recognition in ancient texts a challenging task.This paper proposes a named enti-ty recognition method for ancient texts based on the BERT-BiLSTM-CRF model.This method first uses a pre-trained language model BERT to model the context representation of characters,then processes the output of BERT through a BiLSTM model to solve the problem of long-distance dependencies and obtain richer feature information. Finally,these features are jointly modeled through a CRF model to achieve accurate identification of named entities in ancient documents.Experimental results show that the performance of BERT-BiLSTM-CRF exceeds all baseline models.Key words:Bilstm model;Bert model;Ancient texts责任编辑:彭茜珍㊃651㊃湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀总第44卷。
基于crf命名实体识别实验总结
基于crf命名实体识别实验总结实验目的:本次实验的主要目的是通过使用CRF(条件随机场)模型对文本中的命名实体进行识别,进一步提高自然语言处理技术在信息提取、文本分类、机器翻译等方面的应用效果。
实验方法:1. 数据预处理首先需要对原始数据进行预处理,包括分词、标注等操作。
这里我们使用了中科院计算所发布的人民日报语料库,将其按照8:2的比例划分为训练集和测试集。
同时,我们还对数据进行了清洗和去重等操作,确保数据质量。
2. 特征工程在CRF模型中,特征工程是非常重要的一步。
我们需要从文本中提取出有用的特征,并将其转化为可供模型使用的格式。
在本次实验中,我们主要使用了以下几种特征:(1)字级别特征:包括当前字、前一个字、后一个字等信息;(2)词级别特征:包括当前词、前一个词、后一个词等信息;(3)上下文特征:包括当前句子前面几个句子和后面几个句子中出现过的实体类型等信息;(4)组合特征:将不同层次的特征进行组合,得到更加丰富的特征信息。
3. 模型训练在特征工程完成后,我们使用Python中的sklearn_crfsuite库来训练CRF模型。
具体地,我们使用了L-BFGS优化算法和10折交叉验证的方式来训练模型,并设置了不同的参数组合进行实验比较。
4. 模型评估在模型训练完成后,我们需要对其进行评估。
这里我们主要使用了以下两个指标:(1)精确度(Precision):表示预测为正例的样本中有多少是真正的正例;(2)召回率(Recall):表示所有真正的正例中有多少被预测为正例。
通过计算这两个指标,我们可以得到模型在测试集上的性能表现。
实验结果:经过多次实验比较,我们最终得到了一个F1值为0.89左右的命名实体识别模型。
具体地,该模型在测试集上的精确度和召回率分别达到了0.90和0.88左右,表现较为优秀。
结论:本次实验通过使用CRF模型对命名实体进行识别,并通过特征工程、模型训练和评估等环节逐步提升了模型性能。
基于群集智能的CRF与规则结合的中文地址抽取
优先出版 计 算 机 应 用 研 究 第32卷--------------------------------基金项目:国家自然科学重点项目(61133012);国家自然科学基金面上项目(61173062)作者简介:汪闯闯(1990-),男,湖北潜江人,硕士研究生,主要研究方向为自然语言处理、信息抽取(chuangno1@);姬东鸿(1966-),男,教授,博导,主要研究方向为自然语言处理、数据挖掘、智能信息处理、搜索技术、机器学习、生物信息处理;词汇语义学、现代语言学、认知语言学.基于群集智能的CRF 与规则结合的中文地址抽取 *汪闯闯,姬东鸿(武汉大学 计算机学院,武汉 430072)摘 要:地址抽取是一个研究的热点,但是如何保证高准确率与召回率一直是一个具有挑战性的问题。
将基于CRF 的方法与规则抽取方法相结合来进行地址抽取,并将优化后的结果再用来进行CRF 训练。
此过程不断循环迭代,直至性能不再提升,最后得到多个CRF 分类器。
这个不断迭代的过程就是基于群集智能的ACG 算法流程,最后再通过组合多个分类器的结果形成最终结果。
实验表明,该方法可以把召回率和准确率分别提高到96.44%、97.73%。
关键词:条件随机场;地址抽取;规则抽取方法;群集智能;ACG 算法;组合 中图分类号:TP391 文献标志码:AAddress extraction in Chinese by associating CRF with rulesbased on swarm intelligenceWANG Chuang-chuang, JI Dong-hong(Computer School of Wuhan University, Wuhan 430072)Abstract: Address extraction is a hot research topic. But how to ensure its high precision and recall remains a challenge. This article presents the association between CRF and rule-based method and then use their optimized result in return for CRF training . This process iterates until reaching the best performance and results in several CRF classifiers. The whole procedure is just the process of ACG algorithm based on swarm intelligence. At last, generate the final result by combining the results of all models with each other. The experiment shows that the method can promote the recall and the precision to 96. 44% and 97. 73%. Key Words: CRF; address extraction; rule-based extracting method; swarm Intelligence; ACG algorithm; combination0 引言随着现代信息技术的高速发展,互联网上的信息呈现爆炸式的增长,人们也在通过各种方式高效地获取信息,地址就是其中的一个重要部分。
基于CRF和Bi-LSTM的保险名称实体识别
基于CRF和Bi-LSTM的保险名称实体识别陈彦妤;杜明【摘要】在保险领域智能问答应用研究中,用户提问时大量使用缩写、简写的保险名称,降低了问题语义理解的准确率.为解决这个问题,本文提出使用条件随机场(CRF)与双向长短记忆循环神经网络相结合的模型(Bi-LSTM-CRF),加入预先训练好的字嵌入向量进行训练的方法来识别保险名称.实验结果表明,CRF结合双向的LSTM的方法相较于传统机器学习的方法,在保险领域命名实体的识别中具有更好的性能,显著提高了保险名称识别的准确率和召回率.【期刊名称】《智能计算机与应用》【年(卷),期】2018(008)003【总页数】4页(P111-114)【关键词】Bi-LSTM-CRF;命名识别识别;保险智能问答【作者】陈彦妤;杜明【作者单位】东华大学计算机科学与技术学院,上海201620;东华大学计算机科学与技术学院,上海201620【正文语种】中文【中图分类】TP391.1引言社会保险作为现代经济的分支产业和风险管理的基本手段,是衡量经济发达程度和国民生活水平的有效标志。
但是目前大部分民众对于保险领域相关知识却甚少涉猎。
在参保人面临选择、产生问题时,如何利用智能问答[1]相关技术,准确理解用户的查询意图,为其提供专业、精准的问答服务,更好地辅助参保人做出选择即已成为互联网保险领域的热门趋势。
但保险行业是一个门类庞杂、内容泛化的实践领域。
且保险领域内的许多专有名词,例如保险名称,字数普遍较多,且构成较为复杂。
所以人们在提出问题时常常不能准确地表达出完整的保险名称,而是使用简写、别名等方式进行描述,甚至常常会发生错别字、歧义等混淆事件。
这种情况给用户问句的理解带来了很大的困难。
同时,句子内的标点符号、句子构成方式、空格等都会对保险名称的识别造成重大影响。
综上分析可知,研究识别用户问句中的保险名称则有着不可忽视的实际应用价值。
1 相关工作目前,学术界对于命名实体识别[2]的研究,根据模型和算法的不同,现已陆续推出了成效可观的各类技术成果,对其可给出如下重点表述。
bilstm crf模型ner原理
bilstm crf模型ner原理BILSTM-CRF模型NER原理序言命名实体识别(Named Entity Recognition, NER)是自然语言处理中一个重要的任务,可以从大量的文本数据中提取出有关人名、地名、组织机构名、时间、日期和数量等实体信息,对信息抽取、信息检索、信息聚类和信息推荐等领域都有着重要的应用,如金融信息提取、新闻热点分析、医学实体识别等。
目前NER的主流方法主要有规则模板、统计分析和深度学习等。
其中深度学习方法已经成为新一代的NER模型,取得了很好的效果。
本文简单介绍了深度学习NER模型BILSTM-CRF的原理,提供了一些相关的技术知识。
一、BILSTM-CRF概述BILSTM-CRF模型是将双向长短时记忆网络(Bidirectional Long Short-Term Memory,BILSTM)和条件随机场模型(Conditional Random Field,CRF)结合起来的一种模型,主要应用于序列标注任务中,如命名实体识别、词性标注、语义分析等。
该模型是在BILSTM 模型的基础上,增加了CRF层来提高模型的性能。
BILSTM-CRF模型的输入是一段文本序列,输出是相应的标签序列,其中标签用于表示文本中的实体或其他语言学信息。
在预测标签时,模型利用文本序列中的上下文信息,从而可以更准确地识别实体。
二、BILSTM模型BILSTM模型是一种适用于序列标注问题的神经网络模型,它可以从输入序列中抽取高纬度的特征信息,从而更好地捕捉上下文信息。
BILSTM模型由两个LSTM网络组成,一个向前LSTM和一个向后LSTM,其具体操作方式如下:在BILSTM中,输入序列首先通过前向LSTM和反向LSTM生成两个隐藏状态序列$h^{f}$和$h^{b}$,然后将两个隐藏状态序列连接起来,形成一个新的隐藏状态序列$h_{i}=[h^{f}_{i};h^{b}_{i}]$,其中“;”表示连接运算符。
219433889_基于BERT—BiLSTM—CRF_模型的运营商文本命名实体与关系联合提取
33Internet Technology互联网+技术基于BERT—BiLSTM—CRF 模型的运营商 文本命名实体与关系联合提取摘要:本文使用大规模预训练汉语模型的 BERT-BiLSTM-CRF 方法,从运营商的非结构化文本数据中联合提取命名实体与关系。
首先,通过运营商非结构化文本数据建立运营商文本语料库,对语料进行文本标签标注;然后,提出一种基于运营商文本命名实体与关系提取的 BERT-BiLSTM-CRF 模型方法。
实验结果表明,该技术在运营商文本命名实体与关系联合提取中适用性较强,在运营商文本的命名实体与关系联合提取中,F1 值高达 93.2%,可以将该方法应用到实际问题解决中。
关键词:BERT;BiLSTM;CRF;实体识别;词嵌入一、引言随着信息化发展和数据积累,电信运营商拥有数量巨大的用户,沉淀了海量结构化和非结构化数据,作为非结构化的对话文本是运营商办理客户业务和处理客户问题的重要数据资源。
运营商非结构化的对话文本数据具有非结构化、口语化、业务性强等特点,对该数据进行数据挖掘和实体与关系的抽取可以有效利用其中包含的语义信息,推动运营商智能化发展。
实体和关系抽取研究如何自由文本中抽取所需命名实体和关系的技术,但中文自然语言具有表达的灵活性,运营商文本信息具有专业性的特点,进行运营商的文本信息提取是当前研究的难点问题,探索相关有效的信息提取方法具有重要价值。
二、相关工作对运营商领域知识提取的方法研究主要涉及两个方面:①运营商非结构化中文语料库构建与运营商领域文本词嵌入技术;②运营商命名实体识别与关系提取技术。
(一)中文运营商语料库与词嵌入技术词向量是一种表示自然语言中词的方法,把每个词都表示为一个N 维空间内的点,即一个高维空间内的向量。
通过这种做法,把自然语言计算转换为向量计算。
词嵌入技术(Word Embeddings)是一种将文本中的每个字符、词、句封装为向量表达式的技术,是机器学习算法执行自然语言处理的基础。
基于BERT-BiLSTM-CRF模型的油气领域命名实体识别
[收稿日期]20220929[基金项目]教育部中国高校产学研创新基金项目 基于5G+大数据的教育知识图谱平台构建 (2021B C F 03006)㊂ [第一作者]高国忠(1974),男,博士,教授,博士生导师,现主要从事油气大数据和人工智能㊁测井技术㊁电磁勘探㊁地球物理正反演等方向的研究工作,1640832148@q q.c o m ㊂高国忠,李宇,华远鹏,等.基于B E R T -B i L S TM -C R F 模型的油气领域命名实体识别[J ].长江大学学报(自然科学版),2024,21(1):57-65.G A O GZ ,L IY ,HU A YP ,e t a l .N a m e d e n t i t y r e c o gn i t i o n i n o i l a n d g a s d o m a i n b a s e d o n t h e B E R T -B i L S T M -C R Fm o d e l [J ].J o u r n a l o f Y a n g t z eU n i v e r s i t y(N a t u r a l S c i e n c eE d i t i o n ),2024,21(1):57-65.基于B E R T -B i L S T M -C R F 模型的油气领域命名实体识别高国忠1,李宇1,华远鹏1,吴文旷21.长江大学地球物理与石油资源学院,湖北武汉4301002.中国石油勘探开发研究院,北京100083[摘要]针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确㊁识别效率低的问题,提出了一种基于B E R T -B i L S T M -C R F 模型的命名实体识别研究方法㊂该方法首先利用B E R T (b i d i r e c t i o n a l e n c o d e r r e pr e s e n t a t i o n s f r o mt r a n s f o r m e r s )预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(b i -d i r e c t i o n a l l o n g s h o r t -t e r m m e m o r y ,B i L S TM )模型进一步获取上下文特征;最后根据条件随机场(c o n d i t i o n a l r a n d o mf i e l d s ,C R F )的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架㊂将B E R T -B i L S TM -C R F 模型与其他2种命名实体识别模型(B i L S TM -C R F ㊁B i L S TM -A t t e n t i o n -C R F )在包括3万多条文本语料数据㊁4类实体的自建数据集上进行了对比实验㊂实验结果表明,B E R T -B i L S TM -C R F 模型的准确率(P )㊁召回率(R )和F 1值分别达到91.3%㊁94.5%和92.9%,实体识别效果优于其他2种模型㊂[关键词]油气领域;命名实体识别;B E R T ;双向长短期记忆网络;条件随机场;B E R T -B i L S TM -C R F 模型[中图分类号]T P 391.1;T E 19[文献标志码]A [文章编号]16731409(2024)01005709N a m e d e n t i t y r e c o gn i t i o n i no i l a n d g a s d o m a i nb a s e d o n t h eB E R T -B i L S T M -C R Fm o d e lG A O G u o z h o n g 1,L IY u 1,HU A Y u a n p e n g 1,WU W e n k u a n g21.C o l l e g e o fG e o p h y s i c s a n d p e t r o l e u mr e s o u r c e s ,Y a n g t z eU n i v e r s i t y,W u h a n430100,H u b e i 2.R e s e a r c h I n s t i t u t e o f P e t r o l e u m E x p l o r a t i o na n dD e v e l o p m e n t ,C N P C ,B e i j i n g 100083A b s t r a c t :A i m i n g a t s o l v i n gp r o b l e m so f i n s u f f i c i e n t f e a t u r e i n f o r m a t i o ne x t r a c t i o na n d l o wr e c o g n i t i o ne f f i c i e n c y in t h e c o n s t r u c t i o no f k n o w l e d g e g r a p h i n t h e o i l a n d g a s d o m a i n ,t h i s p a p e r p r o p o s e s am e t h o d f o r n a m e d e n t i t y r e c o gn i t i o n b a s e do nt h eB E R T -B i L S TM -C R F m o d e l .T h e m e t h o df i r s tu s e st h eB E R T (b i d i r e c t i o n a le n c o d e rr e pr e s e n t a t i o n s f r o mt r a n s f o r m e r s )p r e -t r a i n i n g t h em o d e l t o o b t a i n t h ew o r dv e c t o r s o f t h e s e m a n t i c s o f t h e i n p u t s e q u e n c e ;T h e n ,f u r t h e r o b t a i n s t h e c o n t e x t c h a r a c t e r i s t i c sb y t h e i n p u t o f t h e t r a i n e dw o r dv e c t o r s i n t o t h eb i -d i r e c t i o n a l l o n g s h o r t -t e r m m e m o r y (B i L S TM )m o d e l ;F i n a l l y ,a c c o r d i n g t ot h el a b e l i n g r u l e sa n ds e q u e n c ed e c o d i n g a b i l i t y ofc o n d i t i o n a l r a n d o mf i e l d s (C R F ),t h em a x i m u m p r o b a b i l i t y s e q u e n c e l a b e l i n g r e s u l t s a r eo b t a i n e d ,a n dam o d e l f r a m e w o r k f o r n a m e de n t i t y r e c o g n i t i o n i n t h e o i l a n d g a s f i e l d i s c o n s t r u c t e d .T h i sm o d e l i s c o m p a r e d t o t w o c o mm o n l y us e dn a m e d e n t i t y r e c o g n i t i o nm o d e l s u s i n g t h e s e l f -b u i l t d a t a s e t s o fm o r e t h a n 30000t e x t c o r p o r a d a t a a n d f o u r t y p e s o f e n t i t i e s ,a n d t h e e x p e r i m e n t a l r e s u l t s s h o w e d t h a t t h ea c c u r a c y (P ),r e c a l l r a t e (R )a n d F 1v a l u eo f t h e p r o p o s e d m o d e l r e a c h e d 91.3%,94.5%a n d 92.9%,r e s p e c t i v e l y ,a n d t h e e n t i t y r e c o g n i t i o n p e r f o r m a n c ew a s s u p e r i o r t o o t h e r t w om o d e l s .K e yw o r d s :o i l a n d g a sd o m a i n ;n a m e de n t i t y r e c o g n i t i o n ;b i d i r e c t i o n a le n c o d e rr e p r e s e n t a t i o n sf r o m t r a n s f o r m e r s (B E R T );b i -d i r e c t i o n a l l o n g s h o r t -t e r m m e m o r y;c o n d i t i o n a l r a n d o mf i e l d s ;B E R T -B i L S TM -C R F m o d e l ㊃75㊃长江大学学报(自然科学版) 2024年第21卷第1期J o u r n a l o fY a n g t z eU n i v e r s i t y (N a t u r a l S c i e n c eE d i t i o n ) 2024,V o l .21N o .1㊃85㊃长江大学学报(自然科学版)2024年1月随着油气勘探开发的深入和石油工程技术的发展,石油公司在勘探㊁地质和测井等各个环节积累的油气资源数据呈爆发式增长,这些数据除了具有大体量㊁多样性㊁时效性㊁准确性和低密度价值的5个特点外[1],油气数据通常还涉及到多源㊁多模态等特点㊂由于缺乏统一的语义表示,多源油气数据呈现的异构特征,数据整合共享和挖掘分析难度较大㊂例如,全球盆地㊁油气田㊁油气藏和井资料数量数不胜数,质量参差不齐,各类油气论文书籍中文本表示不规范㊁格式不统一,导致无法快速精准定位盆地㊁油气田等领域专有名词,无法根据非结构化资料进行及时高效的油气资源评估和开发方案设计㊂解决上述问题的关键在于如何通过知识工程技术构建一种计算机可理解㊁可计算㊁可推理的语义网络,实现对知识的有效组织和管理[2]㊂随着知识工程技术不断完善,谷歌公司在2012年5月17日正式提出了知识图谱(k n o w l e d g e g r a p h,K G)[3],意图提升搜索返回的答案质量和用户查询的效率[4],它把复杂的知识领域通过数据挖掘和信息处理以图的形式显示出来,揭示知识领域的动态发展规律[5],直观描述了事物之间的联系㊂规模大㊁数据全的知识图谱主要包括信息抽取㊁知识融合和知识加工三项技术;而油气领域命名实体识别(n a m e e n t i t y r e c o g n i t i o n,N E R)[6]是油气信息抽取的核心任务之一,其主要目的是从半结构化或非结构化的油气文本数据中抽取所需要的实体信息,并为实体所属类别自动打上标签[7]㊂命名实体识别在知识图谱㊁信息检索㊁文本理解㊁语义分析和本体构建等领域具有广泛的研究和应用[8-9],其重要性也越来越明显㊂命名实体识别研究历史进程大致分为以下几个阶段:①基于规则和词典的方法需要领域内专家构建一个数量大且全面的知识库和词典[10],观察实体组成成分,依据语法规则总结出模板㊂该方法在其特定语料上识别效果较高,但这些规则过分依赖具体领域和具体语言,难以覆盖所有方面,容易产生错误,存在可移植性差㊁代价大和建立知识库周期长等问题㊂②基于统计的机器学习方法需要融合机器学习㊁统计学和语言学的相关知识建立模型,该方法本质是序列标注,利用人工标注的语料文本进行有监督训练㊂和基于规则的方法相比,该方法的实体识别效果有一定程度提升㊂常见基于统计的机器学习方法模型有:隐马尔科夫模型(h i d d e n m a r k o v m o d e l,HMM)[11],最大熵[12],支持向量机(s u p p o r t v e c t o rm a c h i n e,S VM)[13]和条件随机场(c o n d i t i o n a l r a n d o mf i e l d s,C R F)[14]等㊂其中HMM利用V i t e r b i算法搜索最佳标注路径[15],在训练和识别速度上相对快一点,更适合处理像信息检索这样具有大量文本的应用,如短文本命名实体识别[16];C R F为命名实体识别提供了一个特征灵活和全局最优的标注框架[17]㊂③基于深度学习的方法利用深度神经网络强大的非线性转化能力㊁向量表示能力和计算能力来获取词和文本的向量表示[18],减少特征工程的工作量,同时学习上下文语义信息来更好地完成实体识别任务㊂这种方法具有良好的泛化能力,并逐渐成为主流[19-30]㊂针对石油领域实体识别研究,刘国强等[31]采用基于自然语言处理技术结合人工修正的方式对区块㊁井㊁地层㊁储集层和测井曲线等实体进行命名实体识别;张雪英等[32]提出了基于深度信念网络的地质实体识别方法,解决了文本数据中地质实体信息的结构化㊁规范化处理问题;钟原等[33]提出利用B i L S T M 神经网络模型提取语料特征㊁C R F做分类器,来开展石油工业领域的实体识别任务㊂虽然上述模型一定程度上完成了实体任务,但存在一定缺陷:它们注重词或者字符之间的特征,而忽略了词的上下文语境[34],从而导致提取出来的是静态词向量,不能有效识别词在不同语境中存在的不同语义信息㊂为了解决这一问题,D E V L I N等[35]于2019年提出B E R T预训练模型,旨在能够更好地增强词或者字符之间的关系特征,充分表达词在不同语境中具有的不同语义㊂在此基础上,本文提出一种B E R T-B i L S T M-C R F神经网络模型,用于解决油气领域命名实体识别实体特征信息提取不准确和识别效率低的问题:首先将油气领域数据文本转换成字符级别的序列,利用B E R T预训练模型提取富有多种语义特征的词向量;再将预训练的油气领域词向量输入B i L S T M模型中提取上下文语义特征;最后通过C R F依赖规则和序列解码能力输出最佳的标注结果㊂本文使用自建油气领域数据集对B E R T-B i L S T M-C R F与另外两种实体识别模型B i L S T M-C R F和B i L S T M-A t t e n t i o n-C R F进行了对照实验,结果表明该模型在油气领域命名实体识别任务中取得了不错的效果,三次迭代实验F1值都达到了90%以上㊂1 B E R T -B i L S T M -C R F 模型框架1.1 模型整体框架及其流程图1 B E R T -B i L S T M -C R F 模型框架图F i g.1 F r a m e w o r ko f t h eB E R T -B i L S T M -C R Fm o d e l 本文提出B E R T 与传统命名实体识别B i L S T M -C R F 模型相结合的方法,其模型结构主要由三部分组成:B E R T 层㊁双向L S T M 层㊁C R F 层㊂其详细模型构建流程如图1所示㊂输入层以 四川盆地 为例作为模型的输入序列;然后将输入序列分割得到 四 川 盆地 4个不同字符,将上述字符依据语料形成的向量表映射成向量形式,输入到B E R T 层;B i L S T M 获取B E R T 层输出后,将其进行E m b e d d i n g 拼接,加入到前向和后向的L S T M 中进行编码,并根据上下文,使用s o f t m a x 函数给出单词对应标签的概率,由于s o f t m a x 函数输出的单词标签相互独立,存在序列不合理情况;最后传入C R F 层对B i L S T M 层的输出进行修正,得到最大概率的合理序列(B -盆地㊁I -盆地㊁I -盆地㊁I -盆地)㊂下面将从B E R T ㊁B i L S T M 和C R F 三种模型的方法原理展开介绍㊂1.2 B E R T 模型自然语言处理领域对语言模型的研究经历了O n e h o t ㊁W o r d 2V e c ㊁G l o v e ㊁G P T 到B E R T 时期,O n e h o t 编码存在数据稀疏和维度灾难等问题[36],W o r d 2V e c 中根据周围词来预测中心词的C B OW 模型和根据中心词来预测周围词的S k i p -g r a m 模型都只是获取静态的词向量,同一个单词对应的词嵌入表示在不同句子中是不变的[37],G l o v e 模型也是如此㊂G P T 是单向的语言模型,无法获取前文词语语义,而B E R T 不仅可以学习上下文语义,而且能够获取动态词向量,表达一词多义㊂B E R T 作为自然语言处理领域目前应用最广的技术,已应用于自然语言处理的各个领域[38],如命名实体识别㊁关系抽取㊁文本分类和生成等,其主要创新点在预训练阶段:M L M (掩盖部分单词)和N S P (句子预测)两个任务㊂M L M 任务会在每一个句子中m a s k 部分词,用其上下文来对m a s k 的词做预测,N S P 任务预测两个句子是否连在一起㊂这两种任务分别捕捉了词语和句子级别上的特征,可以获取高质量㊁多特征词向量,一定程度上解决了自然语言处理领域字向量嵌入问题㊂B E R T 模型结构如图2(a)所示,首先对序列文本进行处理形成单个字符,在一个句子的开头㊁结尾分别添加[C L S ]和[S E P ]特殊标记来分隔两个句子;同时每个输入的词向量(E 1㊁E 2㊁ ㊁E N )都包含T o k e n E m b e d d i n g s (词向量)㊁S e g m e n tE m b e d d i n g s (区分两种句子)㊁P o s i t i o nE m b e d d i n gs (位置信息)3个部分;然后将词向量输入到双向T r a n s f o r m 中;最后输出具有语义特征的向量(T 1㊁T 2㊁ ㊁T N )㊂B E R T 模型的核心是T r a n s f o r m e r ,其编码器如图2(b )所示㊂T r a n s f o r m e r 主要依赖于自注意力机制[39](S e l f -A t t e n t i o n),通过同一个句子词之间的关联程度调整权重系数来获取词的重要特征㊂在自注意力计算过程中,每个词创建3个不同的向量矩阵:查询矩阵Q ㊁值矩阵K 和索引矩阵V [40]㊂计算公式为:A t t e n t i o n (Q ,K ,V )=so f t m a x Q K Td K æèçöø÷V (1)式中:d K 表示值矩阵K 第二维度㊂而多头注意力(m u l t i -h e a da t t e n t i o n )机制可以通过设置不同的h e a d 获得多个特征表达,然后将所有特征拼接到一起,形成全面的特征信息㊂计算公式为:㊃95㊃第21卷第1期高国忠等:基于B E R T -B i L S TM -C R F 模型的油气领域命名实体识别㊃06㊃长江大学学报(自然科学版)2024年1月h e a d i=A t t e n t i o n(QW Q i,KW K i,VW V i)(2)M u l t i-h e a d(Q,K,V)=c o n c a t(h e a d1, ,h e a d h)W Q(3)式中:c o n c a t表示对每次结果进行拼接㊂图2B E R T预训练模型F i g.2B E R T p r e-t r a i n i n g m o d e l基于上述分析,B E R T主要具有以下优点:①M L M和N S P任务可以充分利用上下文获取更加丰富的动态词向量;②使用T r a n s f o r m e r作特征提取,并利用自注意力机制调整词与句子的关联程度,增强模型的计算能力㊂因此,本文使用B E R T作为词向量模型㊂1.3B i L S T M模型L S T M是一种特殊的循环神经网络,采用了巧妙的门设计,避免了梯度爆炸和长期依赖问题[41]㊂由于单向的L S T M模型无法处理上下文信息特征,因此HU A N G等[20]提出B i L S T M神经网络模型用于解决序列无法联系上下文的问题㊂B i L S T M层是由前向的L S T M和后向的L S T M组合而成,B i L S TM模型对每个句子采用顺序和逆序计算得到两套不同的隐层表示,然后通过向量拼接得到最终的隐层表示[42]㊂具体效果如图3(a)所示,其原理和计算流程如下:在F o r w a r d层从1时刻到t时刻正向计算得到并保存每个时刻向前隐层的输出,而在B a c k w a r d层沿着t时刻到时刻1反向计算得到并保存向后隐层的输出,最后在每个时刻结合F o r w a r d层和B a c k w a r d层的相应时刻的输出结果得到最后输出㊂计算公式为:h t=f(w1x t+w2h t-1)(4)h't=f(w3x t+w5h't+1)(5) o t=g(w4h t+w6h't)(6)在B i L S T M结构内部某一时刻某单元结构图如图3(b)所示,其原理和计算流程如下㊂第一步:计算遗忘门,决定从单元状态中遗忘或者舍弃哪些信息㊂接收前一时刻隐藏状态h t-1和当前时刻x t输入,通过s i g m o i d函数σ输出一个介于(0,1)的值f t来表示对单元状态C t-1中信息被遗忘的程度(0:完全遗忘,1:完全接收)㊂计算公式为:f t=σ㊃(W f㊃[h t-1,x t]+b f)(7)式中:b f为遗忘门偏置向量㊂第二步:计算输入门,确定从单元状态中保留哪些新信息㊂①接收前一时刻隐藏状态h t-1和当前时刻X t 输入,通过计算输出一个介于(0,1)的值i t 来表示单元状态C t -1中哪些信息需要更新;②由t a n h 层创建一个新的备选向量 Ct 用来添加到单元状态中去㊂计算公式为: i t =σ㊃(W i ㊃[h t -1,x t ]+b i )(8) C t =t a n h (W c ㊃[h t -1,x t ]+b c )(9)式中:b i 为更新门偏置向量;bc 为记忆单元偏置向量㊂图3 B i L S T M 详情结构图F i g .3 D e t a i l e dd i a gr a mo f t h eB i L S T Ms t r u c t u r e 第三步:将前一时刻的单元状态C t -1更新到当前时刻单元状态C t ㊂计算公式为:C t =f t ㊃C t -1+i t ㊃C t (10)第四步:计算输出门和当前时刻隐藏状态h t ,决定需要输出什么信息㊂接收前一时刻隐藏状态h t -1和当前时刻X t 输入,通过计算输出一个介于(0,1)的值o t 来表示单元状态C t -1中的哪些信息需要输出;然后将单元状态C t 输入到t a n h 层进行处理,最后再和o t 做乘积运算输出我们需要的信息㊂计算公式为:o t =σ㊃(W o ㊃[h t -1,x t ]+b o )(11) h t =σ㊃t a n h (C t )(12)式中:b o 为输出门偏置向量㊂ 图4 C R F 模型结构图F i g.4 S t r u c t u r e o f t h eC R Fm o d e l 经过计算每一个时刻都可以得到对应输出,形成与句子长度相同的序列(h 0,h 1, ,h t , ,h n)㊂1.4 C R F 层C R F 是一种用于解决序列标注问题的概率图模型[43],模型结构图如图4所示,接收一个观测序列(X 1㊁X 2㊁ ㊁X n ),经过概率计算输出状态序列(Y 1㊁Y 2㊁ ㊁Y n )㊂其计算方式是通过B i L S T M 输出的状态分数(e m i s s i o ns c o r e )和转移分数(t r a n s i t i o ns c o r e )来计算句子标签对应得分,计算公式为:s c o r e (x ,y )= n i =1P i ,y i + ni =1A y i ,y i +1(13)式中:P i ,y i 为第i 个字符预测为第y i 个标签的分数;A y i ,y i +1为第y i 个标签转移到标签y i +1的分数㊂C R F 模型在自然语言处理领域中被广泛应用,尤其在实体识别任务中,B i L S T M 虽然能够解决长距离的文本信息问题,但是相邻标签之间的依赖关系无法正确识别,而C R F 模型能够根据自身一些约束条件正确识别相邻字符之间特征,例如句子开头是以 B - 或者 O 开始,而不是 I -;又或者㊃16㊃第21卷第1期高国忠等:基于B E R T -B i L S TM -C R F 模型的油气领域命名实体识别B -l a b e l 1 后面预测是 I -l a b e l 1 ,而不是另一类标签的实体内部 I -l a b e l 2 等,减少预测错误的标签,提高识别正确率㊂2 数据获取和标注为了验证本文提出B E R T -B i L S T M -C R F 命名实体识别模型在油气领域的有效性和可行性,本节使用自建的油气领域语料作为实验数据集㊂2.1 数据获取表1 实验数据集统计表T a b l e1 S t a t i s t i c s o f e x pe r i m e n t a l d a t a s e t 文本类型训练集测试集文章16040句子274627492字符24507064593本文获取了200篇文章,形成本次实验所需要的油气数据集,数据集按照8ʒ2的比例划分为训练集和测试集㊂为了增加实验的可靠性,去除了训练的文章中图片㊁表格,最大程度上保留文本内容㊂其划分的数据集统计如表1所示㊂2.2 数据标注本次标注任务采用基于网页且支持中英文的b r a t 文本标注工具,用于对非结构化的原始文本进行结构化处理,因其可以进行多人协同标注和将b r a t 集成到其他平台等特点,成为各项N L P 任务标注语料的首选工具㊂笔者借助b r a t 工具对盆地㊁油气田㊁油气藏和井4类实体进行标注,完成标注后会产生两种文件 t x t 文件和a n n 文件,分别用来存放原始文件和记录标注语料的位置信息;然后利用这两种文件,使用B I O 实体标注法(B 表示实体开始,I 表示实体内部,O 表示非实体),依次产生9类标签:B -盆地㊁I -盆地㊁B -油气田㊁I -油气田㊁B -油气藏㊁I -油气藏㊁B -井㊁I -井和O ;最后给每个字符打上相应标签,如图5所示㊂其中标注实体类别和实体数量如表2所示㊂图5 数据集标注示例图F i g .5 E x a m pl e o f d a t a s e t a n n o t a t i o n 3 实验分析3.1 实验环境及其参数设置表2 标注数据统计表T a b l e 2 S t a t i s t i c s o f t h em a r k e dd a t a标注实体标注数量/条盆地3523油气田2109油气藏3793井2864表3 参数配置表T a b l e 3 C o n f i gu r a t i o n p a r a m e t e r s 参数参数值m a x _l e n gt h 100v o c a b _s i z e21128l r 0.00001e m b e d d i n g _di m 256r n n _u n i t s 256d r o po u t 0b a t c h _s i z e4实验采用T e n s o r f l o w 1.13框架和P y t h o n 3.6环境,显卡N v i d i aG e F o r c e G T X 1050T i ,内存为4G B ,预训练模型B e r t -b a s e 的网络层数L =12,多头注意力个数=12,隐藏层维度=768,总共参数大小110M ㊂具体训练参数设置如表3所示㊂3.2 模型评价指标实验采用准确率(P )㊁召回率(R )和F 1值作为模型识别效果的评价标准㊂其计算公式为:P =T PT P +F P ˑ100%(14) R =T PT P +F Nˑ100%(15) F =2P RP +Rˑ100%(16)式中:T P 为模型正确识别的实体数量;F P 为模型识别的非相㊃26㊃长江大学学报(自然科学版)2024年1月关实体数量;F N 为模型未识别的相关实体数量㊂3.3 模型实验结果分析表4 三种模型P ㊁R ㊁F 1值T a b l e 4 P ,R a n d F 1v a l u e s o f t h e t h r e em o d e l s模型P /%R /%F 1/%E po c h =50B i L S TM -C R F84.981.182.7B i L S TM -A t t e n t i o n -C R F 85.582.183.8B E R T -B i L S T M -C R F 89.494.391.8E po c h =100B i L S TM -C R F 86.587.286.8B i L S TM -A t t e n t i o n -C R F 87.488.387.8B E R T -B i L S T M -C R F 90.592.191.3E po c h =200B i L S TM -C R F 88.387.888.1B i L S TM -A t t e n t i o n -C R F 89.790.390.1B E R T -B i L S T M -C R F91.394.592.9本次研究采用以下3种模型B i L S T M -C R F ㊁B i L S T M -A t t e n t i o n -C R F 和B E R T -B i L S T M -C R F 在相同的训练集和测试集上来进行参照对比实验㊂为了确保实验的准确性,分别进行了多组迭代实验,各组实验中模型对应的P ㊁R 和F 1值如表4所示㊂通过表4可知,B E R T -B i L S T M -C R F 模型F 1值在3次迭代实验中都高于其他两种模型㊂由于B E R T 预训练模型相较于传统W o r d 2v e c 等模型,不仅可以训练得到动态词向量表达一词多义,而且还可以获得具有丰富语义上下文信息㊂最后从自建油气领域语料库中随机抽取句子进行模型测试,结果如表5所示㊂测试结果表明,通过B E R T -B i L S T M -C R F 模型可以有效从文本中抽取所需的专有名词,适应油气领域命名实体识别任务㊂表5 B E R T -B i L S T M -C R F 模型实体识别结果示例T a b l e 5 E x a m p l e o f e n t i t y r e c o gn i t i o n r e s u l t s o f t h eB E R T -B i L S T M -C R Fm o d e l 文本内容实体识别结果以页岩气富集的四川盆地威远地区和鄂尔多斯盆地下寺湾地区为研究对象盆地:四川盆地盆地:鄂尔多斯盆地前人根据川东南涪陵气田J Y 1井和川南长宁气田N 203井的岩相学研究成果油气田:涪陵气田井:J Y 1井油气田:长宁气田井:N 203井为了明确我国四川盆地南部龙马溪组页岩的真实含气能力盆地:四川盆地油气藏:龙马溪组4 结束语本文针对自建油气领域数据集进行人工标记,设计和训练B E R T -B i L S T M -C R F 模型,自动提取油气领域实体,在一定程度上解决了实体抽取特征准确度差和识别效率低问题㊂在3次迭代测试实验中该模型取得了91.3%的准确率㊁94.5%的召回率和92.9%的F 1值,实体识别效果优于B i L S T M -C R F 和B i L S T M -A t t e n t i o n -C R F 两种模型㊂在后续研究工作中,可通过获取更多油气领域语料数据㊁提升模型算法和优化超参数来进一步提高该模型的识别准确率,为实体关系抽取和构建油气领域知识图谱知识库提供高质量数据打下坚实基础㊂参考文献:[1]A N U R A D HAJ .Ab r i e f i n t r o d u c t i o no nb i g d a t a 5V s c h a r a c t e r i s t i c s a n dh a d o o p t e c h n o l o g y [J ].P r o c e d i aC o m p u t e rS c i e n c e ,2015,48:319-324.[2]黄恒琪,于娟,廖晓,等.知识图谱研究综述[J ].计算机系统应用,2019,28(6):1-12.HU A N G H Q ,Y UJ ,L I A OX ,e t a l .R e v i e wo nk n o w l e d g e g r a p h s [J ].C o m p u t e r S y s t e m s&A p pl i c a t i o n s ,2019,28(6):1-12.[3]J I SX ,P A NSR ,C AM B R I A E ,e ta l .As u r v e y o nk n o w l e d g e g r a p h s :r e p r e s e n t a t i o n ,a c q u i s i t i o n ,a n da p p l i c a t i o n s [J ].I E E E T r a n s a c t i o n s o nN e u r a lN e t w o r k s a n dL e a r n i n g S ys t e m s ,2022,33(2):494-514.[4]刘峤,李杨,段宏,等.知识图谱构建技术综述[J ].计算机研究与发展,2016,53(3):582-600.L I U Q ,L IY ,D U A N H ,e ta l .K n o w l e d g e g r a p hc o n s t r u c t i o nt e c h n i q u e s [J ].J o u r n a lo fC o m p u t e rR e s e a r c h A n dD e v e l o pm e n t ,㊃36㊃第21卷第1期高国忠等:基于B E R T -B i L S TM -C R F 模型的油气领域命名实体识别㊃46㊃长江大学学报(自然科学版)2024年1月2016,53(3):582-600.[5]秦长江,侯汉清.知识图谱:信息管理与知识管理的新领域[J].大学图书馆学报,2009,27(1):30-37,96.Q I NCJ,H O U H Q.M a p p i n g k n o w l e d g e d o m a i n:An e wf i e l d o f i n f o r m a t i o nm a n a g e m e n t a n dk n o w l e d g em a n a g e m e n t[J].J o u r n a l o fA c a d e m i cL i b r a r i e s,2009,27(1):30-37,96.[6]N A D E A U D,S E K I N ES.As u r v e y o f n a m e de n t i t y r e c o g n i t i o na n d c l a s s i f i c a t i o n[J].2007,30(1):3-26.[7]羊艳玲,李燕,钟昕妤,等.基于B i L S T M-C R F的中医医案命名实体识别[J].中医药信息,2021,38(11):15-21.Y A N G YL,L IY,Z HO N G X Y,e t a l.N a m e d e n t i t y r e c o g n i t i o no fT C M m e d i c a l r e c o r d s b a s e d o nB i L S TM-C R F[J].I n f o r m a t i o n o nT r a d i t i o n a l C h i n e s eM e d i c i n e,2021,38(11):15-21.[8]谢腾,杨俊安,刘辉.基于B E R T-B i L S T M-C R F模型的中文实体识别[J].计算机系统应用,2020,29(7):48-55.X I ET,Y A N GJA,L I U H.C h i n e s ee n t i t y r e c o g n i t i o nb a s e do nB E R T-B i L S T M-C R F m o d e l[J].C o m p u t e rS y s t e m s&A p p l i c a-t i o n s,2020,29(7):48-55.[9]刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340.L I U L,WA N G DB.Ar e v i e wo nn a m e d e n t i t y r e c o g n i t i o n[J].J o u r n a l o f t h eC h i n a S o c i e t y f o r S c i e n t i f i c a n dT e c h n i c a l I n f o r m a t i o n, 2018,37(3):329-340.[10]焦凯楠,李欣,朱容辰.中文领域命名实体识别综述[J].计算机工程与应用,2021,57(16):1-15.J I A O K N,L IX,Z HU R C.O v e r v i e wo fC h i n e s ed o m a i nn a m e de n t i t y r e c o g n i t i o n[J].C o m p u t e rE n g i n e e r i n g a n dA p p l i c a t i o n s, 2021,57(16):1-15.[11]T O D O R O V I CBT,R A N C I CSR,MA R K O V I CI M,e ta l.N a m e de n t i t y r e c o g n i t i o na n dc l a s s i f i c a t i o nu s i n g c o n t e x tH i d d e n M a r k o vM o d e l[C].9t hS y m p o s i u mo nN e u r a lN e t w o r kA p p l i c a t i o n s i nE l e c t r i c a l E n g i n e e r i n g.I E E E,2008:43-46.[12]B E R G E R AL,D E L L AP I E T R ASA,D E L L A P I E T R A VJ.A m a x i m u me n t r o p y a p p r o a c ht on a t u r a l l a n g u a g e p r o c e s s i n g[J].C o m p u t a t i o n a l L i n g u i s t i c s,1996,22(1):39-71.[13]I S O Z A K IH,K A Z AWA H.S p e e d i n g u p n a m e d e n t i t y r e c o g n i t i o nb a s e d o nS u p p o r tV e c t o rM a c h i n e s[J].I p s j S i g N o t e s,2002,1:1-8.[14]L A F F E R T YJ,M C C A L L UM A,P E R E I R AF.C o n d i t i o n a l r a n d o mf i e l d s:p r o b a b i l i s t i cm o d e l s f o r s e g m e n t i n g a n d l a b e l i n g s e q u e n c ed a t a[C].18t h I n te r n a t i o n a l C o nf e r e n c e o n M a c h i n eL e a r n i n g,2001:282-289.[15]张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139.Z H A N GX Y,W A N G T,C H E N H W.A m i x e ds t a t i s t i c a lm o d e l-b a s e d m e t h o df o rC h i n e s en a m e de n t i t y r e c o g n i t i o n[J].C o m p u t e rE n g i n e e r i n g&S c i e n c e,2006,28(6):135-139.[16]王丹,樊兴华.面向短文本的命名实体识别[J].计算机应用,2009,29(1):143-145,171.W A N G D,F A NX H.N a m e d e n t i t y r e c o g n i t i o n f o r s h o r t t e x t[J].J o u r n a l o f C o m p u t e rA p p l i c a t i o n s,2009,29(1):143-145,171.[17]孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47.S U NZ,WA N G H L.O v e r v i e wo nt h ea d v a n c eo f t h e r e s e a r c ho nn a m e de n t i t y r e c o g n i t i o n[J].N e w T e c h n o l o g y o fL i b r a r y a n dI n f o r m a t i o nS e r v i c e,2010(6):42-47.[18]郑洪浩,宋旭晖,于洪涛,等.基于深度学习的中文命名实体识别综述[J].信息工程大学学报,2021,22(5):590-596.Z H E N G H H,S O N G X H,Y U H T,e ta l.S u r v e y o fC h i n e s en a m e de n t i t y r e c o g n i t i o nb a s e do nd e e p l e a r n i n g[J].J o u r n a l o fI n f o r m a t i o nE n g i n e e r i n g U n i v e r s i t y,2021,22(5):590-596.[19]C O L L O B E R TR,W E S T O NJ,B O T T O U L,e ta l.N a t u r a l l a n g u a g e p r o c e s s i n g(a l m o s t)f r o m s c r a t c h[J].J o u r n a lo f M a c h i n eL e a r n i n g R e s e a r c h2011,12:2493-2537.[20]H U A N G Z H,X U W,Y U K.B i d i r e c t i o n a lL S T M-C R F m o d e l s f o rs e q u e n c e t a g g i n g[E B/O L].2015:a r X i v:1508.01991.h t t p s://a r x i v.o r g/ab s/1508.01991.p d f.[21]M A X Z,H O V Y E.E n d-t o-e n ds e q u e n c e l a b e l i n g v i aB i-d i r e c t i o n a lL S T M-C N N s-C R F[E B/O L].2016:a r X i v:1603.01354.h t t p s://a r x i v.o r g/ab s/1603.01354.p d f.[22]Q I UJH,Z H O U Y M,WA N G Q,e t a l.C h i n e s e c l i n i c a l n a m e d e n t i t y r e c o g n i t i o n u s i n g r e s i d u a l d i l a t e d c o n v o l u t i o n a l n e u r a l n e t w o r kw i t hc o nd i t i o n a l r a n d o mf ie l d[J].I E E ET r a n s a c t i o n s o nN a n o b i o s c i e n c e,2019,18(3):306-315.[23]Y A N H,D E N GBC,L IX N,e t a l.T E N E R:a d a p t i n g t r a n s f o r m e r e n c o d e r f o r n a m e d e n t i t y r e c o g n i t i o n[E B/O L].2019:a r X i v:1911.04474.h t t p s://a r x i v.o r g/a b s/1911.04474.p d f.[24]曾青霞,熊旺平,杜建强,等.结合自注意力的B i L S T M-C R F的电子病历命名实体识别[J].计算机应用与软件,2021,38(3):159-162,242.Z E N G Q X,X I O N G W P,D UJQ,e t a l.E l e c t r o n i cm e d i c a l r e c o r d n a m e d e n t i t y r e c o g n i t i o n c o m b i n e dw i t h s e l f-a t t e n t i o n b i l s t m-c r f[J].C o m p u t e rA p p l i c a t i o n s a n dS o f t w a r e,2021,38(3):159-162,242.[25]Q I U QJ,X I EZ,WU L,e ta l.B i L S T M-C R Ff o r g e o l o g i c a ln a m e de n t i t y r e c o g n i t i o nf r o mt h e g e o s c i e n c e l i t e r a t u r e[J].E a r t hS c i e n c e I n f o r m a t i c s,2019,12(4):565-579.[26]刘文聪,张春菊,汪陈,等.基于B i L S T M-C R F的中文地质时间信息抽取[J].地球科学进展,2021,36(2):211-220.L I U W C,Z H A N G C J,WA N G C,e ta l.G e o l o g i c a l t i m ei n f o r m a t i o ne x t r a c t i o nf r o m C h i n e s et e x tb a s e do n B i L S T M-C R F[J].A d v a n c e s i nE a r t hS c i e n c e,2021,36(2):211-220.[27]林立涛,王东波,刘江峰,等.数字人文视域下典籍动物命名实体识别研究:以S i k u B E R T预训练模型为例[J].图书馆论坛,2022,42(10):42-50.L I NLT ,WA N G DB ,L I UJF ,e t a l .A n i m a l n a m e de n t i t y r e c o g n i t i o n i na n c i e n tC h i n e s ec l a s s i c s f r o mt h e p e r s p e c t i v eo f d i gi t a l h u m a n i t i e s :b a s e do nS i k u B E R T p r e -t r a i n i n g m o d e l [J ].L i b r a r y Tr i b u n e ,2022,42(10):42-50.[28]刘巨升,于红,杨惠宁,等.基于多核卷积神经网络(B E R T+M u l t i -C N N+C R F )的水产医学嵌套命名实体识别[J ].大连海洋大学学报,2022,37(3):524-530.L I UJ S ,Y U H ,Y A N G H N ,e t a l .R e c o g n i t i o no fn e s t e dn a m e de n t i t i e s i na q u a t u r em e d i c i n eb a s e do n m u l t i -k e r n e l c o n v o l u t i o n (B E R T+M u l t i -C N N+C R F )[J ].J o u r n a l o fD a l i a nO c e a nU n i v e r s i t y,2022,37(3):524-530.[29]曾兰兰,王以松,陈攀峰.基于B E R T 和联合学习的裁判文书命名实体识别[J ].计算机应用,2022,42(10):3011-3017.Z E N GLL ,WA N GYS ,C H E NPF .N a m e d e n t i t y r e c o g n i t i o n b a s e d o nB E R Ta n d j o i n t l e a r n i n g f o r j u d g m e n t d o c u m e n t s [J ].J o u r n a l o f C o m p u t e rA p pl i c a t i o n s ,2022,42(10):3011-3017.[30]杨培,杨志豪,罗凌,等.基于注意机制的化学药物命名实体识别[J ].计算机研究与发展,2018,55(7):1548-1556.Y A N GP ,Y A N GZH ,L U OL ,e t a l .A n a t t e n t i o n -b a s e d a p p r o a c h f o r c h e m i c a l c o m p o u n d a n d d r u g n a m e d e n t i t y r e c o g n i t i o n [J ].J o u r n a l o f C o m p u t e rR e s e a r c h a n dD e v e l o p m e n t ,2018,55(7):1548-1556.[31]刘国强,龚仁彬,石玉江,等.油气层测井知识图谱构建及其智能识别方法[J ].石油勘探与开发,2022,49(3):502-512.L I U G Q ,G O N G RB ,S H IYJ ,e t a l .C o n s t r u c t i o no fw e l l l o g g i n g k n o w l e d g e g r a p h a n d i n t e l l i g e n t i d e n t i f i c a t i o nm e t h o d o f h yd r o c a r b o n -be a r i n gf o r m a t i o n [J ].P e t r o l e u m E x p l o r a t i o na n dD e v e l o pm e n t ,2022,49(3):502-512.[32]张雪英,叶鹏,王曙,等.基于深度信念网络的地质实体识别方法[J ].岩石学报,2018,34(2):343-351.Z H A N G X Y ,Y EP ,WA N GS ,e t a l .G e o l o g i c a l e n t i t y r e c o g n i t i o nm e t h o db a s e do nD e e p B e l i e fN e t w o r k s [J ].A c t aP e t r o l o gi c a S i n i c a ,2018,34(2):343-351.[33]钟原,刘小溶,王杰,等.基于N E R 的石油非结构化信息抽取研究[J ].西南石油大学学报(自然科学版),2020,42(6):165-173.Z H O N G Y ,L I U X R ,W A N G J ,e t a l .R e s e a r c h o f e x t r a c t i o n o n p e t r o l e u m u n s t r u c t u r e d i n f o r m a t i o n b a s e d o n n a m e d e n t i t yr e c o g n i t i o n [J ].J o u r n a l o f S o u t h w e s t P e t r o l e u m U n i v e r s i t y (S c i e n c e&T e c h n o l o g y E d i t i o n ),2020,42(6):165-173.[34]郭军成,万刚,胡欣杰,等.基于B E R T 的中文简历命名实体识别[J ].计算机应用,2021,41(S 1):15-19.G U OJC ,WA N G ,HU XJ ,e t a l .C h i n e s e r e s u m en a m e de n t i t y r e c o g n i t i o nb a s e do nB E R T [J ].J o u r n a l o fC o m p u t e rA p p l i c a t i o n s ,2021,41(S 1):15-19.[35]D E V L I NJ ,C H A N G M W ,L E EK ,e t a l .B E R T :p r e -t r a i n i n g o f d e e p b i d i r e c t i o n a l t r a n s f o r m e r s f o r l a n g u a g e u n d e r s t a n d i n g [E B /O L ].2018:a r X i v :1810.04805.h t t p s ://a r x i v .o r g /a b s /1810.04805.pd f .[36]岳增营,叶霞,刘睿珩.基于语言模型的预训练技术研究综述[J ].中文信息学报,2021,35(9):15-29.Y U EZY ,Y E X ,L I U R H .As u r v e y o f l a n g u a g em o d e l b a s e d p r e -t r a i n i n g t e c h n o l o g y [J ].J o u r n a l o fC h i n e s e I n f o r m a t i o nP r o c e s s i n g,2021,35(9):15-29.[37]Z H O U M ,D U A N N ,L I US J ,e t a l .P r o g r e s s i n n e u r a l N L P :m o d e l i n g ,l e a r n i n g ,a n d r e a s o n i n g [J ].E n g i n e e r i n g ,2020,6(3):155-188.[38]陈德光,马金林,马自萍,等.自然语言处理预训练技术综述[J ].计算机科学与探索,2021,15(8):1359-1389.C H E N DG ,MAJL ,MAZP ,e t a l .R e v i e wo f p r e -t r a i n i n g t e c h n i q u e s f o r n a t u r a l l a n g u a g e p r o c e s s i n g [J ].J o u r n a l o f F r o n t i e r s o f C o m p u t e r S c i e n c e a n dT e c h n o l o g y,2021,15(8):1359-1389.[39]V A S WA N IA ,S H A Z E E RN ,P A R MA RN ,e t a l .A t t e n t i o n i s a l l y o un e e d [C ].P r o c e e d i n g s o f t h e 31s t I n t e r n a t i o n a l C o n f e r e n c e o n N e u r a l I n f o r m a t i o nP r o c e s s i n g S ys t e m s .A C M ,2017:6000-6010.[40]林佳瑞,程志刚,韩宇,等.基于B E R T 预训练模型的灾害推文分类方法[J ].图学学报,2022,43(3):530-536.L I NJR ,C H E N GZG ,HA N Y ,e ta l .D i s a s t e rt w e e t sc l a s s i f i c a t i o n m e t h o db a s e do n p r e t r a i n e dB E R T m o d e l [J ].J o u r n a lo fG r a ph i c s ,2022,43(3):530-536.[41]张心宇,刘源,宋佳凝.基于L S T M 神经网络的短期轨道预报[J ].系统工程与电子技术,2022,44(3):939-947.Z H A N G X Y ,L I U Y ,S O N GJN .S h o r t -t e r mo r b i t p r e d i c t i o nb a s e d o nL S T Mn e u r a l n e t w o r k [J ].S y s t e m s E n g i n e e r i n g a n dE l e c t r o n i c s ,2022,44(3):939-947.[42]李丽双,郭元凯.基于C N N -B L S T M -C R F 模型的生物医学命名实体识别[J ].中文信息学报,2018,32(1):116-122.L ILS ,G U O Y K .B i o m e d i c a l n a m e de n t i t y r e c o g n i t i o n w i t hC N N -B L S TM -C R F [J ].J o u r n a l o fC h i n e s e I n f o r m a t i o nP r o c e s s i n g ,2018,32(1):116-122.[43]余本功,范招娣.面向自然语言处理的条件随机场模型研究综述[J ].信息资源管理学报,2020,10(5):96-111.Y U BG ,F A N Z D .A r e v i e w o fc o n d i t i o n a lr a n d o m f i e l d m o d e l sf o rn a t u r a l l a n g u a g e p r o c e s s i n g [J ].J o u r n a lo fI n f o r m a t i o n R e s o u r c e sM a n a ge m e n t ,2020,10(5):96-111.[编辑] 龚丹㊃56㊃第21卷第1期高国忠等:基于B E R T -B i L S TM -C R F 模型的油气领域命名实体识别。
CRF与规则相结合的医学病历实体识别
CRF与规则相结合的医学病历实体识别栗伟;赵大哲;李博;彭新茗;刘积仁【期刊名称】《计算机应用研究》【年(卷),期】2015(32)4【摘要】针对电子病历结构化中命名实体识别困难的问题,提出了一种基于CRF与规则相结合的医学病历实体识别算法.该算法采用CRF进行病历实体的初始识别,然后基于规则进行病历实体识别结果优化,其中规则包括基于决策树生成的规则和临床知识规则.实验证明,该算法对病历实体进行识别时准确率及召回率分别最高达到91.03%和87.26%,满足临床中系统应用需求,同时实验表明该算法具有很好的鲁棒性和稳定性.【总页数】5页(P1082-1086)【作者】栗伟;赵大哲;李博;彭新茗;刘积仁【作者单位】东北大学医学影像计算教育部重点实验室,沈阳110004;东北大学医学影像计算教育部重点实验室,沈阳110004;东北大学信息科学与工程学院,沈阳110004;东北大学医学影像计算教育部重点实验室,沈阳110004;东软集团股份有限公司,沈阳110179;东北大学信息科学与工程学院,沈阳110004;东软集团股份有限公司,沈阳110179【正文语种】中文【中图分类】TP391.4【相关文献】1.CRF与规则相结合的军事命名实体识别研究 [J], 姜文志;顾佼佼;丛林虎2.基于CRF和规则相结合的地理命名实体识别方法 [J], 何炎祥;罗楚威;胡彬尧3.基于CRF与规则相结合的中文电子病历命名实体识别研究 [J], 翟菊叶;陈春燕;张钰;陈玉娥;刘玉文4.基于CRF与RUTA规则相结合的卒中入院记录医学实体识别及应用 [J], 许源;葛艳秋;王强;熊刚;易应萍5.基于CRF与RUTA规则相结合的卒中入院记录医学实体识别及应用 [J], 许源;葛艳秋;王强;熊刚;易应萍;;;;;;因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于CRF与规则的工程领域命名实体识别方法
作者:郭喜跃周琴陈前军
来源:《软件导刊》2014年第11期
摘要:在分析工程文本中命名实体实际特征的基础上,提出一种基于CRF与规则相结合的工程领域命名实体识别方法。
在完善用户词典并对文本进行分词后,以短语级的粒度为原则从中确定特征,将文本交由CRF算法进行处理;分析CRF的处理结果,根据语言学规律及工程文本特点编写规则,对CRF处理结果进行优化。
实验表明,该方法的全局F1值能够达到93.45。
关键词:命名实体识别;CRF;规则;工程文本
DOIDOI:10.11907/rjdk.143506
中图分类号:TP301文献标识码:A文章编号文章编号:16727800(2014)011002803
作者简介作者简介:郭喜跃(1983-),男,河南镇平人,华中师范大学国家数字化学习工程技术研究中心博士研究生,兴义民族师范学院信息技术学院实验师,研究方向为信息抽取。
0引言
命名实体识别(NER)是信息抽取的基础性工作,其任务是从文本中识别出诸如人名、组织名、日期、时间、地点、特定的数字形式等内容,并为之添加相应的标注信息,为信息抽取后续任务提供便利[1]。
传统方法有基于统计的NER和基于规则的NER,这两种办法各有优缺点,所以目前的研究趋势是考虑将这两种办法结合起来,从而促进识别效果的进一步提高。
2006年张华平等[2]提出了基于层叠HMM的中文NER方法,首先在词语粗切分的结果集上采用底层HMM模型识别出普通无嵌套的人名、地名等,然后依次采取高层HMM模型识别出嵌套了人名、地名的复杂地名和机构名。
2013年王厚峰等[3]提出了基于多步聚类的中文NER方法,首先通过两轮聚类将命名实体与知识库实体定义链接,通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于KMeans聚类的结果调整。
这些研究都有力推动了中文NER的发展。
当前中文NER研究主要集中在几个特定领域,针对工程领域的研究尚未出现。
工程领域的文本有其独有特点,如术语多、数据短语多、语法结构复杂、NER需要识别的种类多等。
现有研究成果在工程领域的NER方面很难取得理想效果。
本文将统计机器学习领域中较新的理论模型CRF与基于规则的方法相结合,期望在此领域有所突破。
1条件随机场CRF
CRF是一种无向图模型,它在给定一组输入随机变量条件下可获取另一组输出随机变量的条件概率分布,其特点是假设输出随机变量构成马尔可夫随机场,属于判别式模型。
与HMM 模型相比,CRF的不同点在于,它是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,所以CRF很适合进行标注一类的工作[4]。
设O={O1,O2,…,oT}为训练数据的输入数据序列,这里的输入数据序列可为文本中按顺序出现的字、词、短语或者标注等;再设S={s1,s2,…,sT}为测试文本中的状态序列。
在给定输入序列时,输出序列的条件概率表示为:P△(S|O)=exp(∑Tt=1∑Kk=1λkfk(st-1,st,O,t))/Z0其中,λ为特征值权重参数,f为特征函数,Z0为归一化函数,特征函数中的参数st和st-1分别表示测试文本当前输出状态和上一个输出状态,参数o为当前输入状态,参数t为当前处理的状态序号;Z0的具体过程为:Z0=∑Kk=1exp(∑Tt=1∑Kk=1λjfj(si-1,si,O,t))在理解和应用CRF的过程中,关键环节是权重参数λ的确定和特征函数f的选择。
特征的选择没有固定的形式,要根据标注目标、语料特征等,进行综合考虑,通常为输入状态序列特征或这些特征的组合;λ的值通常通过机器学习获得。
2基于CRF与规则的工程领域命名实体识别
2.1方法思想
提出一种基本CRF与规则相结合的工程领域NER方法,该方法的主要思想是:首先对文本进行预处理,在完善用户词典的基础上借助词法分析工具对文本进行分词及词性标注,并在训练语料中完成命名实体的人工标注;从文本中抽取出相应的特征;将训练语料交CRF算法进行学习,得到学习模型;以上述模型为依据,对测试语料进行处理,得到初步结果;将此结果交给规则处理模块进行修正,得到最终结果。
2.2文本预处理
从实际工程中获取原始文档,这些文档需要进行一定的处理。
(1)噪声过滤。
文本中会有一些不规范、不统一的内容,比如原始文档中包含的图片等,数据单位的表述不规范(如“平方米”的表述方法有m2、㎡等),可用正则表达式等方法对其进行规范化处理。
(2)文档分词。
常规的文本分词结果对工程领域NER没有良好的促进作用,这里采用维护用户字典的方法来提高文档分词的效果。
如前所述,工程文本的一个显著特征就是专有术语较多,且往往为若干普通字或词的随机组合。
为此在分词工具的用户字典中新增了大量专有术
语,并附带完整的词性设置,这样就可保证专有术语会被分成独立的词,从而提高它们作为一类实体而被识别的准确率。
部分字典维护内容示例如表1所示。
对工程文本中存在的识别目标进行综合分析后可以看出,一个实体的词性、上下文短语及其词性的组合,对于识别实体起着较大的决定作用。
另外,由于本方法不是以单个字为粒度进行分析的,所以具体单个基本词的长度对识别结果影响不大,而应考虑识别目标组合短语的长度。
综合研究后,选取表4所示的几组特征。
3.1基于CRF的NER实验与分析
由于目前还没有出现公认度较高的面向工程领域的语料,所以为了保证实验数据的真实可靠,从某市地铁规划建设部门获取了大量的设计与施工文档,经过预处理后形成了大约10万字的可用语料,80%作训练语料,20%作测试语料,以CRF++作为辅助工具。
使用CRF++的关键是参数C的确定,合理的C值能够在过度拟合和拟合不足之间找到最优的平衡点[6]。
将语料进行5折交叉验证,发现当C=2.5时效果最佳。
实验结果如表5所示。
3.2基于规则的NER结果修正实验
导致CRF识别错误的主要原因在于训练语料的质量,可以从两方面加以改进:①完善分词字典;②使用规则办法进行修正。
这里重点阐述使用规则的方法。
下面为部分规则的原理:
4结语
本文创新性地将NER应用到工程领域中,提出了基于CRF与规则相结合的工程领域命名实体识别方法,选取真实文档作为语料,根据工程文本的特点选取特征,并获得较合理的CRF 模型参数,最后根据CRF识别结果中存在的错误,对编制规则进行优化。
结果表明,该方法能够有效提高识别效果。
另外,实验还反映出该方法局部准确率较低,未来将完善此问题。
参考文献:
\[1\]WENLIANG CHEN,YUJIE ZHANG,HITOSHI ISAHARA.Chinese named entity recognition with conditional random fields[C].SIGHAN,2006:118121.
[2]俞鸿魁,张华平.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):8794.
[3]李广一,王厚峰. 基于多步聚类的汉语命名实体识别和歧义消解[J].中文信息学报,2013,27(5):2934.
[4]JOHN LAFFERTY,ANDREW MCCALLUM,FERNANDO C N PEREIRA. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]. ICML,2011:282289.
[5]周俊生.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804809.
[6]ADAM RADZISZEWSKI. A tiered crf tagger for polish[J]. Studies in Computational Intelligence,2013,457:215230.
[7]ZHOU JUNSHENG,QU WEIGUANG,ZHANG FEN.Chinese named entity recognition via joint identification and categorization[J].Chinese Journal of Electronics,2013,22(2):225230.
责任编辑(责任编辑:孙娟)。