中文命名实体识别模型对比分析
古代中国医学文献的命名实体识别研究——以Flat-lattice增强的SikuBERT预训练模型为例
*本文系国家社会科学基金项目“古代中国医学文献的知识标注与知识挖掘研究”(项目编号:17BTQ060)研究成果和国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)研究成果。
古代中国医学文献的命名实体识别研究——以Flat-lattice 增强的SikuBERT 预训练模型为例*谢靖,刘江峰,王东波摘要标注古代中医文献的命名实体能挖掘其蕴藏的中医学知识,推进中医现代化发展。
文章基于BERT-base 、RoBERTa 、SikuBERT 、SikuRoBERTa 预训练模型,以《黄帝内经·素问》为研究对象、Flat-lattice Transformer (FLAT )结构为微调模型,构建中医文献中病证、病理、经络、穴位、五行等命名实体识别任务。
实验结果表明:直接使用古文繁体BERT 模型对古代中医文献进行领域命名实体识别,基于繁体《四库全书》的SikuBERT 、SikuRoBERTa 预训练模型效果优于BERT-base 、RoBERTa 模型;引入FLAT 结构作为微调模型后,SikuBERT 在有标点情况下表现最优,识别效果可提升4%左右,SikuRoBERTa 在无标点情况下表现最优,识别效果可提高2%~3%。
实验验证了FLAT 作为微调模型对BERT 模型在中医专业领域中古文献命名实体识别工作上的有效性。
该微调模型可以有效避免分词错误引起的实体识别传播错误,提高中医命名实体的识别效率。
关键词命名实体识别中医典籍素问SikuBERT FLAT引用本文格式谢靖,刘江峰,王东波.古代中国医学文献的命名实体识别研究——以Flat-lattice 增强的SikuBERT 预训练模型为例[J].图书馆论坛,2022,42(10):51-60.Study on Named Entity Recognition of Traditional Chinese Medicine Classics :Taking SikuBERT Pre-training Model Enhanced by the Flat-lattice Transformer for ExampleXIE Jing ,LIU Jiangfeng &WANG DongboAbstractNamed Entity Recognition (NER )can help to further excavate the knowledge of Traditional ChineseMedicine (TCM ),and promote the modernization of TCM as well.With the traditional Chinese Siku Quanshu version of Huangdi Neijin ·Suwen as the corpus ,this paper tries to testify the performance of BERT-base ,RoBERTa ,SikuBERT ,SikuRoBERTa pre-training models in NER of TCM classics ,especially in the recognition of named entities related to disease syndrome ,pathology ,meridian ,acupoint ,etc.The result shows that :When directly used to perform NER of TCM classics ,the pre-training models of SikuBERT and SikuRoBERTa are better than those of BERT-base and RoBERTa.When enhanced and modified by the Flat-lattice Transformer (FLAT ),SikuBERT Pre-training Model performs best under the premise of punctuation ,and its recognition efficiency can be improved by about 4%;while SikuRoBERTa Pre-training Model performs best under the premise of no punctuation ,and its recognition efficiency can be improved by 2%~3%.In short ,FLAT performs well in the enhancement and modification of BERT pre-training models in NER of TCM classics ,and it should be further used to improve the recognition efficiency of TCM classics.Keywords named entity recognition ;traditional Chinese medicine classics ;Suwen ;SikuBERT ;FLAT0引言古代中国医学文献所记录的中医知识是中华传统科学文化的重要分支,对中医文献进行深度加工和知识标注,有助于挖掘蕴含在其中的古代医学知识及中医哲学思想。
中文ner数据例子
中文ner数据例子中文NER(Named Entity Recognition)是指识别和分类中文文本中的命名实体,包括人名、地名、组织机构名等。
下面是一些中文NER数据的例子,用于展示中文NER的应用和效果。
1. 人名识别:中文NER可以识别出文本中的人名,比如“李华是一位优秀的学生”。
这里的“李华”就是一个人名实体。
2. 地名识别:中文NER可以识别出文本中的地名,比如“我去过北京。
”这里的“北京”就是一个地名实体。
3. 组织机构名识别:中文NER可以识别出文本中的组织机构名,比如“我在阿里巴巴工作。
”这里的“阿里巴巴”就是一个组织机构名实体。
4. 时间识别:中文NER可以识别出文本中的时间信息,比如“明天下午三点开会。
”这里的“明天下午三点”就是一个时间实体。
5. 数字识别:中文NER可以识别出文本中的数字,比如“公司今年的销售额达到了100万。
”这里的“100万”就是一个数字实体。
6. 产品名识别:中文NER可以识别出文本中的产品名,比如“我用的手机是iPhone。
”这里的“iPhone”就是一个产品名实体。
7. 专业名识别:中文NER可以识别出文本中的专业名词,比如“他是一位计算机科学专业的学生。
”这里的“计算机科学”就是一个专业名实体。
8. 书名识别:中文NER可以识别出文本中的书名,比如“我正在读的书是《活着》。
”这里的“活着”就是一个书名实体。
9. 职称识别:中文NER可以识别出文本中的职称,比如“他是一位博士后研究员。
”这里的“博士后研究员”就是一个职称实体。
10. 联系方式识别:中文NER可以识别出文本中的联系方式,比如“我的电话号码是138****5678。
”这里的“138****5678”就是一个联系方式实体。
中文NER的应用非常广泛,可以用于信息抽取、搜索引擎、文本分类等领域。
通过识别和分类命名实体,可以更好地理解和处理中文文本,提高自然语言处理的效果和准确性。
基于crf命名实体识别实验总结
基于CRF命名实体识别实验总结引言命名实体识别(Named Entity Recognition,NER)是自然语言处理中的一个重要任务,其目标是从文本中识别出具有特定意义的实体,如人名、地名、组织机构名等。
CRF(Conditional Random Fields)是一种常用的序列标注模型,被广泛应用于命名实体识别任务中。
本文将对基于CRF的命名实体识别实验进行总结和探讨。
实验设计在进行基于CRF的命名实体识别实验时,我们首先需要准备训练集和测试集。
训练集通常包含大量已标注的文本数据,用于训练CRF模型。
测试集则用于评估模型在未见过的数据上的性能表现。
接下来,我们需要进行特征工程,将文本数据转换为机器学习算法可以处理的特征表示。
常用的特征包括词性、词边界、上下文等。
最后,我们使用CRF模型对测试集进行预测,并评估模型的准确率、召回率、F1值等指标。
实验步骤数据准备1.收集大量已标注的文本数据作为训练集和测试集。
2.对文本数据进行预处理,如分词、词性标注等。
特征工程1.选择合适的特征表示方式,如词性、词边界、上下文等。
2.将文本数据转换为特征向量表示。
模型训练1.使用训练集对CRF模型进行训练。
2.调整模型参数,如正则化参数、迭代次数等。
模型预测与评估1.使用训练好的CRF模型对测试集进行预测。
2.计算模型的准确率、召回率、F1值等指标。
实验结果与讨论在进行基于CRF的命名实体识别实验后,我们得到了一些实验结果。
根据实验结果,我们可以对模型的性能进行评估,并进行一些讨论和分析。
模型性能评估我们使用准确率、召回率、F1值等指标对模型的性能进行评估。
根据实验结果,我们可以得出模型在命名实体识别任务上的表现。
实验结果分析在对模型性能进行评估后,我们可以对实验结果进行分析和讨论。
我们可以探讨模型在不同类型实体上的表现差异,以及模型在不同文本领域上的适应性等。
实验结果可视化为了更直观地展示实验结果,我们可以使用可视化工具对命名实体识别结果进行展示。
命名实体识别技术研究进展综述
命名实体识别技术研究进展综述一、本文概述随着信息技术的快速发展,自然语言处理(NLP)领域的研究日益深入,命名实体识别(Named Entity Recognition, NER)作为其中的一项关键技术,在信息抽取、机器翻译、问答系统、语义理解等多个领域具有广泛的应用价值。
本文旨在对命名实体识别技术的研究进展进行综述,以期为相关领域的研究者和实践者提供全面的技术概览和前沿动态。
本文首先介绍了命名实体识别的基本概念和重要性,阐述了NER 技术的核心任务和应用场景。
接着,回顾了NER技术的研究历程,包括早期的规则方法和基于词典的方法,以及近年来基于深度学习的NER技术的快速发展。
在此基础上,本文重点分析了当前主流的NER 技术,包括基于深度学习的监督学习方法、无监督学习方法、迁移学习方法和弱监督学习方法等,并对这些方法的优缺点进行了比较和评价。
本文还关注了NER技术在多语种、跨领域和少样本场景下的应用和挑战,探讨了相应的解决策略和发展趋势。
本文总结了NER技术的研究现状和未来发展方向,以期为推动NER技术的进一步发展提供参考和借鉴。
二、命名实体识别技术概述命名实体识别(Named Entity Recognition,简称NER)是自然语言处理(NLP)中的一个重要任务,旨在从文本中识别出具有特定意义的实体,如人名、地名、组织机构名、日期、时间等。
这些实体在文本中扮演着重要的角色,对于理解文本的含义和上下文信息具有关键的作用。
NER技术广泛应用于信息抽取、机器翻译、问答系统、语义网、智能代理等领域,是自然语言处理中不可或缺的一部分。
NER技术的核心在于对文本进行语义理解和分析,通过算法和模型来识别和标注文本中的实体。
根据不同的应用场景和数据特点,NER 技术可以分为多种类型,如基于规则的方法、基于统计的方法、基于深度学习的方法等。
基于深度学习的NER技术近年来取得了显著的进展,成为当前研究的热点和趋势。
自然语言处理中常见的命名实体识别工具(Ⅲ)
自然语言处理中常见的命名实体识别工具自然语言处理(NLP)是一门涉及计算机和人类语言之间交互的学科,它涉及语音识别、语言理解、语言生成等一系列技术。
在NLP的研究和应用中,命名实体识别(NER)是一个非常重要的任务。
它指的是在文本中识别并定位出指定类别的实体,比如人名、地名、组织机构名等。
在这篇文章中,我将会介绍一些常见的命名实体识别工具,并分析它们的优缺点。
1. Stanford NERStanford NER是斯坦福大学自然语言处理组开发的一款命名实体识别工具。
它基于条件随机场(CRF)算法,可以识别出包括人名、地名、组织机构名在内的多种实体。
Stanford NER在准确性和性能上都有很高的表现,特别是对于英文文本的处理效果非常出色。
然而,Stanford NER也存在一些缺点,比如对于一些特定领域或者非英文文本的处理能力不足。
2. NLTKNLTK是自然语言处理领域非常知名的工具包,它提供了丰富的文本处理功能,包括命名实体识别。
NLTK中的命名实体识别模块使用了最大熵模型(MaxEnt)和支持向量机(SVM)等算法,可以对不同类型的实体进行准确识别。
此外,NLTK还支持多种语言的文本处理,对于跨语言的NLP任务有很好的适应性。
然而,NLTK的性能并不是特别突出,尤其是在处理大规模文本时可能会出现效率较低的情况。
3. SpacySpacy是一款流行的NLP工具包,它不仅提供了命名实体识别功能,还包括分词、词性标注、句法分析等一系列功能。
Spacy的命名实体识别模块基于卷积神经网络(CNN)和递归神经网络(RNN)等深度学习模型,因此在实体识别的准确性和泛化能力上有一定优势。
此外,Spacy还提供了多语言支持和自定义实体类型的功能,可以满足不同应用场景的需求。
然而,Spacy也存在一些局限性,比如对于一些特定领域的实体识别效果可能不够理想。
4. LTPLTP(Language Technology Platform)是一款由哈尔滨工业大学开发的自然语言处理工具包,它提供了包括分词、词性标注、命名实体识别等多种功能。
中文命名实体识别的研究的开题报告
中文命名实体识别的研究的开题报告一、选题背景随着信息技术的发展,大量的文本信息涌现出来,如何高效地处理和利用这些信息成为了一个非常重要的课题。
其中,命名实体识别(Named Entity Recognition,简称NER)是自然语言处理中的一个基础任务。
命名实体指具有特定意义的实体,如人名、地名、组织机构名等。
命名实体识别的目的是在文本中自动识别出这些命名实体,并将其分类,如将人名认定为人物类命名实体、地名认定为地点类命名实体等。
中文命名实体识别一直是自然语言处理领域研究的热点之一。
在中文文本中,由于不同汉字之间没有明显的边界,因此中文命名实体识别的难度较大。
同时,中文命名实体具有丰富的表述方式,如褒贬词语、时间点、数词等,也增加了命名实体识别的难度。
二、研究目的本文选取中文命名实体识别作为研究对象,探讨如何利用自然语言处理算法识别中文文本中的命名实体。
具体研究目的如下:1. 实现中文命名实体识别的自动化处理,提高文本处理的效率。
2. 探究中文命名实体的表达方式,分析常见的命名实体类型及其特征。
3. 比较不同的中文命名实体识别算法,评估其性能和适用场景。
三、研究内容中文命名实体识别主要包括以下内容:1. 中文分词:中文分词是中文文本处理的基础,将中文文本切分成词语序列,为后续的命名实体识别提供基础。
2. 特征提取:针对文本中可能存在的命名实体类型,选取相应的特征进行提取,如词性、字面值、上下文关系等。
3. 模型训练和测试:采用机器学习算法或深度学习算法,构建命名实体识别模型,通过大量的训练数据进行模型训练,并进行测试和评估。
4. 性能分析和优化:分析不同算法的性能并进行比较,针对性能低下的问题进行优化。
四、研究方法本文将采用以下研究方法:1. 文献调研:对现有的中文命名实体识别算法及其研究方法进行调研和总结,了解目前研究领域的最新进展。
2. 数据预处理:对预先选定的中文文本进行数据预处理,包括中文分词和特征提取等。
命名实体识别 评价指标
命名实体识别评价指标
命名实体识别(Named Entity Recognition,NER),又称实体识别,指从文本中自动识别并抽取具有特定意义的实体,如人名、地名、组
织机构名、时间等。
NER是自然语言处理领域的重要任务之一,应用
广泛,如搜索引擎、机器翻译、信息抽取、智能问答等。
评价指标是衡量NER模型性能的重要标准,常用的指标包括精度(Precision)、召回率(Recall)和F1值。
其中,精度是指识别出的实体中,正确预测为实体的比例;召回率是指实际存在的实体中,被
正确预测为实体的比例;F1值是精度和召回率的调和平均数,可综合
考虑两者的表现。
除了这些传统指标外,还有一些新的评价指标被提出,如置信度(Confidence)和边缘损失(Margin Loss)。
置信度是指模型对每
个实体标签的预测概率,可以用于后续决策过程中的风险评估和决策
推断;边缘损失是指模型生成的两个同属一类和不同类的实体之间的
距离,可以作为后续模型优化的依据。
针对NER任务的不同需求和场景,选择合适的评价指标至关重要。
例如,在一些要求“精确匹配”的场景中,如个人信息或财务账户等,
精度就是至关重要的指标,需要尽可能减少误判;而在一些信息全面
性较重要的场景中,如商业情报分析或政府决策分析等,召回率就是更重要的考量因素,需要尽可能多地发现实体。
总之,NER是自然语言处理领域的重要任务,评价指标的选择需要根据实际场景和需求来确定。
开发者应在常见指标的基础上,根据具体情况适时调整,以实现更优秀的NER模型。
命名实体识别实验报告
命名实体识别实验报告
命名实体识别是自然语言处理中的一项重要任务。
本实验报告旨在
介绍命名实体识别的基本概念、常见方法和实验结果。
1. 命名实体识别的基本概念
命名实体识别是指从文本中识别出具有特定意义的命名实体,如人名、地名、组织机构名等。
命名实体识别通常是自然语言处理中的预处理
任务,对于各种自然语言处理任务都具有重要意义。
2. 常见的命名实体识别方法
目前,命名实体识别的研究主要集中在两个方向:基于规则和基于统计。
基于规则的方法是指利用事先定义好的规则来识别命名实体,这
种方法主要基于词性标注和分块信息,适合于处理一些结构化较强的
语料。
而基于统计的方法则是通过学习统计模型来识别命名实体,包
括最大熵模型、条件随机场模型、深度学习模型等。
这种方法一般需
要大量的标注数据和计算资源,但通常有较好的性能。
3. 实验结果
我们在一个包含人名、地名和组织机构名的数据集上进行了实验,使
用了基于条件随机场的命名实体识别算法,并进行了交叉验证。
实验
结果表明,我们的算法在精确率、召回率和F1值等指标上都有较好的
表现,验证了该算法在命名实体识别任务中的实用性和有效性。
综上所述,命名实体识别是自然语言处理中的重要任务,基于规则和基于统计的方法是两个主要的研究方向。
我们的实验结果表明,基于条件随机场的命名实体识别算法具有较高的精度和召回率。
自然语言处理中的命名实体识别算法分析与优化措施
自然语言处理中的命名实体识别算法分析与优化措施命名实体识别(Named Entity Recognition,简称NER)是自然语言处理中重要的任务之一。
它的目标是从文本中识别并提取出具有特定意义的命名实体,如人名、地名、组织机构名等。
NER 在信息抽取、问答系统、机器翻译等领域都有着广泛的应用。
然而,在面临大规模语料和复杂语言结构的情况下,传统的 NER 算法存在一些挑战。
本文将对命名实体识别算法进行深入分析,并提出一些优化措施以提升其性能。
首先,我们来探讨一下传统的 NER 算法。
最常见的方法是基于规则的方法,它依靠人工定义的规则和词表来进行实体提取。
尽管这种方法在一些特定领域的文本中有较好的效果,但对于多样性和复杂性较高的语料,规则的设计和维护成本会变得很高。
此外,规则的覆盖范围有限,无法适应新实体的不断出现。
因此,我们需要一种更加通用且自适应的算法。
近年来,基于机器学习的算法在命名实体识别任务中取得了显著的进展。
这类算法主要利用已标注的语料进行模型的训练,然后使用训练好的模型对未知文本进行实体识别。
典型的机器学习算法包括基于规则的最大熵模型(Maximum Entropy Model,简称MEM)和条件随机场(Conditional Random Field,简称CRF)。
这些算法在一定程度上弥补了传统规则方法的不足,并取得了较好的效果。
然而,机器学习算法也存在一些问题。
首先,对于大规模的语料,模型的训练时间会非常长。
其次,机器学习算法对标注数据的依赖性较高,如果标注数据质量低下或者领域差异较大,模型的性能将下降。
此外,如何选择合适的特征也是一项具有挑战性的任务。
为了进一步提升命名实体识别算法的性能,我们可以采取一些优化措施。
首先,引入深度学习算法是一个不错的选择。
深度学习算法利用神经网络模拟人脑的处理过程,能够自动从原始数据中学习特征,并在训练过程中逐步优化模型。
基于深度学习的命名实体识别算法,如基于循环神经网络的模型(Recurrent Neural Networks,简称RNN)和基于卷积神经网络的模型(Convolutional Neural Networks,简称CNN),已经在命名实体识别任务上取得了一定的成功。
基于文献的中文命名实体识别算法适用性分析研究
( a ) 时 问 ( ie 、 Dt 、 a Tm ) 百分 数 ( e et e 、 币 ( o Pr na ) 货 c g M— nt y vl ) 身 份 、 er ae ¨ 及 a u 领域 专 业 特有 的命 名 实体 ,
如 : 质 或 蛋 白质 名称 、 学 分子 式 、 物 化 学 反 应 、 物 化 生 检
构 名 、 有 名 词 等 。 首 先 对我 国 关 于命 名 实 体识 别研 究 的 文 献 进 行 了 总 结 , 出命 名 实体 识 别 的 主要 方 法及 模 型 。 专 给
并针 对 文献 中对 这 些命 名 实体 识 别 方 法 的 效果 进 行 统计 分析 , 讨 各 种 识 别 对 象 、 别模 型 的 效 果 及 适 用性 。经 过 探 识
第2 9卷 第 9期 21 0 0年 9月
情
报
杂
志
Vo. 9 No 9 12 . S p 2 1 e. 00
J OURNAL OF I ELL GENCE NT I
基于文献的中文命名实体识别算法适用性分析研究
Ap l a i t ay i o i ee Na d En i c g i o eh d B s d o tr t r s pi bl y An lss f Ch n s me tt Re o n t n M t o a e n Li au e c i y i e
研究命名实体识别的核心 中文文献中设计 的算法 效率
进行统计分析 , 以期 对 命 名 实 体 等 特 殊 文 本 的 识 别 提 供 一 些 参 考 性 的 意 见 , 进 特 殊 文 本 特 征 提 取 研 究 的 促
收稿 日期 :0 0 0 — 6 2 1 — 4 1 修回 日期 :0 0 0 — 4 2 1 — 6 2
中文命名实体识别模型的混淆问题分析
中文命名实体识别模型的混淆问题分析近年来,随着自然语言处理技术的快速发展,中文命名实体识别(Named Entity Recognition,简称NER)成为了研究的热点之一。
然而,在实际应用中,中文NER模型常常面临着混淆问题,即无法准确识别具有相似特征的实体。
本文将对中文NER模型的混淆问题进行分析,并提出一些解决方案。
一、混淆问题的原因1. 多义词和歧义词中文中存在大量的多义词和歧义词,这给NER模型带来了挑战。
例如,“苹果”既可以指水果,也可以指科技公司。
当NER模型遇到这样的词语时,很难确定其具体的实体类别。
2. 相似特征一些实体之间在表面特征上非常相似,例如“李明”和“李明明”两个人名,只有一个字的差别,但NER模型很难准确识别它们的边界和类别。
3. 上下文依赖NER模型通常是基于上下文进行识别的,但有时上下文信息可能不足以准确判断实体的类别。
例如,“他是个牛人”中的“牛人”可以指某个行业的专家,也可以指某个领域的天才,NER模型很难准确判断其具体含义。
二、解决方案1. 上下文增强为了解决上下文信息不足的问题,可以考虑增加上下文特征。
例如,在NER模型中引入上下文窗口,将实体的前后几个词作为特征输入,以提供更多的上下文信息。
此外,还可以利用语言模型对上下文进行建模,提高NER模型的上下文理解能力。
2. 多特征融合除了上下文特征外,还可以考虑融合其他特征来增强NER模型的识别能力。
例如,可以引入词性标注、依存句法等特征,以提供更多的语言信息。
同时,还可以利用外部知识库或词典来辅助实体识别,例如使用人名、地名、机构名等词典进行匹配。
3. 引入语义信息为了解决多义词和歧义词的问题,可以考虑引入语义信息。
例如,可以利用词向量模型将词语映射到语义空间,并通过计算词语之间的相似度来判断实体的类别。
此外,还可以利用知识图谱等结构化数据来提供更丰富的语义信息。
4. 引入深度学习模型深度学习模型在自然语言处理任务中取得了显著的成果,可以考虑引入深度学习模型来解决中文NER模型的混淆问题。
命名实体识别AI技术中的命名实体识别模型与信息提取
命名实体识别AI技术中的命名实体识别模型与信息提取在当前人工智能技术迅猛发展的背景下,命名实体识别(Named Entity Recognition, NER)技术作为自然语言处理的重要组成部分,发挥着重要的作用。
本文将介绍命名实体识别AI技术中的命名实体识别模型与信息提取,旨在探讨其原理与应用。
一、命名实体识别模型命名实体识别模型是指通过训练机器学习算法,从文本中识别并提取出具有特定意义的实体,如人名、地名、组织机构名等。
目前,主流的命名实体识别模型主要包括规则匹配、基于规则的有限状态自动机、基于转移的有向无环图模型和基于深度学习的模型等。
1. 规则匹配模型规则匹配模型是最早应用于命名实体识别的方法之一,其核心思想是基于人工编写的规则,通过在文本中查找与规则匹配的模式,从中提取出命名实体。
这种方法有着较高的准确性,但对于复杂的语义关系难以涵盖,且规则编写较为复杂。
2. 基于规则的有限状态自动机基于规则的有限状态自动机是一种从自然语言文本中识别命名实体的有力工具。
它通过将自然语言文本转换为有限状态自动机图,并利用相应的状态转移规则来提取命名实体。
该方法的优点是处理速度快,但需要手动编写状态转移规则,且对于复杂的语义关系匹配较为困难。
3. 基于转移的有向无环图模型基于转移的有向无环图模型是近年来命名实体识别领域的研究热点之一,其主要思想是将命名实体识别问题转化为序列标注问题,并利用条件随机场(CRF)或者其他类似的方法来建模。
该模型充分考虑了上下文信息和语义关联,具有较高的准确性和鲁棒性。
4. 基于深度学习的模型近年来,随着深度学习技术的快速发展,一些基于神经网络的模型也被引入到命名实体识别领域。
这些模型主要采用卷积神经网络(CNN)、循环神经网络(RNN)和注意力机制等技术,能够自动学习特征表示,大幅提高了命名实体识别的准确性和鲁棒性。
二、信息提取命名实体识别模型的输出结果可以为后续的信息提取提供依据。
基于BSTTC模型的中文命名实体识别
基于BSTTC 模型的中文命名实体识别①申 晖, 张英俊, 谢斌红, 赵红燕(太原科技大学 计算机科学与技术学院, 太原030024)通讯作者: 申 晖摘 要: 大多数中文命名实体识别模型中, 语言预处理只关注单个词和字符的向量表示, 忽略了它们之间的语义关系, 无法解决一词多义问题; Transformer 特征抽取模型的并行计算和长距离建模优势提升了许多自然语言理解任务的效果, 但全连接结构使得计算复杂度为输入长度的平方, 导致其在中文命名实体识别的效果不佳. 针对这些问题, 提出一种基于BSTTC (BERT-Star-Transformer-TextCNN-CRF)模型的中文命名实体识别方法. 首先利用在大规模语料上预训练好的BERT 模型根据其输入上下文动态生成字向量序列; 然后使用星型Transformer 与TextCNN 联合模型进一步提取句子特征; 最后将特征向量序列输入CRF 模型得到最终预测结果. 在MSRA 中文语料上的实验结果表明, 该模型的精确率、召回率和F 1值与之前模型相比, 均有所提高. 与BERT-Transformer-CRF 模型相比,训练时间大约节省了65%.关键词: BERT; 星型Transformer; 命名实体识别; TextCNN; 条件随机场引用格式: 申晖,张英俊,谢斌红,赵红燕.基于BSTTC 模型的中文命名实体识别.计算机系统应用,2021,30(6):262–270. /1003-3254/7935.htmlChinese Named Entity Recognition Based on BSTTC ModelSHEN Hui, ZHANG Ying-Jun, XIE Bin-Hong, ZHAO Hong-Yan(School of Computer Science and Technology, Taiyuan University of Science and Technology, Taiyuan 030024, China)Abstract : In most recognition models of Chinese named entities, language preprocessing only focuses on the vector representation of single words and characters and ignores the semantic relationship between them, hence failing to tackle polysemy. The transformer feature extraction model improves the understanding of natural language due to parallel computing and long-distance modeling, but its fully connected structure makes the computational complexity the square of the input length, which leads to poor recognition of Chinese named entities. A recognition method for Chinese named entities based on the BERT-Star-Transformer-TextCNN-CRF (BSTTC) model is proposed to solve these problems. First,the BERT model pre-trained on a large-scale corpus is used to dynamically generate the word vector sequence according to its input context. Then, the star Transformer-TextCNN model is adopted to further extract sentence features. Finally,the prediction result is received by inputting the feature vector sequence into the CRF model. The experimental results on the Chinese corpus from MSRA show that the accuracy, recall, and F 1 value of this model are all higher than those of existing models. Moreover, its training time is 65% shorter than that of the BSTTC model.Key words : BERT; Star-Transformer; named entity recognition; TextCNN; Conditional Random Fields (CRF)计算机系统应用 ISSN 1003-3254, CODEN CSAOBNE-mail: Computer Systems & Applications,2021,30(6):262−270 [doi: 10.15888/ki.csa.007935] ©中国科学院软件研究所版权所有.Tel: +86-10-62661041① 基金项目: 山西省重点研发计划重点项目(201703D111027); 山西省重点计划研发项目(201803D121048, 201803D121055)Foundation item: Key Project of Research and Development Program of Shanxi Province (201703D111027); Research and Development Project of Key Program of Shanxi Province (201803D121048, 201803D121055)收稿时间: 2020-10-09; 修改时间: 2020-11-05; 采用时间: 2020-11-09; csa 在线出版时间: 2021-06-01262命名实体识别(Named Entity Recognition, NER),又称作“专名识别”, 是自然语言处理中的一项基础任务[1–3], 应用范围非常广泛. 命名实体一般指的是文本中具有特定意义或者指代性强的实体, 通常包括人名、地名、机构名、日期时间和专有名词等.早期, 基于词典和规则的方法是命名实体识别任务中的主流方法, 但这种方法只能够在特定的语料上获得较高的识别效果, 而且费时费力、可移植性差, 在面对众多领域的复杂文本时, 该方法不再适用. 随着机器学习在自然语言处理领域的兴起[4–6], 将该方法应用于NER任务中成为一种新趋势. 在这种趋势下, 如何更好的解决序列标注问题成为提升命名实体识别效果的关键. 然而这种方法对特征选取的要求较高, 不仅需要从文本中选择对该项任务有影响的各种特征加入到特征向量中, 而且需要依据特定命名实体识别所面临的主要困难和所表现出的特性, 选择能有效反映该类实体特性的特征集合, 导致其通用性不佳, 泛化能力差.近年来,由于分布式表示学习技术的蓬勃发展, 各种词向量表示方法层出不穷, 基于深度神经网络方法在NER 这种典型的序列化标注问题上取得了较大进展.1 相关工作随着深度学习的快速发展, 源于神经网络模型的深度学习技术在NER任务中的表现越来越突出, 这种不依赖人工特征的端到端方案逐渐占据主流. 该方法对于NER问题的解决大致分为3个阶段: 通过学习嵌入模型, 以向量形式表示文本信息; 将以向量表示的文本输入到神经网络编码, 对文本序列建模; 最后解码层进行解码得到全局最优标注序列. 目前, 常用的生成词向量工具有Mikolov等提出的Word2Vec模型[7]和Pennington等提出的Glove模型[8]. 但它们都无法解决多义词问题, 这两种模型对于不同语境下的词语产生的词向量是相同的, 这会对后续任务的结果产生影响.谷歌于2018年提出了BERT (Bidirectional Encoder Represe-ntations from Transformers)模型[9], 该模型能够更深层次地提取文本的语义信息, 并且可以针对不同的上下文信息动态生成词向量, 并使NLP领域多个任务实验效果得到了大幅提升.在序列标注任务当中, 常用的编码方式有循环神经网络(Recurrent Neural Networks, RNN)、长短期记忆神经网络[10,11](Long Short-Term Memory, LSTM)和卷积神经网络[12,13](Convolutional Nerual Networks, CNN). CNN通过使用与字符向量维度相同的卷积核与字符向量组成的矩阵进行卷积得到其局部特征, 最后通过池化操作使得输出维度与输入维度保持一致. CNN 的优点在于可以利用GPU并行性快速提取局部特征,缺点是很难使提取的字符特征包含全局信息. RNN由于其具有良好的序列建模能力而常常被应用于命名实体识别任务中. 然而其缺点在于随着序列长度的增加, RNN会逐步丧失学习能力, 出现“梯度消失”现象. 针对该问题, 有学者提出RNN的变体网络—LSTM. 通过添加门控机制缓解了“梯度消失”问题. 但由于它的循环结构无法利用GPU并行性, 这限制了它的计算效率.为了解决CNN存在的无法捕获全局信息与RNN运算效率低下的问题, 谷歌于2017年提出了具有更强大特征抽取能力的Transformer编码器模型, 并在多个NLP任务中取得了良好的结果. 但由于Transformer模型[14]的结构为全连接结构, 所以它的计算和内存开销是句子长度的平方倍, 参数量也较大, 需要较长的训练时间. 而在解码阶段, 常用的模型有Softmax、条件随机场(Conditional Random Field, CRF). 其中, 条件随机场模型是目前解决序列标注问题的最为经典的方法.因为该模型充分考虑了标签与前后文标注的关系, 所以能够较好地解决标注偏置等问题.由于LSTM在处理时间序列数据时可以很好地获取和保存序列的上下文信息, 目前LSTM-CRF已成为NER任务的基础网络架构之一, 许多研究人员尝试在其基础上添加各种相关特征来提高最终的识别效果.例如Lample等[15]于2016年提出BiLSTM-CRF模型,该模型使用双向LSTM提取字符特征, 并取得了当时最好的识别效果; Huang等[16]在BiLSTM-CRF基础上加入手工拼写特征; Ma等[17]在预训练好的词向量中融入了字符级CNN抽取的特征; 而Chiu等[18]还加入了多种预训练好的词典特征. 上述这些方法中使用的初始向量表示都是通过随机生成或Word2Vec预训练语言模型产生, 导致其识别效果并未达到最好. 也有基于CNN的命名实体识别方案, 例如Collobert等[19]提出了CNN-CRF网络结构; Santos等[20]又扩展了该网络结构, 在其基础上添加卷积层提取字符级特征; Strubell 等[21]首次提出了空洞卷积网络(IDCNN)来提取特征,扩大了感受野的同时减少了参数数量. 由于以上方法使用CNN为基本结构提取特征无法充分获取全局信2021 年 第 30 卷 第 6 期计算机系统应用263息, 所以其识别效果还有待提高.以上所述方法都存在共同的问题: 初始嵌入无法表示一词多义. 由于BERT可以充分表征不同语境中的句法与语义信息, 近几年, 开始有研究人员考虑使用BERT模型来生成初始嵌入, 例如: Straková等[22]将BERT模型应用在嵌套命名实体识别中, 提升了识别效果; 谢腾等[23]采用了BERT-BiLSTM-CRF模型进行中文命名实体识别, 在MSRA 数据集上达到了较高F1值94.65%; 李妮等[24]提出基于BERT-IDCNN-CRF 的中文命名实体识别方法,该方法通过BERT预训练语言模型得到字的上下文表示, 再将字向量序列输入IDCNN-CRF模型中进行训练. 虽然这些方法使用了BERT模型得到文本向量表示, 但在特征抽取速度和效果上还需进一步提高.近年来, 随着中文命名实体识别的效果不断提高,将命名实体方法应用于某个特定领域成为了一个新的研究热点. 例如: 李丽双等[25]为了抽取出生物医学语料中的相关命名实体, 提出了CNN-BiLSTM-CRF网络模型, 并得到了较好的效果; 周晓磊等[26]针对财产纠纷审判案件文书提出SVM-BiLSTM-CRF模型, 首先利用SVM筛选出关键句子, 并将其以字符向量表示, 输入BiLSTM-CRF模型中抽取出动产、不动产、知识财产3类实体; 杨文明等[27]提出了IndRNN-CRF和IDCNN-BiLSTM-CRF模型, 并将其应用于医疗文本中的命名实体抽取任务中, 使得该模型在F1值和精确率上都优于经典的BiLSTM-CRF模型.为了解决一词多义问题, 并且可以在提高特征抽取速度的同时保证模型的识别效果, 本文提出了一种基于BSTTC模型的中文命名实体识别方法, 使用BERT动态生成句子的表示矩阵, 将该矩阵输入联合模型中进一步抽取特征, 最后由CRF模型得到最佳预测序列. 实验结果表明, 模型在MSRA数据集上的F1值达到了95.69%. 与BERT-Transformer-CRF模型相比,训练时间大约节省了65%的时间.2 BSTTC模型模型主要由3个模块构成, 分别是语言表示模块、特征抽取与融合模块以及标签解码模块, 其整体结构如图1所示. 模型首先利用BERT预训练语言模型将标注语料动态表示为含有上下文语义信息的字符向量序列; 然后将其分别输入具有轻量结构的星型Transformer模型与TextCNN模型中进一步提取局部特征与全局特征; 接着将两种特征进行融合得到新的向量序列; 最后将经过特征融合后的向量输入CRF层进行解码, 得到每个字符的标签类别.B-PER I-PERCRFBERTH′HvO OLayer normStar structure×NEe1x1x2e2enxn……TextCNN标签解码模块特征抽取与融合模块语言表示模块图1 BSTTC模型结构与现有的中文命名实体识别方法相比, 本文提出的方法优势在于: ① 利用BERT预训练语言模型动态得到了含有丰富语义信息的句子表示, 解决了一词多义的问题; ② 使用了星型Transformer模型和TextCNN 分别提取局部特征和全局特征, 将其进行融合, 使得每一个字符向量既具有句子表示又具有字符级表示;③ 星型Transformer模型在Transformer模型的基础上优化了网络结构, 大大减少了参数数量, 缩短了训练时间, 同时提高了F1值.2.1 BERT预训练语言模型词嵌入技术是为了将自然语言中的词映射到一个低维度稠密的连续向量空间中, 使得语义相似的词可以共享上下文信息, 从而提升泛化能力. 但是传统的词嵌入学到的是一个词的固定语义, 无法解决一词多义问题. 针对该问题, 本文采用了谷歌发布的中文BERT 预训练语言模型.BERT预训练语言模型采用双向Transformer作为特征抽取器, 完全基于多头自注意力机制对一段文本进行建模, 可以无损失捕获更长的上下文信息, 提高了特征抽取能力. 同时, 使用“Masked语言模型”无监督预测任务捕捉词级别表示, 充分利用词左右上下文信息获得更好的词分布式表示. 该任务使用随机遮挡方法计算机系统应用2021 年 第 30 卷 第 6 期264为BERT 模型赋予了一定的文本纠错能力, 而且缓解了finetune 时候与预训练时输入不匹配的问题(预训练时输入句子当中有mask, 而finetune 时的输入是完整的句子, 即为输入不匹配问题).在中文命名实体识别任务中, BERT 的输入为单个句子. 句子中每个字符对应3个向量, 其中, Token Embe-ddings 为字符向量, 用于下游的分类任务; Segment Embeddings 为分段向量, 在句子对任务中用于区分不同句子; Position Embeddings 为位置向量, 用于得到每个字符在序列中的相对位置信息.E ∈R n ×d X ={x 1,x 2,···,x n }E =[e 1,e 2,···,e n ]e m m 通过使用BERT 预训练语言模型, 最终得到一个由字符嵌入序列组成的句子矩阵, 矩阵中的一行代表一个字符向量. 所以, 一个由n 个字符组成的句子可以被表示为: , 其中 是第个字符嵌入.2.2 星型Transformer 模型Transformer 模型由于其独特的结构组合, 在自然语言处理任务中表现出了良好的特征抽取能力. 但由于Transformer 模型的结构为全连接结构, 如图2所示,所以它的计算和内存开销是句子长度的平方倍, 参数量较大, 导致模型的训练需要较长时间. 针对该问题, 本文提出使用Transformer 模型的变体—星型Transformer 模型提取句子特征, 该模型具有轻量级的结构, 核心思想是通过将完全连接的拓扑结构变换成星形结构来稀疏架构. 模型结构[28]如图3所示.Add&NormAdd&NormKVQFeed forwardMulti-head self-attention图2 Transformer 模型结构在图3星型Transformer 模型中, 包含两种结点:一个中心结点和n 个卫星结点. 每个卫星结点之间以及卫星结点与中心结点之间都存在信息的传递. 其中,卫星结点之间的连接使得每个卫星节点从其相邻结点收集信息; 卫星结点与中心结点的连接可以使得每两个非相邻的卫星节点可以通过中心结点进行信息传递.h 1h 2h 3h 4h 5h 6h 8h 1h 2h 3h 4h 5h 6h 7h 8h 7SS图3 星型Transformer 模型结构与Transformer 中的建模机制相同, 星型Transformer 中每个结点的状态同样基于多头自注意力机制进行更新, 其中, 自注意力机制过程如式(1)所示.w q 、w k 、w v QK T √d k 在自注意力机制中, 每个初始字符嵌入向量乘以3个不同的权值矩阵, 从而得到3个维度相同的向量, 分别为Query 向量(Q )、Key 向量(K )和Value 向量(V ). 计算出每个字向量之间的紧密程度得分, 然后除以一个惩罚因子, 使得Q 、K 的内积保持在一个合理范围内. 接着使用Softmax 对其进行归一化处理得到Attention 值, 并与Value 向量相乘, 最后输出所有字符向量的带权和, 使得每个新的字符向量都包含了其余每个字符的信息.由于事物具有多面性, 而自注意力机制只能关注到单方面的信息, 为使模型能够同时关注到来自不同位置与不同子空间的信息, 星型Transformer 同样采用了“多头”模式, 既将每个头得到的信息进行拼接, 将拼接后得到的矩阵转换为一个新的向量,如式(2)、式(3)所示.2.2.1 卫星结点的更新n E ∈R n ×d 当使用星型Transformer 编码长度为的文本序列时, 设它的初始嵌入矩阵为: , 所有卫星结点与2021 年 第 30 卷 第 6 期计算机系统应用265s t ∈R 1×d n H t =[h t 1,···,h t n ]H t ∈R n ×d 中心结点更新一次为一步更新. 假设在t 步更新后, 中心节点的状态为, 所有个卫星节点的状态为(字符维度设为d 维), .H 0=E s 0=average (E )初始化, .h t −1i −1h t −1i +1st −1h t −1i 在第t 步更新时, 每个卫星节点与其上下文做多头注意力, 其上下文信息包括序列中的相邻节点、、中心节点、该结点先前状态与其对应的字符嵌入, 更新过程如式(4)、式(5)所示:在信息交换之后, 对每个卫星结点进行层归一化操作, 如式(6)所示:2.2.2 中心结点的更新H t s t −1在第t 步更新时, 所有卫星结点更新之后, 中心结点与所有更新后的卫星节点及其先前状态做多头注意力, 然后进行层归一化操作, 更新过程如式(7)–式(9)所示:H =[h 1,h 2,···,h n ]H ∈R n ×d 最终, 通过多步更新卫星和中心结点, 星型Trans-former 模型最终得到新的句子矩阵: ,. 其整体更新过程如算法1所示.算法1. 星型Transformer 整体更新算法E =[e 1,e 2,···,e n ]输入: H =[h 1,h 2,···,h n ]输出: 1. //初始化h 01,···,h 0n ←e 1,···,e n 2. s 0←average (e 1,···,e n )3. 4. for t 1 to T do 5. //更新全部卫星结点6. for i 1 to n doC t i =[e i ;s t −1;h t−1i −1;h t −1i ;h t −1i +1]7. h t i =MultiAtt (C t i ,h t −1i )8. h t i =LayerNorm (ReLU (h t i )),i ∈[1,n ]9. 10. //更新中心结点C t i =[H t ;s t −1]11. s t =MultiAtt (C t i ,s t −1)12. s t =LayerNorm (ReLU (s t ))13. H =[h 1,h 2,···,h n ]14.//输出由卫星结点状态组成的句子矩阵: 2.3 TextCNN 模型由于星型Transformer 模型改变了Transformer 模型中的全连接结构, 使得信息传递过程局限于邻近结点, 无法像全连接结构一样充分提取句子的全局信息.鉴于卷积操作可以充分利用GPU 并行性, 基于该问题,本文提出使用TextCNN 模型[29]提取句子特征, 得到含有全局信息的句子向量.该模型结构如图4所示, 图中文本矩阵由BERT 预训练语言模型产生的字符嵌入向量组成, 卷积层的过滤器大小分别为3、4、5、6. 在卷积层使用不同的卷积核由上往下滑动与矩阵做卷积操作, 卷积核的宽度和字符向量的维度一致, 每个卷积核获得一列feature map. 卷积过程如式(10)、式(11)所示:e i :i +h −1∈R h ×d e i ,e i +1,···,e i +h −1w ∈R h ×d 其中, 表示由字符嵌入序列组成的矩阵, 是卷积核,f 是非线性函数, b 是偏置, c 为卷积核w 获得的feature map.文本矩阵输入过滤器特征图特征向量图4 TextCNN 模型每个feature map 通过max-pooling 都会得到一个特征值, 这个操作也使得TextCNN 能处理不同长度的文本. 连接每个特征值形成一个一维向量作为含有Dropout 层的全连接层的输入, 经过激活函数输出. 并在全连接层上添加L2正则化参数. 最后将全连接层的输出使用Softmax 函数, 获取文本分到不同类别的概率. 本文中旨在使用TextCNN 模型得到该句子的全局计算机系统应用2021 年 第 30 卷 第 6 期266v ∈R 1×d 特征, 所以丢掉最后一层. 最终该模型的输出为一维句子向量: .H ′=[(h 1+v ),···,(h n +v )]H ′∈R n ×d 在中文命名实体识别任务中, 字符的标签判别过程不仅要考虑该字符周围的信息, 即局部特征, 句子中包含的全局信息也有助于最终的标签预测, 所以, 融合局部特征和全局特征是有必要的. 目前, 常用的特征融合策略有两种: concat 和add. 由于concat 是通过将向量拼接来融合信息, 维度增加, 最终导致计算量的增加,所以, 本文采用了add 融合策略得到最终的文本表示矩阵, 即: 将TextCNN 与Star-Transformer 模型的输出进行融合: , .2.4 CRF 模型命名实体识别本质上是一种多分类问题, 所以在解码阶段Softmax 分类器是一种常用的方法. 但由于该方法只是单纯的分类, 没有考虑到标签之间含有依存关系. 因此, 本文使用条件随机场模型(CRF). CRF 是给定一组输入序列条件下另一组输出序列的条件概率分布模型, 在自然语言处理中得到了广泛应用.X ={x 1,x 2,···,x n }Y ={y 1,y 2,···,y n }在CRF 中, 每个句子都有一个待选标签序列集合Y X , 通过计算集合中每个标签序列的得分来决定最终的标注序列, 计算得分过程如式(12)所示.P ∈R n ×k P i ,j A ∈R (k +2)×(k +2)A i ,j 其中, 是一个得分矩阵, k 为所有标签数量,表示句子中第i 个字符对应第j 个标签的分数; 是一个包含了句子开始与结束标签的转移矩阵, 则表示标签i 到标签j 的转移分数.最后将每个标签序列的分数进行归一化得到概率,其中概率最大的标签序列即为该句子的最终标注序列,归一化过程如式(13)所示.3 实验及结果分析3.1 实验环境本文所做实验均在Ubuntu 操作系统上进行; 处理器为************** GHz; 内存大小16 GB; 显存大小为10 GB; 使用深度学习框架PyTorch 1.2.0构建所有神经网络模型进行训练和测试; 使用Python 3.6编程语言进行代码编写.3.2 实验数据本文采用微软亚洲研究院公开的MSRA 数据集进行实验. 该数据集中含有训练集与测试集, 包含的实体类型有人名、机构名、地名. 其中, 训练集和测试集分别由46 400个句子和4400个句子组成. 数据集中各类实体统计如表1所示.表1 数据集实体个数数据集地名机构名人名共计训练集36 51720 57117 61574 703测试集28771331197361813.3 标注策略与评价指标在命名实体识别任务中, 有BOI 、BOIE 、BOIES 三种标注方法. 本文采用了BOI 标注策略, 其中实体中第一个字符用“B”代表, “O”表示该字符为非实体, 实体中第一个字符以外的字符用“I”表示. 所以, 将实体边界与实体类型结合可以得到7种待预测标签: “O”, “B-PER”,“B-LOC”, “B-ORG”, “I-PER”, “I-LOC”和“I-ORG”.T P F P F N 在命名实体识别任务中, 精确率P 、召回率R 和F 1值是常用的3种评价指标. 每种评价指标的具体计算过程如公式14所示. 其中, 为预测出是实体并预测正确的个数, 为预测出为实体但预测错误的个数,为是实体但预测为非实体的个数.3.4 参数设置本实验使用BERT-Base 预训练语言模型作为向量表示层, 该模型共有12层, 在多头注意力中头数为12,隐层输出为768维, 参数大小为110 MB. 星型Transformer 模型的层数分别设为1、2、3、4层, TextCNN 中采用单通道方式, 由于数据集中实体最大长度为6, 所以卷积核设置四种不同的尺寸, 宽度与字符向量维度一致,高度分别为3、4、5、6. 具体网络训练参数设置如表2所示.3.5 实验过程及结果分析在实验中, 首先验证了星型Transformer 模型层数对F 1值的影响. 随着训练迭代次数增加, BSTTC 模型的F 1值变化如图5所示, 其中, 每条折线代表了不同2021 年 第 30 卷 第 6 期计算机系统应用267星型结构层数时模型的F1值变化. Star-Transformer-1表示星型结构的层数为1层, 其他模型以此类推. 实验中其余超参数不变, 只改变星型结构层数. 实验表明,效果最好的是Star-Transformer-3模型, 并在第16个epoch时F1值达到最大95.69%.表2 参数配置参数值char emb dim768max seq_length128学习速率1e–5star_dropout0.1TextCNN_dropout0.5Star-Transformer layer1, 2, 3, 4filter height3, 4, 5, 60510Epoch1520 Star-Transformer-l Star-Transformer-2 Star-Transformer-3 Star-Transformer-4图5 星型结构模型不同层数的F1值表3中分别列出了取得最大F1值时数据集中每种实体识别的准确率、召回率和F1值. 与人名和地名实体相比, 机构类实体的识别效果较差, 原因可能在于大部分机构名中都嵌套有地名, 这对于最终的预测造成了较大的干扰, 导致预测效果不佳.表3 BSTTC不同类型命名实体识别结果(%)类型P R F1LOC94.8594.5995.38ORG94.3692.8793.26PER96.7296.4796.73ALL95.8994.8695.69为了验证星型Transformer模型轻量结构的优越性, 还在该语料上与BERT-Transformer-CRF模型进行了对比, 对比结果如图6所示. 可以看出, BSTTC模型的收敛速度更快, 在训练初期, 就能够达到一个较高的F1值, 并且持续提升, 最后保持在一个相当高的水平上.而BERT-Transformer-CRF模型在多次迭代更新后才会上升到一个较高水平, 但还是无法超过 BSTTC模型.05101520EpochBSTTCBERT-Transformer-CRF图6 实验结果对比表4中分别列出了BERT-Transformer-CRF和BSTTC模型迭代训练的累计时间及其对应的F1值.可以看到, BERT-Transformer-CRF模型在第18个epoch时得到最优F1值94.85%, 而BSTTC模型在第16个epoch时就达到最大F1值95.69%, 此时它们的训练时间分别为19238 s与54725 s, 与BERT-Transformer-CRF模型相比, BSTTC的训练时间大约节省了65%.表4 迭代训练累计时间EpochBERT-Transformer-CRF BSTTC训练时间(s)F1(%)训练时间(s)F1(%) 1396891.75128692.04 2692392.18247894.14 3991692.29367594.27 412 87692.47486894.32 515 78693.49606494.49 618 76293.56725494.51 721 73193.75845694.76 824 72893.71965594.85 927 73994.1810 84894.87 1030 73694.2612 04594.94 1133 72494.0313 24994.99 1236 71994.3614 44395.06 1339 70694.2715 63795.08 1442 72794.3216 84195.10 1545 72694.4418 03795.19 1648 72894.6919 23895.69 1751 73994.7220 44295.54 1854 72594.8521 64195.48 1957 68394.7722 83695.36 2060 69294.8324 02995.42此外, 为了验证模型的有效性, 本文还在该语料上与以下模型进行了对比:1) Radical-BiLSTM-CRF模型, 由Dong等[30]提出.该模型将字的嵌入和笔画表示的连接输入到BiLSTM-计算机系统应用2021 年 第 30 卷 第 6 期268CRF中进行训练.2) Lattice-LSTM-CRF模型, 由Zhang等[31]提出,该模型在嵌入层利用注意力机制融合了字符与词粒度特征, 其中单词选取原则为该字符居于单词末位.3) DEM-attention模型, 由Zhang等[32]提出, 该模型同样利用注意力机制在嵌入层中动态结合了字符和单词粒度的特征, 只是单词选取原则稍有不同, 该字符在句子中对应的所有单词都包含在内, 然后将其输入BiLSTM-CRF中进行训练.4) BERT-BiLSTM-CRF模型, 该模型采用预训练好的BERT模型产生字向量, 输入BiLSTM-CRF模型中进行训练.5) CAN模型, 由Zhu等[33]提出, 该模型将预训练好的词向量输入CNN和GRU网络从相邻字符和句子上下文中捕获信息, 并使用了CRF进行标签预测.6) BERT-Transformer-CRF模型, 该模型类似于BERT-BiLSTM-CRF模型, 将BiLSTM层替换为 Trans-former层.7) BERT-Star-Transformer-CRF模型, 该模型类似于BERT-BiLSTM-CRF模型, 将BiLSTM层替换为Star-Transformer层.表5中分别列出了每种模型的精确率、召回率和F1值实验结果.表5 与其它模型对比结果(%)序号模型P R F1 1Radical-BiLSTM-CRF[30]91.3988.2289.78 2Lattice-LSTM-CRF[31]93.5792.7993.18 3DEM-attention[32]90.5991.1590.87 4BERT-BiLSTM-CRF92.8494.5793.68 5CAN[33]93.5392.4292.97 6BERT-Transformer-CRF94.5795.1594.85 7BERT-Star-Transformer-CRF93.4896.3795.54 8BSTTC94.7996.8495.69从对比结果可以看出, 与其它模型相比, BSTTC 模型在精确率、召回率和F1值3方面均有提高.1)将模型4与模型1、模型2、模型3、模型5作对比, 可以发现模型4的F1值最高, 说明BERT抽取的特征比单独训练笔画特征和字词融合特征更丰富, BERT字向量更好的结合了上下文, 可以更好的表示字的语义信息.2)将模型6与模型4做对比, 可以发现与BiLSTM 相比, Transformer模型的特征抽取能力更强, 可以得到具有更丰富语义信息的字符特征.3)将模型6、模型7对比, 可以发现在召回率和F1值上都有一定程度的提高, 在精确率上有所下降,说明星型Transformer模型在简化结构的同时保留了绝大部分捕获长期依赖的能力.4)将模型7、模型8做对比, 加入TextCNN模型后,精确率、召回率和F1值都有所提高, 且都高于BERT-Transformer-CRF模型, 充分表明了与Transformer模型捕获的特征相比, TextCNN捕获的全局特征与星型Transformer模型融合后的特征更加丰富, 更有助于标签的判别.4 结束语针对传统词向量表示方法无法表征字多义性, 以及Transformer特征抽取模型参数量大, 训练时间长,无法充分提取全局信息的问题, 提出了基于特征融合的BSTTC模型. 该模型摒弃了传统语言模型的缺点,使用BERT动态生成含有丰富语义特征与语法结构特征的字符向量, 然后通过星型Transformer与 TextCNN 联合模型进一步提取特征, 在减少训练时间的同时保证了特征抽取能力. 结果表明, 与以往模型相比, 本文的BSTTC模型在MSRA数据集上取得了最好的效果. 下一步将考虑引入外部信息, 提升复杂嵌套实体的识别效果.参考文献张晓艳, 王挺, 陈火旺. 命名实体识别研究. 计算机科学, 2005, 32(4): 44–48. [doi: 10.3969/j.issn.1002-137X.2005.04.014]1张涛, 贾真, 李天瑞, 等. 基于知识库的开放领域问答系统.智能系统学报, 2018, 13(4): 557–563.2庞亮, 兰艳艳, 徐君, 等. 深度文本匹配综述. 计算机学报, 2017, 40(4): 985–1003.3曲春燕. 中文电子病历命名实体识别研究[硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2015.4王鹏远, 姬东鸿. 基于多标签CRF的疾病名称抽取. 计算机应用研究, 2017, 34(1): 118–122. [doi: 10.3969/j.issn.1001-3695.2017.01.025]5李业刚, 黄河燕, 鉴萍. 引入混合特征的最大名词短语双向标注融合算法. 自动化学报, 2015, 41(7): 1274–1282.6Ma L, Zhang YQ. Using Word2Vec to process big text data.Proceedings of 2015 IEEE International Conference on Big Data. Santa Clara, CA, USA. 2015. 2895–2897.7Sharma Y, Agrawal G, Jain P, et al. Vector representation of words for sentiment analysis using GloVe. Proceedings of 82021 年 第 30 卷 第 6 期计算机系统应用269。
中文命名实体识别技术综述
一、中文命名实体识别技术的发 展历程
早期的中文命名实体识别技术主要基于规则和词典的方法。研究人员通过手 动定义规则或利用已有的词典来进行实体识别。由于中文语言的复杂性和丰富性, 这种方法往往需要大量的人工干预和调整,难以实现自动化和通用化。
随着深度学习技术的快速发展,基于神经网络的中文命名实体识别方法逐渐 成为主流。神经网络方法通过学习大量的语料库,自动提取文本中的特征,从而 实现对实体的识别。其中,循环神经网络(RNN)和卷积神经网络(CNN)是常用 的模型。此外,长短时记忆网络(LSTM)和Transformer等模型也在中文命名实 体识别中取得了良好的效果。
二、中文命名实体识别的现状
目前,中文命名实体识别已经取得了显著成果。以下是一些主要的研究现状:
1、深度学习模型的应用:深度学习模型已成为中文命名实体识别的主流方 法。其中,基于Transformer的模型表现尤为突出。例如,CR-Net、BERT和 ALBERT等预训练模型在多项比赛中展现出强大的实力。
2、预训练语言模型的探索与应用:利用大规模预训练语言模型(如BERT、 GPT等),进行迁移学习,将预训练模型中蕴含的丰富语义信息和语言知识应用 到中文命名实体识别任务中。通过对预训练模型进行微调(fine-tuning),使 其适应命名实体识别任务的需求。
3、强化学习与生成对抗网络的应用:利用强化学习算法优化命名实体识别 的决策过程,使模型能够在不同场景和条件下做出自适应的决策。同时,结合生 成对抗网络(GAN)技术,将实体识别任务转化为生成任务,通过生成高质量的 实体实例来提高模型的泛化能力。
为了解决这些问题,研究者们正在不断探索新的技术和方法。例如,使用预 训练语言模型(Pre-trained Language Model)进行迁移学习,将大规模语料 库中的知识迁移到命名实体识别任务中;利用无监督学习技术,在没有标注数据 的情况下,通过自监督学习或弱监督学习提高实体识别的准确性;结合多种模型 和方法,形成集成学习策略,以获得更准确的识别结果。
中文命名实体识别方法
中文命名实体识别方法
中文命名实体识别方法是指通过计算机技术,对一段中文文本进行分析和处理,从中识别出其中的命名实体,并对其进行分类和标注的过程。
命名实体是指在文本中代表着某个具体事物或对象的词组,如人名、地名、组织机构名、专业术语等。
命名实体识别在自然语言处理领域中具有广泛的应用,如信息抽取、机器翻译、问答系统、文本分类等。
中文命名实体识别方法主要包括以下步骤:
1. 分词:将输入的中文文本进行分词处理,将文本划分为基本的语言单位,如词语、标点符号等。
2. 词性标注:对分词结果进行词性标注,确定每个词语的词性,如名词、动词、形容词等。
3. 命名实体识别:通过模式匹配、规则匹配、机器学习等方法,从分词和词性标注结果中识别出命名实体,并进行分类和标注。
4. 实体消歧:对于同名实体,如同名人物、同名地名等,需要进行实体消歧,即确定其在该文本中代表的具体含义。
5. 后处理:对命名实体识别结果进行后处理,如去重、合并、纠错等。
常用的中文命名实体识别方法包括基于规则的方法、基于统计学习的方法、深度学习方法等。
其中,基于深度学习的方法近年来得到了广泛的应用和发展,如基于卷积神经网络、循环神经网络和注意力机制等的方法,取得了较好的识别效果。
基于条件随机场的中文命名实体识别的研究
当前 窗口中的所有字是否译名人名高频字
本 文 中所 有 的基 本 特 征 如表 l 示 。 所 232前后缀特征 ..
当前字 与其前后字分别构成 的词是否是机构名后缀 当前字 与其前后字分别构成 的词是否是地名后缀
当前窗 口中的所有连续 的 3字构成词是否是人名前缀
当前字与其后 2 字构成词是否是地名后缀 当前字与其后 2 字构成词是否是机构名后缀
当前窗 口中的前 4字构成词是否是人名前缀 当前窗 口中的的所有字构成词是否是人名前缀 233字典特征 .- 本文通过逆向最大 匹配先找 出识别文本 中的字典 中出现 的命名实 体 。本文字典特 征包括人名字典特征 、地名字典特征和机构名字典特 征 。字 典 特 征见 表 3 。 表 3 典 特 征 字 字典特征 当前字与前 i 个字和后 j 个字共 同构成的词是否是人名 当前字与前 i 个字和后 j 个字共同构成的词 是否是地名 当前字与前 i 个字和后 j 个字共 同构成的词是否是机构名
实体 的一部分 , 而有些字或词则不 太可能出现在命名实体 中, 例如单字 词“ 、 的” 了” “ 等等 。 表 1 基本特征 基本特征 当前字的前后 窗口中的字 当前字是否是单字词 当前窗 口中的所有 3个连续字是否分别构成词 当前 窗口中的所有 4个连续 字是否分别构成词
引, =YfE } 即Y { V 。当Y的出现条件依赖于x, Y 根据图结构的随 v 且 v 机变量序列具 有马尔 可夫特性 , pyI,w ≠v p … (, ∈E, 即 l Y, ) ( f wv ) x w = YXY )
使用StandfordcoreNLP进行中文命名实体识别
使⽤StandfordcoreNLP进⾏中⽂命名实体识别因为⼯作需要,调研了⼀下Stanford coreNLP的命名实体识别功能。
Stanford CoreNLP是⼀个⽐较厉害的⾃然语⾔处理⼯具,很多模型都是基于深度学习⽅法训练得到的。
先附上其官⽹链接:https://stanfordnlp.github.io/CoreNLP/index.htmlhttps:///nlp/javadoc/javanlp/https:///stanfordnlp/CoreNLP本⽂主要讲解如何在java⼯程中使⽤Stanford CoreNLP;1.环境准备3.5之后的版本都需要java8以上的环境才能运⾏。
需要进⾏中⽂处理的话,⽐较占⽤内存,3G左右的内存消耗。
笔者使⽤的maven进⾏依赖的引⼊,使⽤的是3.9.1版本。
直接在pom⽂件中加⼊下⾯的依赖:<dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.1</version></dependency><dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.1</version><classifier>models</classifier></dependency><dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.1</version><classifier>models-chinese</classifier></dependency>3个包分别是CoreNLP的算法包、英⽂语料包、中⽂预料包。
基于深度学习的中文命名实体识别算法研究
基于深度学习的中文命名实体识别算法研究近年来,随着人工智能技术的迅猛发展,基于深度学习的中文命名实体识别(NER)算法逐渐成为研究热点。
中文NER是从中文文本中识别出潜在实体的任务,例如人名、地名、组织机构等,对于提取和分析大量文本数据有着重要的作用。
本文将探讨基于深度学习的中文NER算法的研究现状及发展趋势。
首先,基于深度学习的中文NER算法中,最常用的模型是循环神经网络(RNN)和其变种,如长短时记忆网络(LSTM)和门控循环单元(GRU)。
这些模型通过捕捉句子的上下文信息,能够更好地识别出实体。
此外,一些研究者还结合了条件随机场(Conditional Random Field, CRF)等模型来进一步提升识别准确率。
这些算法在中文NER任务上已经取得了一定的成果。
其次,为了改善中文NER算法的性能,研究者们提出了各种各样的改进方法。
一种常见的方法是引入字级别的特征,将每个字作为模型的输入,从而更好地捕捉字与实体之间的关系。
另外,一些研究还利用词嵌入(Word Embedding)技术将每个字转化为低维向量表示,以提高模型的表征能力。
此外,还有学者将注意力机制(Attention Mechanism)应用于中文NER 任务中,使得模型能够更好地关注与实体有关的部分,进一步提升了识别准确率。
除了模型的改进,数据集的质量也对中文NER算法的性能起到重要的影响。
一个好的数据集应包含丰富的实体标注、覆盖多个领域的文本,以及足够的数量和多样性。
目前常用的中文NER数据集有MSRA(Microsoft Research Asia)和OntoNotes等。
除了这些公开的数据集,还有一些研究者通过爬取互联网上的数据构建自己的数据集,以应对特定领域的实体识别需求。
在数据集的基础上,还需要进行数据预处理,如分词、标注等,以满足模型的输入要求。
此外,中文NER算法的评价指标也是研究者关注的重点之一。
常用的指标有准确率(Precision)、召回率(Recall)和F1值。
基于ELECTRA-CRF的电信网络诈骗案件文本命名实体识别模型
doi:10.3969/j.issn.1671-1122.2021.06.008基于ELECTRA-CRF的电信网络诈骗案件文本命名实体识别模型丁家伟1,刘晓栋2(1.中国人民公安大学侦查学院,北京 100038;2.中国人民公安大学治安与交通管理学院,北京 100038)摘 要:文章提出一种基于ELECTRA-CRF的电信网络诈骗案件文本命名实体识别模型。
该模型首先将标注后的语料输入ELECTRA模型,得到以字为颗粒度的状态转移特征;然后由CRF模型计算转移分数,判断当前位置与其相邻位置字符的实体标注组合;最后将该模型与BERT-CRF模型、RoBERTa-CRF模型进行对比。
实验结果表明,文中模型在运算效率上明显优于其他两种深度学习模型,且准确度、召回率和调和平均值并未有太大损失,可以很好地应用于电信网络诈骗案件的命名实体识别中。
关键词:命名实体识别;ELECTRA模型;电信网络诈骗中图分类号:TP309 文献标志码: A 文章编号:1671-1122(2021)06-0063-07中文引用格式:丁家伟,刘晓栋.基于ELECTRA-CRF的电信网络诈骗案件文本命名实体识别模型[J].信息网络安全,2021,21(6):63-69.英文引用格式:DING Jiawei, LIU Xiaodong. Named Entity Recognition Model of Telecommunication Network Fraud Crime Based on ELECTRA-CRF[J]. Netinfo Security, 2021, 21(6): 63-69.Named Entity Recognition Model of Telecommunication NetworkFraud Crime Based on ELECTRA-CRFDING Jiawei1, LIU Xiaodong2(1. College of Investigation, People’s Public Security University of China, Beijing 100038, China;2. College of PublicSecurity and Traffic Management, People’s Public Security University of China, Beijing 100038, China)Abstract: This paper proposes a text named entity recognition model of telecommunication network fraud crimes based on ELECTRA-CRF. Firstly, the annotated corpus is input intoELECTRA model to obtain the state transition features with Chinese characters as granularity.And then CRF model is used to calculate the transfer score to determine the entity label groupof the character at the current position and its adjacent position. Finally, the BERT-CRF modeland RoBERTa-CRF model are compared through experiments. The experimental results showthat the text named entity recognition model proposed in this paper based on ELECTRA-CRFis significantly better than the other two deep learning models in operation efficiency, and theloss of the accuracy, recall rate and reconciliation average are very small. It can be well appliedto the named entity recognition of telecommunication network fraud crimes.基金项目:国家重点研发计划[2020YFC1522600]作者简介:丁家伟(1997—),男,山东,硕士研究生,主要研究方向为刑事侦查学;刘晓栋(1988—),男,山东,讲师,博士,主要研究方向为公安大数据、应急管理。
如何进行数据处理中的文本数据分析(三)
数据处理中的文本数据分析随着信息爆炸和大数据时代的到来,文本数据的分析对于企业和个人来说变得尤为重要。
通过对文本数据进行分析,我们可以从中挖掘出有价值的信息,从而做出更明智的决策。
本文将探讨如何进行数据处理中的文本数据分析。
一、数据预处理在进行文本数据分析之前,首先需要对数据进行预处理。
数据预处理包括数据清洗、去重、分词等步骤。
数据清洗指的是去除无效的字符、符号和噪声数据,确保数据的准确性和一致性。
去重是指去除重复的数据,以避免在分析过程中对数据造成误差。
分词是将文本数据按照一定的规则划分为词语的过程,为后续的分析和挖掘提供基础。
二、文本数据可视化文本数据可视化是将文本数据以图形的形式展示出来,使得数据更加直观和易懂。
常见的文本数据可视化方式有词云图、柱状图和折线图等。
词云图通过词频统计,将出现频率较高的词语进行可视化展示,从而快速了解文本数据的核心内容。
柱状图可以用于比较不同词语的频率和重要性,更好地理解文本数据的分布情况。
折线图可以反映文本数据的变化趋势,帮助我们找到数据的规律和趋势。
三、情感分析情感分析是通过文本数据挖掘用户的情绪和态度,以帮助企业了解用户的需求和偏好。
常用的情感分析方法包括情感词典法和机器学习法。
情感词典法是利用预先定义好的情感词典,统计文本中出现的正负情感词的频率,从而判断文本的情感倾向。
机器学习法是通过训练一定数量的情感标记样本,利用机器学习算法对新的文本数据进行分类和判断。
四、主题模型分析主题模型分析是对文本数据进行主题提取和关键词分析的方法。
主题模型可以识别文本中存在的潜在主题,从而找到文本数据的核心内容。
常见的主题模型算法有Latent Dirichlet Allocation (LDA)和Non-negative Matrix Factorization (NMF)等。
通过主题模型分析,我们可以了解文本数据中的关键词,发现文本数据的脉络和核心信息。
五、实体识别和命名实体识别实体识别和命名实体识别是对文本数据中实体和命名实体的识别和分类。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DOI:10.3969/j.issn.1007-1423.2019.14.001
中文命名实体识别模型对比分析
祖木然提古丽·库尔班 1,艾山·吾买尔 2
(1. 新疆大学信息科学与工程学院,乌鲁木齐 830046;2. 新疆多语种信息技术重点实验室,乌鲁木齐 830046)
此外也有了众多基于深度学习和机器学习方法相 结合 的 [14,15] 命名实体识别模型,例如长短时记忆(Long Short Term Memory,LSTM)和 CRF 相结合的命名实体 识别模型,等等。相关研究已经证明,传统的命名实体 识别方法中的领域知识和人工特征对实体识别效果的 提升有着相当大的帮助,但是获取领域知识并设计其 人工特征需要非常大的工作量,消耗相当大的时间和 精力成本,可移植性也很一般。因此目前命名实体识 别研究者已开始将上述自然语言处理工具当做研究其 他自然语言领域中需要命名实体识别途径的辅助工具 了。为此,本文采用上述两种命名实体识别系统与基 于双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)和判别式模型 CRF 相结合的方法对 中文命名实体进行识别,以对比同样测试数据、同样实 验环境下各个系统在中文命名实体识别的实验效果。
摘要: 为了比较客观了解现有主要中文命名实体识别系统与开源系统的性能,基于字的双向长短时记忆循环神经网络 (BiLSTM)接入条件随机场(CRF)的系统,利用微软亚洲研究院的 MSRA 数据集实现中文命名实体识别模型,然后使 用 MSRA 测试数据对自建模型、哈工大的语言技术平台(LTP)和斯坦福大学 CoreNLP 自然语言处理工具进行对比测 试与分析。实验表明:BiLSTM 对地名实体的识别效果最佳,与地名和人名相比机构名识别效果与开源工具保持同等 水平。实验在语料规模以及实验设计方面有提升空间。后续将实验模型作为重点,将特定领域实体与序列标注问题 相结合进行开展研究。 关键词: 命名实体识别;双向长短时记忆循环神经网络(BiLSTM);语言技术平台(LTP);CoreNLP 基金项目: 国家自然科学基金(No.61662077、No.61262060)
基于机器学习的命名实体识别研究主要经历了监 督、半监督、无监督和混合方法等发展历程。代表性工作 有:John D. Burger 等人研究的基于隐马尔可夫模型的命 名实体识别[2]、最大熵模型(Maximum Entropy,ME)[3-4]、支
现代计算机 2019.05 中 ❸
研究与开发
持向量机(Support Vector Machine,SVM)和[5]、条件随机 场(Conditional Random Fields,CRF)[6]以及 AdaBoost[7]等 有监督的机器学习方法来开展研究。Nadeau[8]的半监 督学习方法以及 Liu 等人在半监督学习框架下将条件 随机场(Conditional Random Fields,CRF)与 K-最近邻 (k-Nearest Neighbor,KNN)分类器相结合进行的混合 模型[9]对命名实体识别任务开展研究并验证了该混合 方法优于基于 KNN 和半监督学习的有效性。中文命 名实体识别研究最早提出时是为了提高中文自动分词 的效果[10],因此早期的中文 NER 主要着重于像人名[11]、 机构名[12]等单个类别实体的识别。
1 开源工具及模型介绍
本文用哈工大的 LTP 自然语言处理工具,Stanford 大学的 CoreNLP 人类语言技术工具和具有 CRF 层的 双向长短时记忆网络(BiLSTM)模型对中文命名实体进 行识别并对以上三个模型的试验结果进行对比分析。
最近,随着自然语言处理与理解领域的不断发展,也 有研究机构专门研发出来了有识别命名实体模型的自然 语言处理系统。其中国内使用比较广泛的有哈尔滨工业 大学的计算与信息检索研究中心研发出来的,以语言技 术平台(Language Technology Platform,LTP)为基础的一 整套自然语言处理云服务系统[13]。国外也有 Stanford 大 学的能够提供单词基本形式、词性以及命名实体类别等 的一套人类语言技术工具(Stanford CoreNLP)。
0 引言
随着 Internet 的全球化及其迅猛发展,人类步入信 息化时代的速度也加快了。人们通过网络途径足不出 户就能快速获取各种信息并能满足自己的需求。于 是,层出不穷的领域实体新词给信息提取、检索、主题 分类以及知识发现等技术带来了极大挑战:正确无误 的识别出其中包含的命名实体(Named Entity,NE)是以 上研究领域的必经之路和基础。于是,命名实体识别 (Named Entity Recognition,NER)在以上自然语言处理 研究领域应用变得尤为重要,是人们获得信息的关键 一步。
命名实体指的是人名、地名、组织机构名称等具有 可描述意义的,以及其他以名称为标识的领域实体和 表示时间、日期、数字、货币和具体地址短语等信息的 实体统称为命名实体。而命名实体作为语言信息的重 要载体,传递着重要语言信息,是正确理解和处理文本 的基础。命名实体的识别指的是从一段自然语言文本 中找出其所包含的命名实体且对所找出来的实体进行
标注,即标出其实体类型以及完整一条命名实体中出 现的位置信息。
命名实体识别的研究起步较早,经过学者们多年 的研究已经取得很好的成果并已经在新闻这一类领域 开始应用了。从 1991 年 Rau 等人提出了命名实体识 别概念[1]开始,命名实体识别研究领域从此开启了新篇 章。他们发现一篇财政新闻报道中未知词占全报道文 本的 8%左右,超过 4%的是公司名称和一些组织机构 名称,其中 1/4 还是未知词。为了解决这个问题,Rau 等人实现了从新闻语料中自动提取公司名称的算法。 通过对已收集了千万家公司名称的超过一百万字的语 料进行测试,准确率超过了 95%,后来这项研究被认为 是命名实体识别的前身。一直到 1995 年开的 MUC 会 议中首次正式的使用了命名实体(Named Entity)这一 术语,并且设立了多语言实体识别评测任务。