数字人文视域下SikuBERT增强的史籍实体识别研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
*本文系国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)研究成果。
数字人文视域下SikuBERT 增强的史籍实体识别研究*
刘江峰,冯钰童,王东波,胡昊天,张逸勤
摘要利用自然语言处理技术深入挖掘典籍文献,推进中文古籍文献的数字化,对于推动历史学
习、增强文化自信与促进文明传播具有重要意义。命名实体识别研究是自然语言处理中的基础性环节,文章基于BERT-base 、RoBERTa 、GuwenBERT 、SikuBERT 、SikuRoBERTa 等预训练模型,以“前四史”和《左传》为研究语料,构建人名、地名、时间等命名实体识别任务。实验结果表明:SikuBERT 、SikuRoBERTa 在无标点语料、小范围语料上能够取得较基准模型更好的效果;语体风格、语料规模对模型性能产生一定影响;BERT 模型更为适应大规模语料任务。实验验证了基于《四库全书》繁体语料预训练的BERT 模型在预训练-微调范式下典籍命名实体识别的可行性,构建了基于SikuBERT 的典籍命名实体识别软件,为进一步开展典籍文本挖掘和利用提供参考。关键词人文计算SikuBERT
预训练模型史籍实体识别
引用本文格式刘江峰,冯钰童,王东波,等.数字人文视域下SikuBERT 增强的史籍实体识别研究[J].图书馆论坛,2022,42(10):61-72.
Research on SikuBERT-enhanced Entity Recognition of Historical
Records from the Perspective of Digital Humanities
LIU Jiangfeng ,FENG Yutong ,WANG Dongbo ,HU Haotian &ZHANG Yiqin
Abstract
Classical books and documents are treasures of excellent Chinese traditional civilization.It is of great
significance to use natural language processing technology to dig deeply into these books and literature.Digitization
of ancient Chinese books and literature can promote the study of history ,enhance cultural confidence and facilitate the spread of d entity recognition is a fundamental step in natural language processing.Based on BERT-base ,RoBERTa ,GuwenBERT ,SikuBERT and SikuRoBERTa pre-trained models ,this paper uses "The First Four Histories"and Zuo Zhuan as the research corpus to provide named entity recognition tasks of personal names ,place names and time periods.The experiment shows that SikuBERT and SikuRoBERTa can achieve better results on non-punctuated corpus and corpus of small-scale than other benchmark models.Linguistic style and corpus size have some influence on model performance ;and the BERT model is more suitable for large-scale corpus tasks.The experiment confirms the feasibility of applying BERT pre-trained models on the
traditional corpus of Siku Quanshu .Under pre-trained and fine-tuning paradigms for named entity recognition of classical books ,a named entity recognition software for classical books based on SikuBERT is developed.This will provide a good reference for further text mining and utilization of classical books.
Keywords humanities computing ;SikuBERT ;pre-trained models ;historical records ;entity recognition
0引言
中华文明源远流长,一本本典籍演绎着一幅幅绚丽的历史画卷。以人为鉴,可以明得失;以史为鉴,可以知兴替。从漫长的历史中获取知识与经验,是实现国家富强、民族复兴、人民幸福的制胜法宝。近年传统人文学科社科化、社会科学信息化的趋势日益增强,数字人文(又称人文计算)研究悄然兴起,为传统人文与社会科学研究提供了新的研究范式[1]。文本挖掘与可视化分析成为数字人文领域研究的重要技术,典籍文献的深度挖掘和利用成为可能。从研究的精细程度来看,文献信息处理主要分为词汇级、句子级、篇章级。古文词汇级研究主要包括自动分词、词性标注与命名实体识别[2]。其中,实体识别作为实体关系识别、知识图谱构建以及其他研究的基石,其准确性和效率尤为重要。
随着深度学习技术的发展,文学、地理、天文等领域均对命名实体识别进行广泛研究。机器学习时代,CRF模型能够融合上下文特征,被广泛应用于常见实体的识别,但存在过分依赖标注数据集的缺点,对较少见的实体名称,识别效果不够理想。近年来,深度学习技术日益成熟,诸如LSTM、BERT模型及其变体在命名实体识别领域均有很多成功的应用。由于语法上的独特性且与现代汉语、英语存在较大差异,汉语古文语料的分词、词性标注、命名实体识别难度较大。
2018年Google发布基于双向Transformer 编码器表征的语言模型(BERT)。在BERT模型中,一个已经过大量语料预训练的预训练模型能使模型的下游应用效率更高:只需一个额外的输出层就可对已有的预训练模型进行微调,并应用在各类领域任务中,无需根据特定任务对模型进行实质性修改。BERT发展了预训练-微调的语言模型研究新范式。当前常用中文预训练模型包括Google官方提供的BERT-Base-Chinese(以下简称“BERT-base”)、哈尔滨工业大学讯飞联合实验室提供的中文RoBERTa、北京理工大学提供的GuwenBERT等。其中,BERT-base和
RoBERTa是基于中文维基百科的包含简体与繁体中文的预训练模型,GuwenBERT是基于殆知阁古汉语语料的简体中文预训练模型。相较于殆知阁古汉语语料,中文维基百科在语法上与典籍文献有较大差异;而GuwenBERT却是完全采用简体中文古文文献的预训练模型。可以预见,在繁体中文的典籍文献命名实体识别中,上述3个预训练模型皆有其各自的优缺点。
《四库全书》是我国古代最大的文化工程,完整呈现了我国古典文化的知识体系。近日由南京农业大学信息管理学院牵头、南京师范大学文学院参与,使用《四库全书》繁体版本语料分别在BERT-base和Chinese-RoBERTa-wwm-ext(以下简称“RoBERTa”)上进行继续训练的SikuBERT、SikuRoBERTa发布。该研究在基于《左传》语料的自动分词、词性标注、断句、命名实体识别等下游任务上作了简要验证,效果较上述3个预训练模型均有不同幅度的提升。因此,本文尝试利用BERT-base、RoBERTa、GuwenBERT、SikuBERT、SikuRoBERTa等BERT预训练模型,以《左传》《史记》《汉书》《后汉书》《三国志》等为实验语料,对人名、地名、时间词等3种历史事件的主要构成实体进行识别,进一步探究SikuBERT、SikuRoBERTa在不同典籍、不同规模、不同语体风格语料上的泛化能力并作可能的改进尝试。
1研究回顾
1.1数字人文视域下的古籍智能信息处理
数字人文(Digital Humanities)[3]为传统人文学科提供了新的研究方法,着眼于数字化文本计算,如“数字敦煌”项目[4]、青州龙兴寺遗址出土佛像保护项目[5]以及其他古籍修复[6]项目。近年随着各类资源数字化规模的扩大和机器学习、大数据等计算机技术的飞速发展,数字人文研究模式转变为采用数据密集型计算来服务人文学科领域[7]。在20世纪末期,我国古籍数字化研究就已取得一定成果,如1999年史睿[8]提出古籍数字化构建方案。21世纪初以来,我国逐步构建了大批