面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专题:“SikuBERT:数字人文下的古籍智能信息处理”
面向数字人文的典籍语义词汇抽取研究
——以SikuBERT 预训练模型为例*
孙文龙,张逸勤,王凡铭,鱼汇沐,刘江峰,王东波
*本文系国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)和江苏省社会科学基金项目“人工智能辅助青少年传统文化教育研究”(项目编号:20JYB004)研究成果。
摘要利用关键词抽取技术可以帮助读者提取高度凝练的文本主题,快速获得古籍文本的中心内容,对普及古汉语知识和传播中华优秀传统文化有着重要意义。
文章以先秦两汉时期的“儒家”“史书”数据库语料为分析对象,测试SikuBERT 预训练模型在古汉语文本关键词抽取任务中的性能。
实验结果表明,从两类语料中分别抽取的20个关键词基本能体现出相应典籍类别的主题内容:前者与所抽儒家典籍文本的相似度为76%~78%,后者与所抽史书文本的相似度为75%~78%。
实验验证了SikuBERT 模型在古籍文本关键词抽取中的适用性,能为开展古汉语文本主题分类、聚类和知识深度开发提供参考。
关键词数字人文SikuBERT 关键词提取汉语典籍
引用本文格式孙文龙,张逸勤,王凡铭,等.面向数字人文的典籍语义词汇抽取研究——以Siku⁃BERT 预训练模型为例[J].图书馆论坛,2022,42(10):31-41.
Study on Keyword Extraction from Ancient Chinese Classics in the Context of Digital Humanities :Taking SikuBERT Pre-training Model for Example
SUN Wenlong ,ZHANG Yiqin ,WANG Fanming ,YU Huimu ,LIU Jiangfeng &WANG Dongbo
Abstract
Keyword extraction technology could help readers to obtain the themes as well as the core content of
highly-condensed ancient Chinese classics more effectively ,which is of great significance to the popularization of ancient Chinese as well as the dissemination of traditional Chinese culture.With Pre-Qin and Han Confucian works and historical works as the corpus ,this paper tries to testify SikuBER ’s performance in keyword extraction from ancient Chinese classics.The result shows that the 20keywords extracted from Pre-Qin and Han Confucian works bear a similarity of 76%~78%to the themes of the target texts ,while the 20keywords extracted from Pre-Qin and Han historical works bear a similarity of 75%~78%to the themes of the target texts.Since its applicability in keyword extraction from ancient Chinese classics is verified ,SikuBERT could be further used in the thematic classification ,text clustering and knowledge mining of ancient Chinese texts.
Keywords Digital Humanities ;SikuBERT ;keyword extraction ;ancient Chinese classics
专题:“SikuBERT:数字人文下的古籍智能信息处理”
0引言
2020年11月教育部新文科建设工作组发布的《新文科建设宣言》指出,融入现代信息技术赋能文科教育,新文科建设势在必行[1]。
近10年数字人文在推动古文信息处理研究迈向交叉研究道路上发挥着重要作用,成为新文科建设的热门话题,为人文学科拓宽问题域,实现研究范式创新与重构人文知识脉络提供了契机[2-3]。
在大数据时代,信息之于读者阅读需求的可得性(Availability)和可及性(Accessibility)均得到空前提升,这与关键词抽取技术的快速发展有着密切关系。
关键词是文章主旨的高度凝练,代表特定文献的主题内容,是人们在阅读、研究文献内容时快速判断是否需要精读的重要线索。
另外,在人们无法快速获取文本关键内容时,关键词抽取还可以帮助其节约时间。
在现代汉语文本中,关键词抽取技术已经相对成熟,但古汉语文本相关研究仍处于起步阶段。
我国古籍浩如烟海,承载着中华优秀传统文化。
因此,利用好关键词抽取技术并对古籍进行整理研究,意义重大。
一方面,古籍关键词抽取可以帮助读者快速了解古籍文本的核心内容;另一方面,该技术还可应用于古籍分类管理,为古籍电子化平台提供信息检索、在线查阅、知识关联等服务。
在新文科建设背景下,以数字人文研究为抓手,探索关键词抽取技术在古汉语文本中的实践路径,有助于降低古籍文献阅读门槛、普及古汉语知识。
1相关研究
近年随着深度学习技术及预训练语言模型发展,研究者开始关注面向数字人文的古籍文本自动处理问题,基于BERT模型框架,构建面向古文智能处理任务的SikuBERT预训练语言模型的系列研究具有较强的代表性。
王东波等基于BERT模型框架,以《四库全书》全文语料作为无监督训练集,提出构建“SIKU-BERT典籍智能处理平台”设想,论述了该预训练模型较强的古文词法、句法、语境学习能力和泛化能力[4]。
其后涌现一批以SikuBERT预训练模型为例,专门探讨进一步提升古代典籍的自动分词、词性自动标注、典籍分类、摘要自动生成、典籍命名实体识别效率的系列研究,通过相关实证实验研究从多维度探索SIKU-BERT典籍智能处理系统的发展和应用前景[5-9]。
然而,在古文典籍关键词提取方面,尚未有验证SikuBERT预训练模型的适用性及应用前景的研究。
在关键词自动抽取研究方面,自Luhn提出基于词频的关键词自动抽取方法以来[10],经过60多年发展,关键词自动提取方法已经衍生出众多类别,大体可分为两类:基于无监督的方法和基于有监督的方法[11]。
从现有研究看,以采用TF-IDF算法、LDA主题模型和图模型TextRank算法3种无监督方法的研究为主。
TF-IDF是被广泛用于自然语言处理领域的经典算法,具有简洁易实现的特点,对字词或短语具有很好的分类能力。
国外的该算法研究起步早。
Salton等针对文本中词语重要性问题,提出用来评估一个词对一个文本集合中某一文本的重要程度的TF-IDF算法[12]。
Basili等提出的TF*IWF*IWF算法提高了特征词在文档集合中的权重,一定程度上解决了逆向文档频率没有考虑特征项分布情况的问题[13]。
Bong等提出利用CTD来改进TF-IDF,以改善不同类别的文档数引起的误差[14]。
国内研究集中在改进TF-IDF算法对现代汉语各类文本的处理能力。
许晓昕等提出以主题方式缓存历史来提高TF-IDF算法对聊天文本的处理能力[15];张建娥探索融合词语关联度的TF-IDF改进算法,避免TF-IDF在汉语关键词抽取上产生的偏差[16]。
国内外对LDA模型的研究集中于主题挖掘、社交网络分析等领域。
Zhao等构建可同时对用户和文本进行主题建模的Twitter-LDA模型,提高文本数据分析准确性[17];Wang等考虑到网络文本随时间变化特点,提出基于时间的变迁主题模型,用于对网络文本的主题挖掘[18];陈晓美等分析LDA主题模型从海量网络评论中提取舆情观点的优势及路径[19];陈嘉钰等利用LDA主题模型和文本挖掘方
专题:“SikuBERT:
法探讨微信用户倦怠的潜在主题[20]。
较之上述两种算法,TextRank在文本处理领域应用更广泛,计算速度较快,通过构建词与词之间的逻辑分布矩阵来抽取文本关键词,是一种有向有权的图模型。
Rahman等将用户搜索喜好作为特征,基于TextRank算法完善搜索系统的识别和定位功能[21]。
张莉婧等设计改进TextRank-CM算法,该算法在现代汉语文本关键词自动抽取方面的性能表现良好[22]。
赵占芳等的发现与之类似,较之经典的TextRank和TF-ID算法,改进后的TextRank关键词抽取算法在准确率、召回率及F 值上均有显著的提高[23]。
综上所述,在现代汉语文本中,关键词抽取技术研究及其应用已较普遍,但针对篇章相对短小、单字词较多的古汉语文本而言,关键词抽取技术的研究才刚刚起步。
近5年虽然学界对古汉语研究中关键词抽取技术的关注逐渐增多,但仍不足以挖掘和有效呈现古汉语丰富的知识价值。
在中国知网中,能够检索到的直接以古籍关键词抽取技术为主题的研究仅有1篇[24]。
该研究基于关键词抽取的3种无监督方法,对数字化后的《春秋经传》进行关键词抽取,对比分析关键词的分布情况和抽取效果后发现,TextRank算法明显优于其他两种关键词抽取算法,更适用于针对古汉语典籍的关键词抽取研究。
在古籍关键词抽取技术研究领域,该研究具有一定的补白性。
然而,TextRank算法对分词结果有很强的依赖性,即:如果某词在分词时被切分成两个词,那么在关键词提取时,TextRank仅有部分黏合效果,且要求这两个词均为关键词。
因此,是否添加标注关键词进行自定义词典,会导致关键词抽取结果在准确率、召回率的评估方面出现大相径庭的情况。
此外,TextRank模型虽考虑到了词之间关系,但仍具有抽取高频词作为关键词的倾向性。
与TextRank算法相比,深度学习模型存在无需预先对语料文本进行分词等优越性,该算法模型在古文关键词抽取研究领域具有较大的应用前景,值得进一步探索。
鉴于尚未有基于BERT模型来提取古文关键词的相关研究,本文采用SikuBERT模型对先秦两汉的古文典籍进行关键词抽取,选择具有代表性的“儒家”“史书”两个子类别古籍作为分析对象,通过对预训练模型所抽取关键词的文本相似度的分析,探讨SikuBERT模型在古汉语文本关键词抽取任务中的技术实现路线与应用前景。
2实验设计与流程
2.1预训练模型选取
本实验采用模型为南京农业大学、南京师范大学团队基于《四库全书》语料训练得到的SikuBERT模型。
与Google开发的BERT模型相比,该模型在训练方法的深度、掩码方式的有效性、输入表示的全面性等方面均展现出更出色的性能。
SikuBERT模型已在古文领域的分词、断句、词性标注、实体识别等任务上得到了实际应用,取得了预期中的实验效果,为本研究的开展打下了前期研究基础。
本研究的实验框架包括3个部分,见图1。
古文语料
预处理语料库
词向量
句子向量
主题向量
相似度计算
关键词
SikuBERT模型
图1词汇抽取实验框架
2.2数据描述
典籍语义词汇抽取任务中的SikuBERT预训练模型训练语料来源于网络资源“中国哲学书电子化计划”网站①。
该网站提供中国历代传世文献,收藏的古籍文本超过3万部,文本质量较高,包括中文善本特藏项目中的高质量影印本(如
专题:“SikuBERT:数字人文下的古籍智能信息处理”
收录的燕京图书馆500多万页历代中文文献的影印资料)。
该资源站包括“先秦两汉”“汉代之后”两大数据库,每个数据库下又分设按不同标准建成的子库。
前者依据研究主题细分为13个子库:儒家、墨家、道家、法家、名家、兵家、算书、杂家、史书、经典文献、字书、医学、出土文献;后者按照时间顺序构建魏晋南北朝、隋唐、宋明、清代、民国5个子库。
本实验下载“先秦两汉”全文数字资源作为SikuBERT预训练模型的数据来源。
依据“先秦两汉”数据库大规模语料的预训练任务完成后,为确保最终训练模
型的准确性,选取“儒家”“史书”两个子数据库作为SikuBERT 预训练模型下游任务中的语料来源。
“儒家”语料库包括26部古籍②,“史书”语料库包括19部古籍③。
两类语料在先秦两汉典籍中占比大,影响力强,具有作为实验训练语料的适宜性与合理性。
其基本信息及语料样本分别见表1和图2。
表1实验语料的基本信息
语料库
儒家史书
文件大小(KB)4,3799,787
字数
1,503,0603,361,
009
图2语料样本
2.3实验流程
(1)获取文档向量。
SikuBERT 模型以字为单位对输入的中文序列进行分词,通过模型内置的中文字典将字符映射为数值序列。
例如,当模型读入“风者何谓也?风之为言萌也……”序列时,序列先被模型按字符为单位进行分割,再为每句添加起始标记[CLS]和终止标记[SEP]。
通过标记特殊标志位,原始文本被转换为输入序列“[CLS],风,者,何,谓,也,[SEP]……”然后模型将自动结合每个字在词表中相对应的索引值原字符生成词向量,同时结合词在句中的位置向量与表示句子类别的分段向量,使得组合向量满足后续实验任务的需求。
(2)过滤停用词。
研究选取的基础停用词表是包含1,753个词汇的现代汉语停用词表,包括数字、符号、标点和无实际意义的词汇。
鉴于研究对象为古汉语文本,在现代汉语停用词表基础上,根据齐夫定律对“史书”语料进行词频统计,将出现频次超过1,000次的词汇认定为高频词。
从高频词与停用词之间的关系看,高频词并不等于停用词。
停用词多为副词、助词、虚词、代词等,如“之”“乎”“者”“也”“而”“无”等没有实际意义的词汇。
经过逐一校对筛选,最终确定将107个词频虽高但不具有实际意义的词语列入停用词表。
之后利用算法,在模型读取时自动去除文档中包含的停用词,降低对最终关键
专题:“SikuBERT:
词抽取结果影响。
(3)关键词抽取。
此步骤需从文档中创建一个关键词或关键词列表,词语长度根据具体实验进行调整。
因古汉语单字的单音节性和多义性,将关键词长设置为1(即单字),暂不考虑双音节词或其他类型词语作为关键词的情况。
在抽取方法上,采取基于BERT的Tokenizer方法来实现对文档中的词进行向量表达。
该方法具有表达能力强、保留原字词特征等优点,与N元语法词、词袋模型等方法相比,注重对上下文语境信息和一词多义等问题的处理。
(4)相似度计算。
文本相似度是预训练模型计算关键词之于所抽取文档的代表性数值指标。
采用SikuBERT模型的古汉语典籍关键词抽取实验不同于TF-IDF、LDA主题模型等常规的机器学习算法,其差异点主要体现在关键词抽取方式上,即:SikuBERT模型不是基于词语的出现频次,而是通过词向量与文档向量的相似度比较结果来确定。
依据上述步骤,在获取文档的篇章向量及候选词向量后,再通过余弦相似度算法依次计算出词语向量与文档向量的相似度,按降序排列,选取相似度最高的20个词作为最终的抽取关键词。
3实验结果分析
3.1模型抽取效果评估
在现代汉语文本关键词抽
取任务中,传统机器学习方法
的应用已有不俗表现,但大多
数技术路线对复杂的先验知识
有着较高要求。
例如,在利用
词汇特征时,过度依赖分词精
度会导致分词错误、词性错误、停用词错误,影响关键词抽取结果的信度。
有学者指出,由于古汉语在词法、句法和语法等方面与现代汉语存在较大差异,将适用于现代汉语的关键词抽取技术直接迁移至古文文本会产生适用性差与精确性无法保证的缺陷[25]。
本研究采用的SikuBERT 模型是将繁体汉字无注释与标点版《四库全书》
作为训练语料得到的预训练语言模型。
由于BERT模型的基础框架具有双向transformer编码器结构的特性,SikuBERT模型在词向量的训练中能够最大程度地保留古汉语文本的原始特征,从而使关键词抽取实验过程能够摆脱训练文本分词质量的限制。
在利用SikuBERT模型对先秦两汉时期的“儒家”“史书”语料进行关键词抽取后,选择排序最高的前20个词作为最终结果。
实验结果表明,SikuBERT预训练模型能够较好地适应古汉语文本篇章短小、单字词多的语言特征,关键词抽取结果大体上反映了相关文本内容的主题特征。
3.2儒家典籍关键词抽取结果分析
本研究对SikuBERT模型提取出的前20个儒家典籍关键词依次进行语境共现排序(见图3),从关键词所反映的主题内容看,可以将其分为4类:一是为政类,包括:王、人、废、下、民、乐、道、尊、世、士;二是修身类,包括:言、身、改、养、长;三是人与他者关系类,包括:虫、物;四是其他类,包括:子、为、卫。
从模型“相似度”计算结果看,上述关键词与所抽文本的相似度介于76%~78%,较好地反映了先秦两汉儒家典籍的主题内容。
第一类关键词与儒家治国理政思想密切相关。
从“王”(6,698次)的语境信息看,语境分布大致分为两大类:以“圣王(或先王)”或是以“楚王、魏王、齐王、秦王、晋王”等为代表的君主。
与前者相关的主题以颂扬尧、舜、禹、商汤、周文王和周武王的仁德为主,与后者相关的主题多探讨先秦诸侯或君王“德”“位”匹配情图3儒家典籍关键词抽取结果
相似度0.776
0.774
0.772
0.770
0.768
0.766
0.764
0.762
0.760
0.7754
0.77510.7748
0.7685
0.7678
0.7675
0.7673
0.7659
0.7652
0.7651
0.7649
0.7648
0.7642
0.7637
0.7635
0.7631
0.7620
0.7620
0.7618
0.7604
关键词
专题:“SikuBERT:数字人文下的古籍智能信息处理”
况。
虽然叙事视角不同,但两个主题围绕着一个共有内核,即王道政治。
孔子所讲“先王之道,斯为美,小大由之”(《论语·学而》),孟子建言梁惠王等所效法的“王天下”之道(《孟子·梁惠王下》),以及荀子论述的“王者之人”“王者之制”“王者之论”“王者之法”4个概念,共同构成一条理解儒家王道思想的线索。
其他9个关键词均与“王”字所揭示的主题有着直接或间接的联系。
具体而言,“人”字多出现在寡人、人君、人臣、庶人、贤人、仁人、人心、择人、取人等语境中,话题多与君臣关系和用人之道有关;“人”还较多地出现在周人、殷人、秦人、齐人、楚人、燕人、晋人、鲁人、宋人、郑人等语境中,通过对各国外交、军事和民风等方面的评述来说明治国之道。
“废”的语境共现信息虽然偏少(414次),但其是唯一一个从反面来揭示儒家王道理想的关键词。
例如,“长幼之节”“君臣之义”的伦理纲常不可废(《论语·微子》),刑罚和庆赏不可废(《中论·赏罚》),礼乐不可废(《荀子·乐论》),王道不可废(《新书·过秦中》)。
这可能是SikuBERT模型提取该字作为关键词的重要原因。
“下”的语境共现信息有5,783次,近一半出现在“天下”语境中,另有较多的语境与“序上下”有关,如“君臣上下父子兄弟,非礼不定”(《新书·礼》)、“明别上下之伦”(《春秋繁露·度制》),均与君臣之礼和教化民众有密切关系。
其他几个关键词的主要语境信息也均与儒家倡导的王道政治相关:“民”与儒家民本思想有关;“乐”多与始自夏商的礼乐制度相关;“道”的语境共现信息较多体现了“天道”“先王之道”(或“王道”)方面的内容信息;“尊”较多地出现在尊王和尊上的语境中;“士”的语境分布最为集中,主要围绕“何如斯可谓之士矣?”(《论语·子路》)这一问题展开,体现了春秋时期的尚士传统;“世”的语境多与王道的传承有关。
篇幅所限,上述几个关键词不再逐一展开论述。
另外,值得注意的是,10个关键词并不是孤立存在的,相互之间存在着或多或少的联系,其中“王”起着提纲
挈领的作用,其他9个关键词各有侧重,可以从不同方面揭示儒家王道思想的内涵。
第二类关键词与个人修养有关。
在此类5个关键词中,从数据看,“言”“身”的语境共现频次最多,分别为5,369次和1,837次,与总文本的相似度也分列第一、二位,均接近76.5%,较之其他几个关键词,体现出“言”“身”在该类关键词中的统摄地位。
具体而言,常与“言”共现的字词有“信、行、礼、德、仁、君子、笃敬”等,主题思想是做人要多做实事,少讲空话,这是君子的立身之本之一。
“身”字则对古人的身心修养之道做了多维性描述。
该字常出现在“察身、省身、修身、治身、正(其)身、为身、身行、身正”等语境信息中,明显体现出古人对正身修德的重视,相关例证在《论语》《春秋繁露》《潜夫论》《韩诗外传》《新序》《荀子》等典籍中均有较多体现。
“改”字的语境信息较少(417次,在该类5个关键词中出现频次最低),但其是唯一一个从反面来体现儒家对修身立德的态度,即“过则勿惮改”(《论语·学而》)与“过而不改,是谓过矣”(《论语·卫灵公》),这与“身”字所体现的主题之一“自省”是相照应的。
“养”“长”均与儒家所倡导的伦理道德规范相关。
“养”与孝道有较大关联,如“今之孝者,是谓能养。
至于犬马,皆能有养。
不敬,何以别乎?”(《论语·为政》);“长”主要指“长幼之序”,与“君臣之义”“父子之亲”“夫妇之辨”(《说苑·贵德》)共同构成了儒家伦理思想体系的要义。
第三类关键词较多体现了人与他者的关系。
在儒家的三维哲学中,“天一,地二,人三”是最常见的思维方式。
SikuBERT模型提取的“虫”“物”两个关键词集中体现了该类内容主题。
“虫”字的语境信息主要出现在《春秋繁露》(“五行逆顺”篇和“治乱五行”篇)、《大戴礼记》(“夏小正”“易本命”“曾子天圆”篇)、《论衡》(“商虫”“物势”“无形”“顺鼓”“遭虎”“龙虚”“感虚”“别通”篇,“商虫”篇中最多)、《孔子家语》(“执辔”篇最多)、《礼记》
专题:“SikuBERT:
(“月令”篇最多)中,其他儒家典籍中也有部分语境信息(如《说苑》“辨物”“修文”篇)。
在上述篇目中,“虫”是儒家“考日月星辰”与“知幽明之故”的通达路径之一,因为在他们看来:“万物鸟兽昆虫,各有奇偶,气分不同,而凡人莫知其情,唯达道德者能原其本焉。
”(《孔子家语》“执辔”篇)。
“物”字的语境共现信息能够反映出儒家对外部世界的基本看法,也体现了改造外部世界的实践取向。
“物”的初始含义是“大共名也”(《荀子·正名》),即物是一个最大的类,作为“自我”的人和“他者”的非人都在其内。
但在具体讨论人与世界关系时,往往要将二者剥离开来。
例如,《大戴礼记·诰志》中讲到“天生物,地养物,物备兴而时用常节曰圣人”,就是从天地人的三维哲学观来探讨其对物的理解。
整体看,儒家对“物”持较为中庸的看法:一方面承认人主观能动性的有限性,赞同“善假于物”(《荀子·劝学》)的实践方式,另一方面又从德化角度对人的物欲进行约束,如孟子所提及的“亲亲而仁民,仁民而爱物”。
第四类关键词在揭示儒家典籍内容主题方面呈现出一定的离散性,故将之归入其他类。
首先,“子”被抽取为关键词的一个重要因素在于其语境信息频次较高(20,565次)。
该字主要出现在“子曰”(3,299次)、“孔子”(2,772次)、“君子”(2,578次)、“天子”(1,774次)、“夫子”(653次)、“孟子”(436次)、“曾子”(471次)、“之子”(339次)、“父子”(240次)等语境中。
显然,造成“子”指代多样性的主要原因与本研究仅提取单字词有着直接的关系。
其次,“为”字被提取为关键词的原因更为复
杂:一方面该字的语境信息频
次较高(13,747次),另一方面
读音、词性和用法多样,导致
一词多音多义问题,SikuBERT
模型无法处理此类问题。
例
如,“为”读wéi时,仅用作动
词时就包含多个含义:“见义不
为,无勇也”(《论语·为政》)
中意为“做、干”;“为政以德”(《论语·为政》)中作“掌管、治理”。
同时,“为”还用作连词和语气助词。
再考虑到其读wèi,作动词(言说、告诉)和介词(因为、由于)的用法时,SikuBERT模型在提取古文关键词时面临的情况会更加复杂。
因此,尽管“为”字所展示的儒家典籍主题内容并不明确,但受上述两个方面的影响,SikuBERT模型仍将其识别为儒家典籍关键词。
“卫”的语境信息相对单一,近90%语境信息与卫国有关。
该字被抽取为关键词的一个主要原因可能在于其与孔子的关系较为密切。
公元前497年,孔子55岁,开始周游列国,第一站便是卫国;孔子周游在外14年,近一半时间居住在卫国,卫国之于孔子的重要性不言而喻,这从《论语》记载的许多与卫国有关的事例即可管窥一二。
如“鲁卫之政,兄弟也”“富之”“教之”(《论语·子路》)、“吾未见好德如好色者也”(《论语·子罕》)等均与卫国密切相关。
综上,上述4类关键词中,前三类能够大体展现出先秦两汉儒家典籍的主题内容,第四类仅能为读者提供一些了解儒家典籍的认知线索,在揭示主题内容方面呈现出明显的离散性。
究其原因,这一方面与部分古汉语字词语义和用法的复杂性有关,另一方面也与SikuBERT模型仅抽取单字词的人文计算方法相关。
3.3史书典籍关键词抽取结果分析
通过逐一检索图4中关键词的语境共现信息,依据其揭示的内容主题,可将20个史书典籍关键词大致分为五类:国别史类,包括:卫、吴、曹、梁、魏、赵;皇族类,包括:公、王、
关键词
相似度0.780
0.775
0.770
0.765
0.760
0.755
0.750
0.745
0.7796
0.7663
0.7618
0.7615
0.7576
0.7569
0.7556
0.7545
0.7537
0.7535
0.7517
0.7500
0.7499
0.7495
0.7492
0.7490
0.7488
0.7488
0.7484
0.7468
图4史书典籍关键词抽取结果。