基于BERT的电力领域无监督分词方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于BERT的电力领域无监督分词方法
陆斯悦;张禄;李香龙;邢其敬;段大鹏;林华
【期刊名称】《信息技术》
【年(卷),期】2024(48)1
【摘要】目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。
为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部分被遮蔽的句子的特征编码来度量句子各部分相似度,并将相似度较低的部分进行拆分,再通过N-Gram对于拆分结果进行重新组合,实现电力领域的无监督分词。
实验结果表明,文中方法在通用领域优于现有分词工具,尤其在电力领域的分词任务中取得了较好的效果。
【总页数】8页(P96-103)
【作者】陆斯悦;张禄;李香龙;邢其敬;段大鹏;林华
【作者单位】国网北京市电力公司电力科学研究院
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.基于无监督学习的专业领域分词歧义消解方法
2.基于BERT的中文地址分词方法
3.基于BERT预训练模型的古汉语自动分词方法研究
4.面向中医古籍文本的领域自适应性无监督分词
5.基于改进BERT的电力领域中文分词方法
因版权原因,仅展示原文概要,查看原文内容请购买。