多模态特征的越南语语音识别文本标点恢复

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多模态特征的越南语语音识别文本标点恢复
赖华;孙童;王文君;余正涛;高盛祥;董凌
【期刊名称】《计算机应用》
【年(卷),期】2024(44)2
【摘要】越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。

越南语语音识别文本中常出现破坏语义的错误
音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。

利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。


验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。

【总页数】6页(P418-423)
【作者】赖华;孙童;王文君;余正涛;高盛祥;董凌
【作者单位】昆明理工大学信息工程与自动化学院;云南省人工智能重点实验室(昆明理工大学)
【正文语种】中文
【中图分类】TP183
【相关文献】
1.越南语语音情感特征分析与识别
2.基于改进经验模态分解的语音信号特征提取法
3.基于双模态融合特征的模糊语音识别研究
4.基于经验模态分解特征拼接的重放语音检测研究
5.基于多模态特征记忆库的视频语音检索模型
因版权原因,仅展示原文概要,查看原文内容请购买。

相关文档
最新文档