语种辨识

合集下载

结合注意力机制和因果卷积网络的维吾尔语方言识别

第39卷第6期声学技术Vol.39, No.6引用格式：孙杰, 王宏, 吾守尔·斯拉木. 结合注意力机制和因果卷积网络的维吾尔语方言识别[J]. 声学技术, 2020, 39(6): 697-703. [SUN Jie, W ANG Hong, Wushouer Silamu. The Uyghur dialect recognition based on attention mechanism and causal convolution networks[J]. Technical Acoustics, 39(6): 697-703.] DOI: 10.16300/ki.1000-3630.2020.06.008结合注意力机制和因果卷积网络的维吾尔语方言识别孙杰1,2，王宏2，吾守尔·斯拉木1,2(1. 新疆大学信息科学与工程学院，新疆乌鲁木齐830046；2.昌吉学院，新疆昌吉831100)摘要：针对传统x-vector模型生成方言语音段级表示时，未考虑不同帧级特征对方言辨识作用不一致的问题，以及维吾尔语的黏着性特点，提出结合注意力机制和因果卷积网络的维吾尔语方言识别方法。

首先使用多层因果卷网络实现方言语音序列建模，然后采用空洞卷积核增大感受野扩展采样范围，最后使用注意力池化获取方言语音段级特征。

维吾尔语方言识别实验结果表明，所提方法较标准x-vector模型方言识别的识别准确率提升了23.19个百分点。

关键词：注意力机制；因果卷积网络；空洞卷积；维吾尔语方言；识别中图分类号：H107 文献标识码：A 文章编号：1000-3630(2020)-06-0697-07The Uyghur dialect recognition based on attention mechanismand causal convolution networksSUN Jie1,2, W ANG Hong2, Wushouer Silamu1,2(1. College of Information Science and Engineering, Xinjiang University, Urumqi 830046, Xinjiang, China;2. Changji University, Changji 831100, Xinjiang, China)Abstract:Considering that different frame features have different effects on dialect recognition when the traditional x-vector model is used to generate segment representation of dialect speech, and that Uighur language is an agglutinative language, a recognition method of Uighur dialect based on attention mechanism and causal convolution network is proposed. First, the multi-layer causal volume network is used to model the speech sequence, then the dilated convolu-tion kernel is used to expand the sampling range of the receptive field, and finally the attention pooling is used to obtain the speech segment features. The experimental results of Uyghur dialect recognition show that the accuracy of the proposed method is 23.19 percentage higher than that of the standard x-vector model.Key words: attention mechanism; causal convolution networks; dilated convolution; Uyghur dialect; recognition0 引言方言识别亦称方言分类，属于语种识别的范畴。

关于网络语音的自动语言辨识系统研究

ａｄｎｏｎｎ—ｉｅｎｅｓｅｈｎｔｒｔｐｅｃｏｎｈｅｄｅｔｆｃｔｏｒｓｌ，ｓｅｌｓｒｌｔｏｎｂｅｗｅｎｈｅｅｏｎｔｏｎａｅ，ａｉｏｆｈｅｔｉｎｉａｎｅｕｔａｗｌｉｉａｅａｉｓｔｅｔｒｃｇｉｉｒｔｑｕｎｔｙｔｔｔａｎｎｇｄｔａｄｔｎｒｉｉａａｎｈｅｕｍｂｅｒｏｆＧＭＭｏｍｐｏｎｎｔｒｉｃｓｄｃｅｓａｅｄｓｕｓｅ．ＫｅｏｄＩｔｒｅｓｅｈ；ｙｗｒｓ：ｎｅｎｔｐｅｃＡＬＩ；ＡＳＤＲＴＡ—ＰＬ；ＭＭ；ｒｅｙＰＧＧｅｄＥＭ
Ｏ引言自动语言辨识是计算机通过分析处理一个语音片段以判别其所属语种的过程，它在多语种的信息检索
和查询、器翻译、机多语种语音识别的前端处理以及军事领域中有着很重要的作用。以往关于自动语言辨识的研究多是针对于电话语音的，而研究人员经常使用的语音数据库，１语种的ＯＩＴ，２语种的Ｃｌ如１Ｇ— Ｓ１ａ一１Ｆｉｎｒｄ以及美国ＮＳｅＩＴ组织测评使用的语料库都使用了电话语音。随着网络技术的快速发展， “ 通过网络传输的语音日益增多，网络使人们多语种之间的交流更
ＡｓａｔＴｉｐｐｒｒｏｔｒｓａｈｏｕｏｔａｇａｅｉｅｔｃｔｎｗｉｐｅｈｓｏｎｌｈＧｅｎＪｐｎｓ，ｂｔｃ：ｈａｅｅｒｅｅｒｎａｔｉｌｕｇｄｎｆａｏｔｓｅｃｅｆＥｇｓ，ｒ，ａｅｒｓｐｓｃｍａｃｎｉｉｉｈｉｍａ

【国家自然科学基金】_美尔倒谱系数_基金支持热词逐年推荐_【万方软件创新助手】_20140731

2011年科研热词美尔倒谱系数频域ica 语音美尔倒谱系数(mfcc) 线性预测系数特征增强录音系统声纹声目标识别基音听觉模型共振峰推荐指数 2 1 1 1 1 1 1 1 1 1 1 1
2012年序号 1 2 3 4 5 6 7 8 9
科研热词鼻音美尔频率倒谱系数维汉语音识别线性预测失真度特征组合特征提取多层感知器声纹声学模型
2008年序号 1 2 3 美尔倒谱系数标准矢量量化复杂性动态时间弯折
推荐指数 1 1 1 1 1 1
2009年序号 1 2 3 4 5 6 7 8 9
科研热词隐马尔可夫模型盲人手机目标识别最小误差分类法听觉模型倒谱系数信息处理技术临界带变换 baum-welch算法
推荐指数 1 1 1 1 1 1 1 1 1
2013年序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
科研热词语音识别特征提取听觉特性伽马啁啾音乐流派分类语音检测语音控制证据力度美尔频率倒谱系数空间金字塔匹配移动机器人法庭说话人识别机器人控制支持向量机尺度不变特征转换声音参数听觉图像似然比 mfcc
推荐指数 1 1 1 1 1 1 1 1 1
2010年序号 1 2 3 4 5 6 7 8 9
科研热词语音识别语音特征美尔频标倒谱系数美尔倒谱系数小波变换学习矢量量化网络图形用户界面参数归一化信号与信息处理
推荐指数 2 1 1 1 1 1 1 1 1
2011年序号 1 2 3 4 5 6 7 8 9 10 11 12
推荐指数 3 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

说话人识别与语种辨识

T
λ
t =1
混合权值的重估公式： ① 混合权值的重估公式：均值的重估公式： ② 均值的重估公式：
• 应用的说话人识别过程的步骤如下：应用VQ的说话人识别过程的步骤如下：的说话人识别过程的步骤如下
1. 训练过程
① ② ③ ④ ① ② 从训练语音提取特征矢量，得到特征矢量集；从训练语音提取特征矢量，得到特征矢量集；通过LBG算法生成码本；算法生成码本；通过算法生成码本重复训练修正优化码本；重复训练修正优化码本；存储码本从测试语音提取特征矢量序列由每个模板依次对特征矢量序列进行矢量量化，由每个模板依次对特征矢量序列进行矢量量化，计算各自的平均量 1 M 化误差：化误差： Di = ∑ 1min[d ( X n , Yl i )] M n =1 ≤l ≤ L
10.1概述 10.1概述 10.2说话人识别方法和系统结构 10.2说话人识别方法和系统结构 10.3应用DTW的说话人确认系统 10.3应用DTW的说话人确认系统应用DTW 10.4应用VQ的说话人识别系统应用VQ 10.4应用VQ的说话人识别系统 10.5应用HMM的说话人识别系统 10.5应用HMM的说话人识别系统应用HMM 10.6应用GMM的说话人识别系统应用GMM 10.6应用GMM的说话人识别系统 10.7说话人识别中尚需进一步探索的研究课题 10.7说话人识别中尚需进一步探索的研究课题 10.8语种辨别的原理和应 10.8语种辨别的原理和应
2. 识别过程
d(Xn,Yli ) YLi , l = 1,2,....L, i = 1,2,....N Xn Yl i 是第i个码本中第个码本矢量，个码本中第l个码本矢量式中是第个码本中第个码本矢量，而是待测矢量和码矢量之间的距离选择平均量化误差最小的码本所对应的说话人作为系统的识别结果。 ③ 选择平均量化பைடு நூலகம்差最小的码本所对应的说话人作为系统的识别结果。

语音识别技术

基于DTW的语音识别
• DTW算法通过局部优化的方法实现加权距离和最小，即
D ( i , j ) = m in
C
∑
N
n=1
d x , y Wn i n j n ( ) ( )
(
)
∑W
n =1
N
n
Wn 为加权函数，需考虑两个因素： ⑴ 根据第n对匹配点前一步局部路径的走向来选取； ⑵ 考虑语音各部分给予不同权值，以加强某些区别特征。
• 对于孤立词(或命令)识别，DTW算法与HMM算法在相同的环境下，识别效果相差不大。 • 优点： -可靠性强 -复杂度低 • 关于DTW理论已作介绍
基于matlab的DTW识别算法实现
• 实验模板：”a，b，c，d，e，你好“的wav文件(8k采样，单声道，精度8位) • DTW算法采用两步约束：
・说话人识别常用参数分类：
(1) 线性预测参数及其判生参数 (2) 语音频谱直接导出的参数 (3) 混合参数 (4) 其他鲁棒性参数
说话人识别与语种辨识
・模式匹配的方法： (1) 概率统计方法； (2) 动态时间规整方法（DTW） (3) 矢量量化方法（VQ） (4) 隐马尔可夫模型方法（HMM） (5) 人工神经网络方法（ANN）
语音识别的概述
语音识别系统的分类
分类依据语音的发音方式孤立词语音识别系统连接字语音识别系统非特定人语音识别系统说话人词汇量的大小小词汇量 (10-100) 识别的方法动态时间规整(DTW) 矢量量化 (VQ) 隐马尔可夫模型（HMM ）隐马尔可夫模型 (HMM)、人工神经网络 (ANN) 应用场合
y y
yk =
Y = y1 , y2 ,L , yTy , k = 1, 2,L , Ty

语言辨识的矢量量化方法(VQ)

子包括旅游信息、急服务、应以及购物和银行、票股
交易。例如Ａ＆ＴＴ向处理９ｌ紧急呼救的社会机１构和警察局推出语言热线服务 ¨ 。图ｌ明了两说个讲不同语言的人是如何通过一个多语言话音系统进行交流。自动语言辨识技术还能够用于多语言机器翻译系统的前端处理，当对大量录音资料进行翻译分配时，要预先判定每一段语音的语言。需此外军事上还可以用来对说话人身份和国籍进行监听或判别＿。随着信息时代的到来以及国际因２
（ｎｌｈ、语（ｎａｎ、斯语（ａｉ、语Ｅｇｉ）汉ｓＭａｄｒ）波ｉＦｒ）法ｓ
（ｒｎｈ、语（ｅｍａ）北印度语（ｉｄ）Ｆｅｃ）德Ｇｒｎ、Ｈｎｉ、日语（ａａｅｅ、鲜语（ｏｅｎ、班牙语（ｐｎｓ）泰Ｊｐｎｓ）朝Ｋｒａ）西Ｓａｉ、ｈ
一
每种语言的１０个持母语的人在实际的电话线路０上产生。发音的时长从１秒到５Ｏ秒长短不等，平均为ｌ．３４秒。语言的选取考虑了各种因素，时同
个相对较新的领域。尽管在某些方面，类似于其自动语音识别、话人识别和声调检测，但所有这说

基于倒谱距离窗移最小失真分割的语种辨识

摩擦音、音、鼻静音，而不是按照准确的音素或者音
节来划分不同语言，根据需要把每个大类分为多再个小类．总之，类别的总数比每种语言的音素个数少得多，样对语音的标注就变得相对简单一些．这此
ＫｙｗｒｓｈｄｎｍｒｏｏｅＨＭ）ｌｇａｅｉｎｆａｏ；ｕ－ｏｄｅｍｎｔｎｅｏｄ：ｉｅａｖｍｄｌ（Ｍ；ａｕｇｅｔｉｔｎｓｂｗｒｓｇｅｔｉｄｋｎｄｉｃｉｓａｏ
自动语种识别是指计算机能自动地识别一段语音属于哪种语言的技术．在全球化的过程中显得越
ｍｄｌｉｖｌｎｕｅａｏｎｆｏｎｏｔｎｔｓｐｏｃ，ｗｓａｒｇｅｍｎａｏｎｔｄｏｏｅ，ｎｏｉｇａｈｇｍｕｔｏｗｒａｄｃｓ．Ｉｈｒｅｔｅｕｅｕｈｓｇｅｔｉｉｓａｆｖｋｉｊｏｔｎｅ
Ｖｏ．３Ｎｏ．１１２
Ａｐ．２０７ｒ０
文章编号：０７２６（０７０．１６０１０．８１２０）２０１．５
基于倒谱距离窗移最小失真分割的语种辨识
缪炜，侯丽敏
（上海大学通信与信息工程学院，上海２０７）００２
来越重要，２从０世纪９０年代后，引起越来越多人也的关注… ．
子中具体包含哪些音素或哪些音节，只需要判别它出某段语音到底和哪种语言更接近．于这点，．基ＴＭａｉｒｎｔ认为所有的语言都由４大类组成，即元音、

基于符号化和语言模型方法的汉语方言自动辨识

维普资讯
第２期
Hale Waihona Puke 沈兆勇等：于符号化和语言模型方法的汉语方言自动辨识基
一ａｇｍａ｛（。）ｒｘｂｘ＼｝
汉语方言自动辨识是计算机根据语音自动确定汉语方言种类的技术，在汉语语音识别、息检它信索、游服务、旅刑侦及军事监听等领域都具有重要的应用价值．相对于语种辨识，汉语方言辨识起步较晚
并且尚处于起步阶段，０２年到２０２００５年，台湾的蔡伟和、加坡的Ｌｍ新ｉＢＰ等先后进行了基于高斯模
究．于该项研究刚刚起步，缺乏包含语音标注的音库以及成熟的理论和方法，文在借鉴和改进鉴还本
Ｔｒｅ— ａｒｓｕｌｏｒｓｒａｑｉｏ等人提出的语种辨识的新方法Ｉ，索适合汉语方言辨识的特征参数和改进后端Ｃｌ５探］分类器的基础上，研究了基于高斯混合模型（ＧＭＭ）号化器和Ｎ元语言模型方法的汉语方言辨识．符应
试．３主要汉语方言的辨识中，５Ｓ料测试平均辨识率达到了９．．在种１语Ｏ７
关键词：ＧＭＭ符号化；言模型；语方言自动辨识语汉中图分类号：９２３ＴＮ１．４文献标识码：Ａ文章编号：１０ — ５３２０）２０５ — ４０７６７（０６０ — ０４０

手语辨识技术

手语辨识技术手语是十分特殊的语言，它既可以在聋人之间进行交流，也可以让人们更好的了解聋人群体。

然而，这种语言的独特性也给人们带来了一定的困扰——不是所有人都能够掌握手语，这就意味着聋人需要不断地在交流中改变方式。

在这样的情况下，手语辨识技术应运而生。

手语辨识技术是什么呢？简单来说，这是一种利用计算机视觉技术来辨识手语动作，进而通过声音或者文字的方式输出手语的技术。

这种技术可以帮助聋人更好的融入社会，也可以让普通人对手语的理解更加深入。

手语辨识技术的研究始于二十世纪八十年代，当时的技术水平还非常有限。

随着计算机技术的不断进步，现在已经有了非常成熟的手语辨识技术。

比如说，在2017年，美国一家名叫Myo的公司推出了一款手语辨识手环，通过触摸感应和肌肉传感器来判断手势，并将其转换成文字输出，从而帮助聋人更好的融入社会。

从技术原理来看，手语辨识技术可以分为两类：传统图像处理和深度学习。

传统的图像处理技术是通过对图像中的特征进行提取，并将这些特征和手语手势进行对比，从而确定手语的含义。

这种方法受到很多的限制，比如说光线、角度、距离等因素都会影响图像的质量，这会影响识别的准确率。

另一种深度学习则不同，它采用神经网络对大量数据进行训练，从而实现对手语进行辨识。

相比较传统的图像处理技术，深度学习具有更好的准确率和更高的鲁棒性。

除了技术原理之外，手语辨识技术也可以被应用在很多领域中。

比如说，在医疗领域中，手语辨识技术可以被用来识别病人的手势，从而为病人提供更好的护理服务。

在教育领域中，手语辨识技术可以为聋人学生提供更好的学习条件。

另外，在智能家居领域中，手语辨识技术也可以帮助使用者更好地控制智能设备。

当然，与其他技术一样，手语辨识技术也存在着一些问题和挑战。

比如说，在识别不同语种的手语时，手语的手势和含义可能会存在着一定的差异，这就需要更多的数据进行训练。

此外，手语辨识技术还非常依赖摄像头的质量和位置，这也限制了其在特定环境下的使用。

基于美尔倒谱系数和复杂性的语种辨识

第３４卷第１期９
Ｖ１４ｏ．３
・
计
算
机
工
程
２００８年ｌＯ月
Ｏｃｏｅ０８ｔｂｒ２０
Ｎｏ．９１
ＣｏｕｅｇｎｅｉｇｍｐｔｒＥｎｉｅｒｎ
人工智能及识别技术・
文章编号：００－２（０）－００－）１０－３８０８９２３４文献标识码：４２１－－３－－Ａ
具有一定识别性能和抗噪能力。
性预测分析的稳定性，被广泛使用的预加重网络是一固定的阶数字系统，信号方程为
一
但上述频域方法采用了短时分析方法，属于线性范畴，而语音信号作为一种典型的非平稳信号，短时分析法仅对各
语种的静态特征进行了描述，忽略了说话人的动态特征，而各种实验证明，语音中的动态信息是语音信号的重要特征之
英语、汉语、日３个语种的识别效果，结果表明，该方法相对于传统方法能明显提高语种识另准确性和鲁棒性。语怕ｇ
关健诃：语种辨识；复杂性；标准矢量量化
ＬａｇａｅＩｅｔｆｃｔｏｓｄ０ＦＣＣｎｍｐｅｉｎｕｇｄｎｉａｉｎＢａｅｎＭｉａｄＣｏｌｘｔｙ
ＰＮＧａ，ＡＱｕｎＣＨＥｈｎｆｎ，ＡＮＧＣｉｏｇＮＣｅ－ｇＹａｕ－ｎｒ
（ｏｄｃｌｎｉｅｒｇ＆Ｉｓｕｎｓｔｔ，ｎｚｏａｚｉｅｓｙＨｎｚｏ１０８ＢｉｍｅｉａＥｇｎｅｉｎｎｔｍｅｔｎｔｕｅＨａｇｈｕＤｉｎｉｖｒｔ，ａｇｈｕ３０１）ｒＩｉＵｎｉ

一般拓扑结构的非齐次隐含马尔科夫模型及其在中、英文语种辨识中的应用

Ａｐ０７ｒ２０
一
般拓扑结构的非齐次隐含马尔科夫模型及其在中、英文语种辨识中的应用
王作英孙健
１０８）００４ｆ大学电子工程系北京清华
摘要：为了充分利用语音信号中的段长信息，该文提出了一种具有一般拓扑结构的非齐次隐含Ｍａｋｖ模型ｒｏ
ｆｉｄｎＭａｏｄｌＭＭ）并将其应用于中、文语种辨识（ａｇａｅＤｎｉａｉ，Ｉ）ＨｄｅｒｖｋＭｏｅＨ，，英ＬｎｕｇｅｔｃｔｎＬＤ系统。Ｉｉｆｏ非齐次ＨＭＭ
既很好地描述了语音信号的发生过程，又准确地利用了状态的段长信息和语言中的上下文连接结构信息，对于中、英文语种辨识系统，非齐次的ＨＭＭ系统辨识性能好于齐次的ＨＭＭ模型。而在非齐次的ＨＭＭ中，同段长为均匀分布相比，段长分布为正态分布时系统的辨识性能更好，表明段长确实是一种重要的语种区分信息之一，且正态分布较均匀分布更接近于真实的段长分布。
ＷａｇＺｏｙｎｎｕ — ｉｇＳｎＪａｕｉｎ
（ｅａｔｅｔＥｅｔｎｃｎｉｅｒｇＴｉｈａＵｉｒｔＢｉｎ０８，ｈａＤｐｒｎｌｒｉＥｇｅｎ，ｓｇｕｎｖｓｙｅｉ１０４Ｃｉ）ｍｃｏｎｉｎｅｉ，ｊｇ０ｎＡｓａ：ｎｏｄｒｏｕｅｕａｉｆｍｔｎｉＬｎｕｇＤｎｉｃｔｎ（Ｉ）ｆｃｎｌｔｅｉｏｇｎｏｓｂｔｃＩｒｅｔｓｄｒｔｎｉｏａｉａｇａｅｅｔａｉＬＤｅｉｔ，ｈｈｍｏｅｅｕｒｔｏｎｒｏｎＩｉｆｏｉｅｙｎＨｄｅｒｏｄｌＨｉｎＭａｋｖＭｏｅ（ＭＭ）ｉｎｒｌｏｏｇａｓｕｔｒｉｐｏｏｄａｄｓｓｅｔｙｈｎｕｇｄｗｔｇｅａｔｐｌｉｌｔｃｕｅｓｒｐｓ．ｎｅｔｉｎｉｅａｇａｅｈｅｏｃｒｅｉｕｄ０ｄｆｔｌ

基于GMM-UBM的语言辨识算法研究

ＧＭＭ．Ｂ的语言辨识算法，以期改善语言辨识系统的性能，获得更好的识别率和系统移植性．ＵＭ
１高斯混合模型
１１高斯混合模型的基本概念．
高斯混合模型ＧＭＭ本质上是一种状态数为ｌ的连续分布的隐马尔可夫模型（ｉｄｎＭａｏＨｄｅｒｖｋ
８月
文章编号：１０．３２（００３００．６０６７０２１）０．０５５
基于ＧＭＭ— Ｍ的语言辨识算法研究ＵＢ
陈业仙。张歆奕．毛杰
（邑大学信息工程学院，广东江门５９２五２００）摘要：运用Ｍａｌ软件，以自已建立的语音数据库为基础，对与文本无关的基于ＧＭＭ．ＢｔｂａＵＭ的
ｌｎｕｇｄｎｉｃｔｎｓｓｅａｅｎｔｅＧＭＭ－ＭｄｌａｄｉｄｐｎｅｔｏｈｐａｅｓａｇａｅｉｅｔａｉｙｔｍｂｓｄｏｈｉｆｏＵＢｍｏｅｎｎｅｅｄｎｆｔｅｓｅｋｒｉ
ＣＮＹ－ｉｎＺＨＥｅｘａ。ＨＡＮＧＸｎｙ。ｉ — ｉＭＡＯＪｅｉ
（ｃｏｌｆｎｏｍａｉｎＥｇｎｅｉｇＷｕｉｎｖｒｉ，ｉｎｍｅ２００ＣｉａＳｈｏｆｒｔｎｉｅｒｎ，ｙｉｅｓｔＪａｇｎ５９２．ｈｎ）ｏＩｏＵｙ
ＭｏｅＣＨｄｌＤＭＭ）．。一个阶ＧＭＭ可由Ｍ个高斯概率密度函数加权求和得到。即：
ｐ＝岛）（）∑ （，Ｉ

语种识别算法中GSV计算的定点仿真与实现

教授，硕士生导师，研究方向为语种辨识与语音识别。Ｅｍａ：ｅｉａｇ０３２．ｏ－ｉｙｚｈｎ２０＠１６ｃｍｌｚ
・
６０・８
计算机工程与设计
２１焦０２
提出了采用ａｄｏｄｌｇ运算来简化对数似然函数的计算，以及
ＧＳＶ作为声学模型，支持向量机ＳＶＭ作为区分模型。大量仿真测试结果表明，ＧＳＶ在整个系统中占的运算量为８％左ｏ
右，是算法硬件实现的瓶颈。鉴于此，对基于ＧＳＶ的硬件实现方法进行了研究，提出了一种快速ＧＳ定点计算方法，其Ｖ采用ａｄｏｄｌｇ运算简化对数似然函数的计算，完成了语种识别的高效定点实现。实验结果表明，该定点方法的识别率与浮点
展了广泛的研究，基于ＡＲＭ和ＤＰ开发的语音识别系统Ｓ
音素识别器结合语言模型的（ａａｌｌｈｎｅｏｎｔｎａｄｐｒｌｏｅｒｃｇｉｏｎｅｐｉ
ｌｇａｅｍｏｅｎ，ＰＲＭ）语种识别方法，该方法的语ａｕｇｄｌｇＰＬｎｉ
（ｔｎｌＤｉｉｌｗｉｈｎｙｔｍｇｎｅｉｇａｄＴｅｈｏｏｉａｓａｃｎｅ，Ｚｅｇｈｕ４００，Ｃｈｎ）ＮａｉａｇｔｏａＳｔｉｇＳｓｅＥｎｉｅｒｎｎｃｎｌｇｃｌＲｅｅｒｈＣｅｔｒｈｎｚｏ５０２ｃｉａ
０引言
目前大部分语种识别方法可归类为基于声学的方法和基于音素的方法［。基于音素方法的典型模型如基于并行１］

语种确认中基于段长的语言模型修正方法

＿７收Ｈ）≥’接ｏ』
ＰＳＬ）＜Ｔ拒绝Ｈ（ＩＭｂ０
ＰＳＬ，（ＩＭ，分另是目标语种和背景语种语言模（ＩＭ）ＰＳＬ）０型对待测语音ｓ的似然函数。当上述似然比大于阈值ｒ时，接受假设Ｈ，ｎ认为待测语音是目标语种；反之，拒绝Ｈ，为待。认测语音是背景语种。语种确认基线系统的框图如图ｌ所示，采用平行音素识别器加语言模型的结构。系统前端是ｎ个平行音素识别器，在每
ＬＵＣａｇｅ，ＷＡＮＧＳｉｚｅ，ＬＵＪａＩｈｎ－‘ ｈ —ｈｎＩｉ，ＸＩＳａ — ｏｇＡｈｎｈｎ。
（．ｔｅｅＬｂｒｏａｓｕｅＴｈｏｇ，ｎｉｔｏｅｒｉ，ｈｅｃｄｍｉｃ，ｅｉ０８，ｈａ２Ｄｐ．１ＳｔＫｙａｏｔｙｏＴｎｃｅｎｌｙＩｔｕＥｃｏｃＣｉｓＡａｅｙｏＳｅｅＢｉｇ１００Ｃｉ；．ｅｏａａｒｆｒｄｒｃｏｓｔｅｆｌｔｎｓｎｅｆｃｎｓｊ０ｎｎｔｆ
ＥｅｔｎｃＥｇｎｅｎｌｒｉｎｉｒｇ，￣ｉｇｕｎｖｒｔ，ｅ＇ｇ１０８ｃｏｅｉｎｈａＵｉｓｙＢｏｎ００４，Ｃｉａｅｉｉｈｎ）
ＡｂｔａｔＡｎｖｌｐｒａｈｉｐｏｏｅｏｉｒｖｓｉｔｎｏｎｕｇｄｌｒｂｂｌｙｅｉｉｎｆｃｏｓａｄｗｉｈｓａｅｓｒｃ：ｏｅａｐｏｃｓｒｐｓｄｔｍｐｏｅｅｔｍａｉｆａｇａｅｍｏｅｏａｉｔ，ｒｖｓｏａｔｒｎｅｇｔｒｏｌｐｉｕｅｏｃｉｖｎｅａｇａｅｍｏｅｓｉｔｎｓｄｆｒａｈｅｉｇｎｗｌｎｕｇｄｌｔｅｍａｉ．ＥａｕｔｎｏＡＬＦＥｏｐｓｓｏｓｌ．４ｏｖｌａｉｎＣＬＲＩＮＤＣｒｕｈｗ１５％ｂｓｒｌｔｅｉｒｖ－ｏｅｔｅａｉｍｐｏｅｖｍｅｔｎＥＥｎｓｎｌｈｎｅｏｎｔｎｓｓｍｎ．３ｎＲｏｉｇｅｐｏｅｒｃｇｉｏｙｔａｄ６９％ｒｌｔｅｉｒｖｍｅｔｉＲｏａａｌｌｈｎｅｏｎｔｎｓｓｉｉｅｅａｉｍｐｏｅｎｎＥＥｎｐｒｌｏｅｒｃｇｉｏｙ — ｖｅｐｉ

基于CNN-BiGRU的方言语种识别

第55卷第6期2022年6月通信技术Communications TechnologyVol.55 No.6Jun. 2022文献引用格式：付英,刘增力,汤辉.基于CNN-BiGRU的方言语种识别[J].通信技术,2022,55(6):712-719. doi:10.3969/j.issn.1002-0802.2022.06.006基于CNN-BiGRU的方言语种识别*付英1，刘增力1，汤辉2（1.昆明理工大学，云南昆明 650504；2.江西省科技基础条件平台中心，江西南昌 330003）摘要：针对方言特征表征能力差和识别率低的问题，兼顾特征提取和模型改进两方面对不同时长的方言语种数据进行实验仿真。

首先，通过对比不同的特征提取算法，确定模型的最佳输入特征；其次，使用焦点损失代替交叉熵损失函数，对不均衡和相似度高的方言语种分配不同的权重，经实验仿真确定最优参数使模型性能达到最佳；再次，对比不同的模型在不同时长方言语种中的识别性能，实验结果显示，与基线系统相比，提出的改进模型平均识别率提升了4.09%；最后，采用语音增强方式提高模型的泛化能力和鲁棒性。

关键词：方言语种识别；焦点损失；模型改进；语音增强中图分类号：TN912.3 文献标识码：A 文章编号：1002-0802(2022)-06-0712-08Dialect Language Recognition Based on CNN-BiGRUFU Ying1, LIU Zengli1, TANG Hui2(1.Kunming University of Science and Technology, Kunming Yunnan 650504, China;2.Jiangxi Computing Center, Nanchang Jiangxi 330003, China)Abstract: Aiming at the problem of poor ability to represent dialect features and low recognition rate, this paper takes into account both feature extraction and model improvement to conduct experimental simulations on dialect language data of different durations. Firstly, the optimal input features of the model are determined through the comparison of different feature extraction algorithms. Secondly, the focal loss is used instead of the cross entropy loss function to assign different weights to the dialect languages with imbalance and high similarity, and the optimal parameters are determined by experimental simulation to optimize the performance of the model. Then, the recognition performance of different models in different dialects of different time lengths is compared. Experimental results indicate that the improved model proposed in this paper improves the average recognition rate by 4.09% compared with the baseline system. Finally, the speech enhancement is used to improve the generalization ability and robustness of the model.Keywords: dialect language recognition; focal loss; model improvement; speech enhancement0 引言全球化的今天，不同国家不同地区的人们跨语种交流的机会越来越多，随着深度学习技术趋于成熟，语种识别研究也成为众多研究者关注的重点。

语种辨识

1语言辨识的基本概念自动语言辨识（又称语种识别），是计算机分析处理一个语音片段以判别其所属语种的技术。

随着当前全球合作的增长，各种余元之间的通信要求增加，这就对自动语言识别提出新的挑战，在机械能够懂得语言含义之前，必须辨别使用了哪种语言。

自动语言辨识的任务在于快速准确的辨识出所使用的语言，目前它已经成为通信和信息领域一个新的学科增长点。

自动语言辨识技术的学术特点在于它横跨技术的融合。

对它的研究，不仅需要掌握信息理论和技术，而且需要具有多种信息处理的手段和方法。

众所周知，语音中包含着多种信息，从语音中提取不同的信息进行处理也就形成了不同语言处理方法。

从内容上分，语音中包含着所属语言种类的信息、说话内容的语义信息和说话人个体特征,因此从识别的角度来说，我们可以利用从语音中提取的这些信息进行识别，语音信息的识别可以分为语音识别、语言辨识和说话人识别。

语音识别中要提取出包含在语音信号中的字词意思和言语内容，说话人识别则是从语音信号中获取说话人的身份，语言辨识是从语音信号中提取出包含的语言的种类（或方言的种类）。

与语音识别和说话人识别不同的是，语言辨识利用的是语音信号中的语言学信息，而不考虑语音信号中的字词意思，不考虑说话人的个性。

语种识别在信息检索和军事领域都有很重要的应用,包括自动转换服务多语言信息补偿等。

在信息服务方面, 很多信息查询中可提供多语言服务, 但一开始必须用多种语言提示用户选择用户语言。

语种辨识系统必须预先区分用户的语言种类, 以提供不同语言种类的服务。

这类典型服务的例子包括旅游信息、应急服务、以及购物和银行、股票交易。

例如 AT&T 向处理 911 紧急呼救的社会机构和警察局推出语言热线服务。

图 1 说明了两个讲不同语言的人是如何通过一个多语言话音系统进行交流。

自动语言辨识技术还能够用于多语言机器翻译系统的前端处理, 当对大量录音资料进行翻译分配时, 需要预先判定每一段语音的语言。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1语言辨识的基本概念自动语言辨识（又称语种识别），是计算机分析处理一个语音片段以判别其所属语种的技术。

自动语言辨识的任务在于快速准确的辨识出所使用的语言，目前它已经成为通信和信息领域一个新的学科增长点。

自动语言辨识技术的学术特点在于它横跨技术的融合。

对它的研究，不仅需要掌握信息理论和技术，而且需要具有多种信息处理的手段和方法。

众所周知，语音中包含着多种信息，从语音中提取不同的信息进行处理也就形成了不同语言处理方法。

与语音识别和说话人识别不同的是，语言辨识利用的是语音信号中的语言学信息，而不考虑语音信号中的字词意思，不考虑说话人的个性。

语种识别在信息检索和军事领域都有很重要的应用,包括自动转换服务多语言信息补偿等。

在信息服务方面, 很多信息查询中可提供多语言服务, 但一开始必须用多种语言提示用户选择用户语言。

语种辨识系统必须预先区分用户的语言种类, 以提供不同语言种类的服务。

这类典型服务的例子包括旅游信息、应急服务、以及购物和银行、股票交易。

例如AT&T 向处理911 紧急呼救的社会机构和警察局推出语言热线服务。

图1 说明了两个讲不同语言的人是如何通过一个多语言话音系统进行交流。

自动语言辨识技术还能够用于多语言机器翻译系统的前端处理, 当对大量录音资料进行翻译分配时, 需要预先判定每一段语音的语言。

随着信息时代的到来以及国际因特网的发展, 语言辨识越来越显示出其应用价值, 国际上也一直进行着卓有成效的研究和系统开发。

图1 不同语种说话人交流系统与语音处理的其他领域相比, 自动语种识别是一个相对较新的领域。

尽管在某些方面, 其类似于自动语音识别、说话人识别和声调检测, 但所有这些任务之间的差别很大。

理论上来讲, 不同语言之间的差别是多方面的, 而且差别较大。

尽管在各种层次上都可以找到这些差别( 如, 音素目录, 音素的声学实现, 词汇, 音位结构规律性和词法等等) , 由于在任何层次上都不存在可靠的算法, 因此可靠的语言辨识仍旧是一个难题。

2．语言辨识的发展自动语言辨识的研究可以追溯到20世纪70年代，与语音识别的其它方向相比较，自动语言辨识进展较为缓慢，在1993年之前的20多年里用英语发表的文献中，只能找到14篇有关自动语言辨识的研究。

这些研究的语音数据的种类覆盖了从文本的标音法和实验室语音到电话和无线电广播语音的范围。

语言的种类从3种发展到20种。

语言辨识的方法使用过每种语言的“参考语音”、基于音段和音节的马尔可夫模型、基音轮廓、共振峰矢量、声学特征、方言性的音素和韵律特征、及其原始的语音声波特征。

使用过的分类方法包括HMM、专家系统、聚类算法、二次分类、以及人工神经网络。

俄勒冈科学技术研究院的多语种电话语音数据库（简称OGI-TS）是为进行自动语言辨识研究专门设计的。

目前它是由11种语言的发音流畅的、固定词汇的语音数据所组成。

这些语言是英语（English）、波斯语（Farsi）、法语（French）、德语（German）、北印度语（Hindi）、日语（Japanese）、朝鲜语（Korean）、汉语（Chinese）、西班牙语（Spanish）、泰米尔语（Tamil）和越南语（Vietnamese）。

这些发音由每种语言的90个持母语的人在实际电话线路上产生。

发音的时长从1秒到50秒长短不等，平均13.4秒。

OGI-TS的出现重新激发了人们对自动语言辨识研究的兴趣。

1993年美国国家标准技术研究所（NIST）将OGI-TS设计为自动语言辨识评估的标准，自动语言辨识技术的研究和应用在学术界和企业界开始受到关注，一些重要的有关语音的国际学术会议上相关的学术论文数量迅速增加，并且这些会议上还设立了交流语言辨识研究的分会场。

同时，在开发相关技术产品方面开展了一些国际研究项目，国际标准化组织也就该技术研究开展了评估工作。

进入90年代中期，麻省理工的Lincoln实验室，美国电话电报公司（AT&T），俄勒冈科学技术研究院，美国国际电话电信公司（ITT），美国Rensselaer理工研究所，Locakheed- Sanders工程公司等八个开展语言辨识研究的基地也相继发布了他们的研究成果。

3语言辨识的原理自动语言辨识是属于人工智能领域的一项技术，本质上讲，语言辨识技术是一个语音信号模式识别的问题，它由训练和识别两个阶段完成。

从各种语言的训练语音中提取每种语言特征建立参考模型并存储的过程称为训练阶段；从待识别语音中提取语言特征，依据参考模型进行比较和判决，对语音段的语言种类进行判断的过程称为识别阶段。

图3.1为语言辨别系统的典型结构图，从图中可以看出，一个完整的语言辨识系统包括预处理模块、特征提取模块、模型建立模块、模式匹配模块和判决模块。

训练识别图3.1 语言辨识系统的结构框图预处理模块可以对语音信号进行转换，使之更适合计算机处理，并符合特征提取的要求，其中包括语音信号数字化，预加重和加窗处理。

特征提取则需要从经过预处理的语音信号中提取出能够反映语言特征的参数。

究竟用语音信号的哪些特征或特征变换来表征语言才是有效可靠的，这涉及到对人是如何通过听声音来识别各种语言的这一过程的理解，而这一点很难在近期得到解决。

而且，在语音信号中，通常说话人的特征、说话内容的语义信息比语言特征表现的更为明显，从这个角度而言，语言特征受到这些原因的影响更为弱化，不易提出。

多年来人们对特征参数在语言辨识系统中的有效性进行了大量的验证和研究，这些特征参数大体分为三类，线性预测系数及派生参数、由语音频谱直接导出的参数以及混合参数。

线性预测参数及其派生参数包括线性预测系数、线谱对系数、线性预测倒谱系数（LPCC ）及其组合等参数；由语音频谱直接导出的参数，如基音（Pitch ）及其轮廓、美尔频谱倒谱系数（MFCC ），感知线性预测（PLP ）参数和口音敏感倒谱系数（ASCC）等。

需要指出的是，上述的参数不仅可用于语言辨识，它们也是说话人识别，关键字检出和连续语音识别中的常用参数，因此，现有的特征提取方法并不针对语言辨识，而是一种通用方法，这样，提取的特征也不能很好的反映各种语言独特的信息。

此外，一个面向应用的语言辨识系统会遇到许多实际的情况，比如传输信道带来的信号畸变的影响、环境背景噪声的影训练与识别环境不同带来的影响等等，这些都给语音特征参数的研究带来了挑战。

模型建立是指在训练阶段用合适的模型来表征这些特征参数，使得模型能够代表该语言的语音特性。

对模型的选择主要应从语音的类型、所期望的功能、训练和更新的难易程度以及计算量和存储量等方面综合考虑。

当前有多种模型可供选择，一般可分为模板匹配、概率生产模型和判别模型等。

按照不同的模型和特征列出如图3.2的语音辨识系统框图。

（ANN）图3.2 语音辨识系统分类模板匹配模型典型的例子有最邻模型（Nearest Neighbor，NN）模型，动态时间规整（Dynamic Time Warping,DTW）模型和矢量化（VQ）模型。

模板匹配模型的不足之处在于不能全面地反映样本分布及统计特性，适应性差，因此语言辨识应用有限。

概率统计生成模型是指采用某种概率密度函数来描述各种语言的语音特征空间的分布情况，并以该概率密度函数的一组参数作为语言的模型。

典型的有隐马尔可夫模型（HMM）、高斯混合模型（GMM）。

概率统计生产模型由于考虑了语音的统计特征，因此能较全面地反映每种语言的统计信息。

在识别阶段，用训练阶段建立的语言模型对测试语音的特征参数进行某种形式的模式匹配，从而得出相似性得分：判决模块根据该相似得分并依据特定的规则给出最终识别结果。

对于模块匹配模型，比较J模块和测试语音X的距离，距离最近的模板种类则判决为该测试语音的语言种类，即（3.1）其中，错误!未找到引用源。

为第j种语言的模板。

对于概率生成模型，判决规则为J个模型中的哪个模型对X产生的后验概率最大，就判决测试语音X属于哪种语言，即(3.2)其中，错误!未找到引用源。

为第j种语言的概率生成模型。

假定错误!未找到引用源。

，即每种语言出现的先验概率为等概率，且因P(X)对每种语言是相同的，上式可简化为（3.3）对于判决模型，判决时就是看属于哪一类可能性最大。

分类器通常具有J个输出，分别对应于J种语言模型。

给定输入语音特征序列，具有最大输出值的输出所对应的语言即为所求。

对于当J比较大时，训练具有J个输出的判别模型非常复杂，训练量也变得非常大。

因此对于多类的分类问题，常常转化为多个两类问题的组合问题，而且对于两类问题往往更适合用判别模型解决。

4.语言辨识系统的举例（基于VQ的语言辨识系统）4.1特征提取我们对语音信号进行8kHz 采样,以22.5毫秒为一帧进行参数化提取特征参数。

我们这里采用了3 种倒谱参数和相应的差分倒谱参数,每一帧计算24 维的特征向量,12维的倒谱参数和12 维的Delta 倒谱参数。

这3种倒谱参数分别为: LPCC 参数、MFCC 参数和ASCC 参数。

Delta 特征的计算如式( 1) 所示: 当i 从1 到12( 分析阶数) ,（1）上式中, dCep表示delta 特征, Cep表示倒谱, 错误!未找到引用源。

( = 0.2) 用来换算这些特征。

美尔倒谱系数又称MFCC, 是语音识别提取的另一类参数。

MFCC 不同于LPCC, 它是采用滤波器组的方法计算出来的, 这组滤波器在频率的美尔(Mel) 坐标上是等带宽的。

这是因为人类在对约1000Hz 以上的声音频率范围的感知不遵循线性关系, 而是遵循在对数频率坐标上的近似线性关系。

语音信号在经过加窗处理后变为短时信号, 用FFT 计算它的能量谱。

之后, 通过一个具有40 个滤波器( K = 40) 的滤波器组。

前13 个滤波器在1000Hz 以下是线性划分的, 后27 个滤波器在1000Hz 以上是按美尔坐标上线性划分的。

如果错误!未找到引用源。

表示第k 个滤波器的输出能量, 则美尔频率倒谱错误!未找到引用源。

在美尔刻度谱上可以采用修改的离散余弦变换(DCT) 求得:n= 1, 2, …, P (2)类取代空胞腔。