科大讯飞语种识别系统的介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分向量减为维数为N-1(N为语种总种类)。 • 各语种单高斯模型的训练:在开发集上利用LDA得到的各语种的得分向量,训练各语种的单
高斯模型(每个语种一个模型)。
GMM-MMI系统测试流程
美国英语模型得分 印度英语模型得分
测试语句
各 语 种
MMI
模 型
法语模型得分
日语模型得分
. . .
普通话模型得分
特征提取模块(2)
4) SDC: Shifted Delta Cepstra 也称为移位差分倒谱特征
特征提取模块(3)
(5)Voice Activity Detection--VAD对识别性能影响很大,在语种识别系统中主要采用基于能 量四门限的VAD技术
(6)倒谱均值相减(Cepstral Mean Subtraction,CMS) 基于不变信道的假设一种外部信道估计。信道的噪声可以看成是信道固定的系统畸变和 随机信道传输噪声(认为是白噪声)的和。倒谱参数上减去均值,相应的也就去除了调 制噪声。
2. SVM模型的均值核函数和均值方差核函数 GMM只更新均值时
GMM同时更新均值方差
3. Model-Pushing技术
谢谢
放映结束 感谢各位的批评指导!
谢 谢!
让我们共同进步
测试语音
GMM-MMI
高斯后端分类器
GMM-SVM
高斯后端分类器
图2:Acoustic系统框架
Fusing
Acoutic得分
Acoustic系统--GMM-MMI系统框架
GMM-MMI系统可以分成三大块:特征提取模块、模型训练模块以及测试模块,下面分别介绍三个部分
语音信号
MFCC (C0~C6)
RASTA SDC VAD CMS
(7)特征高斯化 语种识别所用参数,本身都是随机矢量,因而具有相应的概率分布,训练和识别信道的 不匹配也就体现在概率分布的差别上。受实际环境的影响,特征参数的概率分布往往发 生改变。对特征参数进行规整,使得训练和识别时候的特征参数的概率分布比较接近, 这样两者之间不匹配的问题就应该能得到改善。
(8)特征端FA 特征域方法的因子分析可以当成一种鲁棒性前端的算法,就是对特征直接去掉噪声的部 分,得到相对“干净”的数据,主要在于去噪 。
特征高斯化
VTLN 特征 选择
训练语料 测试语料
UBM模型 MLE迭代 基于MLE的语种模型 MMI迭代 基于MMI的语种模型
识别
高斯后端
特征端FA
图3 GMM-MMI系统流程图
识别结果
特征提取模块(1)
VTLN 特征选择


MFCC

(C0~C6)

RASTA
SDC
VAD
CMS
特征 高人带来的影响。
3)RASTA
RelAtive SpecTrAl这个词组的简称,是Hynek Hermansky等人根据人类语音听觉感知对于 激励源缓变不敏感的这种特性,提出的一种对于语音参数的时间轨迹进行滤波,以便从 语音的参数表示中减小非语音部分的频谱部分的方法,是一种经验性的滤波器:
GMM-MMI系统模型训练
UBM训练: 1. K-Means聚类得到UBM模型的初始化模型 2. EM算法迭代训练得到UBM模型
各语种GMM训练 1. 各语种数据在UBM模型基础上MLE估计出各
语种模型 2. MMI区分性准则下训练增加各语种之间的区分度
图5 UBM-GMM训练步骤
GMM-MMI高斯后端训练
粤语模型得分
吴语模型得分
高斯后端分类器
英语模型得分
英语模型得分
法语模型得分
法语模型得分

日语模型得分
日语模型得分
L

测试语句

D
得分向量
单 高
. .

.
A


Pick

.
识别结果

.

.

Max

德语模型得分
德语模型得分
汉语模型得分
汉语模型得分
图7 GMM-MMI测试流程
Acoustic系统—GMM-SVM系统
图8 GSV系统框图
GMM-SVM系统
模型训练部分 三个关键部分 1. GMM Super Vector:每条语音,采用最大后验概率(Maximum a posteriori,MAP)准则
,从UBM 中自适应得到这条语音的GMM 模型,然后将所有高斯的每一维均值向量按照 顺序排列起来,构成一个超矢量作为SVM的输入,就称为GMM Super Vector
语种识别系统介绍
安徽科大讯飞信息科技股份有限公司 Anhui USTC iFlyTEK Co., LTD
提纲
• 语种识别系统框架 • Acoustic-GMM系统介绍 • Acoustic-GSV系统介绍
语种识别系统框架
• 现有语种识别系统的主流方法包括基于Acoustic的方案和基于Phone Recognize的 方案,这两种系统由于建模方法等的差异,具有较好的互补性
测试语音
前端语音处理模块
Acoustic PR
图1:语种识别系统框架
Fusing
识别结果
Acoustic系统介绍
Acoustic系统 基于Acoustic的语种识别由于其稳定性和鲁棒性,在语种识别中获得的广泛的应用, 是历届NIST LRE比赛中不可缺少的基本系统之一。Acoustic系统又包括GMM-MMI 系统和GMM-SVM两种建模方式:
图6 高斯后端训练步骤
• 高斯后端分类器 包括LDA变换矩阵和各语种模型的单高斯的GMM模型。 • 开发集的选择:一般要包括和测试集一样的语种类别,并且数据类型要和测试集尽量的相似
,并且不能和训练集有任何的重合,否则会造成开发集得分和测试集得分mismatch • LDA训练:各语种的测试得分向量通过LDA降维,提取更有区分性的分量,将原始的N维得
FA
1) MFCC:
图4 特征提取顺序
语种识别系统中,仅使用MFCC(Mel-Frequency Cepstral Coefficient)的C0~C6前7阶参数,
后面在此基础上,进行SDC扩展。
2)VTLN
声道长度规整(Vocal Tract Length Normalization,VTLN),将每个人的声道规整到统一的长
相关文档
最新文档