声纹识别系统应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a11 a22 a33 a44
S1
a12
S2
a23
S3
a34
S4
b1(.)
b2(.)
b3(.)
b4(.)
语音声纹识别技术及应用
23
HMM基础(4)
HMM的三个基本问题
- 模型评估问题(如何求:P(O|λ )) - 最佳路径问题(如何求:Q=q1q2…qT) - 模型训练问题(如何求:A、B、π )
语音声纹识别技术及应用
43
中文语音识别的特点
相对于西方语言来说,中文有自己的独特之处。中
语音声纹识别技术及应用
24
模型评估问题(如何求:P(O|λ ))
前向概率
t i Po1o2 ot , qt i | 给定HMM参数 ,在t时刻处于状态i,部分观
察序列为{o1o2…ot} 的概率
后向概率
t i Pot 1ot 2 oT , qt i |
语音声纹识别技术及应用
6
参数提取的预处理
预加重: y n x n x n 1
0.9 1.0
—减少尖锐噪声影响,提升高频部分
加窗:Hamming 2 n
w n 0.54 0.46cos N 1 —减少Gibbs效应
给定HMM参数 ,在t时刻处于状态i,部分观 察序列为{ot+1ot+2…oT} 的概率
语音声纹识别技术及应用
25
模型评估问题(如何求:P(O|λ ))
前向和后向递推的示意图
语音声纹识别技术及应用
26
最佳路径问题(如何求:Q=q1q2…qT)
前向-后向算法的缺点
• 计算量的浪费 • 状态路径不能明确判定 Viterbi算法 • 不完全的状态空间搜索 • 保留状态转移路径的信息
a11 a22 a33 a44
观测可见,状态隐含 基本要素 N --- 模型状态数
S1 a12 S2
a23
S3
a34
S4
π={πi} --- 初始概率分布 A={aij} --- 状态转移矩阵 B={bj(k)} --- 输出概率矩阵
o1 o2 o3 o4 „„„„ t oT
语音声纹识别技术及应用
语音声纹识别技术及应用
短时能量和过零率
语音分帧
每帧10-30ms, 帧间隔10ms
短时能量
• 对数 • 平方和 • 绝对值
E log x(i ) 2
N
E x(i ) 2 E x(i )
i 1 i 1 N
i 1 N
过零率(ZCR)
1 N 1 Z sgn sw (n) sgn sw (n 1) 2 n1
语音声纹识别技术及应用
主要内容
声音处理技术 语音识别技术
声纹识别技术
技术演示
语音声纹识别技术及应用
2
声音处理
● 声音的三要素 声音的三要素是音调、音色和音强 音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。 音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和 不同振幅的混合声音。 音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振 幅越大,强度越大。 ● 音质 对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。 音质与声音还原设备有关。 音质与信号噪声比(SNR)有关。
端点检测,静音检测或有效音检测(VAD)
语音声纹识别技术及应用
15
语音识别—分类
孤立词识别
识别单元是有限的,单个的词; 优点:速度快,识别正确率高 缺点:应用范围窄,不能识别词表外的词 应用案例:语音命令,手机语音拨号
关键词识别
识别单元是词,判断输入语音中是否含有词表中的词 优点:能够处理连续语音,词表可定制 缺点:速度较慢,词表越大,错误率越多 应用案例:电话呼叫服务,电话安全监听
响是微不足道的 训练过程中,常常将其设定为常数: aij=0.5 识别过程中,不进行log(aij)的累加 仅考虑bi(.)的作用
语音声纹识别技术及应用
40
模型的自适应(1)
自适应的必要性
• 口音 • 感冒...
MAP自适应算法
• MAP: 最大后验概率准则 • 本质上是重新训练一次,对原B矩阵进行微调 • 特点:简单,对每个HMM单独自适应,只需 一次发音
语音声纹识别技术及应用
17
语音识别—潜在应用
语音监听 语音拨号 语音命令 语音导航
语音听写
语音搜索
语音翻译
语音声纹识别技术及应用
18
语音识别系统框架
语法
语音
特征提取
模式匹配
拒识
结果
训练
模型
说话人自适应
语音声纹识别技术及应用
19
语音识别过程
语音声纹识别技术及应用
20
HMM基础(1)
隐含Markov模型
连续语音识别
识别单元可以是字,词或者句子 优点:应用范围广 缺点:速度慢,识别率不高,尤其是词表较大的时候 应用案例:语音翻译,语音短信,听写机,语音邮件
语音声纹识别技术及应用
16
语音识别发展历史
50年代-AT&T Bell Lab,可识别10个英文数字 60年代-LP较好地解决了语音信号产生模型 , DP则有效解决 了不等长语音的匹配问题。 70年代-DTW(Dynamic Time Warp)技术基本成熟,实现 了基于 LPC和DTW 技术相结合的特定人孤立词语音识别系 统。 80年代-HMM模型和人工神经元网络(ANN)在语音识别中 成 功 应 用 。 1988 年 美 国 CMU 大 学 基 于 VQ/HMM 开 发 SICSR系统 SPHINX。 90年代-大规模应用,工业标准,理论进展缓慢。
语音声纹识别技术及应用
37
实际HMM系统的具体问题
起始概率的问题 转移概率的问题
模型的自适应
区别性训练
语音声纹识别技术及应用
38
起始概率的问题
自左向右结构的HMM,起始概率为:
[1, 0, 0, … 0]
即:只能从第一个状态开始
语音声纹识别技术及应用
39
转移概率的问题
大量实验证明:转移概率对识别性能的影
特定人和非特定人(话者相关或话者无关) 词汇量(大,小) 孤立词,连接词,关键词和连续语音 自然发音和朗读发音 口音(方言) 背景噪音(环境噪音) 信道差异(固定电话,麦克,手机等) 声学模型(HMM,mono-phone,bi-phone,tri-phone)
声学特征(MFCC)
语音声纹识别技术及应用
34
连续HMM参数重估(2)
t时刻序列处于状态j、混合高斯密度l的概
率
语音声纹识别技术及应用
35
连续HMM参数重估(3)
pdf的无溢出参数重估公式
语音声纹识别技术及应用
36
识别算法
概率计算: P(O|λ) Viterbi算法
• 对数形式 • 与离散HMM相似,只需替换bjl(x)
语音声纹识别技术及应用
30
模型训练问题(如何求:A、B、π ) Baum-Welch参数重估算法:
语音声纹识别技术及应用
31
连续HMM算法
连续的含义 参数重估
识别算法
语音声纹识别技术及应用
32
“连续”的含义
连续混合高斯概率密度函数(pdf):
• 每个状态表示为若干函数fn(x)的线性组合 • fn(x)是连续高斯概率密度函数
0n N
语音声纹识别技术及应用
7
各种参数的比较
Linear Prediction Cepstrum Coefficients (LPCC)
• 假定所处理信号为自回归信号(不适用辅音); • 计算简单,但抗噪性差。 Mel-Frequency Cepstrum Coefficients (MFCC) • 模拟人的听觉模型; • 强调低频部分,屏蔽噪声影响; • 识别率高,但计算量大。 能量 • 辅助作用,需归一化。 音调 • 对算法要求高,适于二次判别。
语音声纹识别技术及应用
41
模型的自适应(2)
MLLR算法
• MLLR:最大似然线性回归 • 本质:将原模型的参数进行线性变换后再进 行识别 • 特点:少量语音可以对所有模型进行自适应 ,只要得到线性变换矩阵即可
语音声纹识别技术及应用
42
区别性训练
传统HMM训练算法的缺陷 MCE算法
• MCE:最小分类误差准则 • 使用场合:小词表识别系统 • 需要细致调整算法参数,才能保证收敛
语音声纹识别技术及应用
27
最佳路径问题(如何求:Q=q1q2…qT)
Viterbi算法的搜索空间
语音声纹识别技术及应用
<
― 状 态 ―
―时间―>
28
Viterbi识别算法和路径回溯
语音声纹识别技术及应用
29
模型训练问题(如何求:A、B、π )
优化问题
优化目标:P(O|λ)最大 Lagrange数乘法,辅助函数:
主要内容
声音处理技术 语音识别技术
声纹识别技术
技术演示
语音声纹识别技术及应用
12
语音识别
Automatic Speech Recognition (ASR)
的中文含意是自动语音识别。语音识别技 术的目标是让机器能够“听懂”不同人说 的话,实现从声音到文字的转换。
语音声纹识别技术及应用
13
语音识别—基本术语
语音声纹识别技术及应用
声音处理
● 文件 数字化的音频文件主要分为4类: 波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“.wav” 。 MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名 是“.mid”。 CD-DA音频文件。标准激光盘文件,扩展名是“.cda”。 压缩音频文件。在数字音频领域,一种MP3格式的压缩音频文件很流行,该 格式的文件简称MP3文件。
ຫໍສະໝຸດ Baidu
语音声纹识别技术及应用
8
Mel-频率
目的:模拟人耳对不同频率语音的感知 人类对不同频率语音有不同的感知能力 • 1kHz以下,与频率成线性关系 • 1kHz以上,与频率成对数关系 Mel频率定义 • 1Mel—1kHz音调感知程度的1/1000
语音声纹识别技术及应用
9
Mel-频率
公式:
解码(Viterbi)
语音声纹识别技术及应用
14
语音识别—基本术语
识别指标: • SER(Sentence Error Rate,句子错误率) • WER(Word Error Rate,词错误率) • CER(Character Error Rate,字错误率) • PER(Phone Error Rate,音节错误率) 采样率,8kHz(电话或手机),16kHz(麦克风) 时域,频域
a11 a22 a33 a44
b j o c jl N o, jl ,U jl
M l 1
S1
a12
S2
a23
S3
a34
S4
b1(.)
b2(.)
b3(.)
b4(.)
语音声纹识别技术及应用
33
连续HMM参数重估(1)
需要重估的参数:
• • • •
起始概率 转移概率 各状态中不同pdf的权 各状态中不同pdf的均值和方差
21
HMM基础(2)
转移概率矩阵
aij-状态i到状态j发生跳转的概率
a11 0 A 0 0 a12 a22 0 0 0 a23 a33 0 0 0 a34 a44
语音声纹识别技术及应用
22
HMM基础(3)
输出概率
bi(x) x属于状态i的概率
语音声纹识别技术及应用
声音处理
获取声音
● 获得CD中的声音 如果希望把音乐CD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转 换成计算机能够处理的数字化声音,这就是“采样”。可以使用Easy CDDA Extractor、CoolEdit等音频处理软件对音频进行编辑和处理。
● 录音 要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高 的采样频率。可以使用Windows系统自带的“录音机”进行录音。 ● 声音转换 声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件, 使用Windows的“录音机”转换即可,并且转换功能很强。 如果要进一步处理,可采用CoolEdit(Adobe Audition)工具软件。
B f 1125ln 1 f / 700
f -- 频率
频率-Mel-频率:
B -- Mel-频率
语音声纹识别技术及应用
Mel频 率
频率(Hz)
10
MFCC
计算流程:
时域信号
线性谱域
DFT
Mel 滤波器组
Mel 谱 域
MFCC
对数谱域
DCT
Log
语音声纹识别技术及应用
11
S1
a12
S2
a23
S3
a34
S4
b1(.)
b2(.)
b3(.)
b4(.)
语音声纹识别技术及应用
23
HMM基础(4)
HMM的三个基本问题
- 模型评估问题(如何求:P(O|λ )) - 最佳路径问题(如何求:Q=q1q2…qT) - 模型训练问题(如何求:A、B、π )
语音声纹识别技术及应用
43
中文语音识别的特点
相对于西方语言来说,中文有自己的独特之处。中
语音声纹识别技术及应用
24
模型评估问题(如何求:P(O|λ ))
前向概率
t i Po1o2 ot , qt i | 给定HMM参数 ,在t时刻处于状态i,部分观
察序列为{o1o2…ot} 的概率
后向概率
t i Pot 1ot 2 oT , qt i |
语音声纹识别技术及应用
6
参数提取的预处理
预加重: y n x n x n 1
0.9 1.0
—减少尖锐噪声影响,提升高频部分
加窗:Hamming 2 n
w n 0.54 0.46cos N 1 —减少Gibbs效应
给定HMM参数 ,在t时刻处于状态i,部分观 察序列为{ot+1ot+2…oT} 的概率
语音声纹识别技术及应用
25
模型评估问题(如何求:P(O|λ ))
前向和后向递推的示意图
语音声纹识别技术及应用
26
最佳路径问题(如何求:Q=q1q2…qT)
前向-后向算法的缺点
• 计算量的浪费 • 状态路径不能明确判定 Viterbi算法 • 不完全的状态空间搜索 • 保留状态转移路径的信息
a11 a22 a33 a44
观测可见,状态隐含 基本要素 N --- 模型状态数
S1 a12 S2
a23
S3
a34
S4
π={πi} --- 初始概率分布 A={aij} --- 状态转移矩阵 B={bj(k)} --- 输出概率矩阵
o1 o2 o3 o4 „„„„ t oT
语音声纹识别技术及应用
语音声纹识别技术及应用
短时能量和过零率
语音分帧
每帧10-30ms, 帧间隔10ms
短时能量
• 对数 • 平方和 • 绝对值
E log x(i ) 2
N
E x(i ) 2 E x(i )
i 1 i 1 N
i 1 N
过零率(ZCR)
1 N 1 Z sgn sw (n) sgn sw (n 1) 2 n1
语音声纹识别技术及应用
主要内容
声音处理技术 语音识别技术
声纹识别技术
技术演示
语音声纹识别技术及应用
2
声音处理
● 声音的三要素 声音的三要素是音调、音色和音强 音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。 音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和 不同振幅的混合声音。 音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振 幅越大,强度越大。 ● 音质 对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。 音质与声音还原设备有关。 音质与信号噪声比(SNR)有关。
端点检测,静音检测或有效音检测(VAD)
语音声纹识别技术及应用
15
语音识别—分类
孤立词识别
识别单元是有限的,单个的词; 优点:速度快,识别正确率高 缺点:应用范围窄,不能识别词表外的词 应用案例:语音命令,手机语音拨号
关键词识别
识别单元是词,判断输入语音中是否含有词表中的词 优点:能够处理连续语音,词表可定制 缺点:速度较慢,词表越大,错误率越多 应用案例:电话呼叫服务,电话安全监听
响是微不足道的 训练过程中,常常将其设定为常数: aij=0.5 识别过程中,不进行log(aij)的累加 仅考虑bi(.)的作用
语音声纹识别技术及应用
40
模型的自适应(1)
自适应的必要性
• 口音 • 感冒...
MAP自适应算法
• MAP: 最大后验概率准则 • 本质上是重新训练一次,对原B矩阵进行微调 • 特点:简单,对每个HMM单独自适应,只需 一次发音
语音声纹识别技术及应用
17
语音识别—潜在应用
语音监听 语音拨号 语音命令 语音导航
语音听写
语音搜索
语音翻译
语音声纹识别技术及应用
18
语音识别系统框架
语法
语音
特征提取
模式匹配
拒识
结果
训练
模型
说话人自适应
语音声纹识别技术及应用
19
语音识别过程
语音声纹识别技术及应用
20
HMM基础(1)
隐含Markov模型
连续语音识别
识别单元可以是字,词或者句子 优点:应用范围广 缺点:速度慢,识别率不高,尤其是词表较大的时候 应用案例:语音翻译,语音短信,听写机,语音邮件
语音声纹识别技术及应用
16
语音识别发展历史
50年代-AT&T Bell Lab,可识别10个英文数字 60年代-LP较好地解决了语音信号产生模型 , DP则有效解决 了不等长语音的匹配问题。 70年代-DTW(Dynamic Time Warp)技术基本成熟,实现 了基于 LPC和DTW 技术相结合的特定人孤立词语音识别系 统。 80年代-HMM模型和人工神经元网络(ANN)在语音识别中 成 功 应 用 。 1988 年 美 国 CMU 大 学 基 于 VQ/HMM 开 发 SICSR系统 SPHINX。 90年代-大规模应用,工业标准,理论进展缓慢。
语音声纹识别技术及应用
37
实际HMM系统的具体问题
起始概率的问题 转移概率的问题
模型的自适应
区别性训练
语音声纹识别技术及应用
38
起始概率的问题
自左向右结构的HMM,起始概率为:
[1, 0, 0, … 0]
即:只能从第一个状态开始
语音声纹识别技术及应用
39
转移概率的问题
大量实验证明:转移概率对识别性能的影
特定人和非特定人(话者相关或话者无关) 词汇量(大,小) 孤立词,连接词,关键词和连续语音 自然发音和朗读发音 口音(方言) 背景噪音(环境噪音) 信道差异(固定电话,麦克,手机等) 声学模型(HMM,mono-phone,bi-phone,tri-phone)
声学特征(MFCC)
语音声纹识别技术及应用
34
连续HMM参数重估(2)
t时刻序列处于状态j、混合高斯密度l的概
率
语音声纹识别技术及应用
35
连续HMM参数重估(3)
pdf的无溢出参数重估公式
语音声纹识别技术及应用
36
识别算法
概率计算: P(O|λ) Viterbi算法
• 对数形式 • 与离散HMM相似,只需替换bjl(x)
语音声纹识别技术及应用
30
模型训练问题(如何求:A、B、π ) Baum-Welch参数重估算法:
语音声纹识别技术及应用
31
连续HMM算法
连续的含义 参数重估
识别算法
语音声纹识别技术及应用
32
“连续”的含义
连续混合高斯概率密度函数(pdf):
• 每个状态表示为若干函数fn(x)的线性组合 • fn(x)是连续高斯概率密度函数
0n N
语音声纹识别技术及应用
7
各种参数的比较
Linear Prediction Cepstrum Coefficients (LPCC)
• 假定所处理信号为自回归信号(不适用辅音); • 计算简单,但抗噪性差。 Mel-Frequency Cepstrum Coefficients (MFCC) • 模拟人的听觉模型; • 强调低频部分,屏蔽噪声影响; • 识别率高,但计算量大。 能量 • 辅助作用,需归一化。 音调 • 对算法要求高,适于二次判别。
语音声纹识别技术及应用
41
模型的自适应(2)
MLLR算法
• MLLR:最大似然线性回归 • 本质:将原模型的参数进行线性变换后再进 行识别 • 特点:少量语音可以对所有模型进行自适应 ,只要得到线性变换矩阵即可
语音声纹识别技术及应用
42
区别性训练
传统HMM训练算法的缺陷 MCE算法
• MCE:最小分类误差准则 • 使用场合:小词表识别系统 • 需要细致调整算法参数,才能保证收敛
语音声纹识别技术及应用
27
最佳路径问题(如何求:Q=q1q2…qT)
Viterbi算法的搜索空间
语音声纹识别技术及应用
<
― 状 态 ―
―时间―>
28
Viterbi识别算法和路径回溯
语音声纹识别技术及应用
29
模型训练问题(如何求:A、B、π )
优化问题
优化目标:P(O|λ)最大 Lagrange数乘法,辅助函数:
主要内容
声音处理技术 语音识别技术
声纹识别技术
技术演示
语音声纹识别技术及应用
12
语音识别
Automatic Speech Recognition (ASR)
的中文含意是自动语音识别。语音识别技 术的目标是让机器能够“听懂”不同人说 的话,实现从声音到文字的转换。
语音声纹识别技术及应用
13
语音识别—基本术语
语音声纹识别技术及应用
声音处理
● 文件 数字化的音频文件主要分为4类: 波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“.wav” 。 MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名 是“.mid”。 CD-DA音频文件。标准激光盘文件,扩展名是“.cda”。 压缩音频文件。在数字音频领域,一种MP3格式的压缩音频文件很流行,该 格式的文件简称MP3文件。
ຫໍສະໝຸດ Baidu
语音声纹识别技术及应用
8
Mel-频率
目的:模拟人耳对不同频率语音的感知 人类对不同频率语音有不同的感知能力 • 1kHz以下,与频率成线性关系 • 1kHz以上,与频率成对数关系 Mel频率定义 • 1Mel—1kHz音调感知程度的1/1000
语音声纹识别技术及应用
9
Mel-频率
公式:
解码(Viterbi)
语音声纹识别技术及应用
14
语音识别—基本术语
识别指标: • SER(Sentence Error Rate,句子错误率) • WER(Word Error Rate,词错误率) • CER(Character Error Rate,字错误率) • PER(Phone Error Rate,音节错误率) 采样率,8kHz(电话或手机),16kHz(麦克风) 时域,频域
a11 a22 a33 a44
b j o c jl N o, jl ,U jl
M l 1
S1
a12
S2
a23
S3
a34
S4
b1(.)
b2(.)
b3(.)
b4(.)
语音声纹识别技术及应用
33
连续HMM参数重估(1)
需要重估的参数:
• • • •
起始概率 转移概率 各状态中不同pdf的权 各状态中不同pdf的均值和方差
21
HMM基础(2)
转移概率矩阵
aij-状态i到状态j发生跳转的概率
a11 0 A 0 0 a12 a22 0 0 0 a23 a33 0 0 0 a34 a44
语音声纹识别技术及应用
22
HMM基础(3)
输出概率
bi(x) x属于状态i的概率
语音声纹识别技术及应用
声音处理
获取声音
● 获得CD中的声音 如果希望把音乐CD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转 换成计算机能够处理的数字化声音,这就是“采样”。可以使用Easy CDDA Extractor、CoolEdit等音频处理软件对音频进行编辑和处理。
● 录音 要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高 的采样频率。可以使用Windows系统自带的“录音机”进行录音。 ● 声音转换 声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件, 使用Windows的“录音机”转换即可,并且转换功能很强。 如果要进一步处理,可采用CoolEdit(Adobe Audition)工具软件。
B f 1125ln 1 f / 700
f -- 频率
频率-Mel-频率:
B -- Mel-频率
语音声纹识别技术及应用
Mel频 率
频率(Hz)
10
MFCC
计算流程:
时域信号
线性谱域
DFT
Mel 滤波器组
Mel 谱 域
MFCC
对数谱域
DCT
Log
语音声纹识别技术及应用
11