语音信号处理PPT_第十 十一章_说话人识别 语种识别 语音隐藏
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
识别结果
识别
10.2.4模式匹配方法
1. 2. 3. 4. 5.
概率统计方法 动态时间规整方法(DWT,Dynamic Wraping time) 矢量量化方法(VQ,vector quantization) 隐马尔科夫模型方法(HMM,hidden markov model) 人工神经网络方法(ANN,artifical neural network)
所用特征 倒谱 差值倒谱 基音 差值基音 倒谱与差值倒谱 倒谱、差值倒谱、基音、差值基音 误识率 9.43% 11.81% 74.42% 85.88% 7.93% 2.89%
10.2.3 特征参量评价方法
在给定一种识别方法后,识别的效果主要取决于特征参数的 选取。对于某一维单个的参数而言,可以用F比来表征他在 说话人识别中的有效性。可以选取两种分布的方差之比(F 比)作为有效性准则。
2. 识别过程
③
10.5应用HMM的说话人识别系统
10.5.1 基于HMM的与文本有关的说话人识别
训练 语 音 输 入 HMM生成 语音区 间检测 特征序 列提取
HMM概率计算
阈值设定 判 定 输 出
阈值比较
识别 图10-6 利用HMM的与文本有关的说话人识别系统构造
10.5.2 基于HMM的与文本无关的说话人识别
说话人识别系统框图
训练 参考模板 识别结果
语音输入
预处理
特征提取
判决
模式匹配
识别
10.2.2 特征提取
个人特征:
1.发音器官的差异(静态特征)
代表性特征参数有倒谱和基音参数
2.发音动作的差异(动态特征)
代表性特征参数是差值倒谱和差值基音 由于基音特征只存在于浊音中,说话人识 别一般采用倒谱特征参数
• 应用VQ的说话人识别过程的步骤如下:
1. 训练过程
① ② ③ ④ ① ② 从训练语音提取特征矢量,得到特征矢量集; 通过LBG算法生成码本; 重复训练修正优化码本; 存储码本 从测试语音提取特征矢量序列 由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量 化误差: 1 M Di min[d ( X n , Yl i )] M n 1 1l L i 式中 YL , l 1,2,....L, i 1,2,....N 是第i个码本中第l个码本矢量,而 i 是待测矢量 X n 和码矢量 Yl 之间的距离 选择平均量化误差最小的码本所对应的说话人作为系统的识别结果。
女 男
确认
0
使用人数
图10-3 说话人辨认与确认系统性能与用户数关系
10.3 应用DTW的说话人确认系统
一个应用DTW说话人识别系统如图10-4所示。
语音输入 16BPFG
文本相关
全波整流及积分 A/D转换
对数运算
压缩为4bit频谱特征
特点: 1.在结构上基本沿用 语音识别的系统 2.利用使用过程中的 数据修正原模板
10.2 说话人识别系统框图
训练 参考模板 识别结果
语音输入
预处理
特征提取
判决
模式匹配
识别
10.2.5 判别方法和阈值的选择
错 误 概 率 误拒率FR
误受率FA
0
a
b
c
判决门限
图10-2 两种错误率与接受门限的关系
10.2.6 说话人识别系统的评价
错误拒绝率FR,错误接受率FA
女
辨认
男
差 错 率
1 2 3 1
假设输入语音信号矢量的时间序列是
x1 x2 x3
1 f1 ( x)
2 f2 ( x)
10.2.2特征提取
在理想情况下,选取的特征应当满足下述准则:
能够有效地区分不同的说话人,但又能在同一说话人的语 音发生变化时相对保持稳定。 易于从语音信号中提取 不易被模仿 尽量不随时间和空间变化
10.2.2 特征提取
1. 2. 3. 4.
说话人识别常用参数分类:
线性预测参数及其派生参数(LPC,LPCC) 语音频谱直接导出的参数(MFCC,PLP) 混合参数(Pitch+MFCC, Pitch+LPCC) 其他鲁棒性参数
首先利用特定说话人的所有发音数据建立一个和基元类别无关的 话者HMM(与说话人相关的背景模型),然后以此为初始模型,根 据说话人的训练语音内容对个高斯分布的权值进行自适应。
2.利用非特定人语音HMM和登录说话人学习数据的 学习方法
利用大量的非特定人基元HMM和各话者HMM进行组合的方法。
10.6应用GMM的说话人识别系统
语言1模板
语言1匹配
语言2模板
特征提取 语言2匹配 …
分 类 判 决
识别结果
语言N模板
语言N匹配 图10-9 语种辨识系统框图
I.基于失真的VQ方法
参考模型 语种1 码本1 语种2 码本2 语种N 码本N
…
语音输入
特征 提取
VQ失真计算
辨识 判决
识别结果
图10-10 基于VQ的语种辨识流程
II.离散/连续各态经历HMM
一般采用各态历经HMM建立说话人模型: 学习阶段:提取文本发音的特征序列建立模型。HMM状态一般 取5个,每个状态采用混合高斯密度分布。 识别阶段:先从输入语音中提取特征序列,然后利用本人的 HMM计算输入特征矢量的概率值,通过和阈值相比较,判决识 别的结果
10.5.3 基于HMM的文本相关(指定文本型)说话人识别
说话人识别 语种识别
语音隐藏
10.8语种辨别的原理和应用
语种辨别(Language Identification )与语音识别 和说话人识别有所不同,它是通过分析处理一个语言片段 以判别其所属语言的语种,本质上也是语音识别的一方面。
10.8.1语种辨别的基本原理和基本方法
世界上的不同语种间有多种区别,比如音素集合、音 位序列、音节结构、韵律特征、词汇分类、语法及语意网 络等,所以在自动语种辨识中有多种可利用的特征。就一 个语种辨识系统的结构而言,则和语音识别及说话人识别 有相似之处,其基本框架结构如图10-9所示。
有记忆 从左到右HMM 各态历经HMM 参考模型
语种1 HMM1
语种2 HMM2
…
语种N HMMN
语音输入
特征 提取
概率计算
辨识 判决
识别结果
图10-11 基于HMM的语种辨识流程
III.混合高斯分布模型
HMM的一个特例,当混合连续分布HMM每个状态的观察概率分布都满足高 斯分布时,GMM可以看做单状态混合连续分布HMM。
非特定话者基元 HMM
基元HMM生成
训练 语 音 输 入 语音 区间 检测 特征 序列 提取
指定文本输入
阈值设定
文本HMM生成
识别
HMM概率计算
阈值比较
判 定 输 出
图10-7 利用HMM的指定文本型说话人识别系统构造
10.5.3 说话人识别HMM的学习方法
1.仅利用少量的登录说话人学习数据的学习方法
P( X , i ) P(i ) P(i , X ) P( X )
在这里:
P( X / ) P( X t / )
t 1 T
T
其对数形式为: log P( X / ) log P( X t / )
t 1
因为 P(i ) 的先验概率未知,我们假定该语音信号出自 封闭集里的每一个人的可能性相等,也就是说:
说话人识别分类
按其最终完成的任务可以分为两类:
自动说话人确认(简称ASV):确认一个人的身份,只涉及 一个特定的参考模型和待识别模式之间的比较,只做“是” 和“不是”的判决。 自动说话人辨认(简称ASI):必须辨认出待识别的语音是来 自待考察认中的哪一个,有时还要对这个人以外的语音做出 拒绝的判决。
字音边带检测
训练 字音特征存储 确认 动态时间匹配
接受 拒绝
判决逻辑
字音积分
图10-4 DTW说话人识别系统
10.4应用VQ的说话人识别系统
VQ码本建立 说话人模型1 . . 说话人模型N 阈值 Ti 训练语音 特征参数提取
测试语音 特征参数提取 说话人1 . . 说话人N 判决
识别结果
图10-5 应用VQ的说话人识别系统
混合高斯分布模型是只有一个状态的模型,在这个状态 里具有多个高斯分布函数
0.25 0.3 0.25
P( X / ) i bi ( X )
i 1
M
0.2
其中:
i 1
M
i
1
1 1 1 t bi ( X ) exp{ ( X i ) i ( X i )} D/2 1/ 2 (2 ) | i | 2
t 1 T t 1 T
T
t
, )X t
t
P(i / X
t T
, )
③ 方差的重估公式:
i2
P(i / X
t 1 t 1
, )( X t i ) 2
t
P(i / X
, )
GMM模型的识别问题
给定一个语音样本,说话人辨认的目的是要确定这个 语音属于N个说话人中的哪一个。基于GMM的说话人 辨认系统结构框图如图10-8所示。
speaker1 GMM1 语音信号 speaker2 预处理
提取LPC倒谱
识别输出结果
GMM2 speaker N GMMN …
判决逻辑
基于GMM的说话人辨认系统结构框图
识别的目的是找到一个 i * ,其对应的模型 i 使得待识别语 音特征矢量组X具有最大后验概率 P(i / X )
根据Bayes理论,最大后验概率可表示为:
按测试方法分类:
与文本无关:不规定说话内容 与文本有关:规定固定的说话内容 文本指定型:每次规定不同的说话内容
10.2 说话人识别方法和系统结构
说话人识别就是从说话人的一段语音中提取出说话人的个性 特征,通过对这些个人特征的分析和识别,从而达到对说话 人进行辨认或者确认的目的。图10-1是说话人识别系统的结 构框图,它由预处理、特征提取、模式匹配和判决等几大部 分组成。
EM算法估计参数 {i , i , i2} E步:
计算后验概率
P (i / X t , )
i bi ( X t )
k 1
M
k
bk ( X t )
M步:
① 混合权值的重估公式:
② 均值的重估公式:
1 T i P(i / X t , ) T t 1
i
P(i / X
说话人识别 语种识别
语音隐藏
刘迪源
10.1概述 10.2说话人识别方法和系统结构 10.3应用DTW的说话人确认系统 10.4应用VQ的说话人识别系统 10.5应用HMM的说话人识别系统 10.6应用GMM的说话人识别系统 10.7说话人识别中尚需进一步探索的研究课题
10.1 概述
自动说话人识别(Automatic Speaker Recognition) 是一种自动识别说话人的过程。说话人识别和语音识 别的区别在于,它不注重包含在语音信号内的文字符 号以及语意内容信息,而是着眼于包含在语音信号中 的个人特征,提取说话人的这些个人信息特征,以达 到识别说话人的目的。
训练 参考模板 识别结果
语音输入
预处理
特征提取
判决
模式匹配 识别
图10-1 说话人识别系统框图
说话人识别系统框图
训练 参考模板 识别结果
语音输入
预处理
特征提取
判决
模式匹配
识别
10.2.1 预处理
首先对输入语音信号进行数字化,然后进行 端点检测、预加重、加窗、分帧等 和语音识别的区别: 1.抽样频率可能更高。 可以多保留一些说话人的高频信息。 2.帧和帧长选定不同。 应用较长时段语音特征信息以及若干帧范围内 过度特征信息。
1 P (i ) ,1 i N N
10.7说话人识别中尚需进一步探索的研究课题
1.基础性的课题
关于语音中语意内容和说话人的分离,系统的全面的 进行研究的人还是很少的。 究竟什么特征参数对说话人识别最有效?如何有效的 利用非声道特征? 说话人特征的变化和样本选择问题。 用听觉和视觉的说话人识别研究是用计算机进行说话 人识别的基础。
不同说话人特征参数方 差的均值 [ui u]2 i F i 同一说话人特征方差的 均值 [ xa ui ]2 a
其中:
i xa 第i个说话人的第a次话音特征
i ui xa a
u ui i
10.2 说话人识别系统框图
训练 参考模板
语音输入
预处理
特征提取
判决
模式匹配
说话人ຫໍສະໝຸດ Baidu别中尚需进一步探索的研究课题
2.
实用性的问题
说话人识别系统设计的合理化及优化问题。 如何处理长时和短时说话人的语音波动?如何区别有意 模仿的声音? 说话人识别系统的性能评价问题。 可靠性和经济性。
目前说话人识别的主要研究主要集中在如下几个方面: 1. 语音特征参数的提取和混合 2. HMM模型与其他模型混合,改善说话人识别系统的性能。