说话人识别研究综述_王书诏
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
’ ( ) p
! Ci=
2 p
mjcos
j=1
!i ( j- 0.5) N
,
i=1, 2, …, N ( 4)
3.3 其他特征
3.3.1 基音周期
在人的发音模型中, 产生浊音周期激励脉冲的周
期称为基音周期( pitch) 。只有浊音才有基音周期, 清音
没有基音周期。基音周期检测方法大体上可分为 3 类:
时域方法, 频域方法和综合利用信号时域、频域特性的
方法。
时域方法直接利用语音信号的采样点计算信号的
波峰、波谷和过零率等, 其特点是原理简单、计算量小,
典型的方法是 Gold 和 Rabiner 提出的并行处理方法[11]。
频域的方法主要是计算信号的自相关函数、功率谱和
最大似然函数等, 其精度要高于时域方法, 典型的方法
Байду номын сангаас一定的相似性准则形成判断。
输入语音 预处理
特性 提取
训练 识别
模型产生 模型存储
相似性准则
判决
图 1 说话人识别系统框图
2.3 预处理[5] 通常, 输入的语音信号都要进行预处理, 预处理过
程的好坏在一定程度上也影响系统的识别效果。一般
! " # 电声技术 2007 年 第 31 卷 第 1 期
语音技术
WANG Shu- zhao, QIU Tian- shuang
( Department of Electronic Engineering, Dalian University of Technology, Dalian Liaoning 116023, China)
【Abstr act】 Speaker recognition is an important part of the speech signal processing. It is one of the current research
典 型的参数模型包括高斯混合模型( Gaussian Mixture
Model, GMM) 和隐马尔可夫模型(Hidden Markov Model,
HMM) [19-24]; 而非参数模型是指说话人模型是由语音特
征经过某种运算直接得来的, 典型的非参数模型是模
果, 而“倒谱特征”则是利用了对语音信号进 行适当的
同态滤波后, 可将激励信号与声道信号加以分离的原
理。倒谱中维数较低的分量对应于语音信号的声道分
量, 倒谱中维数较高的分量对应于语音信号的音源激
语音技术
Y Vo ic e t e c h n o lo g
励分量。因此, 利用语音信号倒谱可将它们分离, 彼此
说话人识别研究中主要采用的特征参数主要 有 : 基 音 周 期 、明 亮 度 、过 零 率 、线 性 预 测 系 数 ( Linear Prediction Coefficients, LPC) 、线性预测倒谱系数( Linear Prediction Cepstral Coefficients, LPCC) 、Mel 频率倒谱系 数( Mel- Frequency Cepstrum Coefficients, MFCC) 、倒谱 特征等[6- 7]。 3.1 LPCC 参数[8]
原理, 从特征提取、模型训 练 和分 类 等 几个 方 面 就近 年 的 主要 研 究 情况 进 行 综述 和 评 价, 并 在 此 基础 上 探 讨了 研 究
难点和发展前景。
【关键词】说话人识别; 特征提取; 模型训练; 分类
【中 图 分 类 号 】 T N912
【文献标识码】A
Sur vey on Speaker Recognition
号随时间的幅度变化。
语音信号的短时平均幅度定义为
∞
# Mn= x( m) w( n- m)
( 6)
m=- ∞
式( 6) 中用信号绝对值来代替平方和。
3.3.4 短时平均过零率[13]
信号 ! x( n) " 的短时平均过零率定义为
∞
# Zn= sgn[ x( n) ] - sgn[ x( n- 1) ] w( n- m)
有 中 央 消 波 自 相 关 法[12]、平 均 幅 度 差 分 函 数 法 和 倒 谱
法 等[3]。自 相 关 法 的 原 理 是 语 音 的 短 时 自 相 关 函 数 在 基
音周期整数倍点上有很大的峰值, 只要找到最大峰值
点的位置, 便能估计出基音周期。
3.3.2 倒谱特征[3]
语音信号是激励信号源与声道响应相卷积的结
hotspots. The principles of the speaker recognition are introduced in detail. The latest development in the areas of
the feature extraction, model training and classification is reviewed and the trend and rubs are also discussed.
Vo ic e t e c h n o lo g y
的预处理过程为: ( 1) 采样量化, 语音信号通常以 8 kHz
或更高 的 采 样 速 率 数 字 化 , 每 个 采 样 至 少 用 8 bit 表
示; ( 2) 预加重, 声 音 经 过 8 kHz 或 更 高 采 样 速 率 的 采
样后转换成数字语音信号, 接着通过一个一阶高通滤
剧烈; ( 4) 加窗, 针对每个音框乘上汉明窗以消除音框
两端的不连续性, 避免分析时受到前后音框的影响;
( 5) 将音框通过低通滤波器, 可去除异常高起的噪声。
3 特征提取
经过预处理后, 几秒钟的语音就会产生很大的数 据量。提取说话人特征的过程, 实际上就是去除原来语 音中的冗余信息, 减小数据量的过程。从语音信号中提 取的说话人特征参数应满足以下准则: 对局外变量( 例 如说话人的健康状况和情绪, 系统的传输特性等) 不敏 感; 能够长期地保持稳定; 可经常表现出来; 易于进行 测量; 与其他特征不相关。
( 7)
m=- ∞
Zn反映了一个音框语音信号中的过零情况, 它是信号
频率量的一个简单量度。
4 说话人模型
对于说话人识别系统, 特征被提取出来后, 需要用
识别模型为说话人建模, 并对特征进行分类以确定属
于哪一个说话人。所谓的识别模型, 是指用什么模型来
描述说话人的语音特征在特征空间的分布。目前常用
的 模 型 大 体 上 可 以 分 为 参 数 模 型 、非 参 数 模 型 、人 工 神
说话人识别根据实现的任务不同, 可分为说话 人 辨 认 ( speaker identification) 和 说 话 人 确 认 ( speaker verification) 两种类型[2]; 说话人识别根据系统对待识别 语音内容的不同, 又可分为与文本有关( text- dependent) 和与文本无关( text- independent) 两种方式[3]。
波器来作预加重处理以突显高频部分, 其传递函数为:
H(
z)
=1-
a
-
z
1
,
一般
a
的值取
0.95
左 右 [5];
(
3)
取音框,
一
般 取 256 点 为 一 个 音 框 ( 32 ms) , 音 框 与 音 框 之 间 重
叠128 点( 16 ms) , 即每次位移 128 点后再取 256 点 作
为下一个音框, 这样可避免音框之间的特性变化过于
【Key wor ds】speaker recognition; feature extraction; model training; classification
1 引言
说话人识别作为生物认证技术的一种, 是根据语 音波形中反映说话人生理和行为特征的语音参数自动 鉴别说话人身份的一项技术[1]。因此, 需要从各个说话人 的发音中找出说话人之间的个性差异, 这涉及到说话 人发音器官、发音通道和发音习惯之间等不同级别上 的 个 性 差 异 。 说 话 人 识 别 是 交 叉 运 用 心 理 学 、生 理 学 、 语 音 信 号 处 理 、模 式 识 别 、统 计 学 习 理 论 和 人 工 智 能 的 综合性研究课题。
根据参数的稳定性, 可把说话人特征参数大致分 为两类: 一类是反映说话人生理结构的固有特征( 例如 声道结构等) , 这类特征主要表现在语音的频谱结构 上, 包含了反映声道共振的频谱包络特征信息和反映 声带振动等音源特性的频谱细节构造特征信息, 具有 代表性的特征参数有基音和共振锋, 这类特征不易被 模仿, 但容易受健康状况的影响; 另一类是反映声道运 动的动态特征, 即发音方式、发 音习惯等, 主要表现在 语音频谱结构随时间的变化上, 包含了特征参数的动 态特性, 这类特征相对稳定但比较容易模仿, 代表性的 特征参数是倒谱系数。
基本上互不干扰, 并可避免声道分量受到有随机变化
的音源激励分量的干扰。
3.3.3 短时能量与短时平均幅度[13]
信号 ! x( n) " 的短时能量定义为
∞
#2
En= [ x( m) w( n- m) ]
( 5)
m=- ∞
其中, w( n) 是窗函数, 一般用矩形窗或汉明窗。短时能
量代表的是一个音框语音信号的能量, 可反映语音信
2 说话人识别的基本理论与前期处理
2.1 语音产生模型[4] 语音信号可以看成是激励信号 UG( n) 经过一个线
性系统 H( z) 而产生的输出[4]。其中, 声道模型 H( z) 为 离散时域的声道传输函数, 通常可用全极点函数来近 似。不同的说话人其声道形状是不同的, 因此具有不同 的声道模型。H( z) 表示为
2.2 说话人识别基本原理
图 1 为说话人识别系统框图。和语音识别系统一
样, 建立和应用这一系统可分为两个阶段: 训练阶段和
识别阶段。在训练阶段, 系统的每个使用者说出若干训
练语句, 系统据此建立每个使用者的模板或模型参量
参考集; 而在识别阶段, 待识别说话人语音中导出的参
量要与训练中的参考参量或模板加以比较, 并且根据
LPCC 是一个比较重要的特征参数, 它能够比较彻 底地去除语音产生过程中的激励信息, 能较好描述语 音信号的共振峰特性。在实际计算中, LPCC 不是由信
"#$电声技术2007 年 第 31 卷 第 1 期
号直接得到的, 而是由 LPC 求得。LPCC 系数 cLp( n) 与
线性预测系数 ai( i=1, 2, …, p) 的关系为
#cLp( 1) =a1
%
n- 1
! $%cLp( n) = k=1
k n
an- k cLp( k) +an,
1<n≤p
( 2)
%
n- 1
! &%cLp( n) = k=1
k n
an- k cLp( k) ,
n>p
3.2 MFCC 系数[9- 10]
Mel 频率表达了一种常用的从语音频率到“感知
频 率 ”的 对 应 关 系 , 这 更 符 合 人 耳 的 听 觉 特 性[3], 表 达
文章编号: 1002- 8684( 2007) 01- 0051- 05
说话人识别研究综述
语音技术
Y Vo ic e t e c h n o lo g
·综述·
王书诏, 邱天爽 ( 大连理工大学 电子与信息工程学院, 辽宁 大连 116023)
【摘 要】说话人识别是语音信号处理中的重要组成部分, 是当前的研究热点之一。详细介绍了说话人识别的基本
经网络( Artificial Neural Network, ANN) 模型以及支撑
向量机( Support Vector Machine, SVM) [14-18]。
参数模型是指采用某种特定的概率密度函数来
描述说话人的语音特征在特征空间的分布情况, 并以
该概率密度函数的一组参数来作为说话人的模型。
! H( z) =
1 A( z)
=
1
p -i
1- ai z
( 1)
i=1
其中 p 为全极点滤波器的阶数; ai( i=1, 2, …, p) 为滤波
器的系数。p 值越大, 则模型的传输函数和实际声道传
输函数的吻合程度就越高, 当然 p 值也不能取得太大,
一般情况下, p 的取值范围为 8~12[4]。
式为
fMel=2 595 lg( 1+f/ 700)
( 3)
求取 MFCC 的具体过程为: ( 1) 对已经过预处理的
语音向量分别进行离散傅里叶变换; ( 2) 将得到的离散
频谱用序列三角滤波器进行滤波处理, 得到一组系数
mi; ( 3) 利 用 离 散 余 弦 变 换 将 滤 波 器 输 出 变 换 到 倒 谱 域, 离散余弦变换的公式为