说话人识别中语音特征参数研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图3 反余弦函数和结合反余弦函数 cos-(1 x)的Sigmoid函数
34
总第 6 8 期
杨建华,于小宁 说话人识别中语音特征参数研究
第8 卷
图3中虚线所示函数的斜度比实线的要小一 些,且提高了其线性化程度,因此对于干净语音来
说虚线所示函数的识别性能要好于实线所示函数
的识别性能,即系统结合了Sigmoid函数之后其识别 性能要好于使用单纯反余弦函数的识别性能。
这里,实际频率f的单位是Hz。根据Zwicker的工
作,临界频率带宽随着频率的变化而变化,并与Mel
频率的增长一致,在1 000Hz以下,大致呈线性分布,
带宽为100Hz左右;在1 000Hz以上呈对数增长。根据
临界带的划分,可将语音频率划分成一系列的三角
形滤波器序列,即Mel滤波器组,如图1所示,取每个
语音产生过程中的激励信息,主要反映声道特性,
而且只需十几个倒谱系数就能较好地描述语音的
共振峰特性,计算量小;缺点是对辅音的描述能力
差,抗噪声也比较弱。
1.2 MFCC 音高也是主观的心理量,是人类听觉
系统对于声音高低的感觉。音高的单位是美尔
(Mel)。MFCC参数是在Mel标度频率域提取出来的
倒谱系数。Mel标度描述了人耳对频率感知的非线
系数(LPCC)、美尔倒谱系数(MFCC)等。LPCC参数 和MFCC参数分别根据人的发声原理和听觉感知原 理,从人的声音提取出能量分布谱,从中获得声纹 的独特特征,这两种参数在实用中得到了较好的效 果〔 1〕。
我们对几种重要的语音参数进行了研究,并在 此基础上提出一种PAC-MFCC-Sigmoid特征。通过 实验,证明这种特征识别方法能使说话人识别系统 的误识率有明显的降低。
临界带内所有的信号的幅度加权和作为某个临界
带滤波器的输出,然后对所有的滤波器输出作对数
运算,形成一个矢量,然后作离散余弦变换即得到 MFCC〔 。 3-4〕
图1 Mel频率尺度滤波器组
三角形滤波器的频率响应公式为:
0≤
≤
k≤(f m-1)
≤
≤
≤ ≤
k-(f m-1)
≤
Hm(k)=
≤≤≤≤(f m)-(f m-1)
≤
≤ ≤ ≤
(f m+1)-k
≤
(f m-1)≤k≤(f m) 0≤m≤M
(f m)≤k≤(f m+1)
≤≤(f m+1)-(f m)
≤
≤
0≤≤
≤
k>(f m+1)
M-1
其中∑Hm(k)=1,(f m)为每个滤波器的中心频率,其 m=0
计算方法是
(f m)=(
Nfs )B-(1 B(f1)+m
B(fh)-B(f)l ) M+1
之后,使用一个递推公式计算其倒谱,即LPCC参数。
公式为:
i-1
Ci=ai+∑(1k=1
k i
)Ci-kak,i=1,2,…,P
(1)
LPCC反映的是说话人声道特征,实验发现倒谱
分析中阶数取16能较好地表征语音的特征参数。这
个倒谱是从一帧短时语音段中获取的,是语音在某
一时刻某一帧的倒谱。LPCC参数能比较彻底地去掉
1 说话人识别语音特征参数及提取
1.1 LPCC LPCC参数是基于语音的线性预测分析
[收稿日期]2008-11-26 [作者简介]杨建华(1980-),男,陕西西安人,助教,主要从事信息与信息处理研究.
32
总第 6 8 期
杨建华,于小宁 说话人识别中语音特征参数研究
第8 卷
的,线性预测分析从人的发声机理入手,通过对声
说话人识别是指通过对说话人语音信号的分 析处理,自动确认说话人是否在所记录的说话者集 合中,以及进一步确认说话人是谁。说话人识别和 语音识别的区别在于,它不注重包含在语音信号中 的文字符号以及语义内容信息,而是着眼于包含在 语音信号中的个人特征,提取说话人的这些个人信 息,以达到识别说话人的目的。
说话人识别技术的关键问题之一就是提取反 映说话人个性的语音特征参数。语音参数的选择是 整个说话人识别系统的基础,对正确识别率有着直 接的影响,目前常用的特征参数包括线性预测倒谱
3 实验及结果
3.1 语音数据和分析条件 实验中所采用的语音 数据包含10个说话人(包括4男6女),这些语音数据 分别在安静的和有噪声的环境中录制,并且使用的
噪声录自于电视噪声,每个说话人随机地读取10句 文本材料。语音数据的采样频率为8kHz,采用16位 量化,每句语音的长度大概为10s,静音部分在提取 特征前已经去除掉。 3.2 特征提取过程 语音信号经过传递函数为10.97z-1的高通滤波器进行预处理。语音分为帧长为 32ms,帧 移 为 16ms,加 Hamming 窗 ,并 计 算 12 维 的 MFCC和12维的一阶差分系数,然后经过PAC系数计 算后得出PAC-MFCC系数,此特征再经过Sigmoid函 数 计 算 后 得 到 最 终 的 特 征 向 量 , 即 PAC -MFCC Sigmoid特征向量。 3.3 实验结果 实验中使用隐马尔可夫(HMM)模 型作为说话人识别模型,系统采用连续混合5状态 的HMM。重估时最大迭代数为20次。见表1。
Study of the Acoustic Features in Speaker Recognition Yang Jianhua, Yu Xiaonin
(College of Electronic Information Engineering, Xi' an University of Technology, Xi'an 710032, China)
其中fh和fl是滤波器组应用的最高频率和最低
-1
频率,fs是采样频率。B 是函数B的反函数。B的计算
公式如下
B(f)=1 125×In(f / 700+1)
MFCC参数的计算过程。见图2。
图2 MFCC提取过程图 计算MFCC参数涉及FFT、取对数和DCT等运 算,运算量比LPCC参数要大,用MATLAB在计算机 上做模拟时运算时间是LPCC的近十倍,但MFCC参 数由于充分考虑了人耳的听觉特性,因而在有信道 噪声和频谱失真的情况下,仍具有较高的识别精 度,它的抗噪能力也较强。
的性能〔7〕,因此将能量附加到PAC-MFCC特征中组
成 新 的 特 征 向 量 , 此 特 征 被 称 作 为 PAC -MFCC -
Energy特征。
经证明反余弦函数可以增强PAC谱峰,它在提
高噪声鲁棒性上具有较好的性能,但在干净语音环
境下却显得有些差强人意〔8〕。非线性变换对干净语
音来说其性能有所下降,但却提高了系统在噪声环
Sigmoid函数后得出新的特征向量Y〔s t〕为
Y〔s t〕=
1 1+exp(-Y〔t〕)
Y〔s t〕叫做PAC-MFCC-Sigmoid特征向量,图3给
-1
-1
出了反余弦函数cos (x)和结合反余弦函数cos (x)
的Sigmoid函数
1
的图形,分别用实
-1
1+exp(-cos (x))
线和虚线表示,且x的坐标范围从-1到+1。
2 改进的相位自相关 (Phase Auto Correla- tion,PAC)
33
总第 6 8 期 自然科学
大理学院学报
2.1 相位自相关(Phase Auto Correlation,PAC) 说
话人识别系统中,传统提取特征的方法是从语音信
号的幅度谱上提取,但是这样的特征对附加在信号
上的噪声很敏感,因此导致了识别性能的下降。PAC
大理学院学报
J OURNAL OF DALI UNIVERS ITY
第8卷 第8 期 2009 年8 月 Vol.8 No.8 Aug. 2009
说话人识别中语音特征参数研究
杨建华,于小宁
(西安工业大学电子信息工程学院,西安 710032)
[摘要]在说话人识别系统中,特征参数的选择和提取对系统的识别性能有关键性的影响。研究了两种重要 的语音特征参数,线性预测倒谱系数和美尔倒谱系数,在此基础上提出改进的相位自相关系数,通过实验对 几种参数进行了对比,结果表明改进的相位自相关系数能够使系统的误识率明显下降。 [关键词]说话人识别;特征参数;线性预测倒谱系数;美尔倒谱系数 [中图分类号]TN912.3 [文献标识码]A [文章编号]1672-2345(2009)08-0032-04
数,而且其程度随着T的减小而增大。
本文将PAC-MFCC系数与Sigmoid函数相结合
作为说话人识别系统的特征向量。因为从PAC谱中
得出的Mel 频 率 倒 谱 系 数 叫 做 PAC -MFCC, 所 以
PAC-MFCC系数仍是利用反余弦变换得出的。设Y
〔t〕是以PAC-MFCC系数为特征向量,当T=1时结合
性特性,它利用人听觉的临界带效应,在语音频谱
范围内设置若干个带通滤波器,每个滤波器具有三
角形或正弦形滤波特性,然后将语音能量谱通过该
滤波器组,求各个滤波输出,对其取对数,并作离散
余弦变换(DCT),即可得到MFCC系数,它与频率的
关系可用下式近似表示:
Me(l f)=2 595*log(1+f/700) (2)
道的短管级联模型的研究,认为系统的传递函数符
合全极点数字滤波器的形式,从而n时刻的信号可
以用前若干时刻的信号的线性组合来估计。通过使
实际语音的采样值和线性预测值之间的均方差
(Least Mean Square,LMS)最小,即可得到线性预测
系数。计算的快速有效使得线性预测语音特征被广
泛使用〔2〕。
对于LPCC参数,在获得滤波器的线性预测系数
相对小一些,因此PAC系数比传统的自相关系数更
具有鲁棒性。频域中PAC系数的傅里叶变换叫做
PAC谱,从PAC谱中得出的Mel频率倒谱系数叫做
PAC-MFCC。
2.2 改进的PAC算法 PAC特征已被证明对噪声环
境具有一定的鲁棒性,但是其识别性能对于干净语
音来说略有下降,实验表明能量作为特征不仅提高
干净语音的识别性能,而且在噪音环境下也有较好
是一种计算自相关系数的新方法,它使用两个时间
延迟信号向量之间的夹角来代替传统自相关算法
中的数量积而作为相关系数的一种计算方法。这种
方法的优点在于向量间的夹角比数量积更不易受到
外界加性噪声的影响,从而提高了系统的鲁棒性。
PAC 方 法 原 理 如 下 〔 5-6 〕:如 果 s〔n〕代 表 一 个 语
向量X0和Xk之间的夹角。
PAC系数P〔k〕是从自相关系数R〔k〕中得出的,
即:
‖ ‖ -1 R〔k〕
P〔k〕=θk=cos
2
‖X‖
在自相关系数的计算中数量积被转换为向量
间的夹角。因为R〔k〕取决于帧能量和向量之间的夹
角这两个因素,而P〔k〕却只与向量间夹角有关,所
以P〔k〕和R〔k〕相比后得出P〔k〕受外界噪声的影响
音帧,即:
S={s〔0〕,s〔1〕,…,s〔N-1〕}
其中N为帧长,并且
源自文库
X0={s〔0〕,s〔1〕,…,S〔N-1〕}
Xk={s〔k〕,…,s〔N-1〕,s〔0〕,…,s〔k-1〕}
传统特征从自相关系数中提取,即:
T
R〔k〕=X0Xk
变换为:
2
R〔k〕=‖X‖ cos(θk)
2
其中‖X‖ 表示帧能量,θk表示在N维空间中两
境下识别性能,可是从识别效果上来看反余弦变换
并非是最佳的非线性函数。为了解决这个问题,我
们将反余弦函数与Sigmoid函数相结合组成一个非
线性函数,因为Sigmoid函数也是非线性函数,表示
如下:
(f x)=
1
1+exp(-x / T)
其 中 T 是 决 定 Sigmoid 函 数 非 线 性 化 程 度 的 参
〔Abstract〕In speaker recognition system, the feature selection and extraction is one of the most important problems in speaker recognition. The two main acoustic feature parameters LPCC and MFCC were studied. The ameliorative phase auto correlation coefficient was proposed based on them. The experimentation results showed that the ameliorative phase auto correlation coefficient could obviously improve the recognition accuracy of the speaker recognition system. 〔Key words〕 speaker recognition; feature parameter; linear prediction cepstrum coefficients (LPCC); mel -frequency cepstrum coefficients(MFCC)