基于听觉模型特征的与文本无关说话人识别系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于听觉模型特征的与文本无关说话人识别系统
卢小春;尹俊勋;王修信
【摘要】基于听觉生理和心理学的感知机理,提出一种适于说话人识别的特征参数提取方法.该方法采用Gammatone滤波器组代替常用的三角形滤波器组计算出语音信号各子带能量,根据等效矩形带宽模型,确定了各个滤波器的中心频率与带宽.同时从语音信号各子频带携带的说话人个性特征信息量角度分析对滤波器子带进行加权处理,最后结合倒谱均值减方法对特征进行处理,最终生成具有较高鲁棒性的特征.采用高斯混合模型对说话人进行建模,仿真实验的结果表明:提出的特征参数对含噪语音的与文本无关说话人识别具有较好的效果,在低信噪比情况下,具有比传统特征参数更好的噪声鲁棒性.
【期刊名称】《广西师范大学学报(自然科学版)》
【年(卷),期】2010(028)002
【总页数】5页(P22-26)
【关键词】听觉感知特性;Gammatone滤波器组;子频带加权;说话人识别
【作者】卢小春;尹俊勋;王修信
【作者单位】华南理工大学,电子与信息工程学院,广东,广州,510640;广西师范大学,计算机与信息工程学院,广西,桂林,541004;华南理工大学,电子与信息工程学院,广东,广州,510640;广西师范大学,计算机与信息工程学院,广西,桂林,541004
【正文语种】中文
【中图分类】TP391.42
说话人识别,是指从说话人的一段语音中提取出说话人的个性特征,通过对这些特征的分析和识别,达到对说话人辨识或确认的目的。

一般来说,一个说话人识别系统由三个阶段组成:特征提取阶段、说话人模型建立阶段和最终的评分判决阶段。

其中,表征说话者的个性特征的参数提取和选择是提高系统识别率的关键环节。

与语音识别类似,在说话人识别系统的特征参数的提取中,短时倒谱参数最常用且效果良好,如梅尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知线性预
测倒谱系数(perceptual linear predictive cepstrum coefficient,PLPCC)及
其他的一阶和二阶差分参数等,同时组合特征参数方法在说话人辨认中也取得了一定的效果[1]。

其中,LPCC参数是根据人的发声机理提出的,其抗噪性能较差,Davis和Mermelstein在文献[2]证明了基于MFCC特征参数的说话人识别系
统比基于其他特征参数的识别系统具有更优越的性能。

但在实际应用中,基于传统MFCC特征参数的说话人识别系统识别率并不是十分理想,性能在低信噪比环境
下有较大幅度的下降。

近年来,随着语音信号处理研究的不断深入,研究发现人的听觉系统在听音辨物方面有独特的优越性,具有优良的抗噪声性能,它能在极低的信噪比下有效提取目标语音特征,因此基于听觉模型的语音特征提取方法日益受到重视[3],卢绪刚等人[4]将长时整合机理和侧抑制机理结合运用到基于听觉模型的语音特征提取,听觉感知特征参数在语种识别系统中也获得了比常用特征更优越的性能[5]。

然而不管是基于声道的特征参数还是听觉模型的特征参数反映的都是整个语音特征,不能区别对待语音中包含的语义和个性特征,在表达说话人个性特征方面还不是很充分。

研究分析[6]表明语音信号在不同频带所携带的说话人个性特征是不等的,有的频带包含较多的个性特征信息,对于说话人识别而言较为重要,有的频带则携带较少的个性特征,对识别性能影响不大。

因此,利用子带加权方法能够突出说话人个性特征。

因此本文在基于前人对人耳听觉生理和听觉心理试验研究结果的基础上,利用Gammatone滤波器组仿照MFCC提取了一种用于说话人识别的听觉感知特征参数,同时从语音信号各频带携带的个性特征信号角度分析,对Gammatone滤波
器组各子带进行加权处理,最后结合谱均值减(Cepstrum Mean Substract,CMS)对特征参数进行后处理起到有效降低信道差异造成系统性能下降的影响。

为验证本文提出的特征参数的有效性,进行了各种信噪比环境下的说话人识别实验,仿真实验结果表明该特征参数能有效表征说话者个性特征,明显提高了系统的识别性能。

1.1 概述
语音信号在听觉系统中,经过外耳、中耳和内耳,并从内耳中耳蜗基底膜的频带分解作用,经过内毛细胞、突触的能量转换,形成听觉神经脉冲发放,沿听觉通路进入听觉中枢系统。

在整个复杂的过程中,耳蜗对声音的感知和换能作用是非常重要的,本文考虑了外耳中耳模块和内耳耳蜗基底膜模块,仿照MFCC特征参数的提
取方法提取出一种新的基于听觉模型的语音特征参数。

1.2 外耳、中耳模型
声音进入外耳道后,导致鼓膜产生振动,处于2~5 kH z频率范围内的声音将会
被选择性的放大。

而中耳对于由外耳传入的声音通过机械作用进行放大,尤其是在1 kHz左右的信号得到很大的增益。

根据外耳、中耳对语音信号在1~5 kHz频率范围内有约10~20 dB的提升,在此采用传统谱分析中的预加重方法来模拟外耳
和中耳的中、高频提升特性。

1.3 耳蜗基底膜模型
对人类听觉系统的研究分析表明[7],人耳对声音的接收是通过耳蜗基底膜上的毛细胞实现的,在此过程中,由于基底膜不同部位的肌纤维共振频率不同,使得它对声音信号的频率有了选择和调谐的作用。

对于不同的频率带,在相应临界频带内
的声音信号会引发基底膜不同位置的振动。

研究发现不同声音的频率沿着基底膜的分布是对数型的,人耳基底膜具有与频谱分析器相似的作用,在20~16 000 Hz
范围内的频率可分成24个频率群,也就是说一个频率群相应于一部分基底膜。

采用滤波器组技术实现耳蜗基底膜的分频作用,基底膜带通滤波器组是指一组并行的带通滤波器,每个具有不同的中心频率。

Roy Patterson提出的模型在听觉研究领域比较有代表性。

本文采用Gammatone滤波器组来实现Patterson的耳蜗模型[8]。

1.4 Gammatone带通滤波器组
Gammatone函数最早应用于表征谱相关技术所得的生理学数据,后来被应用于
耳蜗听觉模型。

Gammatone滤波器实际上是一个具有无限冲激响应的因果滤波器,其时域冲激响应函数为:
式中:N为滤波器的个数,滤波器组所覆盖的频率范围从80 Hz直到4 000 Hz,对于语音来说,这已经足够了;i是滤波器的序数,按频率高低从1到N;n是滤波器的阶数,各种研究表明:n=4的Gammatone滤波器就能很好地模拟基底膜的滤波特性;u(t)是单位阶跃函数;参数φi是滤波器的相位,初始相位对于功
率谱的影响可以忽略不计,所以通常为了简化模型,统一将φi取为0;bi是滤波
器的衰减因子,它决定了脉冲响应的衰减速度,与滤波器的带宽有关;而每个滤波器的带宽与人耳的临界频带有关,听觉心理学中的临界频带可以用等效矩形带宽(ERB)来度量,它的计算公式为:
其中f为中心频率(Hz)。

每个子带滤波器的带宽为bi=1.019ERB(fi)。

显然,Gammatone滤波器的中心频率越高,滤波器的带宽就越宽。

各个Gammatone
滤波器的中心频率按照ERB的关系,在80 H z到4 000 Hz之间分布。

Gammatone滤波器只要其中频率确定后,它另外的特性也就同时确定了。

图1
为第12个Gammatone滤波器的时域响应,图2对应的是它的幅频率响应曲线。

1.5 差分特征
差分特征描述的是语音信号的动态特征,结合基本特征可以有效提高语音识别系统的性能。

常用的差分特征有一阶差分和二阶差分。

假设第t帧基本特征为{cj (t),j=0,1,…,P-1},则其一阶差分特征为:其中P为特征参数维数,D 为差分窗的大小,一般取值为2。

同理,由一阶差分δj(t)按上式进行计算即可
得到二阶差分aj(t)。

本文实验所采用的语音库为TIMIT语料库,选择了其中50个说话人(男性说话人和女性说话人各为25人),每个说话人包含10段不同的语音,每段语音内容都
不相同,每段语音时长约为3~6 s,语音的采样率为8 kHz,16 bits采样精度,从每个说话人的所有语句中随机选出其中的4条语句作为训练,其余则作为测试
语句,每个说话人的训练语料时长约为12 s。

实验中采用的高斯白噪声来自NoiseX 92噪声数据包,实验中的含噪语音是由干净语音与噪声在时域中按不同
的信噪比叠加得到,含噪语音的S NR分别为-10 dB、0 dB、5 dB、10 dB、15 dB、20 dB。

2.1 听觉特征参数提取的实现
基于Gammatone滤波器组的听觉模型特征参数提取流程如图3所示。

首先对语音信号进行预加重处理以提升高频信号,然后分帧,帧长取32 ms,帧移为16 ms,加窗(汉明窗)处理后,进行快速傅里叶变换(FF T)到频域,再经过Gammatone滤波器组,得到子带能量,并由实验得到的各子频带对说话人识别
性能贡献度的大小进行加权处理,本文滤波器个数取64个,然后取对数,因为相邻各Gammatone滤波器之间是有交叠的,它们之间存在着很大的相关性,因此
我们采用离散余弦变换(DC T)去相关及特征维数压缩,最后即可得到特征参数,由于考虑了人耳的听觉感知特性,并且是一种倒谱系数,为方便起见,本文称之为Gammatone频率倒谱系数(gammatone frequency cepstrum coefficient,G
FCC)参数。

考虑到在基本特征的基础上结合差分特征可以有效地提高识别系统的性能,这里也对G FCC参数求出了一阶差分和二阶差分特征参数,最后的特征参
数表示为G FCC-Δ-ΔΔ,参数的总维数为36维。

在特征提取后,还进行了倒谱均值减(CMS)处理以抑制信道噪声。

CMS方法是通过解卷积过程将信道带来的卷积噪声滤除,其实质相当于一个高通的、非因果的FIR滤波器。

由于该方法简单、高效,且易和其他算法结合,因此一直作为一个经典的去除线性卷积噪声的算法。

2.2 Gammatone滤波器子带加权系数的确定
本文通过实验观察各子带对说话人识别性能的贡献程度来对Gammatone滤波器
组进行加权,提升携带说话人个性特征信息量相对较多的各子带能量的比例,而相应弱化对说话人识别性能贡献不大的子带的比例。

为了研究每个子滤波器所携带的个性特征成分信息,具体做法是,用每个子滤波器的能量输出作为特征参数,形成了每帧32维的特征矢量,用VQ模型进行训练、识别,得出总体错误识别率EER。

然后再依次去除某一子带的特征参数,形成31维特征参数,用同样的VQ模型进行训练、识别,得到相应的错误识别率EERi。

这样,通过去除某一个子带的输出,就可以分析每个子带对说话人识别性能的影响。

采用相对错误识别率比值来表示每个子频带对识别率的影响程度:ri=EERi/EER,得到的ri即对应的是第i个滤波器的加权系数。

2.3 模型训练的实现
在说话人识别的应用中,常用的识别算法有矢量量化(VQ)、隐马尔可夫模型
(H MM)和高斯混合模型(G MM)等,对于与文本无关的说话人识别来说,
最为有效的模型还是G MM模型[9]。

本文的说话人识别系统中采用协方差矩
阵为对角矩阵的G MM作为系统的统计模型,由语音特征参数矢量对说话人进行
建模,每个G MM由64个分量构成。

训练中,利用EM(expectation maximum)算法分别为每个说话人建立相应的G MM模型。

测试中,由被测试
语音的特征参数计算对应的似然概率,根据最大似然概率准则确定被测试语音所归属的说话人。

2.4 实验结果和分析讨论
本文采用正确识别率方法对说话人识别系统性能进行评价。

实验测试了本文提出的特征参数在不同语音环境下的识别性能,并与常用特征参数MFCC进行了对比实验,MFCC特征参数提取的参数设置与G FCC的参数设置是一样的。

表1给出了这两种特征参数对纯净语音和噪声源为White的含噪语音在不同S NR下的正确识别结果,表中“G FCC”表示本文提出的方法,“-Δ-ΔΔ”表示一阶二阶差分,“+CMS”表示对特征参数进行倒谱均值减处理,“WG FCC”为子带加权的。

从表中结果可以看出:在纯净语音环境下,本文的特征参数与传统MFCC参数的识别率相差不大,没有明显的差距,但在低S NR语音环境下,与基于MFCC特征参数的系统相比,本文提出的特征参数对应的系统识别率有明显的提高,以-10 dB条件下的经过倒谱均值减处理的特征参数为例,基于G FCC特征参数的系统识别率比MFCC的识别率提高了24.8%,表明在噪声环境下,本文提出的特征提取方法比传统的方法明显提高了识别率,增强了抗噪声性能,这是因为本文方法是模仿了人类听觉系统的信号处理模型,而采用的Gammatone滤波器组则很好地实现了听觉滤波器模型,提取出了更好的语音听觉特征。

而经过子带加权处理的G FCC参数也比未加权的G FCC参数提高了识别率,充分说明了对子频带加权方法有效突出了说话人个性特征。

从实验结果我们也可以看到,干净语音进行CMS 处理却降低了识别率,这是因为在干净环境下,经过CMS滤波反而会去掉一些有用的说话人信息。

基于人耳听觉模型和谱分析,本文提出一种听觉感知模型特征参数算法,该方法采用Gammatone滤波器组模拟内耳耳蜗基底膜的分频作用,代替常用的三角形滤波器组计算子带能量,同时,我们从语音信号各子频带携带的说话人个性特征信息
量角度进行分析,对Gammatone滤波器子带进行加权处理,最后求出的听觉模型特征参数经过CMS滤波以达到降低信道噪声的影响。

在与传统常用的特征参数MFCC对比实验的结果表明,在低信噪比条件下,本文的听觉模型特征参数性能
优于目前常用的MFCC特征。

但是由于本文的子带加权系数是基于实验得到的,不具一般性。

因此接下来我们将继续基于人耳听觉感知的优越性,结合声道模型特征,寻找一种更能突出说话人个性特征的参数或者组合参数。

【相关文献】
[1]ZHANG Wan-feng,WU Zhao-hui,YANG Ying-chun,etal.Feature combination for speaker identification[J].Journal of Guang xi Normal University :Natural Science Edition,2003,21(1):10-15.
[2]D AVIS S B,MERMEL S T parison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J].IEEET ransactions
on Acoustics,Speech,and Signal Processing,1980,28(4):357-366.
[3]C OLOMBIJM,ANDERS ONT R,ROG ERS SK.Auditory model representation for speaker recogniton[C]//Proc IC ASS P.Piscataway ,NJ:IEEEPress,1993:700-703. [4]卢绪刚,陈道文.听觉计算模型在鲁棒性语音识别中的应用[J].声学学报,2000,25(6):493-498.
[5]张卫强,刘加.基于听感知特征的语种识别[J].清华大学学报:自然科学版,2009,49(1):78-81.
[6]俞一彪,袁冬梅,薛峰.一种适于说话人识别的非线性频率尺度变换[J].声学学报,2008,33(5):451-455.
[7]ZWICKERE,F AS TL H.Psychoacoustic:facts and models[M].Berlin:Springer,1999.
[8]PATT ERS ONR,NIMMO-SMITH I,HOL DS WORTH J,etal.An efficient auditory filter bank based on the Gammatone function[C]//Proc.Meeting of the Institute of Acoustics on Auditory Modeling.Mal vern:RS RE,1987:1-18.
[9]C H ENC,C H ENG P.Hy brid KLT-G MM approach for robust speaker identification [J].IEE Electronics Letters,2003,39(21):1552-1554.。

相关文档
最新文档