基于深度学习的说话人识别技术研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大连理工大学硕士学位论文
摘要
说话人识别通常称为声纹识别,是一种身份认证技术。

它具有用户接受度高、所需设备成本低、可扩展性好以及便于移植等优势,可广泛应用于国防军事、银行系统、通信、互联网、公安司法等领域。

说话人识别技术已经取得重要进展,并有产品问世,但尚有许多问题有待深入研究。

深度学习是近年来发展起来的一种神经网络模型,它具有克服学习不充分、深度不足等特点,可用于模式分类、目标跟踪等领域。

本文将深度学习理论用于说话人识别中,从基于深度学习的说话人识别系统、改进特征的说话人识别算法、改进统计准则的说话人识别算法三个方面,对说话人识别技术进行了研究,主要工作如下:
(1)基于深度学习的说话人识别系统的性能研究。

将深度学习理论引入到说话人识别系统中,在此基础上分析了测试语音不同单位长度对说话人识别率的影响;在相同测试条件下,不同语音特征参数对说话人识别准确性的影响;在相同条件下,不同的深度学习层数以及层上节点数对于系统识别率的影响,证明了深度学习在说话人识别系统中应用的正确性与可靠性。

(2)基于改进特征的说话人识别算法。

本文将模拟人耳听觉特性的MFCC与GFCC语音特征参数结合起来,组成语音特征向量,并应用于说话人识别系统中,提高了系统识别率。

(3)基于改进统计准则的说话人识别算法。

考虑到传统的系统统计识别算法对于多个说话人识别时存在潜在的误判,本文应用分帧概率打分的统计准则,并进行了说话人识别实验。

实验仿真验证了改进统计准则的可行性与有效性。

关键词:说话人识别:深度学习;受限玻尔兹曼机;梅尔倒谱系数;Gammatone频率倒谱系数
基于深度学习的说话人识别系统研究
StudyonDeepLe锄ing—basedSpea】brRecognition
Abstract
Speal(errecogIlitioniscalledVoic印rintidentmcation.Itisakilldofautllenticationtechnology.Speal【errecogIlitiontecllIlologyhaSmanyadVan切【ges,includingK曲useracceptance,lowequipmentcosts,s包fongscalabili够andeaLsyt0仃jmsplantation.Itiswidelyusedinmilitaryfield,b砌【system,intemetsecuri够a11djudicialsec谢够.Speakerreco鲥tiontecllllologyisrelatedtoourlifecloselyaIldhaSgreatresearch
Value孤dpraCtic2Lli够.Tllist11esismailllystudies廿leSpeal【erreco鲥tionsystem晰Ⅱldeeplea玎1iIlgmodel.Somebasicsystemperfom捌ncetestiIlgiscompletedanddiscuSsed,andttlispapermodifiedspeechfeatureparametersa11dstatisticalmemodtoobtaina11i曲erspea:kerrecogIlitionsystemrate.‰aretllis
pap盯t2Lll(ingat,0utis2usfollows:
(1)111ebaSicpem彻anceofsyst锄baLsedondeep1ean血g.111ede印leanlingmodelisin仃oduCedinspeal(erreco嘶tionsystem.Theimpactofmedi毹rentlengtllofspeechu11itsonspeakerrecogIlitionsystemrateisstudied.Ont11esametestcondition,meiInpactofdifferentspeechf.ean】resonspeakerreco驴“ionsystemrateisalsostlldied.Theimpactofdi脆rentlayersaIldnodesofde印leaHlillgmodelonsystemreco班tionrateisstudied.nleaccuraCya11dreliabil时ofdeeplea玎1iIlgmodelappliedonspeakerrecogIlitionsystemisproVed.
(2)BaSedonhUmaIlaudito巧Characteristics,weapplyanewSpeechfIe锨鹏bycombilling
MFCCw池GFCCtoSpeakerreco鲥tionsystemt0沛pr0Vemereco鲥tionrate.(3)Consideringtlletmditionalsystemstatisticsalgoritllmformlllti—speakerrecogIlition
leadsto耐匈udgment,、Ⅳeproposedamodifieds蜥stics
aJgorimmformulti-speaker
reco卿tionsystem.111ee豌ctiVenessofmodifiedmemodispr0VedbyeXpe血1e鹏.KeyWords:Speal【erReco鲥tion;De印Le锄i119;I沁strictedBoltzm锄Machme;Mel-FrequencyC印snmCoemcients;G锄matoneFrequencyC印s觚lIIlCoe伍cients;
一II—
基于深度学习的说话人识别系统研究
2说话人识别基本知识
说话人识别系统包含语音预处理部分、端点检测部分、特征计算部分以及识别模型的选择部分等。

语音预处理部分主要有预加重、分帧与加窗,但是在进行说话人识别之前,还要进行语音端点检测,来区分这段信号是语音还是静音。

此外,不同的识别模型,也会导致系统识别率的不同。

2.1语音信号的产生与数学模型
在进行说话人识别研究前,首先了解语音信号的生成机理。

语音信号的产生大致需要以下步骤:第一,说话人需要在大脑中构思好想要表达的信息,将想要表达的信息转化为语言,就是要将想要表达的信息转化成语音一些特征,例如,语音共振峰、基音周期等;然后通过调节肌肉神经来塑造说话人声道形状以及声带的振动情况;最后,将想要表达的信息以语音特征的表述方式传达出去,同时,肌肉神经必须控制腭、舌头、嘴唇和鼻腔软腭等调音过程中所关联到的所有部位。

在语音信号产生后,向听者传递信息,然后人的听觉感知过程开始工作,通过频谱分析的内耳基底膜接收到传输过来的声音信号,然后将分析后的信号传递给听觉神经,在由听觉神经产生相关的信号后,传递给大脑中枢系统,最后信号将在大脑中枢转化成语音,经过此过程,具有语义的信息就由此产生。

语音产生的原理图如图2.1所示。

肌力
0鼻音
§口音
图2.1语音产生的示意图
Fig.2.1DiagraIIlofspeechgene洲on
从图2.1可以看出,在发音过程中,肺部与肌力构成了人体发声机制的激励源。

当说话人声道呈收缩状态时,气流通过声带,声带振动,由此说话人发出的声音通常称做
基于深度学习的说话人识别系统研究
(5)离散余弦变换
将步骤(4)中得到的对数能量s(,,z)做离散余弦变换,将其转换到时域,得到参数c(,z),即是需要的梅尔倒谱系数。

cc,z)=萋scm,cos(学),。

≤玎<^,c2.25,
c(,z)=∑s(,,2)cosI旦等型l,o≤玎<M(2.25’
m=0\』“/
2.4.2Ga嗍atone频率倒谱系数
由本文2.1节可知,在语音的产生以及听觉感应的形成中,内耳的基底膜起到了至关重要的作用,其具有对频率的分辨与选择的能力。

正是因为这些特性,所以可以设计特定的带通滤波器来模拟内耳的基底膜。

很多学者对其展开了研究,也取得了一定的成
果,如Lyon与Mead提出了共振峰滤波器【35,361,Pa舵rson等提出了I沁ex滤波器【37】等,然而最为通用的还是1972年JohaIlIlesma提出的G黜atone(GT)滤波器模型【3羽。

该模型
在语音识别领域和说话人识别领域取得了一定的效果,该滤波器的冲激响应的时域表达式为:
g(f)=B”f川e印(-2刀研)C0s(2砺f+矽)·己他)(2.26)
B=岛职B(Z)(2.27)其中,玎为滤波器阶数,∥为滤波器增益,≯为初始相位,.7;为滤波器的中心频率,6l一般取为1.019,职f)为单位阶跃响应,E衄∞是GaIImatone滤波器组的等价矩形带宽【391,函数表达式为:
职B(Z)=24.7+0.108Z(2.28)根据人耳的感知特性,类似于本文2.4.1中的Mel滤波器组的中心频率,每个GT滤波器的中心频率在对数域上大致呈均匀分布,中心频率的计算公式为:
z=(厶+228.7)唧【去)-228.7,1<坯凹(2.29)这里,詹是滤波器组的截止频率,1,是用来标示各GT滤波器的重叠程度,通常被称为重叠因子。

当式(2.26)中忽略初始相位以及增益的影响,且令6=2柏,∞f=2顽,那么GT滤波器的时域表达式可以改写为:
蜀(f)=f州e》驴(一6f)cos(qf)U(f)(2.30)对式(2.30)做Laplace变换计算出4阶GT滤波器在s域的转移函数为
大连理工大学硕士学位论文
通过本文2.4.2中描述的求解GFCC语音参数的过程,求出16维的GFCC,然后将16维的GFCC与16维的mCC参数组成的32维特征向量作为深度信念网络的输入,进行训练,得到模型参数,最后将测试语音输入训练后的深度信念网络模型中去,得到测试结果。

5.3.2实验过程与结果分析
以下是具体的实验条件:选取10个说话人,每个说话人用来训练的语音长度大约10秒,用来测试的语音单元长度分别取O.4秒、O.8秒、1.2秒、1.6秒与2.O秒,语音特征参数分别选取16维的MFCC、16维的GFCC以及MFCC与GFCC组合成32维的特征向量,深度信念网络模型的隐含层层数为3层,每个隐含层上的神经元个数为50个,设第一层隐含层(GBRBM)的学习率设置为O.0004,训练次数500次,其余隐含层
(BBRBM)的学习率设置为0.004,训练次数为500次,训练数据的最小分批大小为100。

系统识别率采用式(5.1)的传统的统计方法,识别结果如表5.7所示,然后将得到的不同语音特征的系统识别结果绘制出折线图如图5.7所示。

表5.7分别采用特征参数GFCC、MFCC、GFCC艄伍CC特征的说话人识别率
Tab.5.7Spe_al(erreco鲥tionrateuSingMFCCVS.GFCCVS.^伍CC+GFCCfean鹏s
图5.7应用MFCC、GFCC、MFCa电FCC特征的系统识别率
Fig.5.7Speal【erreCo则tion触uS吨mCCVs.GFCCVs.ⅧCC+GFCCfeatures。

相关文档
最新文档