基于修正MFCC参数汉语耳语音的话者识别
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
厶。l=2 595 lg(1+矗∥00)
(1)
相对于LPCC参数把人耳假设成一个线性
系统,MFCC参数的假设在正常音情况下与人
耳的实际情况更加吻合.所以在正常音的语音
识别与话者识别中,MFCC参数性能明显优于
LPCC参数‘8I. MFCC参数在正常音的识别中效果很好,
但是直接用于耳语音的语音识别与话者识别则 存在以下几点问题:
零极点,改变了声道传输函数,故耳语音与正常 音的韵母部分有着较大的差别.
耳语音与正常音韵母部分不同的发音机 理,使它们表现出不同的声学特征.其一是耳语 音的激励源是噪声,声带不振动,耳语音的韵母 部分和浊声母部分没有基频.由于耳语音是气 声发音,其能量比正常发音低约20 dB,信噪比 很低.正常音的浊音能量大于清音能量、浊音的 过零率小于清音的过零率,由于耳语音声韵母 都是噪声激励,故无此规律.其二是声道传输函 数的改变,使得耳语音韵母共振峰的位置和带 宽都发生了变化.根据Li and Xu的研究帕J,耳 语音的第一共振峰频率约为正常音的1.29倍, 第二共振峰频率为正常音的1.1倍,第三共振 峰频率和正常音的差不多.且耳语音的第一、二 共振峰的带宽大于正常音.正常音的共振峰幅 值一般是从F1到心依次衰减,耳语音的共振 峰幅值没有这样的规律,有些耳语音的第一共 振峰幅值要小于第二共振峰幅值.
the early stage research,many parameters which are used in normal speech are still used.However,some of them are not
suitable for whispered speech.For example,the Mel—frequency cepstral coefficients(MFCC),which are often used in normal speaker identification,are not suitable for whispered speech because the locations of the formant and the auditory
model in whispered speech are different from those in normal speech,In normal speech,the first formant(F1)is located
in the range of 200~1 000 Hz which is the sensitive frequency band in the auditory mode.But in whispered speech,the
Furthermore,a speaker recognition system in whispered speech is presented based on modified hidden Markov models
(HMM)integrating advantages of two modified MFCC.The recognition rates are 88.88%for the MFCCM and 91.38%for the MFCCE,p—kg in the test respectively with 1 600 Chinese whispered speeches which are recorded from 10 men and 10
+基金项目:国家自然科学基金(60272037,60340420325) 收稿日期:2005—05—15
%}通讯联系人,E—mail:linwei—nju@hotmail.COB
万方数据
第1期
林玮等:汉语耳语音的话者识别
·55·
women.The correct rates can be improved to 92.31%if the modified Hidden Markov Models is used.It is more accurate than the traditional method using MFCC and standard HMM.As shown in the experiments,these modified MFCC can be used as the character parameter in the whispered speaker recognition.They improve the performance of the whispered speaker recognition systerm.
段权值较小的情况,从而影响参数的性能.
(2)在正常音中,人耳的敏感区域在第一
共振峰附近,同时由于第一共振峰位置也是能 量集中的区域,F1、砣、乃、尉能量依次衰减.
所以Mel频带的划分加重了F1区域的权值,即 在此区域放置了较多的滤波器.而对于耳语音,
情况并非如此,根据栗等人的研究,在耳语音第
二共振峰能量有时要大于第一共振峰一o;同时
normal frequency of F1 is 1.3 times than that of
speech.and the sensitive zone of the auditory model occurs in the
neighborhood of the second formant(F2).So a new frequency scale is needed to emphasize mid—frequencies while de—
emphasizing the lower and higher frequencies.Two modified MFCC(MFCCM and MFCCExp-Log),which are based on the
formants locations,energy of
and the auditory model in whispered speech,are proposed to resolve this problem.
(1)由于正常音第一共振峰n附近是能
量较为集中的区域,所以Mel频带划分时对于
正常音F1区域(300~l 000 Hz)特别关注,给 予了较大的权值.然而对于耳语音而言,由于第
一共振峰要比正常音向上偏移1.3倍左右∞。, 这种放置滤波器的方法就存在问题,有可能会
出现在非共振峰频段权值较大,而在共振峰频
1耳语音特点
作为变异音的一种,耳语音有着与正常音 不同的发音方式.耳语音的清擦音、塞擦音和塞 音声母部分与正常音的发音方式没有大的区 别,而韵母部分发音时声门一直保持半开的状 态,声门前部完全靠拢,后部的气声门有一个宽 三角裂隙,声带不振动,从肺部出来的气流通过 开放区产生摩擦噪声,故声源为噪声源.由于发 耳语音时,伪声带区域变窄、声门保持半开的状 态使得声道增加了气管和肺部分,产生附加的
第42卷第1期 2006年1月
南京大学学报(自然科学)
JOURNAL OF NANJING UNIVERSITY (NATURAL SCIENCES)
V01.42,No.1 Jan.,2006
基于修正MFCC参数汉语耳语音的话者识别8
林玮”,杨莉莉,徐柏龄
(南京大学声学研究所,南京,210093)
摘要: 耳语音的话者识别是一个较新的研究课题,许多参数模型与正常音存在差异.例如话者识别 中常见的Mel倒谱系数(MFCC)应用于耳语音中就存在共振峰和听觉敏感区域定位的偏差.基于对耳 语音共振峰位置、能量以及人耳对耳语音听觉模型的研究提出了修正MFCC参数MFCC。和 MFCC脚山。,并结合两种参数的特点,改进了传统隐马尔可夫模型,建立了适用于耳语音的汉语话者识别 系统.通过1 600个音的话者识别实验得出采用MFCC。的正确率为88.88%;MFCCE,。。参数为 91.38%;如果采用改进隐马尔可夫模型正确率可以提高到92.31%,均高于传统参数模型.实验表明,修 正MFCC参数可以作为表征耳语音特点的参数,它提高了耳语音话者识别系统的识别率. 关键词:耳语音,话者识别,MFCC参数,隐马尔可夫模型 中图分类号:TN 912.34
Speaker Identification in Chinese Whispered Speech Based on Modified—MFCC
k T e凡Βιβλιοθήκη 忙 d 厶如 帆 耽.专|
玩ng缸Li,Xu Bo—Ling
Nanjing University,Nanjing,210093,China)
Abstract: Whispered speech is the mode of speech defined as speaking softly with no vibration of the vocal cords to avoid
根据Sahar and John的实验结果"1,人耳对于 变异音的敏感区域在第二共振峰附近.所以传
统MFCC参数加重第一共振峰权值的方法与实
际人耳的听觉模型不符.
(3)由于对数曲线的特点,厶:转化为厶。。
时,随着^:增大,在低频段^。。增加较快,而高 频段增加较慢,所以传统MFCC参数在低频段
耳语音研究是一个较新的研究课题,无论 在国内还是国外,都处于前期研究阶段,研究还 很不充分,所能利用的研究成果较少,有许多参 数与理论还是沿用现有正常音的模型,在实际 应用中存在一定的问题.
本文通过对传统MFCC参数进行改进,提 出了两种适用于耳语音的修正MFCC参数,并 结合对隐马尔科夫模型(HMM)的修改,建立了 一套耳语音话者识别系统,试验表明在耳语音 话者识别中,该系统性能优于传统的话者识别 系统.
Key words: whispered speech,speaker recognition,MFCC,hidden Markov model
作为人们的一种语言交流方式,耳语在会 场、音乐厅、图书馆和影剧院等禁止大声喧哗的 场所被广泛的采用.以前耳语音研究主要为了 语音基础研究和医学工作的需要。1,2 J,随着科 技的发展,耳语的研究也从声学理论研究走向 实际应用研究,如耳语音的自动识别和转换 等【3。J.本文所研究的耳语音话者识别系统在 公共场合下的通讯、安全场所的身份鉴定、罪犯 识别、电话网络查询与电话银行等领域都有着 一定实用价值.
万方数据
·56·
南京大学学报(自然科学)
第42卷
2改进MFCC参数原理
2.1 MFCC参数原理及其缺陷 近年来,Mel
倒谱系数即MFCC参数在语音识别中得到广泛
应用,其核心思想是采用了人耳临界频带分析 的方法,考虑到人的听觉系统是一个特殊的非 线性系统,它响应不同频率信号的灵敏度是不
同的,因此MFCC参数把其对应关系假设成对 数关系.其与线形频率的映射关系如(1)式:
being overheard.The whispering speaker recognition can be applied in several fields,such as the private speech
communication in public,the special need for the forensic work,etc.Since speaker identification of whispered speech is
?56?南京大学学报自然科学第42卷2改进mfcc参数原?21mfcc参数原?及其缺陷近?来mel倒谱系数即mfcc参数在语音识别中得到广泛应用其核心思想是采用了人耳临界频带分析的方法考虑到人的听觉系统是一个特殊的非线性系统它响应?同频率信号的灵敏度是?同的因此mfcc参数把其对应关系假设成对数关系
对于耳语音的感知,人耳也存在不同于正 常音的感知特性,在这方面Sahar and John所进 行的对变异音分频带分析实验一。可以参考.根 据Sahar and John的实验,在变异情况下人耳的 敏感区域偏移到第二共振峰附近,对于耳语音 则主要分布于1 500~2 500 Hz频段.对此 Sahar and John的解释是对于变异语音,人耳可 以单独将变异信息分离出来送到大脑某一特殊 的神经中枢来判读,而将剩余的信息提交大脑 语言神经中枢,最后综合两方面的信息从而获 取完整的信息内容.这充分体现了人耳对语音 处理的优越性.