基于修正MFCC参数汉语耳语音的话者识别

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

厶。ｌ＝２５９５ｌｇ（１＋矗∥００）
（１）
相对于ＬＰＣＣ参数把人耳假设成一个线性
系统，ＭＦＣＣ参数的假设在正常音情况下与人
耳的实际情况更加吻合．所以在正常音的语音
识别与话者识别中，ＭＦＣＣ参数性能明显优于
ＬＰＣＣ参数‘８Ｉ．ＭＦＣＣ参数在正常音的识别中效果很好，
但是直接用于耳语音的语音识别与话者识别则存在以下几点问题：
零极点，改变了声道传输函数，故耳语音与正常音的韵母部分有着较大的差别．
耳语音与正常音韵母部分不同的发音机理，使它们表现出不同的声学特征．其一是耳语音的激励源是噪声，声带不振动，耳语音的韵母部分和浊声母部分没有基频．由于耳语音是气声发音，其能量比正常发音低约２０ｄＢ，信噪比很低．正常音的浊音能量大于清音能量、浊音的过零率小于清音的过零率，由于耳语音声韵母都是噪声激励，故无此规律．其二是声道传输函数的改变，使得耳语音韵母共振峰的位置和带宽都发生了变化．根据ＬｉａｎｄＸｕ的研究帕Ｊ，耳语音的第一共振峰频率约为正常音的１．２９倍，第二共振峰频率为正常音的１．１倍，第三共振峰频率和正常音的差不多．且耳语音的第一、二共振峰的带宽大于正常音．正常音的共振峰幅值一般是从Ｆ１到心依次衰减，耳语音的共振峰幅值没有这样的规律，有些耳语音的第一共振峰幅值要小于第二共振峰幅值．
ｔｈｅｅａｒｌｙｓｔａｇｅｒｅｓｅａｒｃｈ，ｍａｎｙｐａｒａｍｅｔｅｒｓｗｈｉｃｈａｒｅｕｓｅｄｉｎｎｏｒｍａｌｓｐｅｅｃｈａｒｅｓｔｉｌｌｕｓｅｄ．Ｈｏｗｅｖｅｒ，ｓｏｍｅｏｆｔｈｅｍａｒｅｎｏｔ
ｓｕｉｔａｂｌｅｆｏｒｗｈｉｓｐｅｒｅｄｓｐｅｅｃｈ．Ｆｏｒｅｘａｍｐｌｅ，ｔｈｅＭｅｌ—ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓ（ＭＦＣＣ），ｗｈｉｃｈａｒｅｏｆｔｅｎｕｓｅｄｉｎｎｏｒｍａｌｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎ，ａｒｅｎｏｔｓｕｉｔａｂｌｅｆｏｒｗｈｉｓｐｅｒｅｄｓｐｅｅｃｈｂｅｃａｕｓｅｔｈｅｌｏｃａｔｉｏｎｓｏｆｔｈｅｆｏｒｍａｎｔａｎｄｔｈｅａｕｄｉｔｏｒｙ
ｍｏｄｅｌｉｎｗｈｉｓｐｅｒｅｄｓｐｅｅｃｈａｒｅｄｉｆｆｅｒｅｎｔｆｒｏｍｔｈｏｓｅｉｎｎｏｒｍａｌｓｐｅｅｃｈ，Ｉｎｎｏｒｍａｌｓｐｅｅｃｈ，ｔｈｅｆｉｒｓｔｆｏｒｍａｎｔ（Ｆ１）ｉｓｌｏｃａｔｅｄ
ｉｎｔｈｅｒａｎｇｅｏｆ２００～１０００Ｈｚｗｈｉｃｈｉｓｔｈｅｓｅｎｓｉｔｉｖｅｆｒｅｑｕｅｎｃｙｂａｎｄｉｎｔｈｅａｕｄｉｔｏｒｙｍｏｄｅ．Ｂｕｔｉｎｗｈｉｓｐｅｒｅｄｓｐｅｅｃｈ，ｔｈｅ
Ｆｕｒｔｈｅｒｍｏｒｅ，ａｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｉｎｗｈｉｓｐｅｒｅｄｓｐｅｅｃｈｉｓｐｒｅｓｅｎｔｅｄｂａｓｅｄｏｎｍｏｄｉｆｉｅｄｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌｓ
（ＨＭＭ）ｉｎｔｅｇｒａｔｉｎｇａｄｖａｎｔａｇｅｓｏｆｔｗｏｍｏｄｉｆｉｅｄＭＦＣＣ．Ｔｈｅｒｅｃｏｇｎｉｔｉｏｎｒａｔｅｓａｒｅ８８．８８％ｆｏｒｔｈｅＭＦＣＣＭａｎｄ９１．３８％ｆｏｒｔｈｅＭＦＣＣＥ，ｐ—ｋｇｉｎｔｈｅｔｅｓｔｒｅｓｐｅｃｔｉｖｅｌｙｗｉｔｈ１６００Ｃｈｉｎｅｓｅｗｈｉｓｐｅｒｅｄｓｐｅｅｃｈｅｓｗｈｉｃｈａｒｅｒｅｃｏｒｄｅｄｆｒｏｍ１０ｍｅｎａｎｄ１０
＋基金项目：国家自然科学基金（６０２７２０３７，６０３４０４２０３２５）收稿日期：２００５—０５—１５
％｝通讯联系人，Ｅ—ｍａｉｌ：ｌｉｎｗｅｉ—ｎｊｕ＠ｈｏｔｍａｉｌ．ＣＯＢ
万方数据
第１期
林玮等：汉语耳语音的话者识别
·５５·
ｗｏｍｅｎ．Ｔｈｅｃｏｒｒｅｃｔｒａｔｅｓｃａｎｂｅｉｍｐｒｏｖｅｄｔｏ９２．３１％ｉｆｔｈｅｍｏｄｉｆｉｅｄＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓｉｓｕｓｅｄ．ＩｔｉｓｍｏｒｅａｃｃｕｒａｔｅｔｈａｎｔｈｅｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｕｓｉｎｇＭＦＣＣａｎｄｓｔａｎｄａｒｄＨＭＭ．Ａｓｓｈｏｗｎｉｎｔｈｅｅｘｐｅｒｉｍｅｎｔｓ，ｔｈｅｓｅｍｏｄｉｆｉｅｄＭＦＣＣｃａｎｂｅｕｓｅｄａｓｔｈｅｃｈａｒａｃｔｅｒｐａｒａｍｅｔｅｒｉｎｔｈｅｗｈｉｓｐｅｒｅｄｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎ．Ｔｈｅｙｉｍｐｒｏｖｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｗｈｉｓｐｅｒｅｄｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｒｍ．
段权值较小的情况，从而影响参数的性能．
（２）在正常音中，人耳的敏感区域在第一
共振峰附近，同时由于第一共振峰位置也是能量集中的区域，Ｆ１、砣、乃、尉能量依次衰减．
所以Ｍｅｌ频带的划分加重了Ｆ１区域的权值，即在此区域放置了较多的滤波器．而对于耳语音，
情况并非如此，根据栗等人的研究，在耳语音第
二共振峰能量有时要大于第一共振峰一ｏ；同时
ｎｏｒｍａｌｆｒｅｑｕｅｎｃｙｏｆＦ１ｉｓ１．３ｔｉｍｅｓｔｈａｎｔｈａｔｏｆ
ｓｐｅｅｃｈ．ａｎｄｔｈｅｓｅｎｓｉｔｉｖｅｚｏｎｅｏｆｔｈｅａｕｄｉｔｏｒｙｍｏｄｅｌｏｃｃｕｒｓｉｎｔｈｅ
ｎｅｉｇｈｂｏｒｈｏｏｄｏｆｔｈｅｓｅｃｏｎｄｆｏｒｍａｎｔ（Ｆ２）．Ｓｏａｎｅｗｆｒｅｑｕｅｎｃｙｓｃａｌｅｉｓｎｅｅｄｅｄｔｏｅｍｐｈａｓｉｚｅｍｉｄ—ｆｒｅｑｕｅｎｃｉｅｓｗｈｉｌｅｄｅ—
ｅｍｐｈａｓｉｚｉｎｇｔｈｅｌｏｗｅｒａｎｄｈｉｇｈｅｒｆｒｅｑｕｅｎｃｉｅｓ．ＴｗｏｍｏｄｉｆｉｅｄＭＦＣＣ（ＭＦＣＣＭａｎｄＭＦＣＣＥｘｐ－Ｌｏｇ），ｗｈｉｃｈａｒｅｂａｓｅｄｏｎｔｈｅ
ｆｏｒｍａｎｔｓｌｏｃａｔｉｏｎｓ，ｅｎｅｒｇｙｏｆ
ａｎｄｔｈｅａｕｄｉｔｏｒｙｍｏｄｅｌｉｎｗｈｉｓｐｅｒｅｄｓｐｅｅｃｈ，ａｒｅｐｒｏｐｏｓｅｄｔｏｒｅｓｏｌｖｅｔｈｉｓｐｒｏｂｌｅｍ．
（１）由于正常音第一共振峰ｎ附近是能
量较为集中的区域，所以Ｍｅｌ频带划分时对于
正常音Ｆ１区域（３００～ｌ０００Ｈｚ）特别关注，给予了较大的权值．然而对于耳语音而言，由于第
一共振峰要比正常音向上偏移１．３倍左右∞。，这种放置滤波器的方法就存在问题，有可能会
出现在非共振峰频段权值较大，而在共振峰频
１耳语音特点
作为变异音的一种，耳语音有着与正常音不同的发音方式．耳语音的清擦音、塞擦音和塞音声母部分与正常音的发音方式没有大的区别，而韵母部分发音时声门一直保持半开的状态，声门前部完全靠拢，后部的气声门有一个宽三角裂隙，声带不振动，从肺部出来的气流通过开放区产生摩擦噪声，故声源为噪声源．由于发耳语音时，伪声带区域变窄、声门保持半开的状态使得声道增加了气管和肺部分，产生附加的
第４２卷第１期２００６年１月
南京大学学报（自然科学）
ＪＯＵＲＮＡＬＯＦＮＡＮＪＩＮＧＵＮＩＶＥＲＳＩＴＹ（ＮＡＴＵＲＡＬＳＣＩＥＮＣＥＳ）
Ｖ０１．４２，Ｎｏ．１Ｊａｎ．，２００６
基于修正ＭＦＣＣ参数汉语耳语音的话者识别８
林玮”，杨莉莉，徐柏龄
（南京大学声学研究所，南京，２１００９３）
摘要：耳语音的话者识别是一个较新的研究课题，许多参数模型与正常音存在差异．例如话者识别中常见的Ｍｅｌ倒谱系数（ＭＦＣＣ）应用于耳语音中就存在共振峰和听觉敏感区域定位的偏差．基于对耳语音共振峰位置、能量以及人耳对耳语音听觉模型的研究提出了修正ＭＦＣＣ参数ＭＦＣＣ。和ＭＦＣＣ脚山。，并结合两种参数的特点，改进了传统隐马尔可夫模型，建立了适用于耳语音的汉语话者识别系统．通过１６００个音的话者识别实验得出采用ＭＦＣＣ。的正确率为８８．８８％；ＭＦＣＣＥ，。。参数为９１．３８％；如果采用改进隐马尔可夫模型正确率可以提高到９２．３１％，均高于传统参数模型．实验表明，修正ＭＦＣＣ参数可以作为表征耳语音特点的参数，它提高了耳语音话者识别系统的识别率．关键词：耳语音，话者识别，ＭＦＣＣ参数，隐马尔可夫模型中图分类号：ＴＮ９１２．３４
ＳｐｅａｋｅｒＩｄｅｎｔｉｆｉｃａｔｉｏｎｉｎＣｈｉｎｅｓｅＷｈｉｓｐｅｒｅｄＳｐｅｅｃｈＢａｓｅｄｏｎＭｏｄｉｆｉｅｄ—ＭＦＣＣ
ｋＴｅ凡Βιβλιοθήκη 忙ｄ厶如帆耽．专｜
玩ｎｇ缸Ｌｉ，ＸｕＢｏ—Ｌｉｎｇ
ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｊｉｎｇ，２１００９３，Ｃｈｉｎａ）
Ａｂｓｔｒａｃｔ：Ｗｈｉｓｐｅｒｅｄｓｐｅｅｃｈｉｓｔｈｅｍｏｄｅｏｆｓｐｅｅｃｈｄｅｆｉｎｅｄａｓｓｐｅａｋｉｎｇｓｏｆｔｌｙｗｉｔｈｎｏｖｉｂｒａｔｉｏｎｏｆｔｈｅｖｏｃａｌｃｏｒｄｓｔｏａｖｏｉｄ
根据ＳａｈａｒａｎｄＪｏｈｎ的实验结果＂１，人耳对于变异音的敏感区域在第二共振峰附近．所以传
统ＭＦＣＣ参数加重第一共振峰权值的方法与实
际人耳的听觉模型不符．
（３）由于对数曲线的特点，厶：转化为厶。。
时，随着＾：增大，在低频段＾。。增加较快，而高频段增加较慢，所以传统ＭＦＣＣ参数在低频段
耳语音研究是一个较新的研究课题，无论在国内还是国外，都处于前期研究阶段，研究还很不充分，所能利用的研究成果较少，有许多参数与理论还是沿用现有正常音的模型，在实际应用中存在一定的问题．
本文通过对传统ＭＦＣＣ参数进行改进，提出了两种适用于耳语音的修正ＭＦＣＣ参数，并结合对隐马尔科夫模型（ＨＭＭ）的修改，建立了一套耳语音话者识别系统，试验表明在耳语音话者识别中，该系统性能优于传统的话者识别系统．
Ｋｅｙｗｏｒｄｓ：ｗｈｉｓｐｅｒｅｄｓｐｅｅｃｈ，ｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎ，ＭＦＣＣ，ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ
作为人们的一种语言交流方式，耳语在会场、音乐厅、图书馆和影剧院等禁止大声喧哗的场所被广泛的采用．以前耳语音研究主要为了语音基础研究和医学工作的需要。１，２Ｊ，随着科技的发展，耳语的研究也从声学理论研究走向实际应用研究，如耳语音的自动识别和转换等【３。Ｊ．本文所研究的耳语音话者识别系统在公共场合下的通讯、安全场所的身份鉴定、罪犯识别、电话网络查询与电话银行等领域都有着一定实用价值．
万方数据
·５６·
南京大学学报（自然科学）
第４２卷
２改进ＭＦＣＣ参数原理
２．１ＭＦＣＣ参数原理及其缺陷近年来，Ｍｅｌ
倒谱系数即ＭＦＣＣ参数在语音识别中得到广泛
应用，其核心思想是采用了人耳临界频带分析的方法，考虑到人的听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不
同的，因此ＭＦＣＣ参数把其对应关系假设成对数关系．其与线形频率的映射关系如（１）式：
ｂｅｉｎｇｏｖｅｒｈｅａｒｄ．Ｔｈｅｗｈｉｓｐｅｒｉｎｇｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｃａｎｂｅａｐｐｌｉｅｄｉｎｓｅｖｅｒａｌｆｉｅｌｄｓ，ｓｕｃｈａｓｔｈｅｐｒｉｖａｔｅｓｐｅｅｃｈ
ｃｏｍｍｕｎｉｃａｔｉｏｎｉｎｐｕｂｌｉｃ，ｔｈｅｓｐｅｃｉａｌｎｅｅｄｆｏｒｔｈｅｆｏｒｅｎｓｉｃｗｏｒｋ，ｅｔｃ．Ｓｉｎｃｅｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｗｈｉｓｐｅｒｅｄｓｐｅｅｃｈｉｓ
?56?南京大学学报自然科学第42卷2改进mfcc参数原?21mfcc参数原?及其缺陷近?来mel倒谱系数即mfcc参数在语音识别中得到广泛应用其核心思想是采用了人耳临界频带分析的方法考虑到人的听觉系统是一个特殊的非线性系统它响应?同频率信号的灵敏度是?同的因此mfcc参数把其对应关系假设成对数关系
对于耳语音的感知，人耳也存在不同于正常音的感知特性，在这方面ＳａｈａｒａｎｄＪｏｈｎ所进行的对变异音分频带分析实验一。可以参考．根据ＳａｈａｒａｎｄＪｏｈｎ的实验，在变异情况下人耳的敏感区域偏移到第二共振峰附近，对于耳语音则主要分布于１５００～２５００Ｈｚ频段．对此ＳａｈａｒａｎｄＪｏｈｎ的解释是对于变异语音，人耳可以单独将变异信息分离出来送到大脑某一特殊的神经中枢来判读，而将剩余的信息提交大脑语言神经中枢，最后综合两方面的信息从而获取完整的信息内容．这充分体现了人耳对语音处理的优越性．