基于临界频带及能量熵的语音端点检测

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于临界频带及能量熵的语音端点检测
张婷;何凌;黄华;刘肖珩
【摘要】语音端点检测的准确性直接关系着语音识别、合成、增强等语音领域的准确性,为了提高语音端点检测的有效性,提出了一种基于临界频带及能量熵的语音端点检测算法.算法充分利用人耳听觉特性的频率分布,将含噪语音信号进行临界频带划分,并结合各频带内信号的能量熵值在语音段和噪声段的不同分布,实现不同背景噪声下语音端点检测.实验结果表明,提出的语音端点检测算法与传统的短时能量法相比,检测正确率平均高1.6个百分点.所提方法在不同噪声的低信噪比(SNR)环境下均能实现语音端点检测.%The accuracy of the speech endpoint detection has a direct impact on the precision of speech recognition, synthesis, enhancement, etc. To improve the effectiveness of speech endpoint detection, an algorithm based on critical band and energy entropy was proposed. It took full advantage of the frequency distribution of human auditory characteristics, and divided the speech signals according to critical bands. Combined with the different distribution of energy entropy of each critical band of the signals respectively in the speech segments and noise segments, speech endpoint detection under different background noises was completed. The experimental results indicate that the average accuracy of the newly proposed algorithm is 1.6% higher than the traditional short-time energy algorithm. The proposed method can achieve the detection of speech endpoint under various noise environment of low Signal to Noise Ratio (SNR).
【期刊名称】《计算机应用》
【年(卷),期】2013(033)001
【总页数】4页(P175-178)
【关键词】小波降噪;临界频带;能量熵;语音端点检测
【作者】张婷;何凌;黄华;刘肖珩
【作者单位】四川大学电气信息学院,成都610065;四川大学电气信息学院,成都610065;四川大学电气信息学院,成都610065;四川大学华西基础医学与法医学院,
成都610041
【正文语种】中文
【中图分类】TP391;TN912.3
0 引言
语音端点检测是语音识别、语音合成和语音增强等领域不可或缺的前端处理技术，旨在从复杂的噪声环境中准确地找到语音段的起始点和终止点。

有效的语音端点检测，可以提升语音识别系统的精度，改善语音增强系统的语音质量。

语音端点检测技术最早由贝尔实验室在1959年提出，经过50多年的发展，语音端点检测的方法层出不穷。

传统的语音端点检测方法如短时能量法以及对其的各种变换法(平方、差分、绝对值)在复杂的噪声环境中，检测的准确率较低。

为了提高语音端点检测的准确性和精确度，提出了许多新的方法。

如信息论的方法、人工神经网络的方法、统计模型的方法等［1］。

王博等提出了基于熵函数的检测算法［2］，张梅提出了基于模糊神经网络的检测方法［3］等均用在低信噪比环境下，
取得了比较理想的效果。

但相对神经网络的方法，熵函数的方法具有原理简单、运算量较小且不需要模型匹配等优点。

基于熵的优越性，本文提出了一种基于临界频带及能量熵的语音端点检测算法。

该算法首先对含噪语音信号进行小波降噪，然后利用人耳的听觉特性，对语音信号进行临界频带的划分，进而对每个频带内的信号求能量熵，根据熵值在语音段和噪声段的不同分布，采用自适应门限，判别语音段的起始点和终止点。

实验结果与采用传统短时能量法得到的语音端点检测正确率进行比较，充分证明了该方法的优越性。

1 小波变换及降噪
1.1 小波变换
小波变换作为一种数学理论和方法在科学技术和工程界应用越来越广泛。

它的表达式如式(1)所示:
式(1)的含义是把基本小波函数ψ(t)做位移τ后，再在不同尺度α下与待分析信号
x(t)做内积。

其中:τ仅影响小波变换时频窗口在相平面时间轴上的位置;α既影响窗口在频率轴上的位置，又影响窗口的大小［4］。

因此，小波变换对不同的频率在时域上的取样步长是可调节的，即在低频时具有较低的时间分辨率和较高的频率分辨率;在高频时具有较低的频率分辨率和较高的时间分辨率。

这正符合低频信号变
化缓慢而高频信号变换迅速的特点。

1.2 小波降噪
小波变换之所以具有很好的降噪效果，是因为其具有以下几个特性:1)低熵性。

小
波的系数分布，使信号和噪声所在的频带得到了统计意义上的分离。

2)多分辨率特性。

可以很好地刻画信号的非平稳性，如突变、端点等。

3)去相关性。

小波变换可以对信号去相关，且噪声在变换后有白化趋势，更利于去噪［5－6］。

其降噪的
流程如图1所示。

图1 小波降噪流程
根据语音信号的特性，依据经验，本文采用db2小波对含噪语音信号进行降噪预
处理。

高频系数阈值由式(2)计算得到:
其中:thr为高频系数阈值，σ为噪声强度，n为信号长度。

2 短时能量法
传统的短时能量法利用语音信号比噪声信号能量大的特点，进行语音信号端点检测。

在保证信噪比一定的情况下，计算输入信号的短时能量，通过门限的设定实现对语音段和噪声段的判别［7－8］。

短时能量的表达式如式(3)所示:
其中:x(t)为语音信号取样序列，ω(n－t)为窗函数。

本文实验使用汉明窗，因为汉明窗对语音信号具有平滑的低通特性和最低的旁瓣高度。

语音信号作为非平稳信号，在小段时间内可以认为是平稳信号，故本文根据语音信号的特性取20 ms为一帧，且有10 ms的重叠。

3 临界频带
3.1 掩蔽效应
掩蔽效应是指由于掩蔽音存在，使得被掩蔽音的听阈抬高的现象。

声音的“掩蔽效应”在考虑人对声音的主观反映时，需要特别重视。

在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。

在掩蔽情况下，提高被掩蔽弱音的强度，使人耳刚好能够听见的值称为掩蔽闻阈，被掩蔽弱音必须提高的分贝值称为掩蔽量，以dB表示。

掩蔽量与声音的性质和频率都有关［9］。

人耳的掩蔽效应如图2所示。

图2 人耳掩蔽效应
3.2 临界频带
临界频带(critical band)是指一个确定频率的声音，能够产生同时掩蔽的另外一个声音的频率范围。

临界频带的单位是Bark(巴克)，1 Bark等于一个临界频带的宽度［10］，其宽度定义如下:
本实验采用的语音信号采样频率为8000 Hz，依据式(4)和(5)可将语音信号分为18个临界频带。

各临界频带的低端和高端频率值及其带宽见表1。

表1 临界频带的低端和高端频率值及其带宽临界频带低端频率/Hz高端频率/Hz
带宽(Bark)临界频带低端频率/Hz高端频率/Hz带宽(Bark)0 0 100 100 9 1080 1270 190 1 100 200 100 10 1270 1480 210 2 200 300 100 11 1480 1720 240 3 300 400 100 12 1720 2000 280 4 400 510 110 13 2000 2320 320 5 510 630 120 14 2320 2700 380 6 630 770 140 15 2700 3150 450 7 770 920 150 16 3150 3700 550 8 920 1080 160 17 3700 4000 300
4 能量熵
在信息论中，能量熵包含了信号在动态变化过程中潜在的有用信息，熵值大小反映了信号概率分布的均匀程度［11－12］。

能量熵的表达式为:
其中si，j为临界频带j内的能量熵。

能量熵值在语音段和非语音段具有不同分布特性［13］，如图3所示为英语单词“eight”的能量熵值图，噪声段能量熵值低于语音段，适当选取阈值能有效判别语音段的起始点和终止点。

图3 粉红噪声背景下语音信号的能量熵值图
5 基于临界频带及能量熵的端点检测算法
本文提出的基于临界频带及能量熵的语音端点检测算法流程如图4所示。

图4 基于临界频带及能量熵的语音端点检测算法流程
5.1 预处理
对带噪语音信号进行的预处理，主要是小波去噪。

经过小波变换将含噪语音信号分解成低频概貌部分和高频细节部分。

语音信号的信息主要集中在低频部分，则噪声信息主要集中在高频部分，并且低频部分的语音信号小波系数的幅值大，高频噪声小波系数的幅值小。

基于此，通过式(2)求得高频系数阈值，然后对小波变换后的各个子波作适当的阈值处理，即保留大于阈值的小波系数(由信号产生)，置零小于阈值的小波系数(由噪声产生)，即可实现降噪的效果。

5.2 临界频带划分
去噪后的语音信号根据表1所示的每个频带的低端频率、高端频率及带宽值，进行频带划分。

考虑到butterworth滤波器在通带内的频率响应曲线没有起伏，且在阻频带内逐渐下降为零的特性，选用butterworth滤波器，对18个临界频带进行划分。

因为第一个临界频带的低端频率为0 Hz，故用低通滤波器进行频带划分:
5.3 能量熵值计算
针对语音信号的短时平稳性，对每个临界频带内的信号进行分帧处理，帧长为160点(20 ms)，帧移为80点(10 ms)，对每帧信号采用式(6)计算能量熵值，得到能量熵值矩阵［14－16］为:
其中i为帧的个数。

5.4 语音端点检测
本文经过大量的实验，经验设置自适应能量熵值语音段及噪声段阈值为:
其中:SNR(Signal to Noise Ratio)为信噪比，k经验取值为5.5。

对每个频带内信号的能量熵值进行门限判断，找到大于或等于阈值的所有点;然后，取其中的最小点为起始点，最大点为终止点。

6 实验结果及分析
本文实验所用的数据为美国Colorado-Boulde大学SUSAS数据库。

该数据库采集在安静实验室环境下，由9名受试者录制的72句英文短语，采样频率为8000 Hz。

实验首先对数据库中干净语音信号的起始点和终止点进行人工标注，以作为自动端点检测的参考值。

为了检测提出的端点检测算法在噪声环境下的鲁棒性，叠加 White(白噪声)、Pink(粉红噪声)、Volvo(车载噪声)三种不同的噪声，叠加噪声来自于Noisex92数据库。

实验比较了不同信噪比(0 dB，10 dB，20 dB)下，叠加噪声后的带噪语音信号采用本文提出的语音端点检测算法后，其自动端点检测的正确率。

图5为应用临界频带及能量熵语音端点检测算法在不同信噪比(SNR)的粉红噪声背景下对英语短语“destination”自动语音端点检测结果，其中:前面的竖线是起始点，后面的竖线是终止点。

表2所示为干净语音信号采用传统的短时能量法及本文提出的基于临界频带及能量熵算法，自动语音端点识别正确率以及自动语音端点检测与人工标注语音段端点的帧数差。

其中:起始点帧数差是指人工标注的起始点与自动检测的起始点的帧数差;终止点帧数差是指人工标注的终止点和自动检测的终止点的帧数差。

图5 粉红噪声背景下自动语音段端点检测
表2 短时能量法和基于临界频带及能量熵算法结果对比方法起始点帧数差终止点帧数差检测正确率/%短时能量法1.48 7.76 95.71本文方法0.93 5.51 97.25
从表2中可以明显地看到，本文提出的基于临界频带及能量熵的语音端点检测算
法，其检测正确率高于传统的短时能量法，其平均起始点帧数差和终止点帧数差比较短时能量法分别减少了0.56 帧(11.2 ms)和2.25 帧(45 ms)。

表3所示为语音库中语音信号在不同噪声环境及不同信噪比下，采用短时能量法得到的语音端点检测结果。

表3 短时能量法检测的结果信噪比/White 噪声Pink 噪声Volvo 噪声
dB/%201.89 9.4490.45 1.82 7.0193.06 1.70 6.8294.检测正确率/%起始点帧数差起始点帧数差终止点帧数差检测正确率/%起始点帧数差终止点帧数差终止点帧数差检测正确率1.30 01 106.68 14.9393.27 5.76 18.9790.93 5.07
14.5092.85 07.27 12.4885.86 8.32 24.3888.68 8.43 16.699
表4所示为采用提出的基于临界频带及能量熵端点检测算法，得到的语音端点检测结果。

表4 基于临界频带及能量熵算法检测的结果信噪比/White 噪声Pink噪声Volvo 噪声/%201.81 6.0394.66 3.24 7.4794.10 3.49 8.1494.dB起始点帧数差检测正确率/%终止点帧数差起始点帧数差终止点帧数差检测正确率/%起始点帧数差终止点帧数差检测正确率33 102.86 6.8593.54 5.14 10.2491.68 3.75 7.9391.77 03.85 7.2291.99 4.10 7.7592.03 3.79 8.5690.47
实验结果表明，本文提出的算法，在无噪声情况下，检测正确率达97.25%，与人工标注起始点帧数差仅为0.9帧(18 ms)，终止点帧数差为5.5帧(110 ms)。

三种不同噪声背景下的检测正确率都在90%以上。

人工标注与自动识别的起始点帧数差在1.8 ～5.1 帧，终止点帧数差在6.0 ～10.2帧。

相比较传统的短时能量法，检测的起始点帧数差和终止点帧数差以及正确率都有明显的提高。

此外，本文提出的算法对White噪声的鲁棒性最佳，在0 dB，10 dB，20 dB信噪比的情况下，其语音端点检测正确率分别为 91.99%，93.54%，94.66%，相对传统短时能量法的85.86%，93.27%，90.45%有很大的提高。

7 结语
实验结果表明，本文采用的基于临界频带及能量熵的语音端点检测方法，即使在信噪比较低的情况下，检测的正确率也高达90%以上。

提出的算法利用小波降噪的
优点，结合临界频带对人耳听觉特性的优势以及自适应门限判别方法，使得检测准确性和精确度较高，与传统的短时能量法相比，具有正确率高、帧数差小的优点，对不同的噪声均具有很好的鲁棒性，适用性很强。

参考文献:
［1］韩立华，王博，段淑凤.语音端点检测技术研究进展［J］.计算机应用研究，2010，27(4):1220 －1226.
［2］王博，郭英，韩立峰.基于熵函数的语音端点检测算法研究［J］.信号处理，2009，25(3):368 －373.
［3］张梅.一种基于模糊神经网络的语音端点检测方法［J］.计算机工程与应用，2012，48(16):133 －136.
［4］邱文武，蒋建中，郭军利.基于小波能量熵的语音端点检测算法［J］.计算
机应用与软件，2011，28(2):227 －229.
［5］贾杏托，王成儒.基于多小波变换的图像去噪技术［J］.计算机工程与应用，2010，46(19):204 －206，237.
［6］汤谨晖，欧阳美娟.小波变换在地震信号降噪中的应用［J］.科技广场，2010(5):150－152.
［7］王晓亚，鲁玉海.语音的端点检测处理技术［J］.信号与信息处理，2010，40(2):1003 －1006.
［8］ BERITELLI F， CASALE S，SERRANO S.Adaptive V/UV speech detection based on acoustic noise estimation and classification ［J］.IEEE Electronics Letters， 2007， 43(4):249 －251.
［9］蔡萍.一种改进的基于人耳听觉掩蔽效应的语音增强算法［J］.闽江学院学报，2012，33(2):70 －72.
［10］刘兵，孙超，杨益新，等.被动声纳目标临界频带频谱能量的特征提取［J］.声学技术，2009，28(2):132 －134.
［11］王彪.一种改进的语音端点检测方法研究［J］.电子设计工程，2012，20(4):47 －50.
［12］朱建伟，孙水发，但志平，等.基于子带二次谱熵的语音端点检测［J］.微电子学与计算机，2011，28(3):77 －80.
［13］李晔，张仁智，崔慧娟，等.低信噪比下基于谱熵的语音端点检测算法［J］.清华大学学报:自然科学版，2005，45(10):1397－1400.
［14］ COUVREUR L， COUVREUR C.Wavelet-based non-parametric HMM's:theory and applications［C］//ICASSP'00:Proceedings of the 2000 IEEE International Conference on Acoustics， Speech，and Signal Processing.Washington， DC:IEEE Computer Society，2000:604－607. ［15］ WU B F，WANG K H.Robust endpoint detection algorithm based on the adaptive band-partitioning spectral entropy in adverse environments ［J］.IEEE Transactions on Speech and Audio Processing，2005，13(5):762－775.
［16］ LU Z M，LIU B S，SHEN L.Speech endpoint detection in strong noisy environment based on the Hilbert-Huang transform ［C］//ICMA 2009:Proceedings of the 2009 IEEE International Conference on Mechatronics and Automation.Washington， DC:IEEE Computer Society，2009:4322－4326.。