一种基于噪声场景识别与多特征集成学习的活动语音检测方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一种基于噪声场景识别与多特征集成学习的活动语音检测方法
TIAN Y,ZHANG X B.An Approach for Voice Activity Detection Based on Noise Recognition and Multi-feature Ensemble
44(6):28 - 31,39.
DOI:10. 16311/j. audioe. 2020. 06. 006
一种基于噪声场景识别与多特征集成学习的
活动语音检测方法
田 野,张小博
中国电子科技集团公司第三研究所,北京
为了提高动态噪声环境下语音检测的准确性,提出一种基于噪声场景识别与多特征集成学习的活动语音检测方法。


奇异值等时频域特征,采用随机森林优选出可分性更好的特征组合。

实验表明,
所提方法的语音检测准确率提升显著,
随机森林
An Approach for Voice Activity Detection Based on Noise Recognition and Multi-feature Ensemble Learning
TIAN Ye, ZHANG Xiaobo
(The Third Research Institute of China Electronics Technology Corporation, Beijing 100015, China) To improve the accuracy of voice activity detection under dynamic noise environments, this paper proposes an approach based on noise recognition and multi-feature ensemble learning. Considering the nonstationary and complex signals, time-frequency features, like wavelet energies and singular values, are extracted and selected using Random Forest(RF) for better separability. Case studies based on different noises and different noise powers demonstrate the higher accuracy and stability of the proposed approach.
voice activity detection; noise recognition; feature selection; random forest
在一段语音信号中往往会存在着停顿、间歇等
干扰语音处
(Voice Activity
技术的目标是从信号中检测出真两个环节构成。

在特征提取方面,
分噪声和语音信号的声学特性,
同角度提取特征,
数(Mel Frequency Cepstrum Coefficient,MFCC)以及模糊熵等,
类型下都具有良好区分性的模型分类器设计是重
本文提出基于噪声场景识别
构建了噪声类型识别模型和噪声与语音二分类模型。


分布随机邻域嵌(t-Distributed Stochastic Neighbor Embedding,与集成学习的噪声聚类与分类方法,并采用了集成效果更好的随机森林方法。

在语音与噪
提出基于随机森林的特征选择与
先识别当前的噪声类型,将动态
进而针对具体噪声类型在高维特征中优选最具有区分性的特征组合
从而保证了整个检测过程在不同
为了从多个角度获取音频信号间的可区分性
频谱扩散、
频域能量、
维的时频域特征。

在特征计算中采用三层小波分解方法将音
然后计算每个分量的
对小波分量矩阵进行奇异值
是一种基于概率的子空间嵌入核心是在高维空间中采用高斯分布而在低维
分布来模拟数据点对间
从而提高不同类数据间的可分特性,在保留高维数据局部特性的同时,
持全局聚类特性。

2.1.3

Bagging
分类器构成集成分类器,
策树的投票结果共同决定,
集成为一个强分类器,
类性能[

Bootstrap
剩余的数据称为袋外数据,
据的分类误差评估各个分类器的性能。

此外,
通过改变袋外数据中某个维度特征的数值来考察识别准确率的变化情况,
重要度水平
2.2 基于
方法
为了提高具体场景下语音信号检测的准确率,本文在含噪语音与噪声信号分类前识别当前使用场景中的噪声类别,
视化聚类方法和随机森林特征优选与分类器构建方法的噪声场景分类方法,
所示。

2.3 基于随机森林的含噪语音与噪声分类识别方法
活动语音检测的核心是有效区分含噪语音信号与噪声信号。

不同噪声下含噪语音与噪声的区分性特征不尽相同,
以在不同噪声下都取得良好的识别结果。

因此,文提出针对不同的噪声类型优选不同的特征组合并训练特定的识别模型,
环境下的适应能力,
语音信号随机选自数据
条不同说话人的音频,男女
标准噪音库,
(white)、
)、小汽
和战斗机噪
聚类分析与随机森林的噪声分类
8 kHz,然后
并提取维的时频域特征。

这些特征的维度与特征名称
音频特征维度及特征名称对应关系列表3.1.2

析,结果如图
了4个聚类群。

其中:babble、factory
噪声特性相似,
white独立成类。

后续对这
类识别即可。

特征值2
100
50
50
00
-50-50
40
20
-20
-40
特征值1
babble
factory2
m109
volvo
white
f16



3
图3 噪声聚类特性分析可视化结果
3.1.3 噪声分类模型的训练和测试
基于特征优选结果,抽取训练和测试数据各4×1 500组。

训练中采用5-fold交叉验证和模型参数网格搜索方法,确定最优参数:树的个数为20,最大深度为9,最小叶子数为1。

而后进行5次训练,平均训练准确率为99.81%,测试准确率为98.97%。

可见,该分类器具有良好的噪声识别准确率和对未知测试数据的泛化能力。

3334 1 36 3 32 4 201628
特征维度
93
94
95
96
97
98
99
100 X: 13
Y: 99.7
Y: 99.55X: 12
Y: 99.55












/
%
特征重要度排序及累计特征对应的识别准确率
基于随机森林的含噪语音与噪声信号分类
种噪声对纯净语音进行加噪处理,信噪
-5 dB。

然后,将数
为帧长、10 ms为3.2.2

其中10 dB、5 dB、0 dB 合并在一起;
单独列出。

因此,
5 dB、0 dB
模型,而对
不同噪声环境下含噪语音与噪声分类的特征优选结果明细表
10 dB、5 dB、0 dB
10 dB、5 dB、0 dB
10 dB、5 dB、0 dB
10 dB、5 dB、0 dB
含噪语音与噪声分类模型的训练和测试
抽取训练和测试数据各
分类的优势,同时训
且都采用网格搜索方法
所示。

可以看到:
分类器的识别准
分类器的
在信噪比不低于
95%以
准确率普遍下降很多,此时应该结合降噪算法保证语音检测的准确率。

不同噪声环境不同信噪比下不同分类器的识别结果列表
MLP
93.9%
92.23%
84.8%4 结语
针对多噪声场景下的活动语音检测任务,
了一种基于
法,将动态噪声环境转化为特定噪声环境,
不同噪声特点优选音频特征、
高了整套方法在不同噪声类型、
用性能的稳定性,
在本文方法基础上,
顿、喘息等特点,
音长度和最短静音长度等门限机制来进一步提高端点检测的准确率。

参考文献:
[1]Kalia A
of
也能延伸
系统冗余度和灵活性非常
合理分配
矩阵传输系
信号监测和节目
许多大型活动电视转播的音频系统搭建会同时搭建环绕声制作系统和双声道立体声制作系统,在节目制作源头分别制作环绕声信号和双声道立
这是由于电视伴音信号
不得不把音频信号
环绕声兼容双声道立体声在最终播出端进行下变换获得双声道
网络、环绕声收音机等这些可接收与解码环绕声信号的设备;立体声信号则继续支撑传统广播。

环绕声与立体声兼容问题与高清电视和标清电视的问题很像,节目源和相应的硬件设备都跟上才能获得技术的更迭,5 结语
人们在听觉上的审美水平逐渐提高,5.1声逐渐被大家喜爱和肯定。

5.1
播中投入使用,
技术变革,
术的出现,
术的逐渐成熟,
虽然广播电台发展
讨阶段,
新会造就更多新的艺术形式,
声技术的发展是趋势也是挑战。

参考文献:
[1]刘学
2020
[2]张博文,
析[
[3]周明辉
2010
责任编辑:
清华大学学报(自然科学版),2016,56(11):1190-1195. Nemer E.Robust Voice Activity Detection Using Higher-order
.Speech & Audio
217-231.
Ying L.The Classification of Environmental
.International Conference on Advanced Computer Science and Electronics Information,
2579-2605.
[9]Breiman L.Random Forest
5-32
[10] Lászl
Feature Selection Approach for Image Segmentation
ICMV
[11] Wang D
Corpus
(上接第31页)。

相关文档
最新文档