基于深度学习的语音增强简述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第8卷第2期Vol.8No.2 2019年3月网络新媒体技术Mar.2019
•前沿与综述•
基于深度学习的语音增强简述**
本文于2018-12-30收到。
*国家自然科学基金(编号:61671381)0张晓雷
(西北工业大学智能声学与临境通信研究中心西安710072西北工业大学航海学院西安710072)
摘要:语音增强是一种将语音从干扰声中增强出来的技术。它是语音信号处理的核心研究内容之一。近年来,深度学习在语音增强中的成功应用推动了该技术的快速发展。本文将简要回顾基于深度学习的语音增强技术。首先回顾语音增强中所采用的深度学习算法和优化目标,在此基础上,将进一步回顾具有代表性的单声道深度语音增强技术、基于固定麦克风阵列的多声道深度语音增强技术、以及基于自组织阵列的多声道深度语音增强技术。
关键词:深度学习,深度神经网络,语音增强,麦克风阵列
A Brief Review to Deep Learning Based Speech Enhancement
ZHANG Xiaolei
(Center for Intelligent Acoustics and Immersive Communication,Northwestern Polytechnical University,Xi'an,710072,China, School of Marine Science and Technology,Northwestern Polytechnical University,Xi'an,710072,China)
Abstract:Speech enhancement aims to separate target speech from its noise components.It is one of the core problems of speech signal processing.Recently,deep learning has been applied successfully to speech enhancement,which significantly promoted the development of speech enhancement techniques.This paper will review the deep-learning-based speech enhancement techniques,including machine learning algorithms,optimization targets.Then,this paper will review single channel speech enhancement techniques, multichannel speech enhancement techniques based on conventional microphone arrays,as well as multichannel speech enhancement techniques based on ad-hoc microphone arrays.
Keywords:Deep learning,Deep neural networks,Speech enhancement,Microphone arrays
o引言
语音增强旨在将目标语音从背景干扰中分离出来。它是信号处理中的核心任务之一,具有广泛的应用,例如助听、通信、鲁棒语音识别和说话人识别。人类听觉系统具有将一种声源从多种声源的混合中提取出来的卓越能力。在类似于鸡尾酒会的声学环境中,尽管现场有其他说话人和背景噪声,我们也能够关注于其中某一位说话人的声音。所以,语音增强也被称为“鸡尾酒会问题”。语音增强已经在信号处理领域中得到了广泛的研究。根据麦克风的数量,语音增强方法可以分为单声道增强和基于麦克风阵列的多声道增强。单声道增强的传统方法是噪声估计丄和计算听觉场景分析(computational auditory scene analysis,CASA)[2]。噪声估计技术分析语音和噪声的整体数据,随后将纯净语音从含噪语音中估计出来"3;为了估计背景噪声,通常假设背景噪声是平稳的。CASA基于听觉场景分析的感知原理,通过交替进行基音估计和
2网络新媒体技术2019年
基于基音的分组实现语音增强⑸。
具有两个及以上麦克风的阵列实现语音增强的原理与单声道语音增强不同。例如,波束形成或空间滤波通过适当的阵列配置来增强从特定方向到达的信号、衰减来自其他方向的干扰'6'9)o最简单的波束形成方法是延迟-相加方法,它将来自目标方向的多个麦克风信号在相位上相加,使用相位差来减弱其他方向的信号。噪声衰减量取决于阵列的间隔、大小和配置—
—通常麦克风数量越多、阵列尺寸越大,则噪声衰减的量越大。当目标和干扰源位于同一位置或彼此接近时,则不能应用空间滤波。此外,因为混响会破坏声源方位信息,所以在混响条件下波束成形的效用大大降低。
近几年来,语音增强被构造为一种有监督机器学习问题,其中CASA中的时间-频率(time frequency, T-F)掩模概念启发了有监督语音增强的学习目标的提出。该增强方法将T-F掩模应用到混合声源的时频表示上以增强目标声源"一⑷。T-F掩模的一个主要目标是理想二值掩模(ideal binary mask,IBM)问。IBM的任意T-F掩模单元是一个二值信号,它表示在含噪语音的时频谱中,目标声源在该T-F掩模单元是否占据主导。测听研究表明,IBM能同时大大提升听力正常的听者和听力受损的听者在含噪环境下的语音可懂度"-仍。如果将IBM作为计算目标,语音增强就构造成了有监督学习的基本形式——二值分类。在这种情况下,IBM在训练阶段被用作期望信号或目标函数。在测试阶段,学习机器的目标是估计IBM。自IBM首次被提出作为训练目标以来,多个更加有效的训练目标相继被提出,详见第1.2节。
自从语音增强被当作有监督分类问题以来,数据驱动的方法在语音处理领域得到了广泛的研究。在过去十年中,有监督语音增强通过使用大量的训练数据和充足的计算资源显著地改善了增强性能[,8J9]O近几年来,基于深度学习的有监督语音增强促进了语音增强的快速发展。本文将首先在第1节回顾基于深度学习的单声道语音增强算法;然后,在第2节回顾基于深度学习的固定阵列多声道语音增强算法;最后,在第3节介绍基于深度学习的自组织阵列多声道语音增强算法;第4节总结全文。
1基于深度学习的单声道语音增强
—深度神经网络和训练目标,然后回顾本节首先介绍基于深度学习的语音增强模型的两个重要方面—
基于深度学习的单声道语音增强的代表性算法。
1.1深度神经网络
深度神经网络(deep neural network,DNN)中最流行的模型是包含有输入层、隐藏层、输出层,且相邻层之间是全连接的前馈多层感知机(feedforward multilayer perceptron,MLP)O MLP使用经典的反向传播算法进行训练如。该算法通过梯度下降法优化网络权重,以最小化预测误差。预测误差是预测输岀与期望输出在某个损失函数度量下的偏差,其中预测输出是MLP网络的输出,期望输出是有监督学习的数据标注。当MLP用于分类问题时,常用的损失函数是交叉爛:
厶」og(p,
*)
八i=I c=1
其中,i表示输出层的第i个神经元,表示输出层的第i个神经元属于第C类的预测概率,/V和C分别表示输出层的神经元的数量和类的数量,厶”是一个二值表示式,当神经元i的期望类是c时,取l,c=1,否则取,=0o当MLP用于回归问题时,常用的损失函数是均方误差(mean square error,MSE):
其中元和y,分别表示第i个神经元的预测输出和期望输出。
MI.P的表示能力随着层数的增加而增加叭,尽管在理论上,具有两个隐藏层的MLP可以逼近任何函数221o但是反向传播算法存在梯度消失问题,即由输出层向输入层反向传播的误差信号计算得到的梯度将随着层数的降低而逐渐变小或消失,导致较低层的连接权重没有得到充分训练。近年来,研究人员针对该问题做了大量的改进工作,包括分层预训练、修正线性单元、残差网络等。