基于时间卷积网络的深度聚类说话人语音分离

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2020年9月计算机工程与设计
Sept. 2020
第 41 卷第 9 期
COMPUTER ENGINEERING AND DESIGN
Vol. 41 No. 9
基于时间卷积网络的深度聚类说话人语音分离
王昕，蒋志翔，张杨，寇金桥，常新旭，徐冬冬
（中国航天科工集团第二研究院北京计算机技术及应用研究所
，北京100854
）
摘要：“鸡尾酒会问题"在语音分离任务上一直是一个难题，主要因为这个问题属于一个说话人无关的语音分离问题，
对于说话人事先不知道其先验信息。

通过参考Jonathan 等提出的深度聚类方法，在其基础上进行改进，提出基于时间卷及
网络的深度聚类模型，以理想二值掩蔽作为分离目标并在公开中文语音数据集下进行实验。

实验结果表明，相比传统深度
聚类模型，所提模型在训练速度、分离后的语音质量和语音客观可懂度方面都得到了提升。

关键词：语音分离；深度聚类模型；时间卷积网络；膨胀卷积；因果卷积；理想二值掩蔽
中图法分类号：TP181 文献标识号：A 文章编号：1000-7024 （2020） 09-2630-06
doi ： 10. 16208/j. issnl 000-7024. 2020. 09. 034
Deep clustering speaker speech separation based on temporal
convolutional network
WANG Xin , JIANG Zhixiang , ZHANG Yang , KOU Jin-qiao, CHANG Xinxu , XU Dong-dong
(Beijing Computer Technology and Application Institute , Second Academy of China Aerospace Science and Industry Corporation , Beijing 100854 , China)
Abstract ： Cocktail party problem has always been a difficult problem in speech separation task , mainly because it belongs to a
speaker-independent seech separation problem , and the speaker does not know its prior information. Referring to the deep cluste-
ringmethodproposedbyJonathanetal byimprovingit the deepSlustering model based on temporalSonvolutional network wasproposed.Idealbinarymaskwastakenasseparationtarget andexperimentsundertheopenChinesevoiedatasetwere Sarried out.The results show that the proposed model improves the training speed speeShqualityandspeeShinte l igibility
SomparedwiththetraditionaldeepSlusteringmodel.
Key words ： speech separation ； deep clustering model ； temporal convolutional network ； dilation convolutional ； causal convolu
tional ;ideal binary masking
/引言
语音分离一词最初源于“鸡尾酒会问题”，它是指从混合的两个或多个说话人的混合声音中得到想要的目标说话
人（一人或多人）的语音信号。

在复杂的声音环境下，除了目标说话人的声音以外，通常还伴有其它人的说话声音,
干扰人的语音信号与普通的环境噪声或是音乐噪声的声学特征上不同，它在听觉上会严重阻碍听者对感兴趣的语音
信息的获取，而对于机器来说就更加困难，这会严重影响
对目标说话人语音的获取、识别与理解，这时候便需要语
音分离技术来将混合语音中的多个说话人语音分离为各个说话人的语音，这样听者便可以轻松地得到自己想要的声
音信息，从而进行下一步的语音识别等任务
目前解决上述问题的方法主要为基于置换不变训练
（permutation invariant training , PIT ）*+ 的方法、基于深度
吸引子网络（deep attractor network, DANet ）*3〕的方法和基
收稿日期：2020-05-08；修订日期：2020-04-56
基金项目：装备发展部信息系统局“十三五”预研课题基金项目（31515040405）；装备预研领域基金项目（65400040205）
作者简介：王昕（5994-）,男'北京人'硕士研究生'研究方向为机器学习、语音分离；蒋志翔（5969 -）,男'四川雅安人'硕士生导师'
研究方向为计算机技术及应用；张杨（5978-）男’山东东营人’硕士’研究员’研究方向为计算机应用技术、机器学习；寇金桥（5979 -）男’河南商丘人’硕士’高级工程师’研究方向为嵌入式软件开发、人工智能；常新旭（5995 -）,男’陕西榆林人’硕士研究生’研究方向为机器学习、语音增强；徐冬冬（5994-）,男’安徽滁州人’硕士研究生’研究方向为机器学习、语音识别"
E-mail : 827388673@qq. com
第41卷第9期王昕，蒋志翔，张杨，等：基于时间卷积网络的深度聚类说话人语音分离•2631，
于深度聚类(deep clustering,DPCL)™的方法(本文参考深度聚类的方法，从优化模型角度出发，通过时间卷积网络(temporal convolutional network,TCN)*口来对输入语音特征进行高维可分离空间的映射以充分结合输入语音的时序信息并提高效率,再通过K均值(K-means)聚类算法聚类得出理想二值掩蔽，并在100个不同性别的说话人语音数据集上验证了这一模型方法的有效性。

1相关研究现状
单通道语音分离技术最初是基于计算听觉场景分析(computationalauditorysceneanalysis'CASA)方' CASA的主要思想是模拟人类听觉系统对声音的处理过程来将混合语音分离。

在计算听觉场景分析的过程中需要指定一个计算目标，其中最常用的计算目标是估计一个理想二值掩蔽(ideal binary mask,IBM),IBM通过人类听觉系统在收听声音时的听觉掩蔽效应，计算出每个时频单元上的主导声音源，然后以此完成语音分离。

计算听觉场景分析处理语音数据时对干扰语音完全不做假设，与其它语音分离方法相比，具有更好的泛化性能。

然而，计算听觉场景分析方法也存在一定缺陷，它严重依赖于检测语音的基音部分，尤其受到干扰语音的影响时，语音的基音检测将变得十分困难。

除此之外，缺乏谐波结构也会使计算听觉场景分析方法在处理语音中的清音成分时变得很难归。

随后，基于非负矩阵分解方法*7+(mommegatlve matrix factorization,NMF)的语音分离得到广泛研究，NMF的目标是通过网络学习到一个非负矩阵的基底矩阵和与之相对应的系数矩阵，其中基底矩阵表示说话人的特征类别，而系数矩阵则代表对应特征的参数，从而得到对说话人语音的分离。

后来有人提出基于模型语分方'主
括高斯混合模型(GMM)和隐马尔科夫模型(HMM)。

文献中，在基于训练的语音分离中应用了HMMs,GMMs 等模型，但是这些都属于浅层模型，在处理线性结构问题上具有不错的效果，然而语音信号是一个时间序列，具有明显的时空结构和非线性关系，联系上下文信息和时间关系可以更好地找出语音信号的内在联系，而浅层结构在挖掘这些非线性结构信息和前后时间信息的能力上非常有限聞。

目前随着深度学习领域的迅速发展，以深度神经网络(deepneural network,DNN)为代表的深度模型叩也逐渐被用来解决语音分离问题。

分离目标主要分为语音信号的直接映射和估计一个理想二值掩蔽值(IBM),语音信号的直接映射就是有监督地训练一个混合语音到干净语音的学习网络，混合语音作为网络的输入便可以得到分离后的语音，估计掩蔽值的方法是将理想二值掩蔽(I BM)作为分离目标，通过人耳听觉掩蔽的基理来训练得到，从而进一步与混合语音计算得到分离的语音信号。

这类方法会出现说话人标签序列排序的问题，导致训练时数据与标签不匹配进而无法从对应的输出端输出对应的目标。

为找到一种去除标签序列排序问题的语音分离算法, Jonathan Le Roux等提出了一种以二值掩蔽作为分离目标通过深度聚类的方法*4+来解决说话人无关语音分离问题,这种方可语做一个可分映射，然后通过聚类算法得出时频掩蔽目标，然后与混合语音计算后得出不同的分离语音信号，从而也实现了端到端的深网络训练模型与监督聚模型结合，解决
序列排序问题，在说话人无关语音分离问题上取得了一定突破。

时间卷积网络(TCN)+由Bai等提出，目前用于很多包含时序结构的任务中例如语音识别、机器翻译等，它结合了循环神经网络(recurrent neural network,RNN)*'9+可以记忆前后文信息的优势和卷积神经网络(convolutional meura1networks,CNN)1'11+计算效率高、可堆叠网络层数深的优势'由因果卷积、膨胀卷积和核残差块组成'既可以将当前的时间信息和之前的时间信息联系结合起来，又保留了CNN可以并行运算的效率优势，使得在对序列信息的处理上既可以提高速度又能保证高质量的训练效果。

考虑到语音分离任务中的混合语音信号是一个时间序列信号'相对于双向长短时记忆网络⑷(Bidirectional LSTM,BLSTM),TCN网络可以获取更大的感受野，保留过去的时间信息从而对序列问题有一个更好的建模过程,而且具有并行运算的效率优势，更稳定的梯度'更小的训练占用内存。

因此本文使用TCN网络代替原来的BLSTM 网络深度聚类方法的嵌入过程进行建模'并通过实验度量分离后语音的质量与可懂度'从而客观评价该方法的语音分离性能。

2特征提取、分离模型与分离目标
2.1特征提取
在机器学习任务中，输入特征作为用来区分训练的关键是不可或缺的，采用不同的输入特征会对结果产生不同的影响。

由于语音是一个一维的时域信号'对于两个说话人的混合语音来说不足以区分'在本文中采用了短时傅里数(STFT)，它可合语信号
短时傅里叶变换转化为二维的时频信号'从而将混合信号中的高频成分更好地体现出来。

2.2基于时间卷积网络的深度聚类模型
本文的TCN网络模型如图1所示'从图中可见本文使用了8层TCN网络，其中包含一层输入层、6层隐藏层和一层输出层，隐藏层每层包含512个节点，输入输出层均为129个节点，每层之间通过一维全卷积网络和ReLU激活函数相连接，卷积核大小为2,每一层膨胀卷积的膨胀系
・2632・计算机工程与设计2020年
数从第一层起每层分别为1,2,4,8,16,32,64,隔层之间通过残差块相连，为了保证维度相等，下层先做一个1X1的卷积后再与高层相连。

因为每层均为膨胀卷积，该网络最后的输岀节点可以包含所有之前输入节点的时频特征信息，每一层相较于卷积神经网络（CNN）具有更大的感受野，这对于处理语音信号这类时序信息具有很大优势,通过结合过去的时频信息来找到特征的相同与不同从而使得映射到高维空间后，近似的时频特征距离更近，反之则距离更远，最后每层的卷积网络的结构保证了该网络结构模型可以并行计算，大大提高了训练速度。

图1本文TCN网络结构模型
其中每一层的膨胀卷积运算公式为
—
F'%$&$i）・
i%0
式中：k---卷积核的大小,3----每层的膨胀系数,s—3・
z——对于之前时频信息的索引。

本文使用的基于时间卷积网络的深度聚类方法基于传
统深度聚类语音分离方法模型结构如图2所示。

如图2所示，深度聚类（deep-clustering,DC）模型⑺
就是一个深度网络模型和一个聚类模型前后相接形成的,
模型训练阶段首先对混合语音经过预处理得到音频特征输
入给深度学习模型，传统的深度聚类方法用到的是两层的
双向长短时记忆网络（ELSTM）,本文中使用如图1所示
结构的时间卷积网络（TCN）。

由于输入的WAV文件通过
一系列变换取对数，得到音频的对数功率谱，它是一个关
于语音信号的时频序列信息特征，将这一特征通过TCN网
络将每个时频特征的时频单元（TF-bin）结合当前帧以及
之前帧的所有时序相关信息映射到一个新的特征子空间上，生成一个新的频谱嵌入向量（spectrogram embeddings），通过TCN网络学习输入特征映射到嵌入向量的过程，在这个新的高维子空间中属于同一说话人的时频单元距离更小，而TCN网络每个输岀包含了所有输入信息，属于同一说话人的特征信息包含了该说话人之前的特征信息，所以它们
图2深度聚类模型框架
的特征更相近，这便保证了这一目标，因此这些新的嵌入向量携带自己的特征信息，为下一步的聚类过程提供更好的结果，聚类后的结果被用作掩蔽值来分离混合语音信号。

输入信号的对数幅度谱特征向量表示如下
第41卷第9期王昕，蒋志翔，张杨，等：基于时间卷积网络的深度聚类说话人语音分离•2633，
X i=X&8({1,2,…，N.
式中：t—输入信号帧的时间索引，/—信号帧的频率索引，随后将信号的二维时频特征映射到一个高维嵌入空间中来得到高维特征表示
X,5F,(R D+1
X”5F*(R DF+1
E=&$
式中：X,&表示一个时频单元，X,%表示一帧。

为了预测分区，使D维的嵌入空间E=f g(X)eR N'D，由参数(决定,将这空间上的嵌入向量聚类形成更接近目标的分区-，2,…,N}，其中E=f((X)是通过上述8层TCN网络训练得出的关于输入语音信号特征X的函数。

将嵌入E作为一个N乘以N的矩阵来表示亲和矩阵4=咛。

Y={y.,#}代表想要的目标嵌入结果，元素i被映射到c个类别上，当第c个类别中包含元素，时，有y,=1,以此得到理想亲和矩阵A=YY，其中
(Ai-i=1，i和9属于同一个聚类
{A t…=0,其它
从而可以通过最小化估计的亲和矩阵和理想亲和矩阵之间的距离来得到训练时的损失函数，其表示如下
C y E)=||A—A ll F
在测试阶段，根据训练好的TCN模型，通过X得出嵌入空间向量E=f e(X),通过K均值算法将f聚类，初始聚类中心为混合音频中说话人的个数，最终的聚类结果被当作掩蔽值用来预测源信号。

2.3分离目标
在语音分离任务中，找到一个合适的分离目标是至关重要的。

人类听觉系统在同一频带内感知声音时会出现听觉掩蔽现象，相对弱的声音能量会被更强的声音能量所掩蔽。

在想要提高语音分离质量，减少语音畸变的情况下,主要的分离目标有：时频掩蔽、语音幅度谱估计以及隐式时频掩蔽。

本文采用的分离目标为理想二值掩蔽(IBM),它属于时频掩蔽，是语音分离任务的主要计算目标。

它源于人耳听觉中的听觉掩蔽，在二维时频单元上表示。

IBM已经被证明可以极大地提高分离后的语音可懂度叩，而且可以有效地抑制分离后语音中噪音的干扰和目标语音的畸变。

IBM是基于目标语音和干扰语音的计算得出的，它是一个关于时频掩蔽的二值矩阵，如果在某一时频单元上局部信噪比SNRtt,f)大于初始设定的阈值LC(local cntenon),则掩蔽矩阵中对应的元素标记为1,反之则标记为0。

用公表示下
1,SNR(t,f)〉LC
IB7(,f)={{0，它
式中：SNR(.t,f)表示时间帧为t,频率等于f的时候的时频单元噪比，LC会影响语音可懂度，通常情况下，将LC 设为比输入的混合语音的信噪比小5dB,这样可以将尽可能多的语音信息保留下来。

在本文中，说话人为两个分别是spkl和spk2,故将掩蔽值的计算定义为下式
1，spcc(pbl)'spec(,sp：2)
7(pk1)={【0,其它
(1,spec(spk2)*spec(spkl)
7(pk2)={0，它
：'pec('pk1)'pec('pk2)分为两个话人数，用来得听觉掩蔽，得
掩蔽值矩阵。

假设有2个说话人的语音场景，两个说话人的语音信号分别为X i、X2,那么混合语音为
Y(t)=X1(t)+X2(t)
那么相应的信号的短时傅里叶变换为
Y(,f)=X i(,f)+X2(,f)
当给定输入Y之后，可以通过以上模型得出预测掩蔽值7p(pk1)和7p(pk⑵,就可以得到预测的分离语音时频特征
X p i(,f)=Y(t,f)。

7”(spk l)
X p2(t,f)=Y11,)。

7p(pk⑵
进而通过ISTFT变换得到预测的分离语音时域信号。

3实验与结果分析
3.1数据来源
实验数据采用中文普通话语音数据集，全称为Free ST Chinese Mandarin Corpus*幻,训练集为100个说话人，其中包含50个男性说话人和50个女性说话人，每人10条语句，测试集分别为同性说话人混合语音20条和异性说话人混合语音20条。

3.2数据预处理
为了实验在干扰不同情况下的语音分离任务，在构造训练集、验证集和测试集时随机将不同说话人的语音分别信SNR_—6dB、0dB、6dB合来训练集、验证集及测试集,目用来模话人语
不同的影响程度的语音环境。

将两个不同说话人的语音混合后信号作合,采为8000Hz
混合音频采样，每32ms分为一帧，帧移为8ms,加汉宁,通过短里STFT)来得合语数功率谱特征，该特征包含129维。

3.3网络参数
训练段，作为 BLSTM网络为4，每300个隐藏节点数，层与层之间连接dropout层，比率为0.2,学习率设置为0.001,该方法称为dpel为比较TCN 网络数分效果，6TCN网络作为
•2634•计算机工程与设计2020年
参考，其输入输出层节点为129,隐藏层节点数为512,卷积核大小为2,膨胀系数一次为1,2,4,8,16，该方法称为TCNdpcl6。

随后如图1所示，采用8层TCN网络，输入层和输出层为129个节点，其余隐藏层为512个节点，卷积核大小为2,膨胀系数依次为1,2,4,8,16,32,64,层与层之间的激活函数为ReLU,每次输入连续100帧的混合语音对数功率谱特征，该方法称为TCNdpcl8。

3.4评价标准
本文对于语音分离效果的评价指标为感知语音质量(perceptual evaluation of speech quality,PESQ)和短时客观可懂度((hott time objective intelligibility,STOI)。

其中PESQ指标介于一0.5至4.5之间，对应相应主观评测得分MOS(mean opinion score),得分越高代表语音质量越好；STOI指标介于0至1之间，得分越高代表语音的可懂度越好。

3.5结果与分析
实验结果见表1、表2。

表1不同方法的PESQ平均值
method Same-gender DE f erent-gender Overa l
dpcl 1.92 2.42 2.15 TCNdpcl-6 1.93 2.38 2.11
TCNdpcl-8 1.98 2.55 2.26
表2不同方法的STOI平均值
method Same-gender DE f erent-gender Overa l
dpcl0.560.660.62 TCNdpcl-60.540.620.59
TCNdpcl-80.610.700.66
表1和表2分别列出了dpcl语音分离方法和本文所用的TCNdpcl方法在同性说话人混合语音、异性说话人混合语音还有综合性别说话人混合语音这3种情况下得到的分离语音平均PESQ值和平均STOI值。

在以上3种情况下TCNdpcl-8方得出分语PESQ STOI 值都要明显好于dpcl方法和TCNdpcl-6方法，这表明8层TCN网络在对语音序列进行高维映射的时候要优于ELSTM网络，并且对于TCN网络更多的层数会得到更好的分离效果。

对比6层TCN网络和8层TCN网络的语音分离效果，TCNdpcl-8方话人、话人综合情况下分离出的语音平均PESQ值和平均STOI值都明显高于TCNdpcl-6方法，由于输入为100帧的语音时频特征，而6层TCN网络的设置只能使输出节点包含其之前31个输入帧的时频特征信息，而8层TCN网络的每个输出点可以包含当前语音帧以及全部之前语音帧的信息，这说明包含更多的当前输出单元之前的输入语音帧的时频信息从而获得更大的感受野可以得到更好的分离结果，在高维嵌入空间中，包含更多的信息可以让特征相近的点更近，反之则更远，因此TCN网络层数的增加是有必要的。

对比训练时间、参数和稳定性，TCN网络具有更少的参数和更快的训练运行速度，且占用更小的训练内存，不会发生梯度爆炸或者梯度消失问题。

因此本文提出的基于时间卷积网络的深度聚类语音分离方法在提高分离后的语音质量和客观可懂度的同时还具有训练时间少、运算速度快和训练梯度稳定的优势。

话人话人语分效果可
出，由于同性说话人的语调和音色都更相近，因此他们的语音时频特征也会更相近，即使在高维特征空间上还是比异性说话人更相近，所以在聚类时得到的两个簇都不是完全包含属于一个说话人的信息，因此在每个方法下，同性话人语分效果话人语分效果
很多，平均PESQ值和STOI值都不理想，由此可见分离两个同性说话人的混合语音还存在很大提升空间，还需要进一步找出更合适的模型来完成此任务。

4结束语
本文参考基于聚话人语分方'采用
TCN网络对输入混合语音的STFT特征进行高维映射，然后通过Kmeans聚类算法将高维向量聚类得到掩蔽值，通过掩蔽值与输入信号来估计源信号。

实验结果表明本文提出的基于TCN网络的深度聚类语音分离方法分离出的语音在语音质量和客观可懂度两个指标上都要好于基于ELSTM 的深度聚类方法，并且还具有参数少、运算快、训练梯度稳定的优势。

本文还通过实验发现了输出包含全部输入节点信息的8层TCN网络的分离效果要好于输出不包含全部输入信息的6层TCN网络的分离效果，这表明对于处理语音这类的时间序列特征，包含更多过去时间点信息对于语音的建模更有成效，进一步提高了语音分离效果。

在接下来的研究中，将更关注同性说话人的语音分离问题，根据声学机理和人类的听觉机理，结合深度学习方法设计出更好的语音分离模型来更好地解决这一难题。

参考文献：
*+WANG Yannan.Speaker-independent single-channel speech separation based on deep learning[D].Hefei：University of Science and Technology of China,2017(in Chinese).[王燕南.基于深度学习的说话人无关单通道语音分离[D]合肥:中国科学技术大学’2017.
[2]Yu D,Kolbxk M,Tan ZH,et al.Permutation invariant
traEnEng ofdeep modelsforspeaker-Endependent mult-talker
第41卷第9期王昕，蒋志翔，张杨，等：基于时间卷积网络的深度聚类说话人语音分离•2635，
speech separation[C]//IEEE Internationf1Conference on Acoustics,Speech and Signll Processing,2017：245-245.
[3]Luo Y,Chen Z,Mesgarani N.Speaker-independent speech
separation with deep attractor network[J].IEEE/ACM Transactions on Audio'Speech'and Language Processing' 2018,5⑴：2-3.
[4]Yusuf Isik,Jonathan LR,Shinji Watanabe,et al.Singe
channel multi-speaker separation using deep clustering [EB/OL].[2019-06-04].h t p：///publica-tion/305119156.
[5]Bai S,Kolter JZ,Koltun V.An empirical evaluation of generic
convolutional and recurrent networks for sequence modeling [R].PitFburgh：CarnegieMelonUniverFity'2018：7-9. [6]LIU Wenju'NIE Shuai'LIANG Shan'etal.Deeplearning
baFedFpeechFeparationtechnologyanditFdevelopmentF[J].
Acta Automatic Sinica,2016,42(6)：820-825(in Chinese).
[刘文举，聂帅，梁山，等.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6)：820-8257]
[7]JonathanLeRoux,Felix Weninger,HersheyJ7Sparsenmf-
half-bakedorweildone[R]7Cambridge：MitsubishiElectric
ResearchLabs(MERL),2015：3-47
[8]SunL,DuJ,DaiLR,etal7Multiple-targetdeeplearningfor
LSTM-RNN based speech enhancement[C]//Hands-free
Speech Communications&Microphone Arrays.Piscataway：IEEE,2017：136-1407
[9]Liu M,WangY,WangJ,etal7Speechenhancementmethod
based on LSTM neural network for speech recognition[C]//
14th IEEE International Conference on Signal Processing (ICSP)7Piscataway：IEEE,2018：245-2497
[10]Tan K,ChenJ,Wang D,etal7Gatedresidualnetworks
with dilated convolutionsfor monauralspeech enhancement
[J]7IEEE Transactionson Audio,Speech,and Language Processing,2019,27(1)：189-1987
[11]OuyangZ,YuH,ZhuWP,etal7Afu l yconvolutionalneu-
ralnetwork for complex spectrogram processing in speech enhancement[C]//ICASSP2019-2019IEEE International
ConferenceonAcoustics,SpeechandSignalProcessing7Pisca-taway：IEEE,2019：5756-57607
[12]ChungJ,GulcehreC,ChoKH,etal7Empiricalevaluation
of gated recurrent neural networks on sequence modeling
[J/OL].[2019-03-25].h t ps：///abs/1412.3555.。