半监督矢量量化的汉语方言辨识
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
半监督矢量量化的汉语方言辨识
顾明亮;张彪
【摘要】提出了一种新的方言码本模型辨识系统.该方法利用半监督的思想对方言语音数据进行矢量量化,形成具有监督信息的码本模型.有效解决了在汉语方言辨识中码本精度不高的问题,系统的识别率有了很大提高.实验结果表明带有监督信息的码本量化方法明显优于传统LBG矢量量化方法,对于汉语三种方言,辨识率可达
94.23%,比传统码本辨识系统提高了近13%的正确辨识率.%This paper presents
a noval code model in Chinese dialect identification.This method takes advantage of semi-supervised thought to quantitate speech data and forms a code model with supervision information.It effectively solves the problem of low precision code and improves system recognition
rate.Experimental results prove that the method with supervision information is superior to traditional LBG quantitation method.For three Chinese dialect,the system can achieve a high accuracy of 94.23% and raise the rate of correct identification about 13% compared with traditional code system.
【期刊名称】《计算机工程与应用》
【年(卷),期】2011(047)033
【总页数】3页(P109-111)
【关键词】方言辨识;半监督码本;矢量量化
【作者】顾明亮;张彪
【作者单位】徐州师范大学物理与电子工程学院,江苏徐州221116;江苏省语言科
学与神经认知工程重点实验室,江苏徐州221116;江苏省语言科学与神经认知工程
重点实验室,江苏徐州221116
【正文语种】中文
【中图分类】TP391
1 引言
方言辨识是语言辨识的一个重要分支,它在语音识别、信息检索、机器翻译、刑事侦查等方面具有重要的应用价值。
汉语作为世界上方言最多的少数几种语言之一,在语音信息处理研究中具有极其重要的地位,由于方言间的差异性远小于语言之间的差异性,因此,方言辨识往往比语言辨识困难得多。
1996年美国麻省工学院的Zissman首次在语言辨识的基础上,提到了方言辨识,采用的方法是PPRLM方
法[1],但因为方言的标注比一般语言的标注更加困难,因此,这种方法很难得到
推广。
2002年我国台湾学者蔡伟和利用高斯混合模型实现了对三种汉语方言的辨识工作[2],2006年利用转移倒谱特征和高斯混合模型(Gaussian Mixture Models,GMM)对汉语的四种方言进行了识别[3],解决了方言标注的难题。
此后,新加坡学者[4]、香港学者、大陆[5]等学者围绕GMM,从特征和分类器两个
部分提出了不同的改进方法,取得了一定的效果,但必须指出在目前的方法中,要提高精度,必须增加GMM的参数,这对于训练样本有限,系统计算资源缺乏时,效果并不理想。
直到现在,为了更好地提高系统的辨识效果,许多学者仍在不断改进着GMM的各种训练算法[6]。
另外,仅仅利用传统的矢量量化方法(Vector Quantization,VQ)进行汉语方言辨识时,识别效果也很难令人满意。
其主要原因是:VQ作为一种硬决策模型,不能有效包含码本中胞腔码字的概率分布状况,
而GMM作为一种反映数据概率分布的软决策模型,能够很好地解决VQ方法存
在的问题。
为此,本文利用类似半监督的思想,使用GMM对语音特征矢量进行
有监督的矢量量化,从而形成具有监督信息的量化码本。
该方法既能提高量化码本的精度,又不增加GMM参数,较好地解决了上述矛盾。
2 半监督矢量量化原理
基本的矢量量化是将一组训练样本聚类产生一个码本。
LBG算法聚类产生码本是
经典的做法,聚类的依据是欧氏距离的大小。
本文将根据样本的概率分布相似程度决定样本的聚类。
为了得到聚类样本,首先利用高斯混合模型进行训练,并将样本归并到若干个高斯分量指定的单元。
其次,利用聚类得到的高斯分量矢量组,得到矢量量化的码书。
2.1 高斯聚类矢量的获取
设是第k个方言中的Nk个D维训练样本矢量,其中的每一个矢量(以下用x来
表示其中的任一矢量),假定都可以用M元高斯混合模型来描述,其概率密度可
以写成:
其中是第k个方言模型中第i个高斯混合元的权值,可以理解为每个高斯成员出现的概率,它满足:
p为D维矢量的高斯密度函数,其计算公式为:
其中,为高斯分布的均值矢量为高斯分布的协方差矩阵。
因此,第k个方言的GMM可用一组参数来表示,其中,协方差矩阵一般采用对角矩阵,以有效减少运算量。
对于给定的一组训练样本,利用经典的EM算法可以得到模型的最佳参数。
2.2 量化码本的建立
当利用这Nk个样本矢量得到第k个方言的GMM参数以后,再对这些训练矢量
进行聚类。
聚类的个数与高斯混合元个数相等,聚类的方法是:比较训练矢量在不同加权高斯混合单元的概率,将其分到加权概率取最大的高斯混合元中。
即训练矢量的类别标号由下式决定:
的取值为:1,2,…,M。
将具有相同标号的矢量取平均作为该方言的码本矢量记为其中表示标号为的矢量个数。
在建立每种方言码本的过程中,GMM被作为一种监督工具对训练语音数据进行矢量量化,从而获得带有监督信息的量化码本。
图1是量化码本的原理框图。
图1 半监督码本模型的形成图
根据上述方法,有监督地实现了在概率空间相似声学特征的聚类,由于各方言码本的形成是建立在GMM监督基础之上的,所以它能更好地包含方言的全局声学统
计特性,提高量化码本的精度,改善系统的识别效果。
3 方言特征提取
介绍如何利用上述量化码本获取语音信号的方言特征。
图2是提取方言特征的基
本原理框图。
图2 基于量化误差的方言特征原理图
图2中,首先,对输入声学特征进行符号化。
即利用高斯符号化器把输入的SDC
语音特征进行符号化处理。
假设一段语音特征矢量可表示为X=[x1,x2,…,xT],其中,xt表示第t帧的语音特征矢量,T为该语音段的总帧数,将其转换成一个符号矢量:表示第t帧语音信号经过第j个高斯符号化器所得到的符号,这里的取值为:1,2,…,M 。
M是高斯混合元的个数,j=1,2,…,N,N是方言的个数。
然后,对符号化后的特征矢量进行量化处理。
量化的方法是:把符号代表的语音特征矢量与方言码本中的码字βm进行量化(m取值为:1,2,…,M),而不予码本中
其他的码字进行量化,从而保证了语音特征矢量与码本中的码字在概率空间的最大相似性,避免了和码本中其他码字的量化比较,减少了之前量化方法的计算复杂度。
通过以上方法便可得到语音符号所代表的特征矢量与第j个方言码本模型的误差:,这里表示符号为(m取值为:1,2,…,M)的语音特征矢量。
最后,通过对不同方言码本模型进行量化得到方言的语言特征。
如图2所示,如果方言的总数为N,系
统将会有N个高斯符号化器,N个方言码本模型,那么测试语音信号经过该系统时,便会得到一组量化误差:,误差矢量的维数为N×N,此处N=3,即误差矢
量的维数为9维。
然后把得到的全局误差矢量归一化后作为新的方言特征送后端
神经网络分类器进行决策,以判别测试语音的方言归属性。
4 实验结果与分析
4.1 汉语方言语音数据库
汉语方言数据库目前国内还没有公开发售,在徐州师范大学语言研究所(江苏省语言学重点学科单位)多位方言学家的帮助下建立了一个方言语音数据库,该数据库包含普通话和三种方言:闽方言、粤方言、吴方言。
采集的发音对象大部分来自上述各地的高校学生,也有部分是该地的中、老年发音人。
发音人中男性比女性略多,普通话和吴方言比其他两类方言的数据略多。
每个方言类的男、女发音人一般在
10人左右。
发音内容包括:个人情况简介(含年龄、联系电话等数字发音)、家
乡特产介绍、家乡旅游景点介绍、家乡风土人情介绍和一段短文等。
录音一般在安静的室内进行。
录音设备为装有创新声卡的高档电脑。
语音的采样频率是11 kHz,量化级是8 bit。
语音数据采用wav格式保存。
每个发音人的平均录音长度约为
20分钟,加工后的有效录音长度为15分钟左右,整个方言数据库的录音数据量
大约12小时。
整个语音经过分段切分,组成不同时长(5 s,10 s,15 s)的训练集、开发集和测试集。
其中,测试集与训练集和开发集互不重合,并且测试集与训练集的发音人也各不相同,训练集占整个语音的1/2,开发集占整个语音的1/3,
测试集占整个语音的1/6。
训练集用于高斯符号化器和码本模型的训练,开发集用于后端分类器的训练,测试集用于系统的测试。
4.2 汉语方言辨识系统的构造
图3给出了汉语方言辨识的原理框图,其中预处理部分包括有声与无声判别,辨识时要去掉无声信号,对有声信号进行预加重,以提高高频分量,然后作分段和加窗运算,以减小频谱泄露。
特征提取部分主要是提取每一帧语音信号的声学特征,本实验预处理采用的预加重滤波器为1-0.95z-1,窗函数为Hamming窗,语音信号的帧长取256点,帧移为128点;特征提取参数中,本文根据Kohler的相关研究[7],取转移差分倒谱(SDC)的特征参数“N—d—p—k”为“10—1—4—2”,每一个SDC特征向量包含了20个元素;符号化所用的高斯混合元个数为:16、32、64、128、256;分类器采用神经网络进行决策。
图3 汉语方言辨识原理图
4.3 实验结果与分析
4.3.1 不同半监督码本长度的辨识实验
本实验首先考虑了方言码本的长度(这里选取的码本长度和高斯混合元数相同)对系统辨识的影响。
从图4中可以看出,随着码本长度的增长,系统的辨识效果越来越好,这是因为,码本长度越长,模型对语音数据特征空间的拟合程度越高,更能精确地刻画数据的真实分布状况,同时也要考虑训练样本的有限性,以此来把握系统复杂度和计算时间之间的平衡。
图4 不同码本长度的辨识结果图
4.3.2 不同时长的辨识实验
实验对不同时长下的测试语音进行了研究,如表1所示,语音时长的不同给系统的辨识率有一定的影响,这说明语音越长,越能充分包含更多的信息量,从而在一定程度上提高了系统的辨识率。
从表1中可以看出,在码本长度为256的辨识系
统下,对于15 s的测试语音,辨识率可高达95.9%。
表1 不同语音时长下的辨识率(%)半监督码本的长度时长5 s 10 s 15 s 16 75.9 82.2 87.1 32 80.6 86.1 88.3 64 87.3 89.4 91.3 128 88.0 91.7 93.6 256 92.7 93.9 95.9
4.3.3 半监督码本与传统矢量量化码本的对比实验
本实验另外考虑了传统矢量量化方法在汉语方言辨识中的应用,该方法利用LBG
算法直接对语音特征空间进行聚类,从而得到特征空间的各个聚类中心,以此形成该方言的码本。
在辨识阶段,利用已有的方言码本依次对测试语音进行量化,计算其平均失真误差,将失真最小的码本所对应的方言作为系统的输出结果。
从图5
中可以得知,此种方法所形成的码本精度要低于GMM监督码本精度,这是因为,在方言辨识中,传统矢量量化所形成的码本不能较好地反映区别不同方言的全局声学统计特性,从而使识别效果有所下降。
图5 两种辨识方法的比较图
5 结论
提出了一种汉语方言辨识的新方法,利用GMM为每种方言建立了一个新的半监
督码本模型,该方法在方言辨识系统中获得了较好的性能。
当码本长度从16变化到256时,闽、粤、吴三种方言的最佳平均识别率分别为95.53%,95.67%和91.50%,其性能较好地优于传统矢量量化方法,实验表明基于GMM半监督码本模型辨识系统是十分有效的。
【相关文献】
[1]Zissman M parison of four approaches to automatic language identification of telephone speech[J].IEEE Transactions on Speech and Audio Processing,l996,4(1):
31-44.
[2]Tsai W H,Chang W W.Discriminative training of Gaussian mixture bigram models with application to Chinese dialect identification[J].Speech Communication,2002,36:317-326.
[3]顾明亮,沈兆勇.基于语音配列的汉语方言自动辨识[J].中文信息学报,2006,20(5):77-82.
[4]Lim B P,Li H,Ma ing local and global phonotactic features in Chinese dialect identification[C]//Proceedings of ICASSP,2005:577-580.
[5]屈丹,王炳锡,魏鑫.基于GMM-UBM模型的语言辨识研究[J].信号处理,2003,19(1):85-88.
[6]Siu Man-Hung,Yang Xi,Gish H.Discriminatively trained GMMs for language classification using boosting methods[J].IEEE Transactions on Audio,Speech,and Language Processing,2009,17(1):187-197.
[7]Kohler M A,Kennedy nguage identification using shifted delta
cepstral[C]//Midwest Symposium on Circuits and Systems,2002:69-72.。