连续语流中声学地标的检测与分割

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

连续语流中声学地标的检测与分割
刘晶
【摘要】在语音识别系统中,针对汉语普通话语音特点,增加采用分层级多参数加权综合的检测方法,以感知线索为依据,对连续语音流中的辅音性、阻塞性、擦音性、送气性、响音性、延续性、鼻音性、元音性、后位性等区别特征和语音特征的声学地标进行检测和分割。

算法充分考虑了不同说话人、语音语境、语速和说话风格对声学地标的影响,这有助于提高检测和分割的准确率和鲁棒
性。

%According to mandarin phonetic features in speech recognition system ,the hierarchical level ,multi-parameter and weighted in-tegration detection method can be additionally used in the system .Based on sensory clues ,the acoustic landmarks of distinctive features and phonetic characteristics in the continuous speech flow of
consonants ,obstruction ,frication ,aspiration ,sound ,continuity ,nasal ,vow els , and retro-position are tested and divided .Algorithm fully considers the different speakers ,phonetic context and speed ,speaking style in-fluence on acoustic landmarks ,which helps to improve the detection and segmentation accuracy and robustness .
【期刊名称】《广东石油化工学院学报》
【年(卷),期】2014(000)003
【总页数】3页(P41-43)
【关键词】声学地标;区别特征;语音识别;连续语流
【作者】刘晶
【作者单位】广东石油化工学院计算机与电子信息学院,广东茂名525000
【正文语种】中文
【中图分类】TN912.34
在语音识别系统中,以往是采用区别特征(Distinctive feature)的方法来识别不同人的语音。

区别特征是指具有区别音位作用的语音特征,主要是从语音的声学特性出发,参考语音的发音特性和感知特性,把所有语音归纳为12对区别特征,如:元音性/非元音性,突发性/延续性,浊音性/清音性,集聚性/分散性,等。

区别特征系统使用较小的标记集来描写语音的声学和发音特性,该特性捕捉了语音类别与发音方法、发音位置及声源特性之间的关系,因而每个区别特征都具有自己独特的声学地标。

经过恰当的混合,区别特征确定了语言间或者语言内的音位对照。

通过检测和分割声学地标可以检测到语音的区别特征,或者特定语音事件的出现,进而识别语音[1]。

声学地标(Acoustic Landmark)是语音中的声学特征,是语音事件的表征,通常在不同说话人、语音语境、语速和说话风格等情况下具有相对稳定性。

声学地标是发音器官调制气流的声学结果,因而成为某些语音事件的表征,通常也是人感知语音的主要线索[2-3]。

在语音识别过程中加入连续语流中声学地标的检测与分割,可以提高识别系统的可靠性和噪声鲁棒性(Robustness)。

从语音识别等应用角度来看,由于区别特征具有声学属性,所以具有较好的可操作性,又由于具有感知属性,所以具有较好的可靠性和对语音发音变化的鲁棒性。

1 连续语流中声学地标的检测与分割
通过对普通话检测如下特征的声学地标:辅音性、阻塞性、擦音性、送气性、响音性、延续性、鼻音性、元音性和后位性。

然后选择这些区别特征和语音特征(它们
具有好的声学不变性),使用它们易于对汉语普通话语音进行区分。

具体内容如下: 1)录制和加工语料库。

建立一个多说话风格、多语速和多说话人的连续语音语料库,并对其中部分语料进行人工标注。

该语料库用于通过感知实验寻找区别特征的感知线索,测量声学参数在各音素特征上的值,设置声学参数之间的层级和权重,以便训练和测试算法。

2)寻找语音特征的主要感知线索并量化它们之间的互补关系。

拟采用的方法是:(1)
依据文献介绍的研究结果,需要时以小规模感知实验对其进行验证;(2)对于文献介
绍不足的特征及其参数值,设计感知实验,得到其感知线索及其之间的互补关系。

感知实验方法是:利用信号处理方法人为并有步骤地改变语音的感知线索,得到系
列语音作为听觉刺激;被试的任务是辨识和区分,依据实验的统计结果,确立线索
之间的互补关系。

如,清塞音的送气特性的主要感知依据有VOT和除阻后类似擦音[h]的出现,需要确定当[h]出现时产生送气感的VOT的最小值,以及[h]不出现时产生送气感的VOT的最小值。

最后,拟使用模糊逻辑方法量化这些互补关系。

3)测定每个参数在每个感知线索上的值。

测定每个参数在孤立发音单音节语音上的值,如将该值作为检测的阈值(静态阈值),会受到发音变化的影响;为此还要测定每个参数在不同语速连续语音流中的值,以得到语速对静态阈值的影响关系,在此基础上消除语速影响。

在以上测量中还要在其中寻找具有高稳定性的典型阈值,并定为分层级检测的第一层(基础条件层)。

籍此还得到了在基础条件层下剩余参数的条件分布。

4)测定连续语流的语速。

由于汉语音节结构简单,每个音节最多只有4个音素,
音节界限分明,所以很多语速测定算法对于汉语连续语音流都有很好的效果;并且
本系统对于语速精确度的要求不是非常高,所以可以有很多较成熟的算法供选择。

本系统采用基于能量和过零率的综合检测算法。

5)通过建立每个参数与语速之间的映射关系补偿语速影响,得到归一化阈值。

虽然选择检测声学地标的参数具有较好的稳定性,但是仍会受到语速的影响。

通过上述步骤得到语速值、参数静态阈值和不同语速下的阈值,利用线性回归建立参数阈值与语速的对应关系。

在原阈值中可以去除语速影响,得到归一化阈值,从而补偿语速对阈值的影响。

6)设计并实现分层级多参数加权综合检测算法。

由于各参数对不同线索的检测能力不同,各待检特征之间不是平行独立的,有些特征的检测需要以另外的特征检测为条件,所以需要为不同特征设计不同的分层级检测方法。

另外,各参数对同一线索的检测能力不同,检测结果可能不一致甚至相反,需要对这些参数的检测结果给与不同的权重,综合每个参数的检测结果。

例如,当有些参数的取值超出标准阈值达到一个新的阈值时,它就具有极高的确定性,就可以被作为一个确定性前提条件,然后对其他参数检测结果进行加权,这就是以该参数为前提的分层级加权综合检测。

其作用是消除不同说话人、说话风格和语音语境的影响。

这是模拟人的感知过程。

设计一个声学地标检测算法的最大难度在于,既要检测到尽可能多的特征(所包含
特征具有完备性),还要算法的检测结果有高准确性和鲁棒性。

利用目标设定的区
别特征和语音特征,可以完成对汉语普通话音素几乎全部类别的区分,因此具有较好完备性,故算法难点就落在准确性和鲁棒性上。

影响二者的主要因素是说话人、语速、语境和说话风格的变化,这些变化产生了发音不到位(undershoot)现象。

解决的主要办法是使用分层级多感知线索综合检测,该方法也与人的语音感知机理相符。

实现分层级多线索综合检测的具体办法如下:
1)量化同一个区别特征的多条不同感知线索之间的互补关系。

当多条感知线索都一
致地指向某区别特征时,对该区别特征的感知得到加强;而当它们冲突时(一些线索指向某特征,而另一些否定该特征),感知减弱。

特征检测必须找出并量化线索之
间的这种关系。

该问题是检测算法设计性能优劣的基础,需要利用大量的感知实验方可实现。

2)设计分层级多参数加权综合检测算法,并设置算法中的层级和各参数在不同层级下的权重。

各参数对不同区别特征和语音特征的检测能力不同,甚至会出现这些参数间检测结论不一致的情况。

此时,需要根据统计特性给出层级设置和层级下各参数权重,这需要首先检测确定性特征(即测量值达到典型值的参数),然后对每个参数进行设置。

2 结论
通过检测和分割声学地标,可以得到连续语流中语音特征信息的分布,进而达到提高语言识别准确率的目的。

对于目前非常有影响的基于帧特征向量的语音识别方法,加入声学地标信息可将语音识别率提高到95%以上。

[参考文献]
[1]张家禄.汉语普通话区别特征系统[J].声学学报,2005(11):506-514.[2]于水源.语音信号的识别特征[J].牡丹红医学院学报,1996(1):88-91.[3]语音识别研究现状[ED/DL].(2013-09-28)[2014-04-26].http://hi.baidu.com/antwingfox/item/2220af20egc427c005275ao b.。

相关文档
最新文档