说话人识别方法优缺点

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章说话人识别方法优缺点

一、概率统计方法

语音中说话人信息在短时间内较为平稳,通过对稳态特征如基音、声门增益、

低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分

类判决。

优点:不用对特征参量在时域上进行规整,比较适合文本无关的说话人识别。

二、动态时间规整方法(DTW)

说话人信息不仅有稳定因素(发声器宫的结构和发声习惯),而且有时变因素(语

速、语调、重音和韵律)。将识别模板与参考模板进行时间对比,按照某种距离

测度得出两模板间相似程度。常用的方法是基于最近邻原则的动态时间规整

(DTW)。

优点:实验结果可以证明,利用改进的多门限多判决DTW法作为说话人识别方法,在一定程度上提高了说话人识别系统的识别率。并且利用多种语音特征组合作为识别的特征矢量时,也获得了较好的识别效果。找出了几种具有较高识别率的特征组合,为进一步研究说话人识别方法提供了更多的语音特征组合方案。缺点:受外界干扰因素大。

三、矢量量化方法(VQ)

矢量量化最早是用于聚类分析的数据压缩编码技术。Helms首次将其用于说话

人识别,他把每个人的特定文本训练成码本,识别时将测试文本按此码本进行编

码,以量化产生的失真度作为判决标准。Bell实验室的Rosenberg和Soong用矢

量量化进行了孤立数字文本的说话人识别研究,得到了较好的识别结果。

优点:当用于训练的数据量较小时,基于矢量量化的方法比较简单,实时性也较好,亦能够达到很好的实验效果,利用矢量量化的说话人识别方法的判断速度快,而且识别精度也不低。

缺点:若是大词汇量或者两个说话的声音较接近时,该方法效果不好,有待于进一步改进。

此外还可以与其它方法进行有效的结合使用,较好的方法与HMM(隐马尔可夫链)的结合。

矢量量化中最常用的搜索方法是全搜索算法和树搜索算法。全搜索算法与码本生成算法是基本相同的,在给定速率下其复杂度随矢量维数K以指数形式增长,全搜索矢量量化器性能好但设备较复杂。树搜索算法又有二叉树和多叉树之分,它们的原理是相同的,但后者的计算量和存储量都比前者大,性能比前者好。树搜索的过程是逐步求近似的过程,中间的码字是起指引路线的作用,其复杂度比全搜索算法显著减少,搜索速度较快。由于树搜索并不是从整个码本中寻找最小失真的码字,因此它的量化器并不是最佳的,其量化信噪比低于全搜索。

四、马尔可夫模型方法(HMM)

隐马尔可夫模型是一种基于转移概率和输出概率的随机模型,最早在CMU和IBM被用于语音识别。它把语音看成由可观察到的符合序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用隐马尔可夫模型识别时,为每个

说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。对于与文本无关的说话人识别一般采用各态历经型HMM;对于与文本有关的说话人识别一般采用从左到右型HMM。HMM不需要时间规整,可节约判决时的计算时间和存储量,在目前被广泛应用。

利用子词单元构成的隐含马尔柯夫模型,构成了一个说话人确认系统,每个子词单元用一个从左至右的HMM描写,每个模型包含2到3个状态。

优点:马尔可夫模型(HMM)的语音识别在解决大词汇量、连续语音、非特定发音人的语音识别方面取得了较好的效果。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。HMM不需要时间规整,可节约判决时的计算时间和存储量。

缺点:由于其需要大量的前期训练工作和大量的存储资源,训练时计算量较大,不太适合在DSP系统中实现,而更适合在PC上完成隐马尔可夫模型方法

五、人工神经网络方法(ANN)

人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理

结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及

对不完全信息的鲁棒性,其性能近似理想的分类器。

优点:

①系统的容错性较强。这是人工神经网络系统的共同特点,即使对一些不合理信息的输入也能够忽略掉,而保证系统的正常运行。

②系统的灵活性较强。规定是活的,而程序是死的,但是对于人工神经网络来说就不是这样了,如果要想改变现有的分类规定,只需要对现有网络进行重新训练就可以了。

③对于不确定信息的处理能力较强,这也是神经网络所共有特点,由于它的本质就是对不确定性信息的处理,用来训练的数据是有限的,而往往在实际中输入的数据是没有对网络进行训练过的,因此网络对它的处理就会有一定的不确定性,但总的来说不会有很大的出入,这也更好的反映了人们进行分类的特点,本来实际上分类就是不精确的数据处理。

④结果采用评语形式,这比现有的纯数值的方式要好。更加直观且界面友好。人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。

缺点:训练时间长,动态时间规整能力弱,网络规模随说话人数目增加时可能大到难以训练的程度。

六、模板匹配法

模板匹配法的要点是:在训练过程中从每个说话人发出的训练语句中提取相应的特征矢量,这些特征矢量能充分描写各个说话人的行为。这些特征矢量称为各说话人的模板。它们可以从单词,数字串或句子中提取。在测试阶段,从说话人发出的语音信号中按同样的处理方法提取测试模板,并且与其相应的参考模板相比较。

首先对每个类别建立一个或多个模版,输入样本和数据库中每个类别的模版进行比较,求相关或距离,根据相关性或距离大小进行决策

优点:直接、简单

缺点:适应性差

将上述方法进行对比,概率统计方法不用对特征参量在时域上进行规整,比较适合与文本无关的说话人识别;动态时间规整方法受外界干扰因素大;马尔可夫模型方法训练时计算量较大;人工神经网络方法训练时间长,动态时间规整能力弱,而人工神经网络方法的网络规模随说话人数目增加时可能大到难以训练的程度,相比较利用矢量量化的说话人识别方法的判断速度快,而且识别精度也不低。所以选择矢量量化方法。

相关文档
最新文档