基于高斯混合模型的说话人识别系统

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

&
使得这一 大似然估计推测, 就是要找到 >?? 的参数, 说话人 >?? 产生的训练音特征{6 !3!%!, …, &, ;}为 最 的 $ 。在语音的各帧 大, 即找满足 $ %GH= /G5 /(6 3$ )
;
(:) 式中, —— 41—均值矢量; —— 方 差 矩 阵 , 既可以用满矩阵, 也可以简 % 1—协 化为对角矩阵。 整个高斯混合模型可以由各均值矢量、协方差矩 阵及混合分量的权值来描述。因此, 将一个模型 $ 表 示为三元式:
特征统计独立时, 有 /(6 3$ ) 由式 < (6 ) %# /(6 !3$ )。
! ) !
识别一帧数据属于哪一个说话 %GH= /G5 /(6 31)可 知 , 人,可以通过计算此帧数据在各个模型中的似然概率 值, 并取其最大值。随之而来的一个问题是: 如何通过
第&期
朱青松, 等: 基于高斯混合模型的说话人识别系统 中的 +( 可写作: ’ " *! )
$ $!
图!
’ ’
$ )% /(1!%1 3 6 !, $ ) % 21 /(6 ! 3 1!)1, /(6 ! 3$ )
213( 1 6 1)
-

"2 3 ( 6 )
" " ! "%!
(D)
7898: ?8BCBiblioteka Baidu6
分 别 求 5 式 相 对 于 三 个 参 数 21、 & 1、 % 1 (1 %!, &, …, -)的偏导为 E 时的参数值。 使 式(!)最 大 , 可 在混合权值和为 ! 的限定下, 得:
(++)
显然投票法与 概 率 得 分 法 相 比 属 于 一 种 硬 决 策 , 打分畸低的那些帧的负面影响被消除了, 同时, 一些对 识别用正面影响的帧的打分也被归一化掉了,某种程 度上造成了一些有益于识别的信息。综合两种考虑, 引 入可信度的思想来坚固以上两种优势。具体做法为: 设 比较一帧语音在各个模型中的打分, 只 定一个门限 *, 有当最高打分高于次高打分的程度超过门限 * 时才记 入最后的概率均值。这一算法的形式表示为 (" ) % )-./ 0-1 + $! 式中,
!"#$%&’$ : 286 A9A6? A?GAGE6E 9 A?GM9M;<;>F 9D6?9I6 9<IG?;>8N ;:>G O8;78 >86 7?6J;>9M<6 J6I?66 ;E ;:>?GJP76JB 9;N6J 9> A?6D6:>;:I 9M:G?N9< <GO:6EE H?GN 8;I8 G77P??6:76 ;: A?GM9M;<;>F E7G?;:I GH EGN6 H?9N6 ;: >86 O9F GH 9D6?9I6 A?GM9M;<;>F E7G?;:I 9:J A?G>67>;:I EGN6 PE6HP< E7G?6E 9I9;:E> <GEE ;: >86 9<IG?;>8N GH DG>;:I4 Q> ;E A?GD6J >89> >86 9<IG?;>8N :G> G:<F 7GNM;:6E >86 9JD9:>9I6E GH >86 >OGB MP> 9<EG 6:9M<6E >86 ?6EA67>;D6 :6I9>;D6 6HH67>E >G M6 6<;N;:9>6J >G 9 76?>9;: 6R>6:>4 5<IG?;>8N ;NA?GD6E >86 A?67;E;G: GH EA69S6? ?67GI:;>;G:4 ()* +,%-# : /9PEE;9: N;R>P?6 NGJ6<T EA69S6? ?67GI:;>;G:T 9<IG?;>8N
收 稿 日 期 * ’%%)$!’$’!
(它可以将人在多个短时间内的能量分布谱构造成多 识别采用引 个高斯分布) 。通过 10 算法[ )]进行训练, 入置信度的基于概率打分的算法。考虑到说话人声音 特征具有时变性, 系统加入了说话人自适应部分[ ’], 从 而能够根据说话人识别的结果对其模型参数进行实时 更新, 以适应说话人特征的变化, 避免系统的准确率随 着时间的推移而大幅度地下降。
第 !( 卷
第’期









UG<4!( VG4’ 09?4 ’%%(
’%%( 年 ) 月
WGP?:9< GH X6;<G:IL;9:I Q:E>;>P>6 GH Y7;6:76 = 2678:G<GIF
文章编号: !"#!$%!!&( ’%%() %’$%!!)$%(
基于高斯混合模型的说话人识别系统
! % !
$ " /(1%1 36 ,
! !
这里指对角阵情况, ( 1" &、 6 1、 & " 1 分别指相应矢量的任一 (2) 直到收敛。 元素。这样, A8BC*6 和 ?8BC*6 反复迭代,
, /(0 3$ ) %"213( 1 0)
1 ) !
式中, —— 一个 . 维的观测矢量; 0—
-
21" %
! % ! ; -
"’ ( 1 )
! !
" "’ ( 1 )
! % ! 1 % ! ; ! !
%! ;
;
;
$ "/(1 %136 ,
! ! ! % !
) ,
(.)
& "# ! % ;!
$ "’ (1)6 "/(1 %136 ,
! !
) 6! , ) (F)
#!
% ! ;
!"#
高斯混合模型 高斯混合模型 本 质 上 是 一 种 多 维 概 率 密 度 函 数 。
!"#$%#& &#’()*+,+(* -.-,#/ 0$-#1 (* 2$3--+$* /+4,3&# /(1#5
!"# $%&’()&’, * # +,%-%&’, !". /0 "1%2%&
( 06789:;79< = 1<67>?;79< @6A>4B .8;:9 C:;D6?E;>F GH 0;:;:I 9:J 2678:G<GIFB K6;L;:I !%%%&)B .8;:9)
&
#"!


—— …, 21—混合权值, 1%!, &, - 且 "21 %!4
1 ) !
基于概率打分的说话人辨认 设说话人训练音的特征为{6 !3!%!, …, &, ;} 1 按照最
— —— . 维高斯函数, 即 3( 1 0)
3( % 1 0)
!
1
.!& (&! ) %
・ ( *5678 ! (0*4) 9, " 0*41) !! &
++%
一段语音的特征向量序列 ! ) {" #*#)+, …, &, $, 来判断此 说话人的归属。 以往采用的方法有概率打分和投票法。 概率打分法是传统的辨认方法。其思想是比较测试语 音段各帧概率打分的算术平均值, 可 表 示 为 :%( " ))
$
(" , …, +( ), -’./, 0 ’), ’)+, &, 1, (+’) ’ " *! ) 所以, 无需对它们进行 -’ 和 0 ’ 已用 :9 算法估计出来, 有两种方法: 中心估计, 只需对 / 进行估计, (+) 视新的均值为 -’./, 而过去的均值为 -’。由于 均值的含义可粗略地 认 为 是 训 练 音 特 征 的 算 术 平 均 , 因此,可用输入音特征的算术平均与训练音特征的算 术平均的差矢量作为 /。 (&)只对 / 以最大的似然准则用 :9 算法迭代进 行估计,在给出它的初始值 / 后可得每下一步的迭代 公式, 为
;
(!) (!) (!,( ) "+’( &, +#" %"(+’#" !+!!# #"
( )*’ ( )*’
!
(&) 式中, (!) 称为动态倒谱。由 +’ 是长为 &( ,! 的窗, # #" 于两种倒谱一个反映了静态信息,一个反映了动态信 息, 两者互相补偿, 充分表征了说话人声道的模型。 分 倒谱系数是通过 "#$ 分析得到的,阶数为 !-, 析间隔为 . /01窗长为 2& /0。
$
/) + $ 67:
系统
/) -’}, (+!) !{"#5!&("#*! ,
# ) + ’ ) +
式中: {" #*#)+, …, &, $}为输入音特征。 系统可用图 +;图 ’ 表示。
(" ) % )-./ 0-1!" (’, -./ 0-1 &(" #*! )),
# ) +
" (’,( ) )+, 34 ’)( 。
! 时刻 " 阶倒谱系数 #" 是短时寓意谱取对数后的
傅立叶反变换, 可表示为 (!) #" %
78987 A8BC*6
%&"
! &!
!) * ! () $(" ,
’!
!
+" 。(!)
求训练数据落在假定的隐状态 @ 的概率:
这个倒谱是语音在某一时刻某一帧的倒谱。它反 映了语音信号倒谱的静态信息, 为静态倒谱。由于任意 时刻的某一帧倒谱将有所不同,即静态倒谱随时间作 缓慢变化。 这个变化的轨迹即倒谱的动态信息。 利用在 有限长窗函数内的多项式 来 拟 合 倒 谱 系 数 的 轨 迹 , 一 阶正交多项式系数,即用时间上的广义 谱 斜 率 表 示 (!) 。 # #"
!!:









第 !: 卷
{21, …, $ % 41, % 1}, 1%!, &, -。
(;)
!
!"!
训练模型
语音特征提取 系统所采用的特征参数为静态倒谱系数和动态倒
!"$ %& 算法
($ , , 且 引入辅助函数 5 $ ")
-
($ , (/(6 , 5 $ ") % "/(6 , 1 3$ ) (<= 1 3$ ")),
本无关的两种方式。“与文本有关” , 即指说话人按规
%


定的文本发音或按提示发音; “与文本无关”指无论说 什么话都可进行说话人识别。文中讨论的是与说话人 无关的说话人辨认系统。 说话人辨认系统大致包括三个部分: 说话人语音特 征参数提取部分、 语音训练部分以及识别部分。文中采 , 作为 用 ,-. 倒谱(!" 阶)以及一阶差分倒谱(!" 阶)
! % ! ;
"’ (1)
! ! % ! ;
! % !
$ "/(1%1 36 ,
! !
用多个高斯分量的线性组合来表述说话人样本在声学 特征空间中的分布。其模型由一个具有 - 个混合数的 即 . 维高斯分量的加权和来表示,
-
$ "/(1 %136 ,
! !
) 6& ! 。 ) (!E)
( & #$
" 1
[ ’] 说话人语音参数。构造数学模型采用的是 /00 算法
说话人识别是语音识别的一种。它是通过对收到 的说话人语音信号进行分析和提取,自动地确定说话 人是否在所建立的说话人集合里面,并确定说话人是 谁的过程。说话人识别又可以分为说话人辨认和说话 人确认两种。前者是把待检测的说话人的语音和所建 立的说话人集合里的所有说话人进行比较,从中判定 其是否为其中的一个, 是多选一的问题。后者则是根据 待测说话人的语音,确定是否与其所声称的参考的说 话人相符。这种确认只有两种情况, 或是肯定(即得到 对于说话人识别来说, 不 确认) , 或是否定(拒绝承认 +。 管是辨认还是确认,都可以分为与文本有关的和与文
$ 1
-./ 0-1 + $
从极大似然的角度来讲, 当测试 !&(" *! 2。
# # ) +
语音的帧数无限多时,这一度量就能够逼近概率打分 的真实分布。但是, 在实验中发现, 单个帧的概率打分 往往容易出现畸低的情况,少数的例外情况会影响整 个打分。采用投票法来归一化各帧打分对最终结果的 影响。即把每帧在各个模型中的打分进行比较, 对打分 最高的那个模型投一票, 如此累计, 最后计完所有帧之 后, 得票数最多的模型就是说话人辨认的结果。这一算 法的形式化表示为
1 % !
谱系数。 倒谱系数反映的是说话人声道特征。在所有声道 的音段参数中,基于 "#$ 的倒谱参数最能有效反映说 话人特征。
(-) {21, …, 式中, $ "% 41, % 1, 1 %!, &, -}为 模 型 的 另 一 组 参 (6 3$ )为 进 入 参 数 为 $ 的 >?? 的 隐 状 态 @, 且 数; 2 借助这一辅助函数实现 >?? 参 特征为 6 的概率密度。 数的优化。
朱青松, 吴仕明, 张海斌
(中国矿业大学 机电系, 北京 !%%%&))

要:针对概率得分均值法出现的单个帧概率打分容易畸低的情况以及投票法因归一化而损失
掉正面影响帧的打分, 提出了一种引入可信度的均值方法, 实验证明: 该方法兼顾二者的优势的同时, 在 一定程度上消除了各自产生的不利影响, 提高了说话人识别的精度。 关键词: 高斯混合模型; 说话人识别 !算法 中图分类号: 2-)3!4(’ 文献标识码: 5
相关文档
最新文档