基于 MBIC 的决策树聚类算法在连续语音识别中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如下:
BIC(i xN ) = - NlogPθ(ˆ i() xN )+ 2αki logN
(6)
其中,ki 是模型 i 的阶数,θˆ(i) =( θ(1 i),…,θ(αii))是模型 i
对应最大似然估计的参数,α ≥ 1. 0。通过最小化式(6)来确
定模型阶数的计算方法被称为 MBIC 方法。
考虑式(6),随着模型 i 的阶数加大,模型的描述能力也
关键词:连续语音识别;决策树聚类;最小贝叶斯信息准则;分裂停止准则 中图分类号:TP391. 42 文献标识码:A
Clustering algorithm based on the MIBC decision-tree for CSR
CHEN Guo-ping1, 2 , DU Li-min1, 2 , FU Yue-wen3 , WANG Jin-lin1, 2
第 12 期
陈国平等:基于 MBIC 的决策树聚类算法在连续语音识别中的应用
2793
起初位于同一棵决策树的根结点上,从根结点开始在某个问 题提问下分裂成两个相继的结点( 称为 yes 和 no 结点),然后 再以相继的结点为根结点,在某个问题提问下继续向下分裂, 直到满足分裂停止准则为止,最后,每个叶结点上的状态就构 成一个共享的状态集合。 1. 1 决策树的构造过程
(2)
结点 Sm 的对数似然值 L( Sm )是通过训练数据观察向量
的均值、方差以及结点的期望占有数近似计算所得。
Σ 先给出 结 点 Sm 的 输 出 分 布 为 高 斯 分 布 N( µm , m
| Sm ),其均值向量和对角协方差矩阵的计算公式如下:
Σ / Σ µˆ(mk) =
γ µ(k) m,i m,i
3. 南京工业大学 信息科学与工程学院,江苏 南京 210009) ( chenguoping97@ tsinghua. org. cn)
摘 要:提出了一种采用最小贝叶斯信息准则( Minimum Bayesian Information Criterion,MBIC)来 最优化控制决策树结点分裂程度的算法。首先在理论上证明了 MBIC 能够较好地解决模型参数复杂 度与训练数据集规模之间的权衡问题,然后给出了基于 MBIC 的决策树分裂停止准则的计算公式。 汉语连续语音全音节识别实验表明:与传统的最大似然准则( Maximum Likeihood Criterion,MLC)相 比,MBIC 对声学模型参数和训练数据集的变化具有更好的适应能力。
1( 2
Klog2π
+
log
σˆ m
+ K)γm
Σ = -
1 2
γm
K
( log2π
k =1
+
log
σˆ(mk)
+
1. 0)
(5)
其中,γm( t)、γm 分别指在 t 时刻结点 Sm 的占有概率和在
观察序列 O 下结点 Sm 的占有概率:
t
Σ Σ γm( t) = γm,(i t),γm = γm( t)。
4)重复步骤 3wk.baidu.com,直到对数似然值的增加值低于设定的域
值。
1. 2 基于 MLC 的分裂停止准则
基于 MLC 的决策树的分裂停止准则是:
ΔLq > Threshold
(1)
ΔLq 是结点 Sm 在 q 提问下分裂前后的对数似然值之差,
即:
ΔLq = L( Sm,(y q))+ L( Sm,(n q))- L( Sm )
i∈Sm
t =1
2 基于 MBIC 的决策树状态共享
2. 1 MBIC 方法 贝叶斯信息准则( Bayesian Information Criterion,BIC)常
用于 ARMA 模型的经验定阶[2],现简述如下:假设有一概率
模型 i 和一数据点集 xN = {x1 ,…,xN },模型 i 的 BIC 计算公式
0 引言
近来主流的连续语音识别系统都采用连续密度的 HMM 模型和上下文相关的声学模型对语音数据进行建模。在连续 语音中,协同发音现象十分严重,采用上下文相关单元是很有 必要的。在实际情况中,由于上下文单元数目通常非常庞大, 训练数据就会显得相对不足,一般会有一半以上的上下文单 元没有对应的训练数据,通过共享不同模型状态可以有效地 解决数据稀疏问题。
γm,i
(3)
i∈Sm
i∈Sm
Σ Σ / Σ σˆ(mk) =[
γm,(i
µ( k) m,i
-
µˆ(mk))2
+
γ
σ ] (k)
m,i m,i
γm,i
i∈Sm
i∈Sm
i∈Sm
(4)
其中 µm,i 、σm,i 、γm,i 分别是结点 Sm 中某元素的第 i 个状态 的均值向量、对角协方差矩阵、占有概率。上标 k 表示向量的
列),又由于 Q( S1 )≥ Q( S2 )⇒L( S1 )≥ L( S2 ),所以可用辅助 函数 Q( Sm )替代 L( Sm )。如果忽略模型内状态转移概率对似 然值计算的影响,可以得到:
T
Σ Q( Sm )≈ lo[g N( ot ,µˆ m ,σˆ m )]·γm( t) t =1
| | = -
通过以上的分析可以看出,MBIC 的这种特性可以很好的
应用于控制决策树结点的分裂:当训练数据充分时,MBIC 倾
向于增大结点分裂,以提高模型的区分能力;当训练数据不充
分时,MBIC 倾向于减少结点分裂,让相似的状态尽可能的绑
定在一起,以提高模型的鲁棒性。
2. 2 基于 MBIC 的分裂停止准则
如图 2,假设结点 S0 分裂成 M 个叶结点 S1 ,…,SM ,则模
1 决策树状态共享策略
图 1 决策树的结构
如图 1,基于决策树的状态共享是一种自顶向下的聚类 过程。假设上下文相关模型的同一个中心基元的同一个状态
收稿日期:2005 - 06 - 22;修订日期:2005 - 08 - 30 作者简介:陈国平(1979 - ),男,江苏宜兴人,博士研究生,主要研究方向:语音识别、语音合成; 杜利民(1957 - ),男,四川人,研究员,博 士生导师,主要研究方向:语 音 信 号 与 信 息 处 理 技 术; 付 跃 文( 1968 - ),男,山 西 孝 义 人,博 士,主 要 研 究 方 向:信 号 处 理 与 模 式 识 别; 王劲林(1964 - ),男,北京人,研究员,主要研究方向:多媒体通信.
Key words: Continuous Speech Recognition ( CSR) ; clustering based on decision-tree; Minimum Bayesian Information Criterion( MBIC) ; splitting and stopping criterion
(1. Speech Interaction Technology Research, Institute of Acoustic, CAS, Beijing 100080, China; 2. Graduate School of Chinese Academy Sciences, Beijing 100080, China;
阈值,可以有效地控制结点的分裂程度,从而改善决策树的聚 类性能。然而最优的阈值却会随着声学模型和训练数据集的 改变而改变。本文提出的最 小 贝 叶 斯 信 息 准 则( Minimum Bayesian Information Criterion,MBIC)可以在模型复杂度和训 练数据规模之间找到一个合理的平衡,从而最优化地控制决 策树结点的分裂程度。
第 k 个分量。给定训练数据中的一观察序列 O = {o1 ,o2 ,…, oT },那么结点 Sm 的对数似然值可以通过下式求得:L( Sm ) =
| logP( O Sm )。直接计算这个公式比较困难,而 L( Sm )的辅助
Σ | | 函数 Q( Sm ) = P( s O,Sm )logP( s,O Sm )( s 表示状态序 all s
模型状态共享策略大致可以分为两类:一类是基于数据 驱动的,另一类是基于决策树的。基于决策树的状态共享可 以得到与基于数据驱动相似的聚类性能,此外这种聚类方法 还为训练数据集中没有包含但实际语流中又可能会出现的语 音单元提供一个较为可靠的参数估计。
基于最大似然准则( Maximum Likeihood Criterion,MLC) 的决策树状态共 享[1]已 在 连 续 语 音 识 别 的 模 型 状 态 共 享 中 得到了广泛应用,但 MLC 本身并不能有效地控制决策树结点 的分裂程度。在大部分情况下,随着分裂数目增多,其似然值 几乎一直在增大,最后的叶结点数目通常和参与共享的状态 数目一样多,无法解决数据稀疏问题。通过人工选取适当的
第 25 卷第 12 期 2005 年 12 月
计算机应用 Computer Applications
Vol. 25 No. 12 Dec. 2005
文章编号:1001 - 9081(2005)12 - 2792 - 03
基于 MBIC 的决策树聚类算法在连续语音识别中的应用
陈国平1,2 ,杜利民2 ,付跃文3 ,王劲林1,2 (1. 中国科学院 声学研究所,北京 100080; 2. 中国科学院 研究生院,北京 100080;
型 U = {S1 ,…,SM }的 BIC 计算公式如下:
M
M
Σ Σ (l U)≈ - Q( Sm )+ 4MKlog γm
m =1
m =1
(7)
其中,K 是向量维数,其余变量的含义和式(5)相同。模
型 U 的维数是 2KM( M 个均值向量,M 个协方差矩阵对角元素
向量)。
图 2 结点分裂
假设结点 S 在问题 q 的提问下分裂成 Sqy 和 Sqn ,令:
Σ 1)训练一组单高斯分布 N( µi ,
)的上下文相关 的
i
HMM 模型;
2)可能共享的状态放在决策树的根结点 S 上并计算其对
数似然值 L( S);
3)对每个结点、每个问题,计算在这个问题下分裂成的
yes 和 no 子结点的对数似然值比父结点的对数似然值的增加
值。记似然值增加最多的结点为 Sm 及其对应问题为 q,并使用 问题 q 分裂结点 Sm;
Δ(q S) = -[ Q( Sqn + Q( Sqy )- Q( S)]+ 4KlogГS (8) 当 Δ(q S)< 0 时结点 S 进行分裂,否则结点 S 停止分裂。 实验中发现,当结点占有数 ГS 比较低时,其中模型状态 输出的高斯分布的方差一般很小,结点更倾向于分裂,这和具
3. College of Information Science and Engineering, Nanjing University of Technology, Nanjing Jiangsu 210009, China)
Abstract: an algorithm based on Minimum Bayesian Information Criterion ( MBIC) was proposed to help optimize the node-splitting degree in a decision tree. First, it was proved in theory that MBIC can find a good balance between the complexity of model parameters and the scale of the training sets. Then, a formula was proposed to describe MBIC decision tree splitting and stopping criterion. Finally, the experiment on Chinese all-syllable recognition shows that MBIC has much better adaptive ability to variable acoustic model parameters and training sets than the classical Maximum Likeihood Criterion method.
随之增强,因而第一项的值会减小,而相应的,第二项( 惩罚
项)的值会增大,所以一般模型阶数不会无限制的增加下去。
如果数据集规模 N 增大,第一项线性减小,而第二项对数增
大,MBIC 倾向于选择阶数较大的模型;如果数据集规模 N 减
小,第一项线性增大,而第二项对数减小,MBIC 倾向于选择阶
数较小的模型。