语音识别-矢量量化
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
矢量量化研究的目的?
针对特定的信息源和矢量维数,设计 出一种最优化的量化器,在R(量化速率) 一定的情况下,给出的量化失真尽可能 接近D(R)(最小量化失真)。
图7-2 矢量量化系统的组成
4.3 矢量量化的失真测度
失真测度(距离测度):是将输入矢量Xi用码本 重构矢量Yi来表征时所产生的误差或失真的度量方 法,它可以描述两个或多个模型矢量间的相似程度。
✓一类是无记忆的矢量量化器 ✓另一类是有记忆的矢量量化器
一、无记忆的矢量量化系统
无记忆矢量量化是指量化每一个矢量时都不依 赖于此矢量前面的其他矢量,即每一个矢量都是 独立量化的。
1、全搜索矢量量化器
前面我们介绍的LBG算法,在进行VQ编码时, 采用的就是全搜索法,即对于每个输入矢量,比较 它与每一个码书中的码字的失真,并将失真最小的 码字标号作为输出
最佳矢量量化器满足的两个必要条件
1)Voronoi分割条件(最近邻准则) 对信号空间的分割应满足
Sl {X RK : d ( X ,Yl ) d ( X ,Yi ); i l}
根据该条件可以对信号空间进行最佳划分, 得到的 Sl 称为一个胞腔
2)Centroid质心条件
子空间分割固定后,Voronoi胞元 的质心就是量化器的码字
dr ( X ,Y )
1 K
K i 1
xi
yi
r
2. r平均误差
d
' r
(
X
,
Y
)
[
1
K
K i 1
xi
yi
1
r ]r
3.绝对值平均误差
1 K
d1( X ,Y ) K i1 xi yi
4.最大平均误差
1
d
M
(
X
,Y
)
lim[d
r
r
(
X
,
Y
)]r
max
1i K
xi
yi
二、线性预测失真测度
图7-7 800b/s的VQ LPC声码器框图
对线性预测系数采用了矢量量化,而其余参数 均采用差值标量量化
❖ (了解)模糊c均值聚类算法目标函数为如下式所
示:
NJ
JFCM ( X ,U ,Y )
ukm ( X i )d ( X i,YK ) 式 4-33
i1 k 1
❖ 根据目标函数的模糊c均值类聚算式如下:
3)计算新码字 Y1(m) ,Y2(m) , ,YN(m) :
Yi(m)
1 Ni
X
X Si( m)
4)计算相对失真改进量 (m):
(m)
D( m ) D(m)
D(m1) D(m) D(m)
将 (m)与失真门限值 进行比较。若 (m)
则转入 6)否则转入5);
5)若 m L 则转至6),否则m加1,转至1)
Compute Distortion D
D D'
No
Yes
降低复杂度的矢量量化系统 ()知识 扩展)
• 矢量量化系统主要由编码器和译码器组成: ✓编码器主要由码书搜索算法和码书构成 ✓译码器由查表方法和码书构成
• 矢量量化器的研究主要围绕降低速率、减少失真和 降低复杂度展开。 •降低复杂度的设计方法大致分为两类:
矢量量化研究的目的?
针对特定的信息源和矢量维数,设计 出一种最优化的量化器,在R(量化速率) 一定的情况下,给出的量化失真尽可能 接近D(R)(最小量化失真)。
术语
❖ 码本 Codebook ❖ 码字 CodeWord ❖ 码本大小 Codebook Size ❖ Voronoi Cell 胞腔
以令每个码字的初始隶属度函数为相等的值;
2)对于训练观察矢量序列 X X1, X2,,...,利XN用式(4-34)计算新的
聚类中心 及新Y的k 隶属度函数 ; uk
3)利用式(4-33)的目标函数,判断迭代计算是否收敛。如 果前后差值小于某个阈值,则迭代计算结束,由新的聚类中 心和隶属度函数集组成重估后的新码本;否则继续进行下一 轮迭代计算。
2. 树形搜索的矢量量化系统
• 树形搜索是减少矢量量化计算量的一种重要方法。
• 它又分为二叉树和多叉树两种:
码字不象普通的码字那样随意放置, 而是排列在一棵树的接点上,如图所 示,码本尺寸为M=8的二叉树,它的 码本中共包含14个码字。输入矢量X 先与Y0和Y1比较,计算出失真d(X,Y0) 和d(X,Y1)。如果后者较小,则走下面 支路,同时送出“1”,同理,如果 最后达到Y101,则送出的输出角标 101。这就是矢量量化的过程。
这种失真测度是针对线性预测模型、用最 大似然准则推导出来,所以特别适用于LPC参 数,描述语音信号的情况,常用于LPC编码中。 我们由此又推导出两种线性预测色失真测度, 他们比上述具有更好的性能,即
①对比似然比失真测度
d LLR(
f
,
f
)
ln
p2
2
aT Ra ln( aT Ra )
②模型失真测度
数的初始化为m=1
第二步:迭代
1)根据最近邻准则将S分成N个子集 S1(m) ,
S
(m 2
)
,┅,S N(m,)
即当
X S1(m时) ,下式成
立: d ( X ,Yl(m1) d ( X ,Yi(m1) ), i, j l
2)计算失真:
N
D(m)
d( X ,Yl(m1) )
i 1 XSl( m )
dm(
f
,
f
)
p2 2
1
aT aT
Ra Ra
1
注:这两种失真测度都仅仅比较两矢量的 功率谱,而没有考虑其他能量信息。
三、识别失真测度 失真测度的定义
输入信号矢量的归一化能量
d( f , E) dLLR( f , f ) g( E E )
加权因子 码书重构矢量的归一化能量
0
g(
x
)
x
x
F
( x xd ) (x x xd )
(x xF )
当两矢量的能量接近时(即 E E xd),忽略能量差异引起的影响;当 两矢量能量相差很大时,即进行线性加权;而当能量差超过门限 xF 时,则 为固定值
4 .4 最佳矢量量化器和码本的设计
一、矢量量化器最佳设计的两个条件 最佳设计就是使失真最小 1、最佳划分 2、最佳码书
回顾 失真测度 最佳矢量量化器和码本设计 降低复杂度的矢量量化系统 语音参数的矢量量化
回顾
❖ 矢量量化(VQ,Vector Quantization)是 一种极其重要的信号压缩方法。VQ在语音信 号处理中占十分重要的地位。广泛应用于语 音编码、语音识别和语音合成等领域。
❖ 凡是要用量化的地方都可以采用矢量量化。
第三步:结束
6)得到最终的训练码书 Y1(m) ,Y2(m) , ,YN(m) ,
并输出总失真 D(m)
为了避免迭代算法无限制循环下去,这里设 置了两个阈值参数:最大迭代次数L和失真控制
门限 。 的值设得远小于1,当 (m) 时,
表明再进行迭代运算失真得减小是有限的、可
以停止运算。L是限制迭代次数的参数,防止
Yl E[X X Sl ]
对于一般的失真测度和信源分布,很难找到
质心的计算方法,但对于一般的分布和常用的
均方失真测度,可以证明
1
Yl
Nl
X
XSl
是 S l中包含的矢量个数
二、LBG算法 K-means clustering algorithm
1980年由Linde,Buzo和Gray提出, 它是标量量化器中Lloyd算法的推广,在矢 量量化中是一个基本算法。
表7-1 二叉树与全搜索的比较
失真运算量 比较运算量 存储容量
Байду номын сангаас
全搜索 M=8
M=8
M=8
最佳程度 全体
二叉树 2log2M=6 2log2M=3 2(M-1)=14 局部
二叉树搜索的主要优点是计算量有很大减少而性 能下降并不多,但存储量增加。
2. 多级矢量量化系统
多级矢量量化器由若干级矢量量化器级联而成,因而又 称级联矢量量化器。
一、欧氏距离-均方误差
设输入信号的某个K维矢量X,与码书中某个K维 矢量Y进行比较,xi,yi分别表示X和Y中的各元 素 (1 i K,) 则定义均方误差为欧氏距离:
d2( X ,Y )
1 K
K
( xi
i 1
yi )2
(X
Y )T ( X K
Y)
几种其他常用的欧氏距离:
1. r方平均误差
LBG算法由于其理论上的严密性、应用 上的简便性以及较好的设计效果,得到了广 泛的应用,并常被作为各种改进算法的基础
LBG算法步骤
第一步:初始化
给出训练VQ码书所需的全部参考矢量X, X的集合用S表示;设定量化级数,失真控制门
限 ,算法最大迭代次数L以及初始码
书 {Y1(0) ,Y2(0) , ,YN(0) } ;设总失真 D(0) ;迭代次
用全极模型表示的线性预测方法,广泛应用于语音 信号处理中。它在分析时得到的是模型的预测系数.仅 由预测系数的差值,不能完全表征这两个语音信息的 差别。应该直接由这些系数所描述的信号模型的功率 谱来进行比较。
当预测器的阶数 p ,信号与模型
完全匹配时,信号功率谱为:
f ( )
X (e j ) 2
自适应矢量量化
自适应矢量量化 (Adaptive VQ)是采用 多个码书,量化时根据 输入矢量的不同特征采 用不同的码书。
实际例子:语音参数的矢量量化
语音参数的矢量量化 —— 将语音信号经过分析,得到各 种参数,然后再将这些按帧分析所得的参数构成矢量, 进行矢量量化。
线性预测系数的矢量量化是人们最关心的问题。 例:线性预测编码的矢量量化器(VQ LPC)声码器。
多级矢量量化不仅可以减少计算量还可以减少存储量。 多级矢量量化器由若干个小码书构成。
先采用一个小的码书, 其长度为M1,用它来 逼近输入信号矢量; 然后再用第二个小码 书,其长度为M2,用 它来对第一次的误差 进行编码;输入矢量 与第一级匹配,得到 其地址编号i,然后在 第二级码书中搜索与 这个误差矢量最佳匹 配的矢量,得到其地
址编号j,将 和i 同j
时发送出去,在接受
端根据 和i 来j 恢
复原来的矢量,由于 每本码书的体积较小, 所以采用全搜索法
图7-5 两级矢量量化系统工作框图及码书训练
二、有记忆的矢量量化系统
在量化每一个输入时,不仅与此矢量本身有关,而且
也与前面的矢量有关 。
分类:
有记忆矢量量化系统
反馈矢量量化
预测矢量量化PVQ 有限状态矢量量化 (Predictive VQ) FSVQ(Finite-State VQ)
N
ukm ( X i )gXi
Yk
i 1 N
ukm ( X i )
i 1
,1 k J
uk ( Xi )
J
d
(
X i ,Yk
2
) m1
2
,1
k
J
,1
i
N
j1 d ( X i ,Yj )m1
式 4-34
❖ 模糊矢量量化码本估计的步骤如下:
1)设定初始码本和每个码字的初始隶属度函数u,k 为了方便可
失真测度是矢量量化和模式识别中一个十分重 要的问题,选择合适与否直接影响系统的性能。
失真度选择必须具备的特性
必须在主观评价上有意义,即小的失真应该对应于 好的主观语音质量;
必须是易于处理的,即在数学上易于实现,这样可 以用于实际的矢量量化器的设计;
平均失真存在并且可以计算;
易于硬件实现
失真测度主要有均方误差失真测度(即欧氏距 离)、加权的均方误差失真测度、板仓-斋藤 (Itakura-Saito)距离,似然比失真测度等,还 有人提出的所谓的“主观的”失真测度。
设置较低时迭代次数过多 三、初始码书的选择
① 随机选取法
② 分裂法
分裂法
0.01~0.05
D' D
Find centroid
m=1 Yes
yn yn (1 ) yn yn (1 ) D' 0
m=2*m
Classify vectors
Find Cnetroid
m<M
No Stop
Nearest - Neighbor search K - means chestering
❖ 模糊矢量量化的步骤如下:
1)对于待矢量量化的输入矢量 Xi,模糊矢量量化不是通过矢量 量化把输入矢量 X i量化成为某个码字 Yk ,而是把输入矢量 X i
量化成由隶属度函数组成的矢量U(Xi ) u1(Xi ),u2(Xi),...,uJ (Xi) ,它 表示 X i分别属于码字Yk (k 1, 2,..., J ) 的程度是多少;其中uk (Xi )由 下式给定:
2 预测误差能量
A(e j ) 2
信号的功率谱 预测逆滤波器的频率响应
相应的,设码书中某重构矢量的功率谱为
f ( )
X (e j ) 2
p2
A(e j ) 2
则定义Itakura-Saito距a离T 为
d IS (
f
,
f
)
aT Ra
2
ln
1
p
aT Ra r(0)ra(0) 2 r(i)ra(i) i 1
uk ( Xi )
J
2
d ( X i ,Yk ) m1
2
1
,1