码本大小对矢量量化性能影响的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
S1(m),S2(m),...Si(m),即当X∈S(l m)时,下式应成立:
(4) 计算总畸变)D(m):
D(m) =
J
d ( X ,Yl(m1) )
l1 xSl( m )
D (m)
(5) 计算畸变改进量∆ D(m)的相对值 (m): (m)= D (m)
D(m1) D(m)
=
D(m)
(6)
五 判决识别并输出结果
最后计算出的总平均失真误差最小的码本所对应的字 (或词),并进行判决。判决过程就是:对于输入信号计 算得到的测度,根据若干准则及专家知识,判决选出最好 的结果,并将之输出。总平均失真误差最小的码本即为最 优码本。以上 ,就完成了一个完整的选取最优码本大小 过程。
计算新码本的码字
Y1(
m),Y2
(m),...YJ(m)
:源自文库
Y(m) l
=
(7) 判断 (m)<δ?若成立,执行(9);否则,执行(8)。
1 X
N l X Sl(m)
(8) 判断m<L?若成立,令m=m+1,执行(3);否则,执行(9)。
(9) 迭代停止,输出 Y1(m),Y2(m),...YJ(m) ,作为训练成码本的码字,并输出总畸变 D(m)。
输出
分帧、加窗
提取特征参 数
运用LBG算法设计 码本
计算平均失真
一 分帧、加窗
在按帧进行语音分析,提取语音参数前,有一些经常使 用的短时分析技术必须预先进行,如加窗和分帧处理。分 帧虽然可以采用连续分段的方法,但为了使帧与帧之间平 滑过渡,保持其连续性,一般要采用如下图所示的交叠分 段方法。前一帧和后一帧的交叠部分称为帧移。帧移和帧 长的比值一般取0~1/2。
MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标 度描述了人耳频率的非线性特性,它与频率的关系可用下 式近似表示: Mel(f)=2595*lg(1+f/700) 式中f为频率, 单位为Hz。Mel倒谱系数的提取过程如图所示:
三 运用LBG算法设计码本
LBG算法是基于分裂技术的劳埃德迭代算法,也称GLA算法,该算法的主要特点是每次迭代是失真减小的,是一种 递推算法,从一个事先选定的初始码本开始进行迭代,直到系统性能满足要求或者不再有明显的改进为止。下 面给出以欧氏距离计算两个矢量畸变时的LBG算法的具体实现步骤:
矢量量化在语音识别中的 基本过程
矢量量化在语音识别中应用时,一般是先用矢量量化
的码本作为语音识别的参考模板,对输入的语音信号进行
预处理,即对语音信号进行分帧即加窗。然后进行语音特
征参数的提取,即 Mel 频率倒谱系数(Mel Frequency
Cepstrum Coeficient,MFCC)。接下来,进行最重要的步
国内外研究动态 早在20世纪50年代就提出了矢量量化方法,后来在50
和60年代被用于语音压缩编码,70年代后矢量量化技术应 用逐渐广泛起来,80年代初,矢量量化技术得到迅速发展。 在二十世纪六十年代初期和中期,出现了最早的矢量量化 思想。1980年由Linde,Buzo和Gray将聚类算法引入到矢 量量化器设计中,提出了一种著名的矢量量化码书设计算 法,即LBG算法(又称为GLA算法),该算法物理概念清 晰,算法理论严密且算法容易实现,LBG算法是矢量量化 技术发展的一个甩程碑,从此展开了对矢量量化的理论和 应用的全面研究。
码本大小对矢量量化性能影响的研究
——信息工程 冯丹 指导老师:简志华
矢量量化的概念
随着计算机和大规模集成电路的飞速发展,科技越加 发达,大量的语音、图像等多媒体信息要进行存储、处理 与传输,需要很大的存储空间和信道带宽。因此必须对数 字信号进行量化压缩来提高存储效率和减小存储空间。矢 量量化是20世纪70年代后期发展起来的一种极其重要的数 据压缩和编码技术,广泛应用于语音编码、语音合成、语 音识别和说话人识别等领域。矢量量化在量化时用输出组 集合(码本)中最匹配的一组输出值(码字)来代替一组 输入采样值(输入矢量),其理论基础是香农的速率失真 理论,其基本原理是用码本中与输入矢量最匹配的码字的 索引代替输入矢量进行传输和存储,而解码时只需简单的 查表操作。
为了保持语音信号的短时平稳性,利用窗函数来减 少由截断处理导致的 Gibbs效应。使用最多的两种窗函 数是矩形窗、汉明窗。其表达式如下:(其中N为帧长)
矩形窗:
(n)
{1,0n(N 1) 0,n其他值
(n)={ 汉明窗:
0.540.46cos[2n/(N 1)],0nN 1
0,n=其他值
二 提取特征参数(Mel 频率倒谱系数MFCC)
四 计算平均失真
设计矢量量化器的关键是编码器的设计,在编码过程中,需要引 入失真测度的概念。失真测度(距离测度)是将输入矢量Xi用码本重构 矢量Yj来表征时所产生的误差或失真的度量方法,它可以描述两个或 多个模型矢量间的相似程度。我们最常用的为欧氏距离测度:设未知 模式的K维特征矢量为X,与码本中的某个K维码矢Y进行比较,xi,yi 分别表示X和Y的同一维分量(0≤i≤K-1)。 (1)均方误差欧氏距离:
式中,(X,Y)的下标2——平方误差。 (2)r方平均误差:
(3)r平均误差:
• (4) 绝对值平均误差
这里相当于是r=1时的平均误差,绝对值平均误差失真测度的主要优点是 计算简单、硬件容易实现。 • (5) 最大平均误差
这里相当于是r →∞时的平均误差。 (6) 加权欧氏距离测度
式中,w(i)——加权系数。将上式用于码本训练及识别,这个过程实质上等 效于在训练及识别时采用不加权的欧氏距离而对特征矢量的各个分量进行 预加重。常采用的加权函数有:
(1) 设定码本和迭代训练参数:设全部输入训练矢量X的集合为S;设置码本的尺寸为J;设置迭代算法的最大迭代 次数为L;设置畸变改进阈值为δ。
(2) 设定初始化值:设置J个码字的初值Y1(0),Y2(0),...Yi(0);设置畸变初值 D(0)=∞;设置迭代次数初值m=1。
(3)假定经过m次迭代根据最近邻准则将S分成了J个子集 d(X, )≤d(X, ) ∪i,i≠l
骤--矢量量化的码本设计,较常应用的码本设计算法就是
LBG(Linde-Buzo-Gray)算法。最后,计算每个码本的总平
均的失真量化误差,就是语音每一帧特征矢量与码本的失
真之和除以该语音的长度(帧数)。总平均失真误差最小
的码本所对应的字(或词)即为识别结果。具体过程如下
方框图所示 :
判决结果并
语音信号