CELP编码器的实现及其在TTS系统中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2000-06-26
作者简介:岳东剑(1964-),男,陕西西安人,副教授,工学博士,现在摩托罗拉中国研究中心工作.
CELP 编码器的实现及其在TTS 系统中的应用
岳东剑,柴佩琪,宣国荣
(同济大学计算机科学与工程系,上海 200092)
摘要:在对最新的M PEG4中的音频编码中码激励线性预测CEL P(code ex cited linear pr edictive)编码器分析和研究的基础上,根据其窄带语音编码器的参数模式,建立和实现了一个基于CEL P 的语音编码实验系统.将高效的CELP 编码技术应用于文语转换T T S(tex t to speech)系统中语音数据库的压缩,效果是满意的.关键词:分析合成法;码激励线性预测编码;文语转换系统
中图分类号:T N 912 文献标识码:A 文章编号:0253-374X(2001)05-0571-05
Implement of a High Quality Speech Coder Based on CELP
and Its Application in TTS System
YUE Dong j ian,C H AI Pei qi,X UAN Guo rong
(Department of Computer Scien ce and Engineering,Tongji University,S hanghai 200092,Ch i na)
Abstract :In this paper,w e analyse the new CELP (code excited linear predictive)coder in audio part of M EPG4.A speech coding prototype system based on CELP for narrow band speech is designed and imple mented.An idea of utilizing the CELP speech coding technique for compression of speech database in TT S (text to speech)conversion system is proposed.Synthesis experiments show the decoded speech is high natu ral.
Key words :analysis by sy nthesis;code ex cited linear predictive coding;tex t to speech system
1 CELP 编码技术的基本原理
CELP 是基于分析合成方法、感觉加权、矢量量化(VQ)和线性预测(LPC)技术而构成的一个闭环、综合和高效的语音编码系统.其基本原理概括为:用一个自适应码本中的码字来逼近语音的长时周期性(基音)结构;用一个固定的随机码字来逼近语音经过短时、长时预测后的残差信号.从两个码本中搜索出的最佳码字,乘以各自的最佳增益后再相加,其和即为CELP 的激励源.将激励信号输入P 阶LP 合成滤波器
1/A (Z),得到合成语音信号s (n)^
,s(n)^
与原始语音s (n)的误差经过感觉加权滤波器W (Z ),得到感觉加权误差e(n).CELP 用感觉加权的最小均方误差MSPE 准则作为搜索最佳码字及其增益的测度准则.自适应码本与随机码本的搜索过程基本一致,差别在于码本结构和目标矢量的不同.码矢量搜索算法详见文献[1,2].
其中声道模型H (Z )给出了声道的传输函数,在大多数情况下可用一个P 阶全极点函数来表示,见式(1);{a i }为预测器系数.感觉加权滤波器的特性由预测器系数{a i }和加权因子 (取值在0~1之间,通常取0.8)来确定,见式(2).
第29卷第5期2001年5月
同 济 大 学 学 报
JOURNAL OF T ONGJI U NIVERSIT Y Vol.29No.5 M ay.2001
H (Z)=1
P
i=0
a i Z -i
a 0=1,a i R
(1)
W (Z)=A (Z)A (Z )=(1-
P
i=1
a i Z
-i
)(1-
P
i=1
a i i
Z
-i
)(2)
2 MPEG 4的CELP 编码器特性分析
在1999年底作为标准推出的MPEG4(ISO/IEC14496)的音频编码部分,给出了一个在2kbit !s -1
到64kbit !s -1比特率范围内的自然音频信号编码的完整方案.它定义了三类编码器,分别实现很低速率、中低速率和中高速率的音频编码,采用的是参数编码、CELP 编码和变换编码等技术.
M PEG4CELP 编码器模式可用下列3个参数进行配置,有八种可能的模式.见表1.
(1)采样率:可设置为16kHz 或8kHz 模式.16kHz 时,使用固定码本的规则脉冲激励,相应LPC 阶数为20;8kHz 时,使用多脉冲激励,相应LPC 阶数为10.
(2)量化:可设置为标量量化器(SQ )或矢量量化器(VQ)模式.由于LPC 参数有多种表示形式.在M PEG4CELP 编码器中使用了其中的两种参数:对数面积比LARs (log area ratios)和线谱对LSPs(line spectral pairs).前者采用SQ,后者采用VQ.
(3)精细速率控制:允许小步距的速率控制.
表1 MPEG4C ELP 编码器的模式Tab.1 Encoding m odes of CELP in MPEG4
模式采样率模式
量化模式精细控制位率可调
带宽可调
变速率激励类型∀16SQ ON Y Y RPE #8SQ ON Y Y
M PE ∃16SQ OFF Y RPE %8SQ OFF Y
M PE &16VQ ON Y RPE ∋8VQ ON Y Y
M PE (16VQ OFF RPE )
8
VQ
OFF
Y
Y
M PE
对于自适应码本,其构成比较简单.它是由最新产生激励矢量构成的一串序列来表示的,其初始为零,在编码过程中,通过不断的将最新的激励矢量序列移入,同时丢掉最老的激励矢量序列,以达到自适应的目的.这里共有256个码矢量字.其中每个码矢量就是不同延迟的一小段序列;其维数(即段的长度),就是子帧的尺寸;它的索引,就用此序列的延迟来表示.
CELP 中随机码本的结构,是影响编码效率和质量的重要因素,是各类基于CELP 技术的编码器的区别性特征.它相对于自适应码本而言,在编码过程中是固定不变的,常称为固定码本.在MPEG4的CELP 编码器的第)种模式中,其固定码矢量只包含若干幅度为-1或1的非零脉冲,此时,只需用每个脉冲的可能位置及其符号(+/-)就可实现码矢量的表示.在不同的速率下脉冲的数目、分配给码矢量的比特数是不一样的,表2为编码率在3850bps 和6000bps 时的情形.
表2 固定码本的码矢量比特分配表
Tab.2 Bits allocation table of code vector of f ix codebook
速率模式/bps
脉冲数脉冲位置的比特数/bits 脉冲符号/bits
帧尺寸(样点数)
子帧数子帧尺寸(样点数)
600072473204803850
3
14
3
160
2
80
可生成一个脉冲位置限制表.根据脉冲位置限制表产生算法[1,2],以及不同速率下的固定码本中的子帧尺寸、脉冲数目及其分配的比特数,就可为其构造相应的脉冲位置限制表,将每个脉冲的可能位置限制在由限制表限定的一个代数结构中.表3为编码速率为6000bps 时的脉冲位置限制表.在此具有代数结
572
同 济 大 学 学 报
第29卷