语音编码
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
量量化。
1980年,Linde,Buzo和Hoyd将Hoyd-Max算法推广到k维空间。提出了设计矢量量 化器的一般的方法,称为LBG算法。
从LBG算法开始,矢量量化的研究进入有效的实用和全面展开的阶段。人们针对
失真测度的探讨、码书设计,快速搜索算法和实阶应用系统展开研究。下图是一
个矢量量化器的示意图,它将输入矢量X量化成为输出矢量Yi
2
2
2
V/64~V/32 P010ABCD
4
3
4
5
V/32~V/16 V/16~V/8
V/8~V/4
P011ABCD P100ABCD P101ABCD
8
16 32
6
V/4~V/2 P110ABCD
64
7
V/2~V P111ABCD
128
其中,=Xmax/(212-1),编码位数为m=8,用PxyzABCD表示。P表示 极性,xyz表示段落码。不同的段落采用不同的量化步长。同一段落内量化 是均匀的。ABCD是段内信号幅值,共有13个不同的量化步长。除去符号位, PCM 码 的 7 位 量 化 值 表 示 12 位 的 动 态 范 围 。 以 8K 采 样 率 计 , PCM 码 率 为
·2m=2Xmax
4。非均匀量化
当M一定时,为了表示较大的动态范围,=Xmax/2m-1要取较大值。 这样,在信号幅值较小时,产生较大误差。为了兼顾动态范围和小信号 的系统精度。Reeves提出非均匀量化概念。即对大信号取较大的量化步 长。对小信号取较小的量化步长。等价地说,先将大信号缩小,小信号
2。采样 按周期T对模拟信号进行测量,称为采样。采样频率Fs=1/T.
在满足奈奎斯特定理时,从采样值可准确的恢复原信号。(时间 轴上的离散化)
3。量化
用数字信号表示话音的过程称为量化。具体做法是:将模拟
信号的连续标称值划分成有限个区间,1=[a0,a1),…,n=[an-1,an)在 每个区间i中选一个代表值fii。对任一模拟信号,当其标称值 属于区间i时,就用fi代表之。(幅度轴上的离散化) 量化位当数i。=ai如-ai果-1=Xcomnaxs是t (信I=号1,2最,…大n)绝时对,值称,即为|均X|<匀=量Xm化ax,。那N=么2m称和为m 应满足
64Kb/s.
1.4 矢量量化
矢量量化是对标量量化在K维空间的一个推广。或者说,标量量化是 矢量量化在维数为1时的特例。下表是由标量量化与矢量量化的比较:
量化对象 集合划分 量化过程
量化方法
标量量化 单个采样点 在一维幅度轴上划分有限个区间 1=[a0 a1)…n=[an-1 an)
在每个区间里,选一个代表值 fii I=1,2,…n
目前IP电话所用的编码的标准有G.723.1, G.728, G.729。这 些编码的算法各有特点。毫无疑问,一个具有低延迟、低码率、 低复杂性、高音质的话音编码算法将是未来IP电话网络的奠基石。
1.3 若干概念术语
1。数字信号 按照美国国家标准协会ANSI的表述:标称的不连续信号。它
可以用离散的步差从一个状态转变到另一个状态。
80年代的研究表明以基于综合的分析方法A-B-S(Analasys-Basedsynalasys)为基础的CELP是最具潜力的编码方案。
1991年 美国政府标准FS-1016 4.8k CELP标准 30ms/帧
1992年 CCITT制定G.728标准 LD-CELP 16k 5样点/帧 延迟0.625ms
扩大,再用均匀量化方法编码。在接收端,以同样的规律将信号复原, 以求系统的线性。
5。G.711对数PCM编码方案
1972年,CCITT采纳了北美的-律压扩和西欧的A-律压扩。作为推 荐的标准G.711.在1的范围内。
-律
S
(t)
ln[1 s(t)] ln(1 )
A-律
S A (t)
sgns[gsn([ts)(]t1)] 1Aln|
1
d2 (x, y) k
k
(xi yi )2
i 1
d1(x, y)
1 k
k
| xi
i 1
yi
|
d (x,
y)
max
1ik
|
xi
yi
|
dm (x, y) x Rx x / y Rx y 1
其中 x {1, x1, x2,... xP} 是x的线性预测系数向量, y {1, y1, y2,... yP} 是y的线性预测系数向量,
i=,1.2….m 使平均失真最小, 也就是说对与码本A={y1,y2,...yM},如果矢量空间X 中的某一矢量x与码矢y的距离小于x与其他任何码矢yi的距离,则xSi
Si={x | x Zi 且 d (x yi) d(x yj) j i yj,yi A}
这样划分的子空间称为胞腔(Voronoi Cell)
2. 对划分后的子空间Si求出其形心作为新的最佳代表矢量Yi,从而构成新 的码本。
将上述步骤反复迭代,最终求出最佳码本和量化器。 3. 初始码本的选择: (1)随机选取 迭代时间较长
(2)分裂法
先取码书尺寸M=1,用全部训练矢量求出形心A(1)={y1(1)},
再将其分裂为2,取=(12...k),令A(2)={y1(2) , y2(2)}…..其中
无线 FM 无线 AM 14 位 16k
64k PCM 8 位 8k
(Toll)G.711
224k PCM 64k 子带 ADPCM
88 年 G.722
10 20 50 200
3400
7000 1600 20000 Hz
LPC技术中用二元激励模型,显得有些粗糙,AT&T实验室的Atal研究组 针对LPC激励模型提出一系列改进方案。
码书 A={Y1,Y2,…YN}
码书 A={Y1,Y2,…YN}
输入矢量
X 计算失真测度 d(Xi,Yi) i i X ∈ Rk i=arg min d(X,Yi)
依据 i 寻找 Yi
Yi
2.2 矢量量化的数学定义
将k个样点构成的有序集(信源矢量集合)映射为M个恢复失量构成的有限 集A(码书,码本)中的某个矢量Yi(码字,码元)的映射,称为矢量量化。
电话系统中。
1975年 Cohm等人将自适应预测和自适应量化引入到DPCM编码体制中,称为自适应差值脉
码调制(ADPCM)。CCITT于1984年制定了ADPCM标准G.721。与此同时一种称为连续可变斜率
增量调制(CVSD)的编码技术也在工业上广泛得到应用。70年代后期语音编码技术研究较为
活跃。在时域上有自适应预测编码(APC),LPC等;频域上有自适应变换编码(ATC)。LPC
Rx是的自相关阵。
总之对输入信号的k维矢量x,它与码本中的某个码量y的距离,表 达了用y代替x所付出的代价,称为失真测度。
2.3 码本设计的LBG方法
下面设计码书的方法由Linde, Buzo 和 Gray在1980年提出,称为LBG方法, 1 . 在 矢 量 空 间 X 中 , 进 行 最 佳 划 分 , 即 , 把 X 划 分 成 M 个 子 空 间 Si
1996年 ITU制订G.729标准 CS-ACELP 10ms/帧 8k
1996年 ITU制订G.723.1标准 ACELP 10ms/帧 6.3k和5.3k两种速率
值得一提的是VQ量化技术,它是混合编码算法的基础,对话音编码方法 的研究与发展起了非常重要的作用。
话音编码研究的历史表明,这一领域的研究成果直接为通信 产业发展提供了源动力。通信产业起源于1874年发明电话,从那 时起,通信产业大致发生了三次革命性变化。第一次变革发生在 70年代初,由于1972年CCITT组织公布了第一个话音编码标准 G.711即对数PCM编码。数字程控交换机网络逐步淘汰了传统的模 拟交换网络。1988年欧共体13个国家GSM组织制订的13k长时预 测规则码激励标准和1989年美国CITA组织制订的8kb/s矢量和激 励标准奠定了无线移动通信网络的基石。以新型的计算机因特网 为主干的信息高速公路,在全世界范围迅速发展。在Internet网 上传输话音具有很低的信道占用率,因此花费很低。 IP电话将使 因特网为第三个话音通信传输系统。
1981年 提出残差激励
1984年 提出多脉冲激励
1985年 提出码激励CELP(或称矢量激励VXC 1988年)
1988年 泛欧移动通信工作组(GSM)公布了13k 长时预测规则码激励线 性预测标准RPE-LTP-LPC 成为后来移动通信手机标准。
1989年 美国蜂窝通信工业协会(CTIA)公布了北美移动通信编码标准 8k/s矢量和线性预测(VSELP)标准,成为CDMA移动通信编码标准。
对任一模拟信号,当其标称 值 属于区间i时,就用数字信号fi代 表值
矢量量化
K个采样点
在k维空间里,划分成有限个子空间 S={Si|i=1,2,…M}
在每个子空间里,选一个代表矢量 Yi={Yi1,Yi2,…Yii} Yi {Si} i=1,2,…M
对任一k维模拟信号的矢量。 当其 标称值属于子区间Si时,就用代表矢 量Yi去量化之。
语音编码
一、历史与概念
1.1模拟的声音信号
话音信号 通信传输系统中代表口语发声的200Hz~3400Hz信号
调幅广播信号 无线广播传输体统中50Hz到7000Hz信号
调频广播信号 无线广播传输系统中20Hz到16000Hz信号
激光唱机信号(CD) 10Hz~20000Hz
1.2 话音编码技术的历史回顾
2 矢量量化
2.1 背景
1956年,Steinhans提出并系统阐述了最佳矢量量化的问题
1957年,Hoyd《PCM中最小平方量化》一文针对标量量化讨论了如何划分区间和 如何求量化值的问题。与此同时,Max也得出了同样的结果。其中某些算法对矢 量量化的发展有重要的影响。
1964年,Newmax研究了正六边形定理。 1977年,Berger《率矢真率》一书出版。 这一阶段的工作为后来矢量量化进入实用奠定了理论基础。 1978年,Buzo设计了第一个矢量量化器,并对语言信号的线性预测参数进行了矢
D(Q,F)=E[d(x,y)]=E[d(x,q(x)] 大小而定,这是信源的分布函数,当F未知时D取时间平均。
所谓最优矢量量化器Q*(A,S),就是对给定的维数k和码书规模M,使得平 均失真最小的矢量量化器,即,
D( Q* , F )<=D( Q , F)
这里矢量测度一般 取: 1, 欧式距离 2, 绝对值 3, 最大平均误差 4, 模型失真测度
s(t) |
ln A A | s(t)
|
0
| s(t) | 1/ A 1/ A | s(t) | 1
1 ln A
作为一个例子,下表给出S(t)为正值,A=87.6时,13折线A-律的定义:
段落号
0
1
输入范围 s(t)
输出码型
0~V/128 P000ABCD
V/128~V/64 P001ABCD
量化步长
1930年 Keeves获得了脉冲编码调制(线性PCM)的专利批准,开创了话音数字化先河。
ቤተ መጻሕፍቲ ባይዱ
1950年 CuHer 提出对信号的差值进行量化并传输可以获得更好的编码效率。称为差值脉
码调制(DPCM)并获得专利批准。
1972年 CCITT组织(现已为ITU)公布了对数PCM的标准G.711。现已普遍应用于数字程控
y1(2)=y1(1)+ y2(2)=y1(1)-
并按M=2求出新的形心,得到M=2时的码书,依次将其扩充至M。当进到空 胞腔时,去掉该胞腔,将最大的胞腔分裂为2。
4. LBG方法不是最优化方法,即迭代 过程不能保证收敛到全局最小值。 后来 有人提出模拟退火法,将LBG方法收敛到 局部最小值时,采用某种扰动将迭代过 程继续进行下去。
一个矢量量化器可以表示成码书。
A={Yi;i=1,2,...M} Yi={yi1,yi2,...yik} 和 子 空 间 划 分 S={si;i=1,2,...M} , 其 中 Si={xRk,q(x)=Yi} 以 及 映 射 q:Rk-->A 三部分。记作
Q(A,S) 矢量量化器的性能,以其输入矢量x和输出矢量Y=q(x)失真的期望值
编码技术提出了参数编码的概念,将多个样点组成的信号帧提取参数,采用二元激励模型并
对参数编码取得很高的压缩率。美国政府标准FS-1015 2.4kps LPC-10标准,用于声码器中。
这一时期研究工作主要有MIT林肯实验室的拉宾纳等人。
高保真立体音频 16 位 44.1k 905.6k PCM ISO 1990 压缩 64k~128k MPEG 每声道在 32k~448k
1980年,Linde,Buzo和Hoyd将Hoyd-Max算法推广到k维空间。提出了设计矢量量 化器的一般的方法,称为LBG算法。
从LBG算法开始,矢量量化的研究进入有效的实用和全面展开的阶段。人们针对
失真测度的探讨、码书设计,快速搜索算法和实阶应用系统展开研究。下图是一
个矢量量化器的示意图,它将输入矢量X量化成为输出矢量Yi
2
2
2
V/64~V/32 P010ABCD
4
3
4
5
V/32~V/16 V/16~V/8
V/8~V/4
P011ABCD P100ABCD P101ABCD
8
16 32
6
V/4~V/2 P110ABCD
64
7
V/2~V P111ABCD
128
其中,=Xmax/(212-1),编码位数为m=8,用PxyzABCD表示。P表示 极性,xyz表示段落码。不同的段落采用不同的量化步长。同一段落内量化 是均匀的。ABCD是段内信号幅值,共有13个不同的量化步长。除去符号位, PCM 码 的 7 位 量 化 值 表 示 12 位 的 动 态 范 围 。 以 8K 采 样 率 计 , PCM 码 率 为
·2m=2Xmax
4。非均匀量化
当M一定时,为了表示较大的动态范围,=Xmax/2m-1要取较大值。 这样,在信号幅值较小时,产生较大误差。为了兼顾动态范围和小信号 的系统精度。Reeves提出非均匀量化概念。即对大信号取较大的量化步 长。对小信号取较小的量化步长。等价地说,先将大信号缩小,小信号
2。采样 按周期T对模拟信号进行测量,称为采样。采样频率Fs=1/T.
在满足奈奎斯特定理时,从采样值可准确的恢复原信号。(时间 轴上的离散化)
3。量化
用数字信号表示话音的过程称为量化。具体做法是:将模拟
信号的连续标称值划分成有限个区间,1=[a0,a1),…,n=[an-1,an)在 每个区间i中选一个代表值fii。对任一模拟信号,当其标称值 属于区间i时,就用fi代表之。(幅度轴上的离散化) 量化位当数i。=ai如-ai果-1=Xcomnaxs是t (信I=号1,2最,…大n)绝时对,值称,即为|均X|<匀=量Xm化ax,。那N=么2m称和为m 应满足
64Kb/s.
1.4 矢量量化
矢量量化是对标量量化在K维空间的一个推广。或者说,标量量化是 矢量量化在维数为1时的特例。下表是由标量量化与矢量量化的比较:
量化对象 集合划分 量化过程
量化方法
标量量化 单个采样点 在一维幅度轴上划分有限个区间 1=[a0 a1)…n=[an-1 an)
在每个区间里,选一个代表值 fii I=1,2,…n
目前IP电话所用的编码的标准有G.723.1, G.728, G.729。这 些编码的算法各有特点。毫无疑问,一个具有低延迟、低码率、 低复杂性、高音质的话音编码算法将是未来IP电话网络的奠基石。
1.3 若干概念术语
1。数字信号 按照美国国家标准协会ANSI的表述:标称的不连续信号。它
可以用离散的步差从一个状态转变到另一个状态。
80年代的研究表明以基于综合的分析方法A-B-S(Analasys-Basedsynalasys)为基础的CELP是最具潜力的编码方案。
1991年 美国政府标准FS-1016 4.8k CELP标准 30ms/帧
1992年 CCITT制定G.728标准 LD-CELP 16k 5样点/帧 延迟0.625ms
扩大,再用均匀量化方法编码。在接收端,以同样的规律将信号复原, 以求系统的线性。
5。G.711对数PCM编码方案
1972年,CCITT采纳了北美的-律压扩和西欧的A-律压扩。作为推 荐的标准G.711.在1的范围内。
-律
S
(t)
ln[1 s(t)] ln(1 )
A-律
S A (t)
sgns[gsn([ts)(]t1)] 1Aln|
1
d2 (x, y) k
k
(xi yi )2
i 1
d1(x, y)
1 k
k
| xi
i 1
yi
|
d (x,
y)
max
1ik
|
xi
yi
|
dm (x, y) x Rx x / y Rx y 1
其中 x {1, x1, x2,... xP} 是x的线性预测系数向量, y {1, y1, y2,... yP} 是y的线性预测系数向量,
i=,1.2….m 使平均失真最小, 也就是说对与码本A={y1,y2,...yM},如果矢量空间X 中的某一矢量x与码矢y的距离小于x与其他任何码矢yi的距离,则xSi
Si={x | x Zi 且 d (x yi) d(x yj) j i yj,yi A}
这样划分的子空间称为胞腔(Voronoi Cell)
2. 对划分后的子空间Si求出其形心作为新的最佳代表矢量Yi,从而构成新 的码本。
将上述步骤反复迭代,最终求出最佳码本和量化器。 3. 初始码本的选择: (1)随机选取 迭代时间较长
(2)分裂法
先取码书尺寸M=1,用全部训练矢量求出形心A(1)={y1(1)},
再将其分裂为2,取=(12...k),令A(2)={y1(2) , y2(2)}…..其中
无线 FM 无线 AM 14 位 16k
64k PCM 8 位 8k
(Toll)G.711
224k PCM 64k 子带 ADPCM
88 年 G.722
10 20 50 200
3400
7000 1600 20000 Hz
LPC技术中用二元激励模型,显得有些粗糙,AT&T实验室的Atal研究组 针对LPC激励模型提出一系列改进方案。
码书 A={Y1,Y2,…YN}
码书 A={Y1,Y2,…YN}
输入矢量
X 计算失真测度 d(Xi,Yi) i i X ∈ Rk i=arg min d(X,Yi)
依据 i 寻找 Yi
Yi
2.2 矢量量化的数学定义
将k个样点构成的有序集(信源矢量集合)映射为M个恢复失量构成的有限 集A(码书,码本)中的某个矢量Yi(码字,码元)的映射,称为矢量量化。
电话系统中。
1975年 Cohm等人将自适应预测和自适应量化引入到DPCM编码体制中,称为自适应差值脉
码调制(ADPCM)。CCITT于1984年制定了ADPCM标准G.721。与此同时一种称为连续可变斜率
增量调制(CVSD)的编码技术也在工业上广泛得到应用。70年代后期语音编码技术研究较为
活跃。在时域上有自适应预测编码(APC),LPC等;频域上有自适应变换编码(ATC)。LPC
Rx是的自相关阵。
总之对输入信号的k维矢量x,它与码本中的某个码量y的距离,表 达了用y代替x所付出的代价,称为失真测度。
2.3 码本设计的LBG方法
下面设计码书的方法由Linde, Buzo 和 Gray在1980年提出,称为LBG方法, 1 . 在 矢 量 空 间 X 中 , 进 行 最 佳 划 分 , 即 , 把 X 划 分 成 M 个 子 空 间 Si
1996年 ITU制订G.729标准 CS-ACELP 10ms/帧 8k
1996年 ITU制订G.723.1标准 ACELP 10ms/帧 6.3k和5.3k两种速率
值得一提的是VQ量化技术,它是混合编码算法的基础,对话音编码方法 的研究与发展起了非常重要的作用。
话音编码研究的历史表明,这一领域的研究成果直接为通信 产业发展提供了源动力。通信产业起源于1874年发明电话,从那 时起,通信产业大致发生了三次革命性变化。第一次变革发生在 70年代初,由于1972年CCITT组织公布了第一个话音编码标准 G.711即对数PCM编码。数字程控交换机网络逐步淘汰了传统的模 拟交换网络。1988年欧共体13个国家GSM组织制订的13k长时预 测规则码激励标准和1989年美国CITA组织制订的8kb/s矢量和激 励标准奠定了无线移动通信网络的基石。以新型的计算机因特网 为主干的信息高速公路,在全世界范围迅速发展。在Internet网 上传输话音具有很低的信道占用率,因此花费很低。 IP电话将使 因特网为第三个话音通信传输系统。
1981年 提出残差激励
1984年 提出多脉冲激励
1985年 提出码激励CELP(或称矢量激励VXC 1988年)
1988年 泛欧移动通信工作组(GSM)公布了13k 长时预测规则码激励线 性预测标准RPE-LTP-LPC 成为后来移动通信手机标准。
1989年 美国蜂窝通信工业协会(CTIA)公布了北美移动通信编码标准 8k/s矢量和线性预测(VSELP)标准,成为CDMA移动通信编码标准。
对任一模拟信号,当其标称 值 属于区间i时,就用数字信号fi代 表值
矢量量化
K个采样点
在k维空间里,划分成有限个子空间 S={Si|i=1,2,…M}
在每个子空间里,选一个代表矢量 Yi={Yi1,Yi2,…Yii} Yi {Si} i=1,2,…M
对任一k维模拟信号的矢量。 当其 标称值属于子区间Si时,就用代表矢 量Yi去量化之。
语音编码
一、历史与概念
1.1模拟的声音信号
话音信号 通信传输系统中代表口语发声的200Hz~3400Hz信号
调幅广播信号 无线广播传输体统中50Hz到7000Hz信号
调频广播信号 无线广播传输系统中20Hz到16000Hz信号
激光唱机信号(CD) 10Hz~20000Hz
1.2 话音编码技术的历史回顾
2 矢量量化
2.1 背景
1956年,Steinhans提出并系统阐述了最佳矢量量化的问题
1957年,Hoyd《PCM中最小平方量化》一文针对标量量化讨论了如何划分区间和 如何求量化值的问题。与此同时,Max也得出了同样的结果。其中某些算法对矢 量量化的发展有重要的影响。
1964年,Newmax研究了正六边形定理。 1977年,Berger《率矢真率》一书出版。 这一阶段的工作为后来矢量量化进入实用奠定了理论基础。 1978年,Buzo设计了第一个矢量量化器,并对语言信号的线性预测参数进行了矢
D(Q,F)=E[d(x,y)]=E[d(x,q(x)] 大小而定,这是信源的分布函数,当F未知时D取时间平均。
所谓最优矢量量化器Q*(A,S),就是对给定的维数k和码书规模M,使得平 均失真最小的矢量量化器,即,
D( Q* , F )<=D( Q , F)
这里矢量测度一般 取: 1, 欧式距离 2, 绝对值 3, 最大平均误差 4, 模型失真测度
s(t) |
ln A A | s(t)
|
0
| s(t) | 1/ A 1/ A | s(t) | 1
1 ln A
作为一个例子,下表给出S(t)为正值,A=87.6时,13折线A-律的定义:
段落号
0
1
输入范围 s(t)
输出码型
0~V/128 P000ABCD
V/128~V/64 P001ABCD
量化步长
1930年 Keeves获得了脉冲编码调制(线性PCM)的专利批准,开创了话音数字化先河。
ቤተ መጻሕፍቲ ባይዱ
1950年 CuHer 提出对信号的差值进行量化并传输可以获得更好的编码效率。称为差值脉
码调制(DPCM)并获得专利批准。
1972年 CCITT组织(现已为ITU)公布了对数PCM的标准G.711。现已普遍应用于数字程控
y1(2)=y1(1)+ y2(2)=y1(1)-
并按M=2求出新的形心,得到M=2时的码书,依次将其扩充至M。当进到空 胞腔时,去掉该胞腔,将最大的胞腔分裂为2。
4. LBG方法不是最优化方法,即迭代 过程不能保证收敛到全局最小值。 后来 有人提出模拟退火法,将LBG方法收敛到 局部最小值时,采用某种扰动将迭代过 程继续进行下去。
一个矢量量化器可以表示成码书。
A={Yi;i=1,2,...M} Yi={yi1,yi2,...yik} 和 子 空 间 划 分 S={si;i=1,2,...M} , 其 中 Si={xRk,q(x)=Yi} 以 及 映 射 q:Rk-->A 三部分。记作
Q(A,S) 矢量量化器的性能,以其输入矢量x和输出矢量Y=q(x)失真的期望值
编码技术提出了参数编码的概念,将多个样点组成的信号帧提取参数,采用二元激励模型并
对参数编码取得很高的压缩率。美国政府标准FS-1015 2.4kps LPC-10标准,用于声码器中。
这一时期研究工作主要有MIT林肯实验室的拉宾纳等人。
高保真立体音频 16 位 44.1k 905.6k PCM ISO 1990 压缩 64k~128k MPEG 每声道在 32k~448k