话音编译码器
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
(CD,DAT)
2. 编码与压缩标准ITU-TSS – Pulse code modulation: PCM – Delta modulation: DM与ADM – Adaptive PCM: APCM – Differential PCM: DPCM
– ADPCM – G.722 , SBC – Global System for Mobile communications GSM协议
第三讲 话音编码
1. 信息量大
信号类型 频率范围 Hz 声道 采样频率 kHz 样本 精度bit 数据率/s (kbit未压缩)
话音
AM FM
高质量音频
200-3400
50-7000 20-15k 20-20k
单
单 立 立
8
11.025 22.050 44.1 48
8
8 16 16
64.0
88.2 705.6 1411.1 1536.0
F A ( x ) sgn( x ) F A ( x ) sgn( x ) A 为压缩量( A x 1 ln A 1 ln( A x ) 1 ln A 0 x 1/ A 1/ A x 1
A 87 . 56 ) F A ( x ) 输出值 ,
13
3.4 增量调制与自适应增量调制
2
话音编译码器
• 波形编译码器
(waveform codecs) 话音质量高,但数据率也很高
• 音源编译码器
• 混合编译码器
(source codecs)
数据率很低,产生的合成话音的音质有待提高 (hybrid codecs)
使用音源编译码技术和波形编译码技术 数据率和音质介于它们之间
3
波形编译码器
21
差分脉冲编码(DPCM)
• 差分信号d(k)是离散输入信号S(k)和预测器输出的 估算值Se(k-1)之差 • Se(k-1)是对S(k)的预测值,而不是过去样本的实 际值
• 接收端
22
自适应差分脉冲编码调制 (ADPCM)
• ADPCM(adaptive difference pulse code modulation) • 综合了APCM的自适应特性和DPCM系统的差分 特性,是一种性能比较好的波形编码。 • 核心想法::①利用自适应的思想改变量化阶的大 小,即使用小的量化阶(step-size)去编码小的差 值,使用大的量化阶去编码大的差值,②使用过 去的样本值估算下一个输入样本的预测值,使实 际样本值和预测值之间的差值总是最小。
• 波形编译码的基本思想
不利用生成话音信号的任何知识而企图产生 一种重构信号,它的波形与原始话音波形尽可能 地一致。
• 最简单的波形编码是脉冲编码调制,
PCM (pulse code modulation) 仅对输入信号进行采样和量化 , 优点:编译码器简单,延迟时间短,音质高。 不足:数据速率比较高,对传输通道的错误比较 敏感。
• S(k)是发送端编码器的输入信号,Sr(k)是接收端译码器输出的信号
19
后向自适应(backward adaptation)
• 从量化器刚输出的过去样本中来提取量化阶信息。 由于后向自适应能在发收两端自动生成量化阶, 所以它不需要传送边信息。
20
2.DPCM(差分脉冲编码、预测编码)
– 利用样本间的相关性,用过去的样本(1~N 个)去估计下一个样本的幅度值,该值称预 测值。 – 对实际信号值与预测值之差进行编码。从而 就减少了表示每个样本信号的位数 – DPCM系统工作时,发端先发送一个起始值, 接着就发送预测误差值。收端把收到的经过 量化的预测误差值与本地计算出的预测值相 加,即得到恢复信号。 – 举例,80(第一个分数),-1(相对于前一 个),+5,-2,-10,
• 编码的数据压缩依据
– 幅度非均匀分布--非均匀编码 – 样本间的相关,即相邻样本之间的取样数据存在 强相关。例如,取样频率8kHz,相邻样本间的 相关系数〉0.85, 相距10个样本间,仍有0.3— 产生预测编码技术
14
1.增量调制Delta Modulation
– PCM:对采样信号的幅度编码 – DM:
17
3.5APCM、DPCM
目的:对PCM 的量化数据(量化数据为s(k))压缩。 一种根据输入信号幅度大小来改变量化阶大小的一 种波形编码技术
1.APCM(Adaptive PCM)
– 方法:根据s(k)的方差,决定量化阶的大小。 – 量化阶大小的改变:每隔几个样本(瞬时)或者较 长时间 – 量化阶的确定:
• 用非线性变换y=F(x), 先将信号压缩后,再均匀量化。 恢复时,用该变换的反函数x=F-1 (y) 对量化值进行扩 展,就可得到重建信号。
10
• 非均匀量化:
– 非线性变换:对数变换ln – 人耳对音量、人眼对光强的感知也呈现对数特 性:声音响一倍,光亮一倍。 – 非均匀量化举例
• 大的信号采用大的量化间隔,小的信号采用小的量 化间隔(P31) • 量化间隔与信号的概率密度成反比。
26
11
3. 律压扩(-law)
F ( x ) sgn( x )
ln( 1 x ) ln( 1 )
其中, x 为输入信号(格式化为 F ( x )为输出信号
[ 1,) 1]
为压缩量, sgn( x ) 取 x 符号( , )
12
4.A律压扩 (A-law)
23
• 接收端的译码器使用与发送端相同的算法,利用传送来的 信号来确定量化器和逆量化器中的量化阶大小,并且用它 来预测下一个接收信号的预测值
24
线性预测编码(LPC)
• 线性预测编码LPC(linear predictive coding) • LPC是通过分析话音波形来产生声道激励和转移 函数的参数,对声音波形的编码实际就转化为对 这些参数的编码,这就使声音的数据量大大减少。 • 线性预测器是使用过去的P个样本值来预测现时 刻的采样值x(n)。
25
GSM算法
• 使用较普遍的波形声音压缩算法 • GSM是Global System for Mobile communications的缩写,可译成全球数字 移动通信系统。 • 1992年柏林技术大学(Technical University Of Berlin)根据GSM协议开发的,这个协议 是欧洲最流行的数字蜂窝电话通信协议。 • CDMA
• 前向:为量化样本的均方差(入端) • 后向:量化器最近刚输出的样本的均方差(出端)。 • See fig 3-13
18
前向自适应(forward adaptation)
• 根据未量化的样本值的均方根值来估算输入信号的电平, 以此来确定量化阶的大小,并对其电平进行编码作为边信 息(side information)传送到接收端
4
音源编译码器
• 音源编译码的基本思想 企图从话音波形信号中提取生成话音的参数,使用这些参 数通过话音生成模型重构出话音 • 声码器(vocoder)
– 其话音生成模型中声道被等效为 时变滤波器(time-varying filter) – 只需要传输:滤波器规格、发声标志、音节周期等等
• 特点:质量远远低于自然话音 ,保密性能好
– 检测信号斜率, 过载时,加大Delta。 斜率减 少时,减少Delta. – 具体方案:
• Song在1971:每当输出不变时,Delta增大50% 每当输出值改变时, Delta减少50% • Greefkes70年:输出连续出现三个相同的值,量化 阶就加上一个大的增量,否则就加上一个小的增量
5
混合编译码
• 混合编译码的基本思想
企图填补波形编译码和音源编译码之间的间隔
• 最成功并且普遍使用的编译码器
时域合成-分析AbS(analysis-by-synthesis)编译码器
6
7
3.2 PCM
1. PCM的概念(参见图3-7)
t
t
模拟声波的数字化示意图
8
2.量化
– 均匀量化:
• • • • 等距离分割信号的幅度范围 对每个分割区间,用一个整数值表示 例如信号幅度(-0.9,0.7),分成8个等距区间。 ˆ 量化噪声: x(n) x (n) e ( n )
sign(采样信号与预测的采样信号)
采样信号〉预测的采样信号:编码为1 否则 编码为0 – 只需要1位对话音进行编码,1位系统 – 参见图3-12
15
Байду номын сангаас
16
2. DM的问题
– 信号变化率大:斜率过载(slope overload) – 信号变化率小:粒状噪声(granular noise)
3. ADM(Adaptive DM)
x(n)为未量化的采样值,e(n)为量化误差 • 实际应用中,很少采用
9
– 非均匀量化:
• 语音信号幅度的分布:
– 拉普拉斯分布密度
p(x)
1 2
x
2 x
e
x
• 解释 • 信噪比 • 位数不增加,保证信号的质量
x 是语音信号
x 的均方差
– 根据抽样非均匀分布的特点,设法让量化阶距随信号的概率 密度的减少而增加。或者说把大的量化误差留给出现概率较 小的样值。
(CD,DAT)
2. 编码与压缩标准ITU-TSS – Pulse code modulation: PCM – Delta modulation: DM与ADM – Adaptive PCM: APCM – Differential PCM: DPCM
– ADPCM – G.722 , SBC – Global System for Mobile communications GSM协议
第三讲 话音编码
1. 信息量大
信号类型 频率范围 Hz 声道 采样频率 kHz 样本 精度bit 数据率/s (kbit未压缩)
话音
AM FM
高质量音频
200-3400
50-7000 20-15k 20-20k
单
单 立 立
8
11.025 22.050 44.1 48
8
8 16 16
64.0
88.2 705.6 1411.1 1536.0
F A ( x ) sgn( x ) F A ( x ) sgn( x ) A 为压缩量( A x 1 ln A 1 ln( A x ) 1 ln A 0 x 1/ A 1/ A x 1
A 87 . 56 ) F A ( x ) 输出值 ,
13
3.4 增量调制与自适应增量调制
2
话音编译码器
• 波形编译码器
(waveform codecs) 话音质量高,但数据率也很高
• 音源编译码器
• 混合编译码器
(source codecs)
数据率很低,产生的合成话音的音质有待提高 (hybrid codecs)
使用音源编译码技术和波形编译码技术 数据率和音质介于它们之间
3
波形编译码器
21
差分脉冲编码(DPCM)
• 差分信号d(k)是离散输入信号S(k)和预测器输出的 估算值Se(k-1)之差 • Se(k-1)是对S(k)的预测值,而不是过去样本的实 际值
• 接收端
22
自适应差分脉冲编码调制 (ADPCM)
• ADPCM(adaptive difference pulse code modulation) • 综合了APCM的自适应特性和DPCM系统的差分 特性,是一种性能比较好的波形编码。 • 核心想法::①利用自适应的思想改变量化阶的大 小,即使用小的量化阶(step-size)去编码小的差 值,使用大的量化阶去编码大的差值,②使用过 去的样本值估算下一个输入样本的预测值,使实 际样本值和预测值之间的差值总是最小。
• 波形编译码的基本思想
不利用生成话音信号的任何知识而企图产生 一种重构信号,它的波形与原始话音波形尽可能 地一致。
• 最简单的波形编码是脉冲编码调制,
PCM (pulse code modulation) 仅对输入信号进行采样和量化 , 优点:编译码器简单,延迟时间短,音质高。 不足:数据速率比较高,对传输通道的错误比较 敏感。
• S(k)是发送端编码器的输入信号,Sr(k)是接收端译码器输出的信号
19
后向自适应(backward adaptation)
• 从量化器刚输出的过去样本中来提取量化阶信息。 由于后向自适应能在发收两端自动生成量化阶, 所以它不需要传送边信息。
20
2.DPCM(差分脉冲编码、预测编码)
– 利用样本间的相关性,用过去的样本(1~N 个)去估计下一个样本的幅度值,该值称预 测值。 – 对实际信号值与预测值之差进行编码。从而 就减少了表示每个样本信号的位数 – DPCM系统工作时,发端先发送一个起始值, 接着就发送预测误差值。收端把收到的经过 量化的预测误差值与本地计算出的预测值相 加,即得到恢复信号。 – 举例,80(第一个分数),-1(相对于前一 个),+5,-2,-10,
• 编码的数据压缩依据
– 幅度非均匀分布--非均匀编码 – 样本间的相关,即相邻样本之间的取样数据存在 强相关。例如,取样频率8kHz,相邻样本间的 相关系数〉0.85, 相距10个样本间,仍有0.3— 产生预测编码技术
14
1.增量调制Delta Modulation
– PCM:对采样信号的幅度编码 – DM:
17
3.5APCM、DPCM
目的:对PCM 的量化数据(量化数据为s(k))压缩。 一种根据输入信号幅度大小来改变量化阶大小的一 种波形编码技术
1.APCM(Adaptive PCM)
– 方法:根据s(k)的方差,决定量化阶的大小。 – 量化阶大小的改变:每隔几个样本(瞬时)或者较 长时间 – 量化阶的确定:
• 用非线性变换y=F(x), 先将信号压缩后,再均匀量化。 恢复时,用该变换的反函数x=F-1 (y) 对量化值进行扩 展,就可得到重建信号。
10
• 非均匀量化:
– 非线性变换:对数变换ln – 人耳对音量、人眼对光强的感知也呈现对数特 性:声音响一倍,光亮一倍。 – 非均匀量化举例
• 大的信号采用大的量化间隔,小的信号采用小的量 化间隔(P31) • 量化间隔与信号的概率密度成反比。
26
11
3. 律压扩(-law)
F ( x ) sgn( x )
ln( 1 x ) ln( 1 )
其中, x 为输入信号(格式化为 F ( x )为输出信号
[ 1,) 1]
为压缩量, sgn( x ) 取 x 符号( , )
12
4.A律压扩 (A-law)
23
• 接收端的译码器使用与发送端相同的算法,利用传送来的 信号来确定量化器和逆量化器中的量化阶大小,并且用它 来预测下一个接收信号的预测值
24
线性预测编码(LPC)
• 线性预测编码LPC(linear predictive coding) • LPC是通过分析话音波形来产生声道激励和转移 函数的参数,对声音波形的编码实际就转化为对 这些参数的编码,这就使声音的数据量大大减少。 • 线性预测器是使用过去的P个样本值来预测现时 刻的采样值x(n)。
25
GSM算法
• 使用较普遍的波形声音压缩算法 • GSM是Global System for Mobile communications的缩写,可译成全球数字 移动通信系统。 • 1992年柏林技术大学(Technical University Of Berlin)根据GSM协议开发的,这个协议 是欧洲最流行的数字蜂窝电话通信协议。 • CDMA
• 前向:为量化样本的均方差(入端) • 后向:量化器最近刚输出的样本的均方差(出端)。 • See fig 3-13
18
前向自适应(forward adaptation)
• 根据未量化的样本值的均方根值来估算输入信号的电平, 以此来确定量化阶的大小,并对其电平进行编码作为边信 息(side information)传送到接收端
4
音源编译码器
• 音源编译码的基本思想 企图从话音波形信号中提取生成话音的参数,使用这些参 数通过话音生成模型重构出话音 • 声码器(vocoder)
– 其话音生成模型中声道被等效为 时变滤波器(time-varying filter) – 只需要传输:滤波器规格、发声标志、音节周期等等
• 特点:质量远远低于自然话音 ,保密性能好
– 检测信号斜率, 过载时,加大Delta。 斜率减 少时,减少Delta. – 具体方案:
• Song在1971:每当输出不变时,Delta增大50% 每当输出值改变时, Delta减少50% • Greefkes70年:输出连续出现三个相同的值,量化 阶就加上一个大的增量,否则就加上一个小的增量
5
混合编译码
• 混合编译码的基本思想
企图填补波形编译码和音源编译码之间的间隔
• 最成功并且普遍使用的编译码器
时域合成-分析AbS(analysis-by-synthesis)编译码器
6
7
3.2 PCM
1. PCM的概念(参见图3-7)
t
t
模拟声波的数字化示意图
8
2.量化
– 均匀量化:
• • • • 等距离分割信号的幅度范围 对每个分割区间,用一个整数值表示 例如信号幅度(-0.9,0.7),分成8个等距区间。 ˆ 量化噪声: x(n) x (n) e ( n )
sign(采样信号与预测的采样信号)
采样信号〉预测的采样信号:编码为1 否则 编码为0 – 只需要1位对话音进行编码,1位系统 – 参见图3-12
15
Байду номын сангаас
16
2. DM的问题
– 信号变化率大:斜率过载(slope overload) – 信号变化率小:粒状噪声(granular noise)
3. ADM(Adaptive DM)
x(n)为未量化的采样值,e(n)为量化误差 • 实际应用中,很少采用
9
– 非均匀量化:
• 语音信号幅度的分布:
– 拉普拉斯分布密度
p(x)
1 2
x
2 x
e
x
• 解释 • 信噪比 • 位数不增加,保证信号的质量
x 是语音信号
x 的均方差
– 根据抽样非均匀分布的特点,设法让量化阶距随信号的概率 密度的减少而增加。或者说把大的量化误差留给出现概率较 小的样值。