语音编码技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

各种语音编码标准的效果
2.3 语音信号的采样和量化 2.3.1 信号采样
f (t) ys (t)
f (t)
T(t)
T(t)
ys (t)
0
t
F()
0 Ts
t
T()
0 Ts
t
理想低通特性
Ys ()
-m 0 m
-2s
-s
0
s
2s
-2s -s -m0 m s
2s
键盘 鼠标
内存 光驱
电视机
显示卡
显示器
●语音波形
“象棋是中国古代战争的艺术再现,它的棋盘就象一个古战场” 波形
语音波形
“中国”语音波形
语音波形
“国”字语音波形
语音波形
“国”部分语音波形
语音波形
“audio”语音波形
●语音、图像属模拟信号范畴。 ●语音、图像通过编码实现数字化是必然趋势。 ●数字化的语音和图像需要用较高的数码率,需占用较大的带 宽和存储空间。 ●压缩数字化语音和图像信号的数码率是实现语音和图像通信 数字化的关键。 ●编码技术的核心就是研究压缩编码算法.用尽可能低的数码 率获得尽可能好的语音和图像质量。
第2章 语音编码技术
第2章 语音编码技术
本章主要内容 ●语音编码方法、性能及标准 ●语音信号的采样和量化 ●语音模型和LPC声码器 ●数字音频编码标准 ●语音编码器的实时实现
2.1 引言
外部音频 设备
●语音、图像采集
音箱 耳机
话筒
声卡
主机板
硬盘 软驱
电视信号 摄像机 外部网络
视频 捕捉卡 网卡
CPU
混合编码算法
• 80年代以来,低速率(1.2Kb/s一4Kb/s)的参数编码技术也在 迅速发展,对传统声码器不断改进,提出了一些新的语音模 型和方法, • 如混合激励线性预测(MELP)声码器、正弦变换编码器(STC)和 多带激励(MBE)声码器。 • 有的声码器已经可以在2.4Kb/s速率提供满足通信质量的语音。
5 4 3 2 1 0
两种对数压缩特性
y 1 .0 A=8 7.6 0 .8 0 .6 0 .4 0 .2 A=1 0 A=1 0 .8 0 .6 0 .4 0 .2 1 .0 y
=2 55
=3 0 =0
0
0 .2
0 .4
0 .6
0 .8
1 .0
x
0
0 .2
0 .4
0 .6
0 .8
1 .0
x
2.2.2 语音编码性能的评价
• 语音编码的性能可以从4个方面来评价 ●比特率 ●语音质量 ●信号延时 ●复杂度。 1.语音编码质量 数字通信中,语音质量可以分为广播级质量、长途通 信质量或称网络质量、通信质量以及合成语音质量等4 级。
4 级语音质量 ●广播级质量是高质量的宽带(8kHz)广播解说语音。 ●长途电话质量或网络质量是指和传统的电话带宽语音信号 (300 Hz一3400 Hz)相当的质量。 ●通信质量是指语音质量有点下降,但仍然保证足够高的自然 度和可懂度,可满足大多数专用通信要求。 ●合成语音质量是指语音保持足够高的可懂度,但自然度及讲 话人辨认等方面不够好,一般当编码速率低于4Kb/s或 2.4Kb/s时,产生合成语音质量
★压缩编码的3类方法 (1) 概率匹配编码:根据编码对象出现的概率分别给予不 同长度的代码,以保证总的代码最短. (2) 变换编码:将信号从一种信号空间变换到另一种更有 利于压缩编码的信号空间,然后进行编码. (3)识别编码:分解文字、话音、图形和图像的基本特征, 与汇集这些基本特征的样本集对照识别,选择失真最 小的样本编码传送。
2.2 语音编码方法、性能及标准 2.2.1 语音编码的方法 • 语音信号编码分别沿着两个方向发展: • 一个方向是从语音信号波形的特点出发,对波形的采样值, 或其预测值,或其预测误差值进行编码,称为语音信号的 波形编码。 • 另一个方向是从语音信号的产生机理出发,构造语音信号 的模型,提取描述语音信号的特征参数,对模型参数或其 预测值进行编码、称为参数编码或模型编码。

- 2 - 3 - 4 2 3 4 u
(a) e

2 - (b)

2
u
★均匀量化器
• 均匀量化器广泛应用于线性A/D变换接口, • 例如在计算机的A/D变换中,常用的有 8位、12位、 16位等 不同精度。 • 另外,在遥测遥控系统、仪表、图像信号的数字化接口等中, 也都使用均匀量化器。 • 语音信号数字化通信中,均匀量化则有一个明显的不足:量 化噪比随信号电平的减小而下降。 • 产生这一现象的原因是均匀量化的量化间隔Δ为固定值量化 电平分布均匀,因而无论信号大小如何,量化噪声功率固定 不变,这样,小信号时的量化信噪比就难以达到给定的要求。

理想冲激抽样
f (t)
y (t)
k (t)
0
t
0
t
0
t
矩形脉冲抽样
Байду номын сангаас
m(t)
×
ms (t)
★信号的重建
T (t)
(a)
m(t) m(t)的抽样
ms (t)
低通 滤波器 (b)
m(t)
t (n-2 )Ts (n-1 )Ts nTs (n+1 )Ts
对于电话带宽的语音信号,其带 宽限制为300 Hz一3400 Hz,采样 频率均为8000 Hz。
三类语音编码器 ●波形编码 ●参数编码 ●混合编码
★波形编码
• 波形编码以重构语音波形为目的,力图使重建语音波 形保持原话音信号的波形。 • 编码时用数据表示语音信号的时间波形,在解码端通 过重构与原始语音信号相似的波形来得到近似的话音。 • —般具有适应能力强、话音质量好等优点,但所需用 的编码速率高。 • 如脉冲编码调制(PCM)。自适增量调制(ADM)、自适差 分编码(ADPCM)、自适预测编码(APC)、子带编码(SBC、 自适应变换编码(ATC)等都属于这类编码。 • 它们能在64Kb/s一16Kb/s的速率上获得较高的编码 质量。
2.2.3 语音编码技术的发展和语音编码标准
▲长途通信网语言编码标准 ▲数字蜂窝系统的语音编码标准 ▲保密电话语音编码标准
1.长途通信网语言编码标准
现有ITU—T语音编码标准
2.数字蜂窝系统的语音编码标准
数字蜂窝语音编码标准
3.保密电话语音编码标准
• 窄带保密电话应用于带宽受限信通,如短波信道、有线模 拟话路、中小功率卫星信道等。 • 只有美国公布了所用保密电话的标准。 • FS—1015是美国联邦标准2.4Kb/s LPC声码器,该标准由 美国国防部(DOD)制定。 • 对它的研究始于20世纪70年代末期,它采用10阶LPC预测器。
μ律15折线
第8段
63 255
127 255
1
x
G.7ll关于PCM的建议
常用的N=8位,fs=8kHz, 实际应用的B=N〃fs=64 kHz
★自适应量化器
• 自适应量化中,量阶不再是固定的,它 根据输入信号的短时方差进行调整.使 量阶的大小和输入信号电平相匹配 • 前向自适应量化(AQF) • 后向自适应量化(AQB)
●前向自适应量化(AQF)
●后向自适应量化(AQB)
★差分量化器 • 量化之前预处理。对预测后的残差(或余臵)信 号进行量化的称为差分量化器 • 可以提高量化精度或减少编码比特数 • 后向自适应差分量化器 • 前向自适应差分量化器
●后向自适应差分量化器
●前向自适应差分量化器
2.3.3 矢量量化 • 矢量量化(vector Quantation)是一种高效的数据 压缩技术。 • 它将若干个时间离散幅度连续的采样值分为一 组,形成多维空间的一个矢量,再将此矢量进 行量化处理。 • 提高量化效率,降低数码率。
(a) 输出 u 1 (t) v1 (t) u 1 (t) v1 (t) u(t) u(t) v(t) v(t) (b) 输入
压缩特性
输出 压缩曲线 输出 5 4 3 线性变换 输入 A B t (a) 压缩器输入输出示意图 t (b) 扩张器输入输出示意图 B′ A′ B′ t 2 1 0 A′ 输入 B t 扩张曲线 A
★最佳量化器
• 采用非均匀量化器,其量化特性同输入信号的概率密 度函数相匹配可降低量化噪声。
• 在P(x)相对比较高的区域内选择较小的量化间隔, 在其他区域选择较大的量化间隔,以降低总的噪声水 平。
★对数量化器
非均匀量化 u(t) u 1 (t) 均匀 量化 信道 编码 解码 v(t) v1 (t)
4
0 11 1 16 8 4
y 1.0 7/8 6/8 5/8 4/8 3/8 2/8 1/8 0 1/16 1/8 0.2 1/4 1/2 1.0 x
1/128 1/64 1/32
A律13折线
y 1 7 8 6 8 5 8 4 8 3 8 3 2 8 2 1 8 1 1 0 31 255 255 3 7 15 255 255 255 4 5 6 7
★变换编码分为两类. ●一类是预测变换,利用信号的相关性,预测将来的信 号,对预测的误差(余量、残差)进行编码。 ●另一类是函数变换,利用信号在不同函数空间分布的 不同,选择合适的函数变换后进行编码。 ※有的文献只将函数变换编码称为变换编码,而将预测 变换称为预测编码。
※本章主要研究的对象是电话语音信号 带宽:300Hz——3400Hz ※宽带语音及声频信号编码方法要求不同
2.3.2 标量量化
量化是把幅度连续的信号转换成幅度离散的信号, 对 每个离散值分别进行量化称为标量量化。 ●均匀量化器 ●非均匀量化器之一 —最佳量化器 ●非均匀量化器之二 —对数量化器 ●自适应量化器 ●差分量化器
★均匀量化曲线
v 4 3 2 - - - - 4 3 2
(a) A律压缩特性
(b) 律压缩特性
y
1 7 8 6 8 6 5 8 5 4 8 4 3 8 3 2 8 2 1 8 1

13折线A律压扩曲线
8 7 A=87.6 4 8 3 8 2 8 1 8 1 2 1 x 3 2 1 0 1 1 128 64 1~4段折线扩大横坐标图示 1 32 1 x 16 y
2.编码速率
▼编码速率可以用“比特/秒(b/s)”度量,它代表编码 的总速率. ▼编码速率也可以用“比特/样点(b/p)”度量,它代表 平均每个语音样点用多少比特编码. ▼平均每样点的比特数越高,语音波形或参数量化越精 细,语音质员也就越容易做高,相应地对传输带宽或 存储容量的要求也越高.
3.编解码的复杂程度 ▼采用复杂一些的算法能获得较好的话音质量或较低的编 码速率。 4.编解码延时 ▼有回声的系统中,往返总延时超过约100ms时,回声将干 扰正常接收的声音。 ▼对于公用电话网,可能会有几次音频转接.也就是会有 多次语音编解码,因此对单次语音编解码的延时通常要 求不超过5ms—10 ms。 ▼通常允许话音编码延时在几十ms到100 ms之间。当总延 时超过100 Ms时,一般需要采取回声抵消或回声抑制。
★混合编码
• 结合了原有波形编码器质量好和声码器速率低的持 点.克服了它们各自的弱点,称为混合编码算法。 • 最典型的算法都利用线性预测(LP),采用分析合成方法 (Analysis—by—Syntheie,AbS)构成. • 能在4Kb/s一16Kb/s的中速率上得到高质量合成语 音. • 如多脉冲激励线性预测编码(MPLPS)、规则脉冲激励线 性预测编码(RPELPC)、码本激励线性预测编码(CELP) 等。
★参数编码
• 参数编码不以重构原始信号波形为目的. • 它将语音信号分段,提取能表征语音段特征的参数、在解 码端重构一个新的有相似声音但波形不尽相同的语音信号。 • 声码器所用的参数,有的表明声音的短时谱、有的描述语 音产生的数学模型。 • 编码速率低,可以低到2.4Kb/s以下,甚至达到800 b/s。 • 传统声码器由于参数较少,难以重新产生与原始语音相近 的声音,合成的语音质量差. • 通道声码器、共振蜂声码器以及线性预测声码器是传统的 参数编码器。
★矢量量化
简单矢量量化结构
●矢量量化 • 设X=[x1 , x2 , … , xN] T是一个N维实数矢量,其中的元素是幅 度连续的随机变量。 • 在矢量量化器中. X矢量用另一个幅度离散的N维实数矢量Y 匹配,即用Y表示X,或者说X被量化成Y。 • Y选自一有限集合S=Y i (1≤i ≤M),Y i = [yi1 , yi2 , … , yiN]T 。 • 集合S称为码本(codebook)或参考模板(reference template)。 • M称为码本容量。相当于标量量化中的量化电平数。 • 设计一个码本,使N维矢量空间划分为M个区域或单元C i (1≤i ≤M) ,并且每一个单元C i对应一个矢量Y i • 如果有一个矢量X在C i中,量化器就以码本矢量Y i表示。
话音编码研究的目标 ●在4Kb/s时达到长途电话质量 ●在2.4Kb/s左右达到通信质量
语音质量评定方法
• 主观评定方法是以人类听话时对语音质量的感觉来评 定。 • 客观评定方法有信噪比、加权信噪比、平均分段信噪 比等时域的测量方法,还有谱失真测度和LPC倒谱距离 测度等频域测量方法。
主观评定:平均意见得分 (Mean Opinion score,MOS)
相关文档
最新文档