语音编码基础知识 PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
编码延时 一般地,编解码算法越复杂,延时越大,会明显
感觉到通话对方反映“迟钝”,甚至造成正常通信困 难。
另外一方面,延时造成回声,传统的电话系统中, 在2-4 线的转换处(混合线圈)因阻抗不匹配,导致 接收者的收话音信号泄露到其发送路径上,返回给发 送者,形成了回声。当延时小时,回声同房间交混, 因此感觉不到;当延迟超过了25ms,能明显感觉到, 从而严重影响通信。
7 wk.baidu.com/2 2.5v
6 1/4 1.25v
5 1/8 0.625v
4 1/16 0.3125v
3 1/32 0.15625v
2 1/64 0.078125v
1 1/128 0.0390625v
00
0v
输入信号为1.05v,则编码为: 极性码: 0 段落码:101 段内码: =(1.25-0.625)/16
= 0.0390625 (1.05-0.625)/ =10.88 取整数10,对应第10量化间隔, 编码为1010 最后完整的码字为:
2.参数编码(声源编码 parametric coding):
根据语音信号产生的数学模型,通过对语音信 号特征参数的提取后进行编码(将特征参数变换成 数字代码进行传输)。在接收端将特征参数,结合 数学模型,恢复语音,力图使重建语音保持尽可能 高的可懂度,重建语音信号的波形同原始语音信号 的波形可能会有相当大的区别。如线性预测(LPC) 编码类。编码速率低,2.4-1.2kb/s,自然度低, 对环境噪声敏感。
C3C2C1C0 : 表示每一段落的16个均匀划分的量化 级,称为段内码。
0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111
对输入动态范围为(-5v,+5v), 用A律压扩编码,有:
1 5v
指定组织:国际电信联盟 ITU-T, http://www.itu.int
标准 编码速率 (kb/s)
算法
MOS得 应用 分
G.711
64 u律或a律PCM 4.3 公用网
G.721
32
ADPCM
4.1 公用网
G.723.1 5.3
ACELP
3.2 无线网
G.729
8
CS-ACELP 3.8 无线网
主观评价方法 评价指标:清晰度或可懂度、音质。前者是指语音
是否容易听清楚;后者指语音听起来有多自然。
(1)可懂度评价 DRT:Diagnostic Rhymer Test (2)音质评价: MOS:Mean Opinion Score 平均意 见得分和DAM:Diagnostic Acceptability Measure 判断满意度得分。
A(z)
1 ak z k
k 1
A(z / )
p
1 ak k z k
k 1
输入 语音 x(n)
线性 预测 分析
感觉 后继处理 加权 滤波器
三、语音压缩系统的性能指标和评测方法 1.语音压缩系统的性能指标 (1)编码速率 (2)编码器的顽健性 (3)编码器的时延 (4)算法的复杂度和可扩展性
xa(nT) 非线性
压缩
均匀 量化
编码
解码
非线性 x'(nT)
扩张
现在的非均匀量化中,一般采用两种压缩扩张非 均匀量化方法。采样后信号幅度和量化数据之间有两 种对应关系,一种称为u 律压扩(companding)算法, 另一种称为A 律压扩算法。 u 律压扩主要用于北美 和日本等地区的电话通信中。 A 律压扩主要用在欧 洲和中国的地区的电话通信中。
u 律压扩
F (x(n))
X a max
ln
1
|
xa (nT ) X a max
ln(1 )
|
sgn[xa (nT )]
A 律压扩
F
(x(n))
X
Amax
A| 1
xa
(nT) | 1 ln
/X A
A
max
sgn[xa
(nt
)]
ln
A
我国的PCM30/32路基群也采用A律13折线压 缩特性。μ律15折线主要用于美国、加拿大和日 本等国的PCM 24路基群中。
CCITT建议G.711规定上述两种折线近似压缩 律为国际标准,且在国际间数字系统相互连接时, 要以A律为标准。 因此这里重点介绍A律13折线。
FA(x)
1
7/8 6/8
3.混合编码(Hybrid coding):
将波形编码与参数编码相结合,在2.4-1.2kb/s 速率上能够得到高质量的合成语音。规则码激励长 时预测编码RPE—LPT即为混合编码技术。混合编码 包括若干语音特征参量又包括部分波形编码信息, 以达到波形编码的高质量和参量编码的低速率的优 点。
四、已经标准化的语音编码
一般地,要求编解码延时不超过5-10ms。
A端的信号+B端经混 合线圈的回传信号
A端
B端
B端的信号+A端经混
合线圈的回传信号
2.语音压缩系统的性能指标和评测方法 语音质量是衡量语音编码算法优劣的关键性能之
一。语音质量通常分为四类: (1)广播级 (2)网络或电话级 (3)通信级 (4)合成级
语音质量有主观和客观两种评价方法。
√语音信号压缩编码的原理及其评价系统
一、语音压缩的基本依据 二、语音编码的关键技术 三、语音压缩系统的性能指标和评测方法
一、语音压缩的基本依据 是语音信号的冗余度和人的听觉感知机理。 1.存在的时域冗余度: (1)幅度非均匀分布 (2)语音信号样本间的相关性很强 (3)浊音具有准周期 (4)声道的形状及其变化缓慢 (5)语音间隙(静止系数)
由于掩蔽效应,在语音频谱中,能量较高的频 段(共振峰处)的噪声相对于能量较低的频段的噪 声不易被感觉。在度量原始语音和合成语音之间的 误差时,在高能量段允许误差大,因此引入一个频 域的感觉加权滤波器W(z)来衡量语音之间的误差。 加权因子在0~1之间,控制共振峰区域的误差增加。
p
W (z)
均匀量化时,无论大的输入信号还是小的输入 信号一律采用相同的量化间隔,为了适应大的输入 信号,同时又要满足精度要求,就需要增加样本的 位数。 =2V/L=2V/2R,但是对话音信号来说,大 信号出现的机会并不多,增加的样本数就没有充分 利用。因此采用非均匀量化。
其基本思想是:大的输入信号采用大的量化 间隔,小的输入信号采用小的量化间隔。在满足精 度要求的情况下用较少的位数来表示。译码时,采 用相同的规则。也可视为将信号进行非线性变换后 再作均匀量化,如对信号进行对数压缩,微弱的信 号被放大,强的信号被压缩。译码时,指数扩张。
e(n) H (z) 1
1
x(n)
A(z)
p
1 ak zk
k 1
短时预测滤波器
p
x(n) e(n) ak x(n k) k 1
2.语音信号的长时预测 x(n-p),x(n-p+1),….x(n-1)
长时
线性 预测
x(n)
H(z) 1
1
P(z)
r
1
三、编码的分类
1.波形编码(waveform coding):基本原理是在时 间轴上对模拟话音信号按照一定的速率来抽样,然 后将幅度样本分层量化,并使用代码来表示。在接 收端将收到的数字序列经过解码恢复到原模拟信号, 保持原始语音的波形形状。话音质量高,编码速率 高。如PCM编码类(a率或u率PCM、ADPCM 、ADM), 编码速率为64-16kb/s,语音质量好。
GSM
13
RPE-LTP
3.9 无线网
(1)ADPCM:自适应差分脉冲编码 adaptive difference pulse code modulation
(2)CELP : 码 本 激 励 线 性 预 测 ( code excited linear prediction)
(3)ACELP : 代 数 码 本 激 励 线 性 预 测 AlgebraicCode-Excited Linear-Prediction
|
xa (nT) 1 ln A
|
/
X
A
max
sgn[xa
(nt)]
0
|
xa (nT) X Amax
|
1 A
1 A
|
xa X
(nT )
Amax
|
1
(1)输入xa(nT)的范围归一化为(-1~+1); (2)输出FA(x(n))的范围为(-1~+1); (3)A为压扩参数,它反映最大量化间隔和最小量化 间隔的比值。A=87.56
MOS得分为五级:优、良、可、差和坏。 满分为5分,相当调频广播质量;4分以上是 长途电话网标准;3.5分为通信标准; 3.0分 仍有较好的可懂度,保持自然度;2.5分只维 持可懂度, 是战术通信标准。
客观评价方法 (1)波形失真度,用信噪比来度量
SNR
10
*
log
M
M
(s(n))2
5/8
4/8
3/8
2/8 1/8
0 111
1
1
1 32 16 8
4
2
128 1
64
1
xa(nT)
A律压扩编码 采用8位二进制编码:C7C6C5C4C3C2C1C0 C7: 表示信号的极性,称为极性码。0为正,1为负。 C6C5C4:表示段落序号,称为段落码。
000 001 010 011 100 101 110 111
(4)CS-ACELP:共轭结构的代数码本激励线性预测 Conjugate Structure Algebraic-Code-Excited Linear-Prediction
(5)RPE-LTP:长时预测的规则脉冲激励的线性预 测Regular-Pulse Excited LPC with a Long-Term Predictor
2.存在的频域冗余度: (1)非均匀的长时功率谱密度 (2)短时功率谱密度
女声英文a的功率谱
3.人的听觉感知机理 (1)人类的听觉特性具有掩蔽效应 (2)人耳对不同频段声音的敏感程度不同 (3)人耳对语音相位不敏感
4. 语音编码的极限速率
语音中最基本的元素是音素,大约有128~256个, 如果按通常的说话速度,每秒平均发出10个音素,则 信息率为: I=[log2(256)10]bps=80bps
n0
(s(n) sˆ(n))2
n0
(2)频谱失真测量
(3)谱包络失真测量
语音信号的波形编码
一、非均匀量化的PCM编码 二、增量调制编码 三、自适应增量调制编码 四、自适应差分脉冲编码ADPCM 五、自适应预测器 六、自适应量化器 七、ADPCM的总结
一、非均匀量化的PCM编码
把发音看成是以语音速率来传送,则语音编码的极限 速率为80bps,从数字化标准的编码速率64kbps,到极 限速率80bps,之间的距离,对于理论研究和实践有 着极大的吸引力。
二、语音编码的关键技术 语音信号中存在两种类型的相关性: (1)样点间的短时相关性 (2)相邻基音周期之间的长时相关性
1. 语音信号的短时预测模型
接收器 模数转换 压缩编码 IP封装
网 络
播放器 数模转换
解码
IP解包
二、编码速率(信息容量)
用比特/秒(b/s或bps)来度量,用I表示,有: I=R • fs ,R代表每个语音采样值编码所需的比 特数;fs是采样频率。 当fs=8kHz,每个采样值用8比特位来编码,则 编码速率为64kb/s。
bi z (Di)
长时预测滤波器 iq
D为基音周期,长时预测系数{bi}的个数取1 (q=r=0)或3(q=r=1)。 D、{bi} 从语音信号中直 接提取。语音信号通过长时预测,得出基音周期、
增益(振幅大小)。
激励发生器 1
e(n)
P(z)
1
x(n)
A( z )
完整的语音信号的预测模型
3.感觉加权滤波器
语音编码(speech coding)
√概述 √语音信号压缩编码的原理及其评价系统 √语音信号的波形编码 √语音信号的参数编码 √语音信号的混合编码
√概述
一、编码(压缩)的重要性 二、编码速率(信息容量) 三、编码的分类 四、已经标准化的语音编码
一、编码(压缩)的重要性 编码、传输、存储和译码是语音数字传输和数
字存储的必要过程。
随着语音通信技术的发展,压缩语音信号的传 输带宽,降低信道的传输速率,一直是人们追求的 目标。语音编码在实现这一目标的过程中担当重要 的角色。
语音编码就是使表达语音信号的比特数目最小。
数字传输系统模型
信源
信源编码 信道编码
调制
噪声
传输通道
用户
信源解码 信道解码
解调
语音编码应用实例(IP电话)