语音编码基础知识 PPT

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

编码延时一般地，编解码算法越复杂，延时越大，会明显
感觉到通话对方反映“迟钝”，甚至造成正常通信困难。
另外一方面，延时造成回声，传统的电话系统中，在2-4 线的转换处（混合线圈）因阻抗不匹配，导致接收者的收话音信号泄露到其发送路径上，返回给发送者，形成了回声。当延时小时，回声同房间交混，因此感觉不到；当延迟超过了25ms，能明显感觉到，从而严重影响通信。
7 wk.baidu.com/2 2.5v
6 1/4 1.25v
5 1/8 0.625v
4 1/16 0.3125v
3 1/32 0.15625v
2 1/64 0.078125v
1 1/128 0.0390625v
00
0v
输入信号为1.05v，则编码为：极性码： 0 段落码：101 段内码： =(1.25-0.625)/16
= 0.0390625 (1.05-0.625)/ =10.88 取整数10，对应第10量化间隔，编码为1010 最后完整的码字为：
2.参数编码（声源编码 parametric coding）：
根据语音信号产生的数学模型，通过对语音信号特征参数的提取后进行编码（将特征参数变换成数字代码进行传输）。在接收端将特征参数，结合数学模型，恢复语音，力图使重建语音保持尽可能高的可懂度，重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测（LPC）编码类。编码速率低，2.4-1.2kb/s，自然度低，对环境噪声敏感。
C3C2C1C0 ：表示每一段落的16个均匀划分的量化级，称为段内码。
0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111
对输入动态范围为（-5v,+5v），用A律压扩编码，有：
1 5v
指定组织：国际电信联盟 ITU-T， http://www.itu.int
标准编码速率 (kb/s)
算法
MOS得应用分
G.711
64 u律或a律PCM 4.3 公用网
G.721
32
ADPCM
4.1 公用网
G.723.1 5.3
ACELP
3.2 无线网
G.729
8
CS-ACELP 3.8 无线网
主观评价方法评价指标：清晰度或可懂度、音质。前者是指语音
是否容易听清楚；后者指语音听起来有多自然。
（1）可懂度评价 DRT：Diagnostic Rhymer Test （2）音质评价： MOS：Mean Opinion Score 平均意见得分和DAM：Diagnostic Acceptability Measure 判断满意度得分。
A(z)
1 ak z k

k 1
A(z / )
p
1 ak k z k
k 1
输入语音 x(n)
线性预测分析
感觉后继处理加权滤波器
三、语音压缩系统的性能指标和评测方法 1.语音压缩系统的性能指标（1）编码速率（2）编码器的顽健性（3）编码器的时延（4）算法的复杂度和可扩展性
xa(nT) 非线性
压缩
均匀量化
编码
解码
非线性 x'(nT)
扩张
现在的非均匀量化中，一般采用两种压缩扩张非均匀量化方法。采样后信号幅度和量化数据之间有两种对应关系，一种称为u 律压扩（companding）算法，另一种称为A 律压扩算法。 u 律压扩主要用于北美和日本等地区的电话通信中。 A 律压扩主要用在欧洲和中国的地区的电话通信中。
u 律压扩
F (x(n))

X a max
ln
1

|
xa (nT ) X a max
ln(1 )
|
sgn[xa (nT )]
A 律压扩
F
(x(n))

X
Amax
A| 1
xa
(nT) | 1 ln
/X A
A
max
sgn[xa
(nt
)]
ln
A
我国的PCM30/32路基群也采用A律13折线压缩特性。μ律15折线主要用于美国、加拿大和日本等国的PCM 24路基群中。
CCITT建议G.711规定上述两种折线近似压缩律为国际标准，且在国际间数字系统相互连接时，要以A律为标准。因此这里重点介绍A律13折线。
FA(x)
1
7/8 6/8
3.混合编码(Hybrid coding)：
将波形编码与参数编码相结合，在2.4-1.2kb/s 速率上能够得到高质量的合成语音。规则码激励长时预测编码RPE—LPT即为混合编码技术。混合编码包括若干语音特征参量又包括部分波形编码信息，以达到波形编码的高质量和参量编码的低速率的优点。
四、已经标准化的语音编码
一般地，要求编解码延时不超过5－10ms。
A端的信号＋B端经混合线圈的回传信号
A端
B端
B端的信号＋A端经混
合线圈的回传信号
2.语音压缩系统的性能指标和评测方法语音质量是衡量语音编码算法优劣的关键性能之
一。语音质量通常分为四类：（1）广播级（2）网络或电话级（3）通信级（4）合成级
语音质量有主观和客观两种评价方法。
√语音信号压缩编码的原理及其评价系统
一、语音压缩的基本依据二、语音编码的关键技术三、语音压缩系统的性能指标和评测方法
一、语音压缩的基本依据是语音信号的冗余度和人的听觉感知机理。 1.存在的时域冗余度：（1）幅度非均匀分布（2）语音信号样本间的相关性很强（3）浊音具有准周期（4）声道的形状及其变化缓慢（5）语音间隙（静止系数）
由于掩蔽效应，在语音频谱中，能量较高的频段（共振峰处）的噪声相对于能量较低的频段的噪声不易被感觉。在度量原始语音和合成语音之间的误差时，在高能量段允许误差大，因此引入一个频域的感觉加权滤波器W(z)来衡量语音之间的误差。加权因子在0～1之间,控制共振峰区域的误差增加。
p
W (z)
均匀量化时，无论大的输入信号还是小的输入信号一律采用相同的量化间隔，为了适应大的输入信号，同时又要满足精度要求，就需要增加样本的位数。 =2V/L=2V/2R，但是对话音信号来说，大信号出现的机会并不多，增加的样本数就没有充分利用。因此采用非均匀量化。
其基本思想是：大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。在满足精度要求的情况下用较少的位数来表示。译码时，采用相同的规则。也可视为将信号进行非线性变换后再作均匀量化，如对信号进行对数压缩，微弱的信号被放大，强的信号被压缩。译码时，指数扩张。
e(n) H (z) 1
1
x(n)
A(z)
p
1 ak zk
k 1
短时预测滤波器
p
x(n) e(n) ak x(n k) k 1
2.语音信号的长时预测 x(n-p),x(n-p+1),….x(n-1)
长时
线性预测
x(n)
H(z) 1
1
P(z)
r
1
三、编码的分类
1.波形编码(waveform coding)：基本原理是在时间轴上对模拟话音信号按照一定的速率来抽样，然后将幅度样本分层量化，并使用代码来表示。在接收端将收到的数字序列经过解码恢复到原模拟信号，保持原始语音的波形形状。话音质量高，编码速率高。如PCM编码类（a率或u率PCM、ADPCM 、ADM)，编码速率为64－16kb/s，语音质量好。
GSM
13
RPE-LTP
3.9 无线网
(1)ADPCM：自适应差分脉冲编码 adaptive difference pulse code modulation
(2)CELP ：码本激励线性预测（ code excited linear prediction）
(3)ACELP ：代数码本激励线性预测 AlgebraicCode-Excited Linear-Prediction
|
xa (nT) 1 ln A
|
/
X
A
max

sgn[xa
(nt)]
0

|
xa (nT) X Amax
|

1 A

1 A

|
xa X
(nT )
Amax
|

1
（1）输入xa(nT)的范围归一化为（－1～＋1）; （2）输出FA(x(n))的范围为（－1～＋1）；（3）A为压扩参数，它反映最大量化间隔和最小量化间隔的比值。A=87.56
MOS得分为五级:优、良、可、差和坏。满分为5分，相当调频广播质量；4分以上是长途电话网标准；3.5分为通信标准； 3.0分仍有较好的可懂度，保持自然度；2.5分只维持可懂度，是战术通信标准。
客观评价方法（1）波形失真度，用信噪比来度量

SNR

10
*
log

M
M
(s(n))2
5/8
4/8
3/8
2/8 1/8
0 111
1
1
1 32 16 8
4
2
128 1
64
1
xa(nT)
A律压扩编码采用8位二进制编码：C7C6C5C4C3C2C1C0 C7：表示信号的极性，称为极性码。0为正，1为负。 C6C5C4：表示段落序号，称为段落码。
000 001 010 011 100 101 110 111
(4)CS-ACELP：共轭结构的代数码本激励线性预测 Conjugate Structure Algebraic-Code-Excited Linear-Prediction
(5)RPE-LTP：长时预测的规则脉冲激励的线性预测Regular-Pulse Excited LPC with a Long-Term Predictor
2.存在的频域冗余度：（1）非均匀的长时功率谱密度（2）短时功率谱密度
女声英文a的功率谱
3.人的听觉感知机理（1）人类的听觉特性具有掩蔽效应（2）人耳对不同频段声音的敏感程度不同（3）人耳对语音相位不敏感
4. 语音编码的极限速率
语音中最基本的元素是音素，大约有128～256个，如果按通常的说话速度，每秒平均发出10个音素，则信息率为： I=[log2(256)10]bps=80bps
n0

(s(n) sˆ(n))2
n0

（2）频谱失真测量
（3）谱包络失真测量
语音信号的波形编码
一、非均匀量化的PCM编码二、增量调制编码三、自适应增量调制编码四、自适应差分脉冲编码ADPCM 五、自适应预测器六、自适应量化器七、ADPCM的总结
一、非均匀量化的PCM编码
把发音看成是以语音速率来传送，则语音编码的极限速率为80bps,从数字化标准的编码速率64kbps，到极限速率80bps，之间的距离，对于理论研究和实践有着极大的吸引力。
二、语音编码的关键技术语音信号中存在两种类型的相关性：（1）样点间的短时相关性（2）相邻基音周期之间的长时相关性
1. 语音信号的短时预测模型
接收器模数转换压缩编码 IP封装
网络
播放器数模转换
解码
IP解包
二、编码速率（信息容量）
用比特/秒（b/s或bps）来度量，用I表示，有： I=R • fs ,R代表每个语音采样值编码所需的比特数；fs是采样频率。当fs=8kHz，每个采样值用8比特位来编码，则编码速率为64kb/s。
bi z (Di)
长时预测滤波器 iq
D为基音周期，长时预测系数{bi}的个数取1 （q=r=0）或3(q=r=1)。 D、{bi} 从语音信号中直接提取。语音信号通过长时预测，得出基音周期、
增益（振幅大小）。
激励发生器 1
e(n)
P(z)
1
x(n)
A( z )
完整的语音信号的预测模型
3.感觉加权滤波器
语音编码（speech coding）
√概述 √语音信号压缩编码的原理及其评价系统 √语音信号的波形编码 √语音信号的参数编码 √语音信号的混合编码
√概述
一、编码（压缩）的重要性二、编码速率（信息容量）三、编码的分类四、已经标准化的语音编码
一、编码（压缩）的重要性编码、传输、存储和译码是语音数字传输和数
字存储的必要过程。
随着语音通信技术的发展，压缩语音信号的传输带宽，降低信道的传输速率，一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要的角色。
语音编码就是使表达语音信号的比特数目最小。
数字传输系统模型
信源
信源编码信道编码
调制
噪声
传输通道
用户
信源解码信道解码
解调
语音编码应用实例（IP电话）