第3章语音压缩编码1024

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在语音信号的子带划分上,应考虑到各频段对主观听 觉贡献相等的原则做合理的分配,使低频段的子带宽度较 窄,高频段的子带宽度较宽。通常语音信号经带通滤波器 组滤波后分成4 ~ 6个子带,子带之间允许有小的间隙,如 图所示。
子带编码原理
• 在子带编码器的设计中,必须考虑子带数目、子带划分、
编码的参数、子带中的比特分配以及带宽等主要参数。
• 把发音看成是以语音速率传送,则语音编码的极 限速率为80bps
• 从数字化标准的编码速率64kbps,到极限速率 80bps之间的距离,压缩比可达64kbps/80bps=800
• 对于理论研究和实践有着极大的吸引力
压缩编码方法分类
• 波形编码
– 原理简单,失真小 – 数码率高
• 参数编码
– 数码率低 – 音质较差,复杂度高
反射系数
增益G
参数编码 c(n)
G
1
N
s 2 (i)
N i1
预加重:
• 提高语音谱中的高频共振峰,使语音频谱 较为平滑,从而提高谱参数估计的精确度
• 预加重滤波器的传递函数为利用短时平均幅度差函数(AMDF)计算
130
Fn (k) | xn (m) xn (m k) | m1
– 波形编码技术 – 参数编码技术
语音生成机构
• 声源:
– 声带
• 共鸣机构:
– 声道(鼻腔、口腔与舌头)
• 放射机构:
– 嘴唇或鼻孔
语音产生机理
• 浊音
– 气流通过声门时,声带的张力刚好使声带产生 张弛振荡式振动,产生一股准周期脉冲气流, 激励声道产生浊音
• 轻音
– 声带不振动,而在某处收缩,迫使气流高速通 过这一收缩部分产生湍流就产生清音
增益G
• S(i)为经过预加重的数字语音 • N为分析帧的长度
G
1
N
s 2 (i)
N i1
LPC-10编码器接收端
c(n) 解码
增益G
反射系数 转换为预测系数
合成器
去加重 s'(n)
基音
噪声 产生
清/浊音开关
课后需要自学补充的知识
• ADPCM • LMS算法 • 语音信号产生模型 • LPC-10编码器
– (4)合成级:
• 80%-90%可懂度,音质较差,听起来像机器讲 话,失去了讲话者的个人特征。
语音信号压缩编码的评价指标
• 编码质量
– MOS(Mean Opinion Score)
• 编码速率
– 适当选取
• 编解码复杂度
– 不影响实时处理
• 编解码时延
– 不能超过100ms – 若超过必须采取回声抵消或回声抑制等措施
基音频率
a1 a2 ap 基音频率
清/浊音标志
清/浊音判别
G
参数 合成
q
x(n) G u(n) ak x(n k) k 1
语音 输出 x’(n)
模型中的参数
• 清浊音判决 • 基音周期 • 时变滤波器
– 增益常数G – 数字滤波器参数ai
• 特点:随时间缓慢变化
优点
• 能够用线性预测分析方法对滤波器参数ai和 增益常数G进行非常直接和高效的计算
• 设一个子带编码系统包括m个子带,各子带带宽为 Bk(k=1,…,m),每个子带信号经过频率为fsk=2Bk的抽样后, 使用Rk个比特来进行量化和编码,那么该系统总的编码速 率I应为式(3-3)
m
I fsk Rk k 1
各子带带宽相等,即等带宽子带编码,有式(3-4)
fsk 2Bk 2B m
• 中长延时编码
– 400-1200bps得到高质语音 – 新算法
• 正弦变换编码(STC) • 混合激励线性预测编码(MELPC) • 时频域插值编码(TFI) • 基音同步激励线性预测编码(PSELP)
– 新分析技术
• 非线性预测 • 多精度时频分析 • 高阶统计分析
内容提要
• 课题背景 • 国内外研究现状 • 常用编码算法简介
语音压缩编码
----1、概述
吉林大学通信工程学院通信系
课程安排
• 背景介绍 • DPCM和ADPCM • SBC子带编码 • VQ量化
背景介绍
• 课题背景 • 国内外研究现状 • 常用编码算法简介
语音编码发展方向
• 极低速率语音编码
– 比特率低于2400bps的编码 – 保密通信、语音邮件、网络通信、IP电话
• 变速率语音编码
– 在合成语音质量和系统容量中灵活折中 – CDMA通信系统中,且前景广阔
• 不压缩语音编码
– 压缩费用超过传输费用 – 光纤通信、微波通信
压缩的意义
• 为什么需要压缩编码技术
– PCM编码占用带宽大
• 8000Hz采样速率,每样本8位码 • 数码率:64kbps
– 有线传输中可以找到大容量传输介质:光纤 – 无线接入侧的频谱资源相当紧张
现状
• 主流:CELP(码激励线性预测)
– 4.8kbps的数码率上获得较高质量的语音
发展方向
• 中低速率的语音编码的实用化
– 降低复杂度 – 减少时延 – 提高抗干扰、抗噪声能力
• 进一步降低编码速率
– 目前5-6kbps的速率--较高质量重建语音 – 目标4kbps得到短时延、高质语音
发展方向
内容提要
• 课题背景 • 国内外研究现状 • 常用编码算法简介
ITU-T的正式标准
• G.711(1972) 64kbps
– PCM 用于固网
• G.721(1984) 32kbps
– ADPCM 用于卫星、海缆、VRC
• G.728(1992) 16kbps
– LD-CELP 低延迟-码激励线性预测 – 无绳电话、SCSC卫星、海事卫星、DSI设备、录音、移动系统等
• 混合编码
– 较低的比特率上获得较高的语音质量
语音信号压缩编码的评价系统
• 语音质量
– (1)广播级:
• 宽带(0-7000Hz)高质量的语音,感觉不出噪声存 在
– (2)网络或电话级:
• 200Hz-3200Hz,信噪比大于30db。
– (3)通信级:
• 完全可以听懂,但和长途电话相比,有明显失真。
式(3-3)可化简为式(3-5)※
I

2B m
m k 1
Rk
例:一个4子带的SBC系统,子带分别为(0~800Hz),(800Hz~ 1600Hz),(1600Hz~2400Hz),(2400Hz~3200Hz),如果忽略同步的 边带信息,子带的比特分配分别为3、2、1、0比特/样值,则 SBC编码系统总的传输速率为
• 标量量化和矢量量化
• 矢量量化(Vector Quantization;VQ)
• 应用很广: 语音压缩编码;参数编码;图像压缩编码
例:在矢量量化器的设计中,设抽样频率为16kHz, 码本由256个4维矢量组成, 1)求矢量量化器输出的数码率? 2)系统满意工作的最大消息带宽是多少?
内容提要
• 课题背景 • 国内外研究现状 • 常用编码算法简介
• G.729(1996) 8kbps
– CS-ACELP(共轭结构-代数数码激励线性预测技术) – 可与32kbps的ADPCM同质量 – 用于个人移动通信、低C/N卫星、高质量移动无线通信,分组语音
• G.722.2
– AMR-ACELP(自适应多速率) – 用于WCDMA和TD-SCDMA系统
– 波形编码技术 – 参数编码技术
一、PCM编码
• PCM:Pulse Coded Modulation • 抽样:8000Hz • 量化:非均匀A律87.6/13折线压扩特性 • 编码:8位码
– 极性码:第1位 – 段落码:第2-3位 – 段内码:第4-7位
二、DPCM编码
• 差分PCM编码
– 对相邻样本的差进行PCM编码 – 由于样本差值的动态范围远小于样本动态范围,
• 发送端,原始语音信号采用8kHz采样,然 后每180个采样值分为一帧(22.5ms), 提取语音特征参数并加以编码传送。
• 每帧总共编码为54bits,每秒传输44.4帧, 因此总传输速率为2.4kb/s
LPC-10编码器发送端
s(n) 采样 (8kHz)
预加重
线性 预测分析
清/浊音 检测
基音检测 (AMDF)
• 3. 子带编码(Subband Code;SBC) 子带编码(SBC)是首先用带通滤波器将语音信
号分割成几个不同的频带分量(子带),再分别对每 个子带进行抽样和编码。编码后的码流通过复接器 复接,送到信道上传输。接收端再将它们分接、译 码,并组合起来重建原始的输入信号。下图就是子 带编码的原理方框图。
LPC模型阶数p的选择
• 保证有足够的极点模型化声道响应的谐 振结构
– 通常10kHz时有5个共振峰,一对极点对应 一个共振峰,取p=10
– 弥补鼻音中存在的零极点和其他因素的偏差 – 取p=12~14
二、
LPC-10编码器
• 美国确定LPC-10作为2.4kb/s速率上的推荐 编码形式,用于第三代保密电话中
• 语音间隙的存在 • 声道的形状及其变化速率有限
听觉感知机理
• 人耳对不同频段的声音敏感度不同
– 低频比高频更敏感
• 人耳对语音信号的相位不敏感 • 人耳有掩蔽效应(masking effect)
– 强音抑制弱音
语音编码的极限速率
• 语音最基本元素-音素:大约128~256个 • 通常说话速度:每秒平均发10个音素 • 信息率: I=[log2(256)10]bps=80bps
• 爆破音
– 声道完全闭合的情况下突然释放产生爆破音
语音信号产生模型
基音周期
脉冲序列 发生器
随机噪声 发生器
LPC系数
清/浊开关
u(n)
声道模拟 滤波器
增益G
输出 语音s(n)
清音/浊音示意图:
浊 音 语音
振幅
清 音 语音
0
50
100
150
200
时间 (样 点)
输入 语音 x(n)
线性 预测 分析
因此达到相似性能可以减小编码位数
• 技术实现关键问题
– 编码位数的选取 – 预测器系数选取:LMS
DPCM框图
三、ADPCM
• 自适应DPCM
– 自适应预测系数调整 – 自适应编码位数调整
• 技术实现关键
– 自适应预测器:指预测器的预测系数能随话音 瞬时变化作自适应调整,从而得到高预测增益
– 自适应量化器:指量化器的量化级(阶距)能 随话音瞬时变化作自适应调整,从而得到高的 量化信噪比。
I

2B m
m k 1
Rk
设B=3200Hz, m=4,R1=3, R2=2, R3=1, R4=0,代入上式
I 23200(3 2 1 0) 9.6 kbit/s 4
全带抽样编码的平均比特数为
R

1 m
m k 1
Rk

1(3 4
2 1 0) 1.5
bit
矢量量化
GSM频点分配
理论基础
• 定义:
– 低于64kbps的编码方案称为语音压缩编码
• 压缩依据
– 语音信号中存在的冗余 – 人类的听觉感知机理
信号冗余
• 采样数据之间的相关
– 8kHz速率时,相邻样值相关系数高达0.85
• 周期相关:
– 浊音的准周期性
• 幅度的非均匀分布
– 小幅度概率高,信息集中在低功率
相关文档
最新文档