声码器
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
声码器
声码器是什么 语音模型 声码器技术 声码器实现 发展方向
声码器是什么
语音(声音)编解码器 Encoder、Decoder、Vocoder 声-语音信号,8K采样,13PCM 码-码本,码字 器-处理器:编码器,解码器
语音器官
喉:声带,声门 声道:一个具有某种谐振特性的腔体,具 体基音周期 嘴 整个系统是一个线性时变系统
混合编码器
融合了波形编码和声源编码技术 两种应用较多的方案:
多脉冲激励线性预测编码器(MPLPC):设置有N MPLPC N 个激励脉冲样本的序列,选择其中的M个样本激励 使与原始语音误差最小 码激励线性预测编码(CELPC):N个激励脉冲样 值为一组,构成N维矢量的码字,K个码字形成一个 码本(codebook)。选择与原话音误差最小的激励 码字,并将其在码本中的位置编码传送,而不需要 传输N个激励样值本身
EFR声码器性能
用代数码激励线性预测(ACELP)算法 编码速率为12.2kbit/s 信道编码后速率为22.8kbit/s 具有VAD和DTX功能 MOS评分比RPE-LTP高0.7左右
QCELP声码器
采用Qualcomm码激励线性预测 使用与脉冲激励线性预测编码相同的原 理,将激励脉冲的幅度和位置用一个矢 量码表代替 一个矢量被选定且被量化,形成码表对 数子帧,同时生成音调特性参数子帧和 线性预测滤波器参数子帧
RPE-LTP声码器
GSM系统中采用的规则脉冲激励长期预测编码 方案,属于混合编码中多脉冲激励线性预测编 码 主要特征:设置若干个脉冲位置固定、幅度变 化的脉冲序列作为RPE激励序列 20ms分为4个子帧,在RPE激励序列对应的40 个样值脉冲中,按3:1等间隔抽取13个样点, 非抽取的样点设为0,选择一个使与语音信号 误差最小的一个RPE序列,将其参数编码传输
(1) Short term residual (2) Long term residual (40 samples) (3) Short term residual estimate (40 samples) (4) Reconstructed short term residual (40 samples) (5) Quantized long term residual (40 samples)
分类
波形编码器 声源编码器 混合编码器
波形编码器
时间和幅度均已离散的信号以最小军方差 逼近原编码波形:取样、量化、编码 话音频率:300~3000Hz 300 3000Hz 采样率:8000Hz 脉冲编码调制(PCM):64kbit/s S/N=41dB
波形编码器(续)
应用于有线传输模式 其它波形编码器
短时分析滤波
使用预测滤波器系数,以5ms为间隔, 求出预测值,并产生短时残差 用短时残差估值去选择位置和幅度都优 化了的脉冲序列来代替短时残差信号, 将所选的RPE脉冲序列作为激励信号,其 相应的编码参数(RPE)输出
长期预测(LTP)分析
在5ms子帧计算一次对长期分析滤波器的 修正值 RPE参数馈至本地RPE译码,产生长期残 差信号 在5ms子帧内利用短期分析滤波器输出的 40个残差样本与前面的120个残差样本相 加来获得长期预测的时特点:
有明显的周期性起伏特性 频谱中有明显的凸起点,出现频率与声道的 谐振频率相对应;该频率为共振峰频率,一 般为5个
浊音的声带振动频率为基音频率,其不 同轨迹为声调
语音模型
语音编码要求
在给定编码速率下,话音质量尽可能高 在多音环境或强噪声下,应有较好的编 码效果,MOS评分不低于3.5 编码、解码延时不能过长,应控制在几 十毫秒内 算法具有较好的抗误码性能,计算量小, 性能稳定
声码器的发展
GSM:
FR EFR HR AMR
CDMA
QCELP8k,13k EVRC
其它声码器
G.723.1:视频通信 G.729:SCDMA
发展方向
语音质量更好 延时更短 算法更复杂 抗干扰能力更强 带宽要求更小
长期分析滤波器
在5ms内,根据短时残差估计样本和长 期残差中的40个残差样本相加值,产生 新的短期残差样本估计,使短期分析滤 波输出残差估值更优化
RPE-LTP性能
合成波形尽量相似于原输入话音信号,计 算量小,编码速率低,硬件实现容易 相当好的语音质量,MOS评分为3.6 抗误码性能好:10-3误码率下质量不下降 信道编码后为22.8kbit/s,在10%情况下语 音质量不下降
RPE grid selection and coding
RPE parameters (47 bits/5 ms)
Long term analysis filter
(4) +
(5)
RPE grid decoding and positioning
LTP analysis
LTP parameters (9 bits/5 ms)
Short term LPC analysis
Reflection coefficients coded as Log. - Area Ratios (36 bits/20 ms)
Input signal
Preprocessing
Short term analysis filter
(1) +
(2) (3)
自适应预测编码器(APC) 自适应变换编码器(ATC) 子带编码器(SBC)
速率从64kbit/s到16kbit/s
声源编码器
提取语音信号的特征参数,容易将编码速率 压缩到2.4kbit/s以下 物理模型:声带振动脉冲激励声道滤波器 较短时间段内的语音参数:清浊音比例、浊 音周期、增益系数、滤波器参数 线性预测编码(LPC)最成熟、应用最广泛
To radio subsystem
RPE-LTP组成部分
LPC分析 短期分析滤波 RPE参数编码 RPE译码 长期分析滤波 LTP分析
线性预测编码(LPC)分析
一个8抽头横向滤波器 对20ms语音进行分析 根据输入语音信号与预测信号误差最小的 原则求得线性预测滤波器系数 将系数转换为LAR(对数面积比)信号 (36bit/20ms)输出
声码器是什么 语音模型 声码器技术 声码器实现 发展方向
声码器是什么
语音(声音)编解码器 Encoder、Decoder、Vocoder 声-语音信号,8K采样,13PCM 码-码本,码字 器-处理器:编码器,解码器
语音器官
喉:声带,声门 声道:一个具有某种谐振特性的腔体,具 体基音周期 嘴 整个系统是一个线性时变系统
混合编码器
融合了波形编码和声源编码技术 两种应用较多的方案:
多脉冲激励线性预测编码器(MPLPC):设置有N MPLPC N 个激励脉冲样本的序列,选择其中的M个样本激励 使与原始语音误差最小 码激励线性预测编码(CELPC):N个激励脉冲样 值为一组,构成N维矢量的码字,K个码字形成一个 码本(codebook)。选择与原话音误差最小的激励 码字,并将其在码本中的位置编码传送,而不需要 传输N个激励样值本身
EFR声码器性能
用代数码激励线性预测(ACELP)算法 编码速率为12.2kbit/s 信道编码后速率为22.8kbit/s 具有VAD和DTX功能 MOS评分比RPE-LTP高0.7左右
QCELP声码器
采用Qualcomm码激励线性预测 使用与脉冲激励线性预测编码相同的原 理,将激励脉冲的幅度和位置用一个矢 量码表代替 一个矢量被选定且被量化,形成码表对 数子帧,同时生成音调特性参数子帧和 线性预测滤波器参数子帧
RPE-LTP声码器
GSM系统中采用的规则脉冲激励长期预测编码 方案,属于混合编码中多脉冲激励线性预测编 码 主要特征:设置若干个脉冲位置固定、幅度变 化的脉冲序列作为RPE激励序列 20ms分为4个子帧,在RPE激励序列对应的40 个样值脉冲中,按3:1等间隔抽取13个样点, 非抽取的样点设为0,选择一个使与语音信号 误差最小的一个RPE序列,将其参数编码传输
(1) Short term residual (2) Long term residual (40 samples) (3) Short term residual estimate (40 samples) (4) Reconstructed short term residual (40 samples) (5) Quantized long term residual (40 samples)
分类
波形编码器 声源编码器 混合编码器
波形编码器
时间和幅度均已离散的信号以最小军方差 逼近原编码波形:取样、量化、编码 话音频率:300~3000Hz 300 3000Hz 采样率:8000Hz 脉冲编码调制(PCM):64kbit/s S/N=41dB
波形编码器(续)
应用于有线传输模式 其它波形编码器
短时分析滤波
使用预测滤波器系数,以5ms为间隔, 求出预测值,并产生短时残差 用短时残差估值去选择位置和幅度都优 化了的脉冲序列来代替短时残差信号, 将所选的RPE脉冲序列作为激励信号,其 相应的编码参数(RPE)输出
长期预测(LTP)分析
在5ms子帧计算一次对长期分析滤波器的 修正值 RPE参数馈至本地RPE译码,产生长期残 差信号 在5ms子帧内利用短期分析滤波器输出的 40个残差样本与前面的120个残差样本相 加来获得长期预测的时特点:
有明显的周期性起伏特性 频谱中有明显的凸起点,出现频率与声道的 谐振频率相对应;该频率为共振峰频率,一 般为5个
浊音的声带振动频率为基音频率,其不 同轨迹为声调
语音模型
语音编码要求
在给定编码速率下,话音质量尽可能高 在多音环境或强噪声下,应有较好的编 码效果,MOS评分不低于3.5 编码、解码延时不能过长,应控制在几 十毫秒内 算法具有较好的抗误码性能,计算量小, 性能稳定
声码器的发展
GSM:
FR EFR HR AMR
CDMA
QCELP8k,13k EVRC
其它声码器
G.723.1:视频通信 G.729:SCDMA
发展方向
语音质量更好 延时更短 算法更复杂 抗干扰能力更强 带宽要求更小
长期分析滤波器
在5ms内,根据短时残差估计样本和长 期残差中的40个残差样本相加值,产生 新的短期残差样本估计,使短期分析滤 波输出残差估值更优化
RPE-LTP性能
合成波形尽量相似于原输入话音信号,计 算量小,编码速率低,硬件实现容易 相当好的语音质量,MOS评分为3.6 抗误码性能好:10-3误码率下质量不下降 信道编码后为22.8kbit/s,在10%情况下语 音质量不下降
RPE grid selection and coding
RPE parameters (47 bits/5 ms)
Long term analysis filter
(4) +
(5)
RPE grid decoding and positioning
LTP analysis
LTP parameters (9 bits/5 ms)
Short term LPC analysis
Reflection coefficients coded as Log. - Area Ratios (36 bits/20 ms)
Input signal
Preprocessing
Short term analysis filter
(1) +
(2) (3)
自适应预测编码器(APC) 自适应变换编码器(ATC) 子带编码器(SBC)
速率从64kbit/s到16kbit/s
声源编码器
提取语音信号的特征参数,容易将编码速率 压缩到2.4kbit/s以下 物理模型:声带振动脉冲激励声道滤波器 较短时间段内的语音参数:清浊音比例、浊 音周期、增益系数、滤波器参数 线性预测编码(LPC)最成熟、应用最广泛
To radio subsystem
RPE-LTP组成部分
LPC分析 短期分析滤波 RPE参数编码 RPE译码 长期分析滤波 LTP分析
线性预测编码(LPC)分析
一个8抽头横向滤波器 对20ms语音进行分析 根据输入语音信号与预测信号误差最小的 原则求得线性预测滤波器系数 将系数转换为LAR(对数面积比)信号 (36bit/20ms)输出