第4章音频媒体压缩编码

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.人的听觉系统中存在一个听觉阈值电平,低于这个 电平的声音信号人耳听不到 .
2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时 存在时,强声使弱声难以听到,并且两者之间的关系 与其相对频率的大小有关 .
声音编码算法就是通过这些特性来去掉更多的冗余 数据,来达到压缩数据的目的。
第4章音频媒体压缩编码
Digital Processor
DAC
Analog Signal
Speaker
Output Devices
Reproduced Sound
第4章音频媒体压缩编码
4.1.2 音频信号压缩编码的可行性与分类
• 对于高质量和长时间的音频数据,由于数据
量都特别大,为了有效地存储和传输,需要 进行压缩编码。
音频信号压缩编码的分类
音频压缩方法
无失真压缩
有失真压缩
Huffman编码 波形编码
参数编码
混合编码
行程编码
全频带编码 PCM DPCM ADPCM
线性预测LPC
子带编码 自适应变换编码ATC 心理学模型
矢量量化
第4章音频媒体压缩编码
矢量和激励线 性预测VSELP
多脉冲线性 预测MP-LPC
码本激励线 性预测CELP
• 根据压缩编码思想的不同,把音频编码技术分为三类:
(1)波形编码(Waveform Coding)
(2)源编码(Source Coding),参数编码 (3)混合编码(Hybrid Coding)
• 波形编码:
没有利用语音信号自身的特点。波形编译码的想法 是,不利用生成话音信号的任何知识而企图产生一种重 构信号,它的波形与原始话音波形尽可能地一致。一般 来说,这种编译码器的复杂程度比较低,数据速率在16 kb/s以上,质量相当高。低于这个数据速率时,音质急 剧下降。如:
第4章音频媒体压缩编码
话音技术的研究热点
• 话音压缩编码(Speech Coding) • 话音识别(Speech Recognition) • 文本话音转换(Text To Speech)
第4章音频媒体压缩编码
4.1 音频信号
• 声音的产生源于物体的震动,这种震动引起物
体周围气压的变化并传播,最后形成了声音。
第四章
音频媒体的压缩编码标准与技术
第4章音频媒体压缩编码
本章内容
• 音频信号的相关概念
音频信号的基本概念;数字化方法;压缩编 码的可行性与分类;声音类别与数据率…
• 音频信息压缩编码技术标准体系
G.7XX系列和MPEG-X系列
• G.7XX声音压缩编码技术
各标准的编码方法;编/解码器等
• MPEG-X声音压缩编码 • 语音识别
2.音乐信号:各种乐器发出的声音,频率范围大 约为20Hz~20kHz。
3.噪音信号:人们不感兴趣的一类声音,通常研 究如何去掉它。
第4章音频媒体压缩编码
4.1.1 音频信号的数字化
• 音频信号通常是连续信号,要利用计算机
来处理,首先需要对其数字化。
模拟 语音
采样
量化
samples
0.75 0.5
超声波(Hypersound):
1GHz-10THz
第4章音频媒体压缩编码
音频信号
声波图示,其中包含两个重要参数:频率和振幅
第4章音频媒体压缩编码
音来自百度文库信号
• 根据音频信号占用频谱的不同,可以将音
频信号分为3类:
1.语音信号:又称话音信号,是人在正常情况下 发出的一种声音,频率范围大约为300Hz~ 3.4KHz。
采样频率的单位是:Hz或samples/s。 如:数字电话的采样率为8KHz。 (2)采样精度: 采样精度用样本位数来表示。 样本位数越多,则声音质量越高,因为每个样 本的量化值与原样本值越接近。 采样精度的单位是:bits/sample。
第4章音频媒体压缩编码
采样频率越高,采样精度越大,则数字化声音效 果越好,但是需要的存储量就越大。因此在实际应 用中,需要折中考虑声音质量和存储量的问题。
0.25 0
-0.25 -0.5 -0.75
samples
编码
数字
0100111…
序列
第4章音频媒体压缩编码
音频信号的数字化
• 对声音信号进行采样时,一般使用音频范围的
ADC(模数转换器)进行。不同的ADC主要区别 于以下两个重要参数: (1)采样频率:
采样频率是指每秒钟采集声音样本的个数。它 的该取大值于应 等该 于满 声足 音N信y号qu中ist最T高he频or率y,fm即的采两样倍频。率fs应
• 声音是一种波,由两个参数描述:
频率:声音的尖锐程度。
振幅:声音的大小,又称响度。
音频信号是指处在20Hz~20kHz频率范围的声音。
音频频率范围
低频声音(Infra-sound): 0Hz-20Hz
人类听觉频率范围的声音: 20Hz-20kHz
高频(Ultrasound):
20kHz-1GHz
其中,Vsignal表示信号电压, Vnoise表示噪声电压,SNR 的单位为分贝(dB)。信噪比越高,声音质量越好。
第4章音频媒体压缩编码
声音硬件:
Sound
Input Devices
Microphone
Analog Signal
ADC
Digital Signal
Stored / Transmitted
• 压缩的可能性存在于:
(1)声音信号中包含大量的冗余信息,如样本相关性、 时间周期相关性、基音相关性等。
(2)利用人的感知特性进行压缩。
(3)根据话音产生机理进行压缩。
• 衡量语音编码性能的主要因素有:
编码质量; 编码速率; 算法复杂度。
第4章音频媒体压缩编码
音频信号压缩技术
音频信号压缩编码的主要依据是人耳的听觉特性,主 要有两点:
1.CD质量音频数据量:2x44100x16 b/s
2.电话质量音频数据量:8Kx8 b/s PCM (DPCM 56Kb/s;ADPCM 32Kb第/4s章)音. 频媒体压缩编码
• 源编码(参数编码):
参数化,利用语音信号的特点进行数据 压缩。音源编译码的想法是企图从话音波形 信号中提取生成话音的参数,使用这些参数 通过话音生成模型重构出话音。 例如:信道 声码器的工作原理:
0.75
0.5
0.25
-1 0 -0.25 -0.5
-0.75
Sampling Height
samples
另外一种表示精度的方法是信噪比(SNR),表示为:
S N R 1 0 l g [ ( V s i g n a l) 2 / ( V n o i s e ) 2 ] 2 0 l g ( V s i g n a l/ V n o i s e )
相关文档
最新文档