第6章 音频压缩编码技术及其国际标准-1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用信号本身的统计特性,在 完全不丢失信息的情况下,进
行高效的熵编码
(平均信息量编码);
利用人们对音频信号的感 知特性,通过省略人们所 不能分辨或不敏感的信息
来压缩信息量,这就是
知觉编码。
针对音频中存在 的冗余,目前实 用的有熵编码和 知觉编码两种方
法。
14
6.1 概述 ➢声音质量评价的两种方法
客观质量度量 用信噪比(SNR)
12
6.1 概述
➢音频数据压缩一般有两种方法: (1)利用信号本身的统计特性,在完全
不丢失信息的情况下,进行高效的熵编码 (平均信息量编码);
(2)利用人们对音频信号的感知特性, 通过省略人们所不能分辨或不敏感的信息 来压缩Байду номын сангаас息量,这就是知觉编码。
13
6.1 概述
音频数 据压缩 一般有 两个途
径
6
6.1 概述 ➢声音简介
声音是听觉器官对声波的感知 声波是通过空气或其他介质传播的连续振动
7
6.1 概述
声波具有普通波所具有的特性
反射 reflection 折射 refraction 衍射diffraction 干涉 interference 共振 resonance
声强、响度:声波的压强,或能量,或振幅 音高、音调:声波的频率 音色、音品:声波的谐波频谱和包络决定
临界频带 人耳刚刚可以感知两种频率的声音有差别的频 率范围 临界频带的单位叫做Bark(巴克),1Bark等于一 个临界频带的宽度。 通常认为音频有25个临界频带,见表。 临界频带的宽度随频率的变化而变化
主观质量度量 专家打分
有时同时采取两种方法评估,有时以主观 质量度量为主
15
6.1 概述
信噪比SNR (signal-to-noise ratio)
SNR 10 log10
(Vsignal )2 (Vnoise )2
20
log10
Vsignal
Vnoise
SNR表示信号能量和噪声能量的比,单位为分贝(db)
8
6.1 概述
9
6.1 概述 ➢ 声音信息能够压缩的基本依据是
(1)声音信息的冗余度 (2)人类的听觉特性
10
6.1 概述 (1)声音信息的冗余度
从信息保持的角度讲,只有当信源本身 具有冗余度,才能对其压缩。
语音和音乐信号中正是存在着时域信息 冗余及频域信息冗余,所以可以进行压缩。 这是对音频信号进行压缩的一个理论基础。
18
6.1.1 人的听觉生理——心理特性
“听阈—频率”曲线和“痛阈—频率”曲线
19
6.1.1 人的听觉生理——心理特性
人耳能够感知的频率范围约20-20000Hz 高保真声音(high-fidelity audio): 10 ~ 20000 Hz 声音(audio/sound): 20~ 20 000Hz 话音(speech/voice): 300~3400 Hz 亚音/次音(subsonic): < 20 Hz 超声(ultrasonic): > 20000 Hz
如在会议电视中,由于通信线路带宽的 限制,图像是可以跳帧的,每秒钟能传10 帧已经很不错了,但语音的传送却不可以 是断续的,而且要有较高的音质。
4
6.1 概述
➢数字声音信号的数据量相比数字视频要小很 多,但是如果不压缩的话,对传输和存储的 压力还是很大。
数字声音信号与图像信号一样,通过取 样、量化、编码后的数据也非常大。如CD机, 采用44.1kHz取样,16bit量化,即使单声道, 其编码数据也达到:
44.1X16=705.6kbit/s 传输与存储均有很大困难。
5
6.1 概述
声音编码(Audio Coding)是一类高保真的音 频编码,它的带宽应为20Hz至20KHz。
但在许多场合,主要是传送语音,而不是主要传送 音乐,故音频带宽在50Hz至7KHz就够了。在电话通信 中,其带宽只有300Hz至3.4KHz,在声音编码中,主要 是 传 送 语 音 的 一 类 编 码 称 之 为 语 音 编 码 ( Speech Coding)。在电视电话及会议电视中主要是语音编码, 而数字电视、高清晰度电视中的伴音却是属于高保真 度的音频编码。
20
6.1.1 人的听觉生理——心理特性
对频率的感知表现为音高 客观上用频率表示声音的音高,单位是Hz 主观感觉的音高单位则是“美(Mel)” 主观音高与客观音高是对数关系 Mel 1000 log2 (1 f )
21
6.1.1 人的听觉生理——心理特性
“音高—频率”曲线
22
6.1.1 人的听觉生理——心理特性
17
6.1.1 人的听觉生理——心理特性
对响度的感知 声音的响度就是声音的强弱 在物理上,用声强W/cm2或声压dyn/cm2度量 在心理上,用phon(方)或sone(宋)度量 人耳的听觉范围 听阈:人耳朵刚可听见的声音强度 痛域:使人耳感到疼痛的声音强度 听觉范围:听阈和痛域之间
第六章 音频压缩编码技术及其国际标准
1
6.1 概述 6.2 MPEG音频压缩编码 6.3 Dolby AC-3数字音频压缩编码技术
2
6.1 概述
6.1.1 人的听觉生理——心理特性 6.1.2 数字音频信号压缩编码的主要类型 6.1.3 音频压缩编码技术标准介绍
3
6.1 概述
➢声音(Audio)的传送是通信中不可或缺 的内容 ➢电视及图像通信中除了传送图像外,传送 声音也是极为重要的。
11
6.1 概述
(2)人类的听觉特性 语音和音乐信号最终是传送给人听的,人的听
觉生理—心理特性在整个音频传输过程中起着重要 的作用。
由于人们的听觉系统存在着某些不敏感效应, 对于某些情况下的音频不能被感知,因此从感知效 果来看,这些不敏感的音频分量可认为是知觉冗余。
如果将这部分冗余压缩掉,可提高编码效率。 这是音频压缩的另一个理论基础。
16
6.1 概述
主观平均分(mean opinion score,MOS)
表: 声音质量MOS评分标准
分数 5 4 3 2 1
质量等级 优(Excellent) 良(Good) 中(Fair) 差(Poor) 劣(Bad)
失真级别 无察觉 (刚)察觉但不讨厌 (察觉)有点讨厌 讨厌但不反感 极讨厌(令人反感)