多媒体技术_音频处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主要的音频压缩编码类型
熵编码 如Hufman编码、算术编码以及行程编码等。
波形编码 全频带编码如PCM、自适应差分PCM等,子带编码如自
适应变换编码ATC、心理学模型等,以及向量量化等在音 频中均常常采用。波形编码的特点是在高码率的条件下 获得高质量的音频信号,适用于高保真度语音和音乐信 号的压缩技术。 参数编码
11
其他音频质量指标
• 感觉上的、主观上的测试是评价声音质 量不可缺少的部分。
• 可靠的主观度量值是较难获得的。
12
听觉生理
• 人耳最容易听到的就是4000Hz的频率,不管频 率是增高或降低,即使是响度相同的情况下, 大家都会觉得声音在变小。
• 当响度降到一定程度时,人耳就听不到了,每 一个频率都有着不同的值,当频率超过 15000Hz时,人耳的会感觉到声音很小,
• 比如:大提琴音色、黑管音色不同
– 虽然演奏同一音高(基频)的音符,但人们能够明 确分辨出是哪个乐器
9
频率特性
• 带宽:用来描述复合声音信号的频率范 围。如高保真音信号(high-fidelity audio) 的频率范围为10Hz~20,000Hz,带宽约 为20kHz
10
信噪比
信噪比(SNR,Signal to Noise Ratio)是 有用信号与噪声之比的简称 是衡量声音质量的一种指标 噪音可分为环境噪音和设备噪音 信噪比越大,声音质量越好
第4章 音频处理
1
第4章 音频处理
• 音频信号 • 音频数字压缩 • MPEG-1音频 • MPEG-2音频 • MPEG-4音频 • 电子音乐合成与MIDI • 语音识别 • 3D音频 • 音频应用
2
声音
声音是指人耳能识别的音频信息.
如人发出的话音,乐器声,动物发出的声音,机器产生 的声音,自然界的雷声,风声、雨声、闪电声等,也包
16
4.2音频数字压缩
•音频压缩编码技术 主要依据是人耳的听觉特性: 1. 人的听觉系统中存在一个 听觉阈值电 平 ,低于这个电平的声音 信号人耳听不 到. 2. 人的听觉存在 屏蔽效应 。当几个强弱 不同的声音同时存在时,强 声使弱声难以 听到,并且两者之间的关系与其相对频率 的大小有 关。
17
例: 电话语音 =8k x 8b x 1 = 64kbps =8kB/s=28MB/h
例:CD的数据率 44.1KHz, 16bits, 2,
15
数字音频技术指标(续)
编码算法 •作用 •采用一定的格式来纪录数字数据 •采用一定的算法来压缩数字数据以减少存贮空 间和提高传输效率 •包括有损压缩和无损压缩 •有损压缩指解压后数据不能完全复原,要丢失 一部分信息。 •基本指标之一是压缩比 •压缩越多,信息丢失越多、信号还原后失真越 大 •应根据不同的应用选用不同的压缩编码算法
括各种人工合成的声音。
声音涉及到声波的物理传播特点和电声信号处 理技术。多媒体技术的发展使计算机处理音频 信息已达到较成熟的阶段。
3
4.1 音频信号
声音的特征指标
声音是由于空气振动引起耳膜的振动,由人 耳接收,最后被大脑所感知。因此,声音的特 征体现为物理特征和认知属性。这两类特性的 基本对比见表:
• 很多听觉不是很好的人,根本就听不到 20000Hz的频率,不管响度有多大。
• 当人耳同时听到两个不同频率、不同响度的声 音时,响度较小的那个也会被忽略
13
数字音频技术指标
采样频率:采样频率是指一秒钟内采样的次数。采样频 率的选择应该遵循奈奎斯特(Harry Nyquist)采样理论: 如果对某一模拟信号进行采样,则采样后可还原的最高信 号频率只有采样频率的一半。 量化位数:量化位是对模拟音频信号的幅度轴进行数字 化所采用的位数,它决定了模拟信号数字化以后的动态范 围
表4.1.2 几种音频业务的动态范围
音质效果 动态范围(dB)
AM广播 40
FM广播 60
数字电话 50
CD-DA
100
5
分贝示例
6
频率特性
• 基频:ωO ,决定音调
• 泛音:n×ωO 称为基频的高次谐波分量 • 音色:由混入基音的泛音所决定的
➢ 高次谐波越丰富,音色就越有明亮感和穿透力
➢ 不同的谐波具有不同的幅值和相位偏移,产生各种音色效果 ➢ 能够用来描述乐器声的区别
物理特征 强度(Intensity) 基频(Fundamental Frequency) 谱形状(Spectral Shape) 开始/结束时间(Onset/Offset Time) 相位差(双耳听)(Phase Difference[Binaural
Hearing])
认知属性 响度(Loudness) 基音(Pitch) 音色(Timbre) 定时(Timing) 位置(Location)
•
7
频率特性
• 如果一个物体振动所发出的泛音为基音 的整数倍,这个音就会具有清晰可辨的 音高,我们称之为乐音,如钢琴,小提
琴等发出的都是乐音;如果泛音是基音
的非整数倍,这个音就不具备清晰可辨
的音高,我们称之为噪音,如汽车发动
机、计算机风扇等发出的都是噪音。
8
音色
• 因为声音的波形绝大多数都不是简单的正弦波, 而是一种复杂的波。分析表明这 种复杂的波形, 可以分解为一系列的正弦波,这些正弦波中有 基频f0,还有与f0成 整数倍关系的谐波:f1、 f2、f3、f4,它们的振幅有特定的比例。这种 比例,赋予 每种乐器以特有的“色彩”—音色。 如果没有谐波成分,单纯的基音正弦信号是 毫 无音乐感的。
4
动态范围
•人的听觉响应与强度成对数关系。只有在强度适中时才最 灵敏。 • 一般的人只能察觉出3 分贝的音强变化。 • 常用音量或响度来描述声音强度,以分贝(dB)为单位。 • 在处理音频信号时,相对强度更有意义。 • 动态范围定义:
动态范围=20 log(信号的最大强度 / 信号的最小强度) (dB) • 动态范围越大,信号强度的相对变化范围越大,音响效 果越好。
量化位 8 16
等份 256 65536
动态范围(Hale Waihona Puke BaiduB) 48 - 50 96 -100
应用 数字电话
CD-DA
声道数:有单声道、双声道、多声道之分。双声道在硬 件中要占两条线路,音质、音色好,但数字化后所占空间
比单声道多一倍。
14
声音质量与数据率
• 数据率 = 取样频率 x 量化位数 x 通 道数目