音频信息处理..

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

20~40
轻声
40~60 正常交谈声
60~70 吵闹
70~源自文库0 很吵
>90 听力受损
常见声音的分贝量级
(2)声音信号的心理学特征
人们感知到的声音特征称为心理学特征
音调:在音乐中又叫音高,是由发声物体的振动频率决定,振动越快
(即频率越大),音调越高,振动越慢,音调越低。音调的高低与声音基
频的对数(20*log)成线性关系。基频越低,给人的感觉是声音越低沉,
例2.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。 60 * ( 44100 * 16 * 2 ) / 8 = 10.09 MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB,那么一个容量为512MB的
MP3播放器也只能播放12首这样的歌曲。
2. 数字音频压缩标准
电话质量的语音压缩标准
2.声音的基本特征
(1)声波信号的物理特征
周期(T):声波的两个波峰或波谷之间的相对时间。
频率(f):周期的倒数(f=1/T),即每秒波峰或波谷出现的次数。 幅度:从声波信号的基线到波峰的距离,幅度越大声波的强度也越大。通 常也用声压、声强或声功率来表示声音的强弱。
分贝数 听觉效果
低于20 能分辨
2.1.2
音频信号的数字化
1. 音频信号数字化
声音信号在时间上是连续的,在幅度上也是连续的,属于模拟信号。
(1)采样
声音信号在时间上的离散化,即每隔一段时间抽取一个信号样本。 采样频率:每秒采样的次数。 奈奎斯特理论(Nyquist theory):采样频率不低于声音信号最高频率 的两倍,这样就能把数字声音还原成原来的声音,称为无损数字化。 f s >= 2 f max
(3)高保真立体声的宽带音频压缩标准
MPEG音频:第一个高保真立体声音频压缩的国际标准 MPEG音频压缩标准提供三个独立的压缩层次: 1)Layer 1:编码器简单,输出数据率为384 kb/s,主要用于小型数字盒式磁带。
2)Layer 2:编码器较复杂,输出数据率为256 kb/s~192kb/s,主要应用于数字广播声
1)声音质量分级:按照声音信号的频率范围将声音质量分为5级。
质量 电话 AM
频率范围 200~3400 Hz 100~5500Hz
采样频率 (kHz) 8 11.025
采样精度 (bits) 8 8
声道数 单道声 单道声
数据率(非压缩) (kB/s) 8 11.0
FM
CD-DA DVD
20~11000Hz
基频频率增加一倍,在音乐上就叫升高了一个八度。
音色:这是一个主观评价声音的量,声音的音色取决于声音的频谱结构,
一般高次谐波越丰富,音色越明亮并具有穿透力。
响度:人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅
越大声音越响,其次人耳距离声源越远,声音越小。
(3)声音质量的评价
声音质量与带宽有关,频率范围越宽,声音质量越高。
音频信号的数学表示
f (t ) An sin(n 0 t n )
n 0

ω0: 声音的基音,决定了音调的高低 nω0: 声音的泛音,决定了声音的音色 An : 声波的振幅,表示声音的强弱
2)音频信号的波形表示
3)音频信号的频谱表示
声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠 加而成的,这些正弦波的幅值按频率排列的图形就叫做频谱。 男声的基频较低,低频分量更加丰富,因此听起来会更加低沉、浑厚。
电话话音信号的最高频率约为3.4kHz,所以采样频率取为8kHz。
(2) 量化
声音信号在幅度上的离散化
也就是采样过程中对每一个采样点的幅度值用数字量来表示。如
果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。 采样精度:即量化的位数,位数越多量化等级数也越多,所能表 示的声波幅度的动态范围也越大,当然需要的存储空间也越大。
(3) 编码
就是用一组二进制码组来表示每一个有固定电平的量化值,或者说将 量化值转换成二进制码组。
典型的音频编码方法:脉冲编码调制法(PCM)。
(4)数字音频的数据量
数据量 = 采样频率* 采样精度* 采样时间* 声道数 / 8
单声道:一次只产生一组声波数据, 立体声:一次产生两组声波数据。
(字节数)
(1)电话质量的语音压缩标准
(2)调幅广播语音压缩标准 G.722
标准 G.711 G.721 G.723 G.728
编码方法 PCM ADPCM ADPCM LD-CELP
采样频率 8kHz 8kHz 8kHz 8kHz
采样精度 8位 8位 8位 8位
数据传输率 64kb/s 32kb/s 24kb/s 16kb/s
音频的频率范围:20 Hz ~ 20000 Hz 语音的频率范围:300 Hz ~ 3000 Hz 次声波的频率范围: < 20 Hz 超声波的频率范围: > 20 kHz
(4)声强:对于一定频率的声音,要能引起听觉,其声强也有一定的范
围。 下限:是恰能引起人听觉的最小声强,叫做该频率的可闻阈; 上限:是指人耳能听闻的最大声强,高于上限的声强,人耳感觉疼 痛,所以叫做该频率的疼痛阈。
规则音频信号:带有语音、音乐和音效的有规律的音频信号,承载了一 定的信息。 语音:语言的载体,有丰富的语言内涵,是人类交流的信息载体。 音乐:是一种规范的符号化的声音。 音效:自然界中各种声音效果,如掌声、雷鸣声,爆破声等。 不规则音频信号:不包含任何信息的声音,比如噪声。
(2)音频信号的表示
第2章
音频信息处理
2. 1
音频处理基础
2.2
2. 3
音频处理软件Adobe Audition
音频处理综合应用案例
2.1 音频处理基础
1. 声波
(1)声波:由各种机械振动或气流扰动引起周围的弹性媒质发生波动。 (2)声源:产生声波的物体,如人的声带和乐器等。 (3)声音:人的听觉系统所能感知到的声波。
5~20000Hz 0~96000Hz
22.050
44.1 192
16
16 24
立体声
立体声 6声道
88.2
176.4 1200
2)信噪比(SNR):即有用信号与噪音信号的强度之比,单位是分贝。 3) 声音主观质量的度量:主观度量就是大多数人对声音质量的感觉。
3.音频信号的表示
(1)音频信号:通过麦克风等设备转换成的电信号。
相关文档
最新文档