音频数字化
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、了解数字音频的文件格式
4、掌握常见的音频压缩编码方法 5、理解G.711、G.721、G.722标准
第一节 音频的数字化
一、声音
声音是通过空气传播的一种连续的波,叫声波。 声音的强弱体现在声波压力的大小上 音调的高低体现在声音的频率上
一、声音——有关概念
复合信号:声音信号由许多频率不同的信号组成 分量信号:单一频率的信号 带宽:描述组成复合信号的频率范围。如: 高保真声音的频率范围为10 Hz~20K Hz,它的带宽 约为20K Hz。
四、G.721标准
• APCM (自适应脉冲编码调制)
• DPCM (差分脉冲编码调制) • ADPCM (自适应差分脉冲调制)
四、G.721标准 APCM (自适应脉冲编码调制)
能随信号幅度的大小自动地改变量化阶距的编码制式。
改变量化阶距的方法:
• 前向自适应APCM (Forward Adaptation) • 后向自适应APCM (Backward Adaptation)
2236752字节数据量
五、音频文件的读取
00h:52 49 46 46
RIFF标志
82 21 22 00
总数据块大小 2236802字节
57 41 56 45
格式类型
66 6D 74 20
fmt标志
WAVE
10h:12 00 00 00
01 00 02 00
44 AC 00 00
采样频率 44.1kHz
一、声音——三要素
音强(volume) —> 响度,由振幅决定 音调(pitch) 音色 —> 由频率决定
—> 指声音频率组成成分
一、声音——分类
次音频信号<20HZ(人耳听不到) 音频信号20HZ~20kHZ(人能听到)
超音频信号>20kHZ(人听不到,有很强的方向
性,可以形成波束)
00 00 FF FF
data标志
声音裸数据长度 2236752字节
声音数据内容
40h:00 00 FE FF
FE FF 00 00 00 00 FE FF
FE FF 01 00
六、声音质量的度量
1、客观质量度量:信噪比 信噪比SNR(Signal to Noise Ratio)是有用信 号与噪声之比的简称。 噪音可分为环境噪音和设备
Debug
其他反汇编软件
五、音频文件的读取
WAVE文件作为多媒体中使用的声波文件格式之一,它 是以RIFF格式为标准的。 RIFF是英文Resource Interchange File Format(资 源互换文件格式 )的缩写,每个WAVE文件的头四个字 节便是“RIFF”。对应的十六进制是52 49 46 46。 RIFF/WAV文件标识段 WAVE文件 文件头 声音数据格式说明段 数据体
六、声音质量的度量
4、主观质量度量:MOS分数
分数 5 4 3 2 质量级别 优 良 中 差 Mean Opinian Score 失真级别 不觉察 刚刚觉察、不讨厌 觉察、有点讨厌 讨厌而不反感
1
劣
极讨厌、令人反感
作业
1、你认为多媒体技术发展的八大技术基础中哪 一个是最重要的技术基础?并说明原因。 2、请简述音频数字化过程。
3、计算:
三分钟的采样频率为22.05kHz,量化位数为16位 的立体声音频数据量为多少?
第二节 语音编码
一、人耳的听觉特性
人耳对各频率的灵敏度是不同的
频域掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率的 声音的现象。 时域掩蔽效应 在时间上相邻的声音之间也有掩蔽现象
一、人耳的听觉特性
二、脉冲编码调制(PCM)
二、脉冲编码调制(PCM)
1、均匀量化的PCM
二、脉冲编码调制(PCM)
2、非均匀量化的PCM
三、 G.711标准
CCITT国际电话电报咨询委员会
Consulative Committee for International Telephone and Telegraph) 原始信号 F=8khz B=14bit
数据量小
适用于:需要播放长时间高质量音乐
四、数字音频的文件格式
3、MIDI文件
四、数字音频的文件格式
3、MIDI文件
四、数字音频的文件格式
4、ASF、WMA文件 微软开发的网上流式数字音频文件格式 特点:音质好 数据量小
适合网络流式传输
四、数字音频的文件格式
5、RAM、RA文件 RealNetworks开发的网上流式数字音频文件格式 特点:能随带宽的不同而改变音质,在保证大多 数人听到流畅声音的前提下,带宽宽裕的听众获 得较好的音质 适合低网速的实时传输
•Sgn(x)为x的极性
•μ 反映最大量化间隔与最小量化间隔之比,100<= μ<=500 具体取值为255
三、 G.711标准
A律压扩 FA(x) = sgn(x) FA(x) = sgn(x)
A|x| 1+ lnA 1+ln(A|x|) 1+ lnA 1 /A <=|x|<=1 0<=|x|<=1/A
四、G.721标准 改变量化阶距的方法一:前向自适应APCM
根据未量化的样本值的均方根值来估算输入信号的电
平,以此来确定量化阶距的大小,并对其电平进行编码作 为边信息(Side Information)传送到接收端。 信道 逆 量化器
S(k)
缓冲器
量化器
S r(k)
量化阶 适配器
信道
(边信息)
四、G.721标准 改变量化阶距的方法二:后向自适应APCM
10 B1 02 00
每秒数据量 176400
音频格式数据块大小 编码格式 双声道 18 waveformatPCM
20h:04 00 10 00
00 00 66 61
63 74 04 00
00 00 54 88
区块对齐单位 量化位数 4 16位
30h:08 00 64 61
74 61 50 21
22 00 00 00
五、音频文件的读取
标志符Байду номын сангаасRIFF) 数据大小
格式类型("WAVE")
WAV文件结构 "fmt" Sizeof(PCMWAVEFORMAT)
文件头
PCMWAVEFORMAT "data"
声音数据大小 声音数据
数据体
五、音频文件的读取
五、音频文件的读取
例:sound.wav 44.1kHz 12.68秒 16位 双声道
压缩
112Kbps
F=8khz B=8bit
64Kbps
采用的方法:对数PCM编码 • μ律压扩(北美、日本) • A 律压扩(西欧、中国)
三、 G.711标准
μ律压扩 Fμ(x) = sgn(x)
Ln(1+ μ|x|) Ln(1+ μ)
•x为输入信号幅度,规格化成-1<=x<=1 • Fμ(x)为量化输出数据
•x为输入信号幅度,规格化成-1<=x<=1 •Sgn(x)为x的极性
•A 反映最大量化间隔与最小量化间隔之比,具体取值87.56
四、G.721标准
原始信号 μ或A律 F=8khz B=14bit 112Kbps
F=8khz ADPCM F=8khz B=8bit B=4bit 64Kbps 32Kbps
根据从量化器刚输出的过去样本中来提取量化阶信息。
这种自适应能在发收两端自动生成量化阶,所以不需要传 送边信息。 S(k) 量化器 信道 逆 量化器 S r(k)
量化阶 适配器
量化阶 适配器
四、G.721标准 DPCM (差分脉冲编码调制)
根据过去的样本去估算(estimate)下一个要量化 编码的样本信号幅度有多大,这个值称为预测值,
三、音频的数字化
声音质量与数据率
质量 电话 AM 采样频率 样本精度 单/立体 kHz (b/s) 声 8 8 单道声 11.025 8 单道声 数据率 (kB/s) 8 11 频率范围 200~3400 20~15000
FM
CD DAT
22.050
44.1 48
16
16 16
立体声
立体声 立体声
量化等级的划分
三、音频的数字化
模拟信号
采样
量化 编码
三、音频的数字化
A/D转换中,影响质量及数据量的主要因素: •每秒钟需要采集多少个声音样本即采样频率 •每个声音样本的位数(bps)应该是多少即量化位数 例子:每个声音样本用16位表示,测得声音样本值 是在0~65536的范围里,它的精度就是输入信号的 1/65536
噪音。信噪比越大,声音质量越好。
六、声音质量的度量
2、客观质量度量:带宽
200—3.4KHz 50—7KHz 20—15KHz 10—20KHz 电话声音范围 调幅广播声音范围 调频广播声音范围 高保真立体声音范围
六、声音质量的度量
2、客观质量度量:带宽
音频信号的频带越宽,所包含的音频信号分 量越丰富,音质越好
二、模拟音频与数字音频
模拟信号
数字信号
二、模拟音频与数字音频
模拟音频:在时间和幅度上都是连续变化的 数字音频:在时间和幅度上都是离散、不连续的
三、音频的数字化
模拟音频
数字音频
采样、量化、编码
三、音频的数字化(采样)
音频采样:当把模拟声音变成数字声音时,需要每
隔一个时间间隔在模拟声音波形上取一个幅度值。
信号转换示意图
三、音频的数字化(采样)
采样:
将时间上连续的取值变为有限个离散取值的过程
三、音频的数字化(采样)
奈奎斯特采样定理:
设连续信号X(t)的最高频率分量为Fm,以等间隔Ts(Ts
称采样间隔,fs=1/Ts称为采样频率)对X(t)进行采样,得到
Xs(t)。如果Fs>=2Fm,则Xs(t)保留了X(t )的全部信息(从Xs(t)
编码器仅对实际信号值与预测值之差进行量化编码。
四、G.721标准
S(k) + + Se(k-1) 预测器 Se(k-1) S(k)输入信号 S r(k)译码的输出信号 Se(k-1) 是对S(k)的预测值 dq(k)是量化差分信号 d(k) 逆量化器 + dq(k) + + S r(k)
量化器
逆量化器
88.2
176.4 192.0
50~7000
20~2000 20~2000
四、数字音频的文件格式
1、WAV文件
声音是随着时间连续变化的物理量,并且是
一种能借助介质传播的波。
四、数字音频的文件格式
1、WAV文件
特点:数据量大 音质好 不适合网络传播或播放
文件数据量计算:
字节数/秒=采样频率(HZ) * 量化位数(BIT)* 声道数/8
四、数字音频的文件格式
6、AIF、AU文件 Apple公司开发的音频文件格式
四、数字音频的文件格式
7、CD-DA 数字音频光盘
44.1khz、16Bit量化位数、双声道
四、数字音频的文件格式
8、MD Mini Disc
Sony推出的便携式音乐格式
MD汽车音响、随身听
五、音频文件的读取
工具:
UltraEdit
?
1分钟单声道,采样频率为11.025kHz,8位采样位数
四、数字音频的文件格式
2、MP3文件 MPEG Audio Layer-3
特点:数据量较小,压缩率10:1—20:1
音质较好 是目前最为流行的音频格式文件
四、数字音频的文件格式
3、MIDI文件 数字乐器接口标准 特点:midi文件中存储的是产生声音指令
第五章 音频的数字化与语音编码
学习内容
第一节 音频的数字化
1、 声音
2、模拟音频与数字音频
3、音频的采样、量化和数字化(重点)
4、数字音频的格式
学习内容
第二节 语音编码
1、人耳的听觉特性
2、脉冲编码调制(PCM)
3、G.711标准、G.721标准、G.722标准(重点)
学习目标
1、了解声音相关概念及要素 2、掌握音频采样、量化和数字化原理
+ 预测器
d(k)差分信号
四、G.721标准 ADPCM (自适应差分脉冲编码调制)
ADPCM = APCM + DPCM
32kbps 输出
64KBPS
A或u律 PCM输入
可以不失真地恢复出X(t))。
只要采样频率高于信号中最高频率的2倍,就可
以从采样中完全恢复原始信号的波形。
三、音频的数字化(量化)
音频量化:将经采样后幅度上无限多个连续的样值
变为有限个离散值的过程
三、音频的数字化(量化)
量化过程:先将整个幅度划分成为有限个幅度(量化阶距) 的集合,把落入某个阶距内的样值归为一类,并赋予相同的 量化值。
六、声音质量的度量
3、客观质量度量:动态范围 声音的动态范围即声音从最弱变到最强的范围。 声音的动态范围还与频率有关。动态范围最大的频 率区间是1000-6000HZ,计量单位是分贝(dB)。 动态范围越大,信号强度的相对变化范围越大, 音响效果越好
六、声音质量的度量
3、客观质量度量:动态范围 动态范围=20×log(信号的最大强度/信号的最小强 度)(dB)