多媒体课件 第二章、声音(西南交大)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
量化(dec) 编码(bin) 3 011 2 010 1 001 0 000 -1 111 -2 110 -3 101 -4 100
质量
采样频率 (kHz) 8 11.025 22.050 44.1 48
样本精度
单道声/ 立体声 单道声 单道声 立体声 立体声 立体声
数据率 (kb/s) 64 88 705.6 1411.2 1536
音频处理技术
Audio Processing
二 音频处理技术
提纲
音频信号及其概念 模拟音频的数字化过程 音频信号的压缩编码与标准 语音识别与合成技术
2.1音频信号及其概念
声音处理技术的历史
2.1 声音与听觉
声音是通过空气传播的一种连续的波,这种连续 性表现在两个方面,一个是时间上的连续性,另 一方面是指它在幅度上是连续的。
2.1音频信号及其概念
基频与音调
频率是指信号每秒钟变化的次数。人对声音频
率的感觉表现为音调的高低,在音乐中称为音 高。 音调是由基频所决定的,音乐中音阶的划分是 在频率的对数坐标(20×log)上取等分而得的。
2.1音频信号及其概念
谐波与音色 基频的高次谐波分量,也称为泛音。音色是 由混入基音的泛音的多少(带宽)所决定 的,高次谐波越丰富,音色就越有明亮感和 穿透力。不同的谐波具有不同的幅值和相位 偏移,由此产生各种音色效果。
例如,典型的窄带话音带宽限制在 4kHz, 采
样 频 率 是 8kHz 。 如 果 要 获 得 高 一 点 的 音 质 , 样 本 精 度 要 用 12 位 , 其 数 据 率 为 96kb/s;
频率范围 (kHz) 300~ 3400 50~ 7000 20~ 15000 20~ 20000 20~ 20000
电话 AM FM CD DAT
8 8 16 16 16
如果不压缩,音频采样的数据量可由下式推算:
数据量 = (采样频率×每个采样位数×声道数) (kb/s)
例如,一秒钟 CD 高保真立体声的数据量为:
PCM
PCM编码是对连续语音信号进行空间采样、幅度量化及 用适当码字将其编码的总称。 PCM量化:均匀、非均匀、自适应。
均匀量化与非均匀量化: 均匀量化就是采用相同的 “ 等分尺 ” 来度量采样 得到的幅度;
均匀量化PCM 采用相同的量化间隔,幅度范围 N=2B (B为量化位数) 均匀量化脉冲编码调制的不足:为 满足听觉上的效果,要使用较多的 量化位数,因而数据量大,需要较 多的存储空间。
采样频率
根据奈奎斯特理论(Nyquist
theory),采样频 率不应低于声音信号最高频率的两倍,这样就 能把以数字表达的声音还原成原来的声音,即: fs ≥ 2f 或者 T ≤ T/2
可以这样来理解奈奎斯特理论:声音信号可以
看成由许许多多正弦波组成的,一个振幅为A、 频率为f的正弦波至少需要两个采样样本表示。
(44.1kHz×16位×2声道) = 1411.2 kb/s = 1411200/8 字节 = 176400字节 = 172.26 KB
量化精度的信噪比(signal-to-noise ratio, SNR )表示方法:
如果用 Vsignal
表示信号电压,Vnoise表示噪声电 压,则SNR(单位:分贝,dB)用下式计算:
数据压缩的主要依据是人耳朵的听觉特性,使 用“心理声学模型”来达到压缩声音数据的目的: 听觉系统中存在一个听觉阈值电平 听觉掩饰特性
普通编译码器音质与数据率
2.2.2
波形编译码器
波形编译码的基本想法:不利用生成话音信号的 任何知识来重构,而是与原始话音波形尽可能一 致。 该编译码器的复杂程度较低,数据速率在 16kb/s 以上,质量相当高;低于这个数据速率时,音质 急剧下降。 最简单的波形编码是脉冲编码调制( pulse code modulation, PCM ),它仅对输入信号进行采样 和量化。
SNR 10 log[( V Signal ) /(V Noise ) ]
2 2
20 log( V Signal / V Noise )
[例2.1] 假设Vnoise=1,量化精度为1位表示 Vsignal=21,它的信噪比 SNR=6dB [例2.2] 假设Vnoise=1,量化精度为16位表示 Vsignal=216 ,它的信噪比SNR=96dB
图 声音的采样和量化
2.2音频的数字化
采样(抽样,sampling):将声音信号在时间上离散 化,即每隔一段时间抽取一个信号样本。
采样频率(Sampling Rate) 奈奎斯特理论指出:采样频率不应低于声音信号最高频率的 两倍,这样就能把以数字表达的声音还原成原来的声音,称 为无损数字化。 fs >= 2fmax * 电话话音信号最高频率约为3.4kHz,所以采样频率取为 8kHz。
音频(audio)带宽 语音带宽 超声波
次声波
20
300
3K
20K
f (Hz)
2.1音频信号及其概念
声音质量的评价
客观评价
评价值的测量 声源的测量 音质的测量
声音类型 电话语音 调幅广播(AM) 调频广播(FM) CD
带 宽 300Hz-3.4kHz 50Hz-7kHz 20Hz-15kHz 20Hz-20kHz
2.2 语音编码
2.2.1 2.2.2 2.2.3 2.2.4 话音编码概要 波形编译码器 音源编译码器 混合编译码器
2.2.1 语音编码概要
音频压缩编码技术分类:
有损编码中的三种语音编译码器 波形编译码器(waveform codec):根据人 耳听觉特性进行采样量化,达到压缩数据的 目的。如A律、μ律非均匀量化,将量化误 差留给出现概率小的采样值。适用于高质量 音频、音乐信号。声音质量高,但数据率也 很高。 音源(参数)编译码器(source codec): 将音频信号看成某种模型,利用特征提取方 法抽取必要的模型参数和激励信号的信息, 对这些信息进行编码。压缩率很大,但计算 量大,保真度不高,适合于语音编码。 混合编译码器(hybrid codec):数据率和 音质介于上述两者之间。
周期
声音的频率:1秒钟内振动的次数
幅度
声音的幅度:声音的强弱(能量)
2.1音频信号及其概念
源自文库
声音信号的三个重要参数:
频率(音调) 带宽(音色) 振动幅度(音强)。
声音强弱体现在振幅大小,其音调高低体现在占 主导地位的基本频率,声音的浑厚、饱满程度取 决于带宽,即叠加在基频上的各种不同频率信号。
2.2音频压缩编码与标准
目的:减少存储空间,尽量保证音质。 依据:
(a)冗余。通过识别和去除冗余,达到压缩目的。 (b)人耳特性。如掩蔽效应,它是指一个强音能抑制一 个同时存在的弱音。 (c)相关性。对声音波形采样后,相邻样值间存在相关性。
编码方式:
(a) 波形编码:PCM、APCM、ADPCM… (b) 参数编码:语音参数——基音周期、共振峰、语音谱,声 强等。LPC… (c) 混合编码:CELP, MELP…
量化精度
量化精度用每个声音样本的位数( bit/s )表示
的,它反映度量声音波形幅度的精度。
例如,每个声音样本用 16 位表示,声音样本值
是在0 ~ 65535 的范围里,它的精度就是输入信 号的1/65536。
量化位数越多,声音的质量越高,需要的存储
空间也越多;位数越少,声音的质量越低,需 要的存储空间越少。
2.1音频信号及其概念
音频信号的形式:语音与非语音
音频场景分析
2.1音频信号及其概念
模拟音频信号的物理特性
声音由物体的振动产生,并通过介质传播的连续波
声波传递的是分子的运动 声音传播需要介质 空气中的声速约为 340 米/秒 人耳能听到的声音: 20Hz~20kHz 超声波 > 20kHz 次声波 < 20Hz
非均匀量化PCM
利用语音信号幅度的统计特性,量化 区间在遇到大幅度信号时变大,在遇到 小幅度信号时变小。 根据语音抽样非均匀分布的特点,设 法让量化阶距随信号的概率密度的减少 而增大,或者说把大的量化误差留给出 现概率小的样值,从而得到较大的信噪 比,又保证了足够大的动态范围。 人耳对语音信号能量感知呈现对数规 律。量化前用对数函数将幅度压缩,解 码后再用指数函数进行幅度扩张。
2.2音频的数字化
声音进入计算机的第一步就是数字化(A/D转换), 数字化实际上就是采样、量化和编码。
011010111100
声音数字化需要解决两个问题: ①每秒钟需要采集多少个声音样本,也就是采 样频率(fs)是多少; ②每个声音样本的位数(bit per sample, bps)应该是多少,也就是量化精度。
幅度与音强
人耳对于声音细节的分辨只有在强度适中时
才最灵敏。人的听觉响应与强度成对数关系。 一般的人只能察觉出3分贝的音强变化。
2.1音频信号及其概念
用音量来描述音强,在处理音频信号时,一
般用动态范围来定义,以分贝(dB=20log) 为单位。 动态范围=20×log(信号的最大强度/信号的 最小强度)(dB)
均匀量化无论对大的输入信号还是小的输入
信号一律都采用相同的量化间隔。为了适应 大幅度输入信号,同时满足精度要求,就需 要增加样本的位数。 但是,对话音信号来说,大信号出现的机会 并不多,增加的样本位数就没有充分利用。 为了克服这个不足,出现了非均匀量化的方 法,也叫做非线性量化。 非线性量化的基本思想:对输入信号进行量 化时,大的输入信号采用大的量化间隔,小 的输入信号采用小的量化间隔。
2.2音频的数字化
编码(Coding):是指按一定的格式把经过采样和量化 一定的格式 得到的离散数据(脉冲数字信号)记录下来,并在有效 的数据中加入一些用于纠错、同步和控制的数据。 脉冲编码调制(PCM,Pulse Code Modulation) 把模拟信 号转换为数字信号的一种调制方式 。 量化误差:模拟信号经过采样和量化,然后用有限个二 进制代码代表量化后的幅度,在编码时引入量化误差, 在解码时无法消除,即引入了噪声,降低了信噪比(SNR)。 电话采用A率标准,SNR>35dB。
信噪比(SNR, Signal to Noise Ratio)
主观评价
平均判分(MOS, Mean Opinion Score), 通常使用5分制。
声音质量分级与带宽
声音的质量与声音的带宽有关,一般来说频率范围越宽,声音质量 也就越好。
音频信号的频带越宽,所包含的音频信号分量 越丰富,音质越好。 300Hz~3.4kHz, 电话信号范围 50Hz~7kHz,AM广播信号范围 20Hz~15kHz,FM广播信号范围 20Hz~20kHz,高保真声音(high-fidelity audio)的频率范围,带宽约20kHz
CD-DA FM广播 AM广播 电话 10 20 50 300 3.4K 7K 15K 22K f (Hz)
2.2音频的数字化
音频信号是一种连续变化的模拟信号,可用一条连 续的曲线来表示,称为声波。它不仅在时间上是 连续的,而且在幅度上也是连续的。 这个模拟信号曲线无论多复杂,在任一时刻都可 分解成一系列正弦波的线性叠加。
动态范围越大,信号强度的相对变化范围越
大,音响效果越好。
2.1音频信号及其概念
音频频率划分:
人的听觉器官能感知的频率范围为20~20kHz
,能 感知的声音幅度范围在0~120dB之间,而人的发 音器官能够发出的声音频率范围为80~3.4kHz。 < 20 Hz: 亚音信号或次音(infrasonic)信号 20Hz~20kHz: 音频(audio)信号 > 20kHz: 超声波(ultrasonic)信号
2.2音频的数字化
数据率=采样频率×量化精度×声道数
量化(quantization):将连续的信号幅度离散化。 如果幅度的划分是等间隔的,称为线性量化,否则为 非线性量化。
电压范围 0.5 ~ 0.7 0.3 ~ 0.5 0.1 ~ 0.3 -0.1 ~ 0.1 -0.3 ~ -0.1 -0.5 ~ -0.3 -0.7 ~ -0.5 -0.9 ~ -0.7