多媒体网络与通信 2-音频处理技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可听阈值
痛阈值
2×10-5
0.5
200 P(Pa)
在声学工程中,常用声压的相对大小表示声压的强弱, 称为声压级(Sound Pressure Level,SPL),单位是分 贝(decibel,dB)
Lp = 20 lgP/P0 式中,基准声压P0为2×10-5Pa,规定为0dB。
2021/4/19
y111AllnnxlnA AAsxgnsg(xn)(,x)0, 1A x1A x1
式中, x为输入信号幅度,规格化为-1≤x ≤1 ,sgn(x)为 x的符号,A为确定压缩量的参数,一般取87.56。
2021/4/19
音频处理技术
第28页
2.2.1 声音的数字化
对于采样频率为8kHz,样本精度为13位、14位或者16位 的输入信号,使用μ律压扩编码或者使用A律压扩编码, 经过PCM编码器之后每个样本需8位二进制存储,输出 的数据率为64 kb/s。这个数据就是CCITT推荐的G.711 标准:话音频率脉冲编码调制 。
2021/4/19
音频处理技术
频域掩蔽
第15页
掩蔽效应(2)
时域掩蔽:在强音信号之前或之后的弱音被掩蔽。分为前掩蔽和后 掩蔽。
利用掩蔽效应可以用有用信号去掩蔽无用的声信号,只需要把无用 声音的声压级降低到掩蔽阈以下即可。
在数字音频处理中,还可以利用掩蔽效应去掉人耳听不到的那部分 信号进行声音数据的压缩。
回声与余声的感觉可使听者感受出房间体积大小、房间 高低及内表面结构上的差异,这便是空间感。
2021/4/19
音频处理技术
第18页
2.1.3 音频信号的质量指标
(1) 频带宽度 音频信号所包含的谐波分量越丰富,音色越好。在广播通信和 数字音响系统中,以声音信号所包含的谐波分量的频率范围来 衡量声音的质量,即带宽。
式中,x为输入信号幅度,规格化为-1≤x ≤1,sgn(x)为x 的符号,μ为确定压缩量之比,取100≤μ≤500。国际现在 的标准是μ=255。
由于μ率压扩的输入与输出是对数关系,因此这种编码 又称为对数PCM。
2021/4/19
音频处理技术
第27页
A律压扩
A律(A-Law)压扩主要用在欧洲和中国大陆等地区的数 字电话通信中,按下式确定量化输入和输出的关系:
一般来说,声压越大响度越大,也 就是声音越大。响度还与声源频率 有关。
响度的单位为宋 (sone)。国际上规 定,频率为1kHz的纯音在声压级为 40db时的响度为1宋。
响度级:某响度与基准响度比值的 对数,单位为方 (phon)。规定1kHz 纯音声压级的分贝数为响度级。
2021/4/19
音频处理技术
第25页
非均匀量化
非均匀量化的思想是大的输入信号采用大的量化间隔,小的输入信 号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少 的位数来表示。声音数据还原时,采用相同的规则。
2021/4/19
音频处理技术
第26页
μ律压扩
μ律(μ-Law)压扩主要用在北美和日本等地区的数字电 话通信中,按下面的式子确定量化输入和输出的关系:
声波可以用一条连续的曲线来表示,它在时间和幅度上都是连续的, 称为模拟音频信号。
在任一时刻,声波可以分解成一系列正弦波的线性叠加:
2021/4/19
音频处理技术
第5页
(1) 频率
单位时间内声源振动的次数或空气中气压疏密变化的次数,称为声 源的频率f,单位赫兹(Hz)。
频带宽度或称之为带宽,它描述组成复合信号的频率范围。
2021/4/19
音频处理技术
第8页
(3) 动态范围
指声音的最大声压级和最小声压级之间的差值。 每种声源的动态范围依据各自的特性有所不同。
女声的动态范围为25~50dB 男声为30~50dB 交响乐队的动态范围大于100dB 动态范围不仅用来表示一个声源产生的最大声压级与最小声 压级之间的差值,录音设备或记录声音的载体(磁带、光盘、 硬盘)同样可用动态范围表示能够处理信号电平的范围。 磁带的动态范围为50dB~60dB CD光盘96dB 磁光盘录放音机105dB
第2章 音频处理技术
主要内容
2.1 声音的基本特性 2.2 数字音频 2.3 电子合成音乐 2.4 音频压缩技术 2.5 数字音频处理 思考与练习
2021/4/19
音频处理技术
第2页
简述
音频是多媒体技术中媒体的一种,由于音频信号是一 种连续变化的模拟信号,而计算机只能处理和记录二 进制的数字信号。因此,音频信号必须经过一定的变 化和处理,变成二进制数据后,才能送到计算机进行 编辑和存储。
2021/4/19
钢琴 吉他 小号 小提琴
音频处理技术
第11页
音调
音调指声音的高低,也叫 音高。是人们对声音频率 的主观感觉,单位是 “美” 。
实验表明,主观感觉的音 调与频率之间并不是线性 关系。
2021/4/19
音频处理技术
“音调-频率”曲线
第12页
响度
响度又称音强,是人耳对声音强弱 的感觉程度。
等响度曲线
第13页
音色
音色又称音品。通常说法是:声音的音调和响度以外的 音质差异叫做音色。
音色取决于该声音的频谱结构或是频谱包络(声波曲 线)。
声音的频率成分越多,音色就越有明亮感和穿透力,声 音听起来越宽广、宏大;反之,显得单调、平淡无奇。
它是一个主观量,常用柔和、刺耳、饱满等词描述。
2021/4/19
2021/4/19
音频处理技术
第23页
PCM编码原理
PCM编码原理示意图
2021/4/19
音频处理技术
第24页
均匀量化
量化时,如果采用相等的量化间隔对采样得到的信号作量化,那么 这种量化称为均匀量化。
缺点: 不能充分利用为适应 幅度大的输入信号, 增加的样本的位数。
2021/4/19
音频处理技术
若有两个声源,增大其中一个声源的强度,由于该声音源发 出的直达声或绕射声的声压大于另一个声源,双耳将会产生 声压级差。使听者感受的声源(声像)位置向强度较大的声 源方向移动,使人感受到声音的立体感。
2021/4/19
音频处理技术
第17页
空间感
一个声源发出的声音同时向各个方向散开,其发散的角 度取决于声源所具有的指向性,发散的声波有一小部分 直接传给听者,而大部分会被空间表面反射,然后到达 听者。由于直接和经反射到达听者的两个声音途径存在 差别(取决于环境)而带来时间差。当时间差超过一定 数量时,听者会听到先后到达的两个声音,从而产生回 音。经多次反射,造成余声。即使声源已停止发声,但 听者仍能听到声音存在。
音频处理技术
分贝仪
第7页
(2) 声压和声强
在声传播方向上,单位时间内垂直通过单位面积的声能 量,我们称之为声音的强度或简称声强,用I表示,单位 为瓦/米2 ( W/㎡)。
一个声音的声强为I,则它的声强级记为LI,定义为: LI = 10 lgI/I0
式中:I0 —基准声强或参考声强,I0=10-12 W/㎡。 声强级的单位为分贝(dB)。 这样,10-12~1W/㎡的声强对应0~120 dB的声强级。
声音信号可被分解和复合,可以从中抽出若干个单一的正弦信号, 也可以用若干个单一的正弦信号来合成任意波形的复合信号,如合 成语音和合成音乐等 。
2021/4/19
音频处理技术
第6页
(2) 声压和声强
声波在空气媒质中是以空气中的分子振动形成疏密而传播。它造成 空气中的气压发生大小变化,相当于在无声波下空气中的气压上叠 加一个变化的压强,叠加上的压强称为声压,记作P。单位帕斯卡 (Pa)和微巴(μbar) 。
目了然地看出复杂振动的频率结构。
2021/4/19
音频处理技术
第10页
2.1.2 音频信号的心理学特性
从声学心理角度,声音的三个要素是音调、响度(音强)和音色。 它们与声波的频率、声压和频谱结构对应。
● 音调 —— (高低)
(低)
(高)
● 音强 —— (强弱)
(弱)
(强)
(停)
● 音色 —— (特质)
2021/4/19
数字化就是将连续信号变成离散信号。
PCM 脉冲编码调制(Pulse Code Modulation,PCM )是一种把模拟信号转 换成数字信号的最基本的编码方法。 采样(sampling):是每隔一定的时间测量一次声音信号的幅值, 把时间连续的模拟信号转换成时间离散、幅度连续的采样信号。如 果采样的时间间隔相等,这种采样称为均匀采样。 量化(quantization):是按“四舍五入”或其他方法将采样得到 的数值限定在几个有限的数值中,将采样信号转换成时间离散、幅 度离散的数字信号。 编码(coding) :是将量化后的信号转换成一个二进制码组输出。 比如,量化得到的数据中只会出现两个数值51和80,则只用一位二 进制的数表示即可,用0表示51,用1表示80。
2021/4/19
音频处理技术
第9页
(4) 频谱
物体在一定位置的附近作来回往复的运动,称为简谐振 动。
简谐振动会产生一个特定音调的纯音,听起来感觉单薄。 乐器很少产生单一频率的纯音,而是复音。 复音的产生基于物体的复杂振动,可以分解为许多不同
振幅和不同频率的简谐振动,即看成简谐振动的叠加。 简谐振动的振幅按频率排列的图形称为频谱。频谱可一
2021/4/19
音频处理技术
第16页
方位感
人耳对声音传播方向及距离,定位的辨别能力非常强,无论 声音来自哪个方向,都能准确无误地辨别出声源的方位。人 耳的这种听觉特性称为“方位感”。
声源到达听者耳朵的声音有两个,其中一个声音直接到达, 而另一个由于人头部遮蔽,需绕过头部才能到达。称前者为 直达声,而后者为绕射声。
音频处理技术
第14页
掩蔽效应(1)
一个较弱的声音被另一个较 强的声音掩盖的现象称为掩 蔽效应。称听不到的声音为 被掩蔽声 (masked tone, maskee) ,起掩蔽作用的声音 为掩蔽声 (masking tone, masker) 。
频域掩蔽:当掩蔽音与被掩 蔽音同时作用时发生的掩蔽 效应,也称同时掩蔽 (simultaneous masking)。
注意环境噪声。录制时应尽可能减小环境噪音。输出时应使音量适 当大,以减少环境噪音对听音的影响。 一般话筒和音箱的信噪比在75dB以上。声卡的信噪比在85~95dB。
2021/4/19
音频处理技术
第21页
主要内容
2.1 声音的基本特性 2.2 数字音频 2.3 电子合成音乐 2.4 音频压缩技术 2.5 数字音频处理 思考与练习
2021/4/19
音频处理技术
第3页
2.1 声音的基本特性
音语
音
具有语言内涵和人类约定俗成的特 殊媒体
频
信 号音 乐
规范的符号化了的声音
种
类音 响
人类熟悉的其他声音
2021/4/19
音频处理技术
第4页
2.1.1 音频信号的物理特征
机械振动或气流扰动引起周围弹性媒质发生波动,产生声波。产生 声波的物体为声源,声波所及的空间范围称为声场。声波传到人耳, 经过人类听觉系统的感知就是声音。
2021/4/19
音频处理技术
第20页
(3) 信噪比
信噪比(Signal to Noise Ratio ,SNR )是有用信号与噪声之比的 简称,即有用信号的平均功率S与噪声的平均功率N之比。
SNR常用分贝来衡量。 SNRdB = 10 lgS/N
信噪比大,在一定程度上能够掩蔽噪声,从而获得较好的声音效果。 信噪比不仅是声音设备的性能指标,在声音的录制和播放时,也要
2021/4/19
音频处理技术
第29页
PCM示例(1)
2021/4/19
音频处理技术
第30页
PCM示例(2)
2021/4/19
音频处理技术
第31页
PCM示例(3)
2021/4/19
音频处理技术
第32页
2.2.2 数字音频的技术标准
采样频率 采样频率是指一秒钟采样的次数。采样频率越高,单位时间内 采集的样本数越多,得到波形越接近原始波形,音质就越好。 根据奈奎斯特(Harry Nyquist)采样理论:如果采样频率高于 输入信号最高频率的两倍,重放时就能从采样信号序列无失真 地重构原始信号。 采样的3个常用频率分别为 11.025kHz——AM广播 22.05kHz ——FM广播 44.1kHz ——CD高保真音质声音 现在声卡的采样频率一般为48kHz甚至96kHz。
2021/4/19
不同质量的声音的频带对比示意图
音频处理技术
第19页
(2) 动态范围
动态范围越大,说明音频信号强度的相对变化范围越大, 音响效果越好。
动态范围一般用dB为单位来计量。 FM广播的动态范围约60dB AM广播的动态范围约40dB CD—DA(Compact Disc-Digital Audio,精密光盘数字 音频)的动态范围约100dB 数字电话约50dB