音频信息处理

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

在多轨编辑状态下，可以对活动音轨上的波形进行分割，使其变成多个波形片段，定位播放线，执行“剪辑|分割”或右击鼠标点选“分割”。使两段波形首尾相接，按住Ctrl键将两段波形都选中，执行“剪辑|合并”或右击鼠标点选“合并”即可完成。
（3）锁定音频波形
锁定使音频的绝对时间位置不变。
（4）编组音频波形
（3）音量淡化包络编辑
Audition提供了简单快速的音量淡化包络。在音乐制作领域，淡化（fade）指音量的逐渐变化，音量由小到大变化称为淡入（fade in），音量由大到小变化称为淡出（fade out）。
3．时间伸缩
用于改变声音播放的速度，且不影响音高。
“查看|启用剪辑时间伸展”
时间伸缩
2.2.6
2．建立录音文件 3．导入伴奏音乐 4．控制录音电平 5．录制声音
2.2.5
音频编辑
单轨编辑状态：可以进行波形的各种编辑处理和效果的设置，还可以分别对左
右声道单独进行编辑处理。
多轨编辑状态：适合对多个音频轨道进行编辑、录制和合成处理。最多可以同
时处理的轨道数为128个。按钮“R”表示录音、“S”表示独奏、“M”表示静音。
（3）编码
就是用一组二进制码组来表示每一个有固定电平的量化值，或者说将量化值转换成二进制码组。
典型的音频编码方法：脉冲编码调制法（PCM）。
（4）数字音频的数据量
数据量 = 采样频率* 采样精度* 采样时间* 声道数 / 8
单声道：一次只产生一组声波数据，立体声：一次产生两组声波数据。
（字节数）
加载效果器
加载效果器按照使用方法可分为：
插入效果器：作用的声音范围是一整条音轨；波形效果器：作用于音轨中的某一段音频片段；
总线效果器：加载在总线通道上的效果器，它使所有的音轨加入相同的效果器；
1．插入效果器
多轨编辑下
2．波形效果器
单轨编辑下，允许多个音频片段分别进行效果设置。
2.2.7
音，所以不同的声卡，不同软波表，不同硬件音源的音色是不相同的，相同的 MIDI文件在不同的设备上播放也会有不同的效果。MIDI文件适合作为背景音乐来播放。
3．MP3文件：是MPEG音频第3层的简称，有损压缩，压缩比达12:1。MP3利用人耳的掩蔽特性，
削减音频中人耳听不到的成分，同时尽可能地维持原来的声音质量。
1．常用编辑
（1）裁剪音频波形波形的选择波形的删除波形的移动与复制
混合工具：拖曳左键选中波形，拖曳右键移动波形。时间选择工具：拖曳左键选中波形。移动/复制剪辑工具：拖曳左键移动波形，拖曳右键移动或复制。刷选工具：拖曳左键可以播放选中波形。
（2）切分和合并音频
（2）语音合成技术
利用计算机合成语音的技术，使计算机具有类似人的说话能力。
语音合成的三个层次
从文字到语音从概念到语音从意向到语音
语音合成技术的特点
清晰度自然度表现力复杂度
语音合成的应用
文语转换语音查询
2.2 音频处理软件 Adobe Audition
2．声音的基本特征
（1）声波信号的物理特征
周期（T）：声波的两个波峰或波谷之间的相对时间。
频率（f）：周期的倒数（f=1/T），即每秒波峰或波谷出现的次数。幅度：从声波信号的基线到波峰的距离，幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强弱。
分贝数听觉效果
低于20 能分辨
5～20000Hz 0～96000Hz
22.050
44.1 192
16
16 24
立体声
立体声 6声道
88.2
176.4 1200
2）信噪比（SNR）：即有用信号与噪音信号的强度之比，单位是分贝。 3) 声音主观质量的度量：主观度量就是大多数人对声音质量的感觉。
3．音频信号的表示
（1）音频信号：通过麦克风等设备转换成的电信号。
第2章
音频信息处理
2． 1
音频处理基础
2．2
2． 3
音频处理软件Adobe Audition
音频处理综合应用案例
2.1 音频处理基础
1. 声波
（1）声波：由各种机械振动或气流扰动引起周围的弹性媒质发生波动。（2）声源：产生声波的物体，如人的声带和乐器等。（3）声音：人的听觉系统所能感知到的声波。
2.1.3 数字音频处理技术
1. 数字音频技术
结合数字技术和计算机技术而实现传统音频处理的技术
（1）特点
1）处理长样本文件的能力，录音时间只受硬盘本身大小的限制。 2）随机存取编辑 3）无损编辑
（2）应用
1）声音剪辑和CD刻录。
2）日常音乐录制。
3）大规模音乐录音和混音。 4）影视音乐的制作与合成。 5）多媒体音乐制作与合成。数字音频工作站
4．RA文件：属于Real
Media的音频部分，采用流式传输方式，可以在非常低的带宽下提供
足够好的音质让用户能在线聆听。
5．WMA 文件：Windows
Media的音频部分。无损压缩，支持多声道编码。
6．AC3文件：又叫杜比数码环绕立体声，压缩比10:1，提供的环绕声系统由5个全频域声道
和1个超低音声道组成，称为5.1声道，一般作为DVD的伴音。
效果器
Audition的效果器按照功能分为：
振幅类效果器
滤波类效果器延迟类效果器降噪类效果器波形发生类效果器

声码器
1．动态处理效果器
属于幅度类效果器，用于将某个范围内的声音电平按比例增大或缩小。
2．嘶声抑制降噪器
降噪类效果器可以精确分析音频信号中的嗡嗡类噪音进行消除，也可以根据实际录音环境进行噪声消除。嘶声抑制降噪器可以消除音频信号中的高频嘶嘶声。
音频信号的数学表示
f (t ) An sin(n 0 t n )
n 0

ω0：声音的基音，决定了音调的高低 nω0：声音的泛音，决定了声音的音色 An : 声波的振幅，表示声音的强弱
2）音频信号的波形表示
3）音频信号的频谱表示
声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加而成的，这些正弦波的幅值按频率排列的图形就叫做频谱。男声的基频较低，低频分量更加丰富，因此听起来会更加低沉、浑厚。
2.1.2
音频信号的数字化
1. 音频信号数字化
声音信号在时间上是连续的，在幅度上也是连续的，属于模拟信号。
（1）采样
声音信号在时间上的离散化，即每隔一段时间抽取一个信号样本。采样频率：每秒采样的次数。奈奎斯特理论（Nyquist theory）：采样频率不低于声音信号最高频率的两倍，这样就能把数字声音还原成原来的声音，称为无损数字化。 f s >= 2 f max
音频的频率范围：20 Hz ～ 20000 Hz 语音的频率范围：300 Hz ～ 3000 Hz 次声波的频率范围： < 20 Hz 超声波的频率范围： > 20 kHz
（4）声强：对于一定频率的声音，要能引起听觉，其声强也有一定的范
围。下限：是恰能引起人听觉的最小声强，叫做该频率的可闻阈；上限：是指人耳能听闻的最大声强，高于上限的声强，人耳感觉疼痛，所以叫做该频率的疼痛阈。
电话话音信号的最高频率约为3.4kHz，所以采样频率取为8kHz。
（2）量化
声音信号在幅度上的离散化
也就是采样过程中对每一个采样点的幅度值用数字量来表示。如
果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。采样精度：即量化的位数，位数越多量化等级数也越多，所能表示的声波幅度的动态范围也越大，当然需要的存储空间也越大。
编组则可以使多个音频片段的相对位置固定，移动时可整体移动。
2．包络编辑
（1）音量包络编辑
音量包络是指音频波形随时间变化而产生的音量变化，也即是音量变化
的走势曲线。通过控制音量包络曲线来改变某音轨上音频信号的音量大小，是一个非常直观和简单有效的方法。
（2）声相包络编辑
声相就是声音在左右声道中所处的位置。声相包络线处于中间时（0点），声音在左右声道中达到平衡的效果，声相包络线位于上半部，声音偏向左声道，声相包络线位于下半部，声音偏向右声道。
基频频率增加一倍，在音乐上就叫升高了一个八度。
音色：这是一个主观评价声音的量，声音的音色取决于声音的频谱结构，
一般高次谐波越丰富，音色越明亮并具有穿透力。
响度：人耳对声音强弱的感觉程度，主要取决于振幅和声压。通常振幅
越大声音越响，其次人耳距离声源越远，声音越小。
（3）声音质量的评价
声音质量与带宽有关，频率范围越宽，声音质量越高。
（1）电话质量的语音压缩标准
（2）调幅广播语音压缩标准 G.722
标准 G.711 G.721 G.723 G.728
编码方法 PCM ADPCM ADPCM LD-CELP
采样频率 8kHz 8kHz 8kHz 8kHz
采样精度 8位 8位 8位 8位
数据传输率 64kb/s 32kb/s 24kb/s 16kb/s
例2.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。 60 * （ 44100 * 16 * 2 ） / 8 = 10.09 MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB，那么一个容量为512MB的
MP3播放器也只能播放12首这样的歌曲。
2. 数字音频压缩标准
电话质量的语音压缩标准
1）声音质量分级：按照声音信号的频率范围将声音质量分为5级。
质量电话 AM
频率范围 200～3400 Hz 100～5500Hz
采样频率（kHz） 8 11.025
采样精度（bits） 8 8
声道数单道声单道声
数据率（非压缩）（kB/s） 8 11.0
FM
CD-DA DVD
20～11000Hz
（3）高保真立体声的宽带音频压缩标准
MPEG音频：第一个高保真立体声音频压缩的国际标准 MPEG音频压缩标准提供三个独立的压缩层次： 1）Layer 1：编码器简单，输出数据率为384 kb/s，主要用于小型数字盒式磁带。
2）Layer 2：编码器较复杂，输出数据率为256 kb/s～192kb/s，主要应用于数字广播声
特定人语音识别系统非特定人语音识别系统
60年代：提出动态规划（DP）和线性预测
分析技术（LP）。
70年代：提出了动态时间归正技术（DTW），词汇量大小小词汇量语音识别系统矢量量化（VQ）和隐马尔可夫模型（HMM）中等词汇量语音识别系统理论，实现了特定人孤立语音识别系统。大词汇量语音识别系统 90年代：开始进入实用阶段。无限词汇量语音识别系统。
2. 智能语音处理技术
（1）语音识别技术
1）语音识别的发展
50年代:AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统—— Audry系统。
2）语音识别系统分类
对说话人说话方式的要求
孤立字（词）语音识别系统连接字语音识别系统连续语音识别系统。
对说话人的依赖程度
规则音频信号：带有语音、音乐和音效的有规律的音频信号，承载了一定的信息。语音：语言的载体，有丰富的语言内涵，是人类交流的信息载体。音乐：是一种规范的符号化的声音。音效：自然界中各种声音效果，如掌声、雷鸣声，爆破声等。不规则音频信号：不包含任何信息的声音，比如噪声。
（2）音频信号的表示
音、数字音乐、CD-I和VCD等。 3）Layer 3：编码器复杂，输出数据率为64kb/s，主要用于ISDN上的声音传输。
3. 数字音频文件的格式
1．WAV文件：波形文件，微软开发，需要的存储量大，多用于存储简短的声音片段和旁白。 2．MIDI文件：记录的是生成音乐的指令，MIDI文件短小。由于MIDI记录的并不是真正的声
2.2.3 Audition界面及基本操作
单轨编辑界面
多轨编辑界面
2.2.4
音频信号获取
直接读取计算机磁盘上的音频文件；提取视频信息中的音频信号；
直接录音。Audition允许同时进行多音轨录音，当然需要有相应的硬件支持，比如多个音频输入接口、多个录音源等。
1．录音前声卡设置
“选项 | Windows 录音控制台 ”
20～40
轻声
40～60 正常交谈声
60～70 吵闹
wk.baidu.com
70～90 很吵
>90 听力受损
常见声音的分贝量级
（2）声音信号的心理学特征
人们感知到的声音特征称为心理学特征
音调：在音乐中又叫音高，是由发声物体的振动频率决定，振动越快
（即频率越大），音调越高，振动越慢，音调越低。音调的高低与声音基
频的对数（20*log）成线性关系。基频越低，给人的感觉是声音越低沉，