7 音频处理与语音合成
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(Size)和“数据”(Data)所组成,如下图所示。
辨别码
数据大小
数据
7.3 常用音频文件
其中, ① 辨别码用4个字符表示,如RIFF、LIST等,表示Chunk―数据”的类型,指
定块的标志ID。如果一个程序不能识别“辨别码”,则将忽略由Chunk―大
小”所指定的Chunk―数据”和附加的数据;
7.1 音频信号
2 MIDI音频
将电子乐器演奏时的指令信息(例如音高、音长和力度等)通过声卡上的
MIDI控制器输入计算机,或者利用一种称为音序器的计算机音乐处理软件
编辑产生音乐指令集合,以*.MID文件格式存储在硬盘上,这种声音媒体称 为MIDI音频。MIDI音频重放时,必须经过合成器将MIDI指令译成相应的 声音信号,再由声卡上的混音器混合后生成声波,最后由音箱播出音乐。 MIDI音频的*.MID文件中可以包含多达16种不同乐器的声音定义。MIDI文
一、常见音频信号
主要有电话音频信号、调频、调幅无线电广播音频信号和高保真数字的立体 声音频信号。由于用途不同,这些音频信号频带宽度也各不相同。
例如,在音响设备中,通常以音频信号的带宽来衡量声音的质量。
数 字 激 光 唱 盘 (C D )
FM 无 线 电 调 频 广 播
AM 无线调幅广播 电 话
0 .0 10 .0 2
一个字节,以保持“字对齐”。
7.3 常用音频文件
一般而言,块与块不能相互嵌套。但有两种情况可以例外,即分别以RIFF 及LIST为辨别码的Chunk可以包含子Chunk。其中RIFF块的级别最高,它
可以包括LIST块。RIFF块和LIST块与其他块不同,RIFF块的数据总是以
一个指定文件中数据存储格式的 4个字符码(称为格式类型)开始,如 WAVE文件有一个WAVE的格式类型。LIST块的数据总是以一个指定列表
引言
为什么: 当人们将自己的声音录入录音机后,再播放出来,通常会感觉到播放出的
声音不像自己的声音了。其实,即使不考虑录音质量带来的因素,也会出
现这样的现象。为什么呢? 原因: 人们听自己的说话的声音时,主要是以骨传导为主空气传导为辅;而听录 音时是以空气传导为主骨传导为辅的,所以听起来有所不同! 现象:
引言
二、声音传导
人靠耳朵听声音,那么耳朵是通 声音的产生(振动) 声音的传播(介质)
过什么途径感知声音的呢?
空 气 传 导 过 程
鼓膜振动 听小骨及其它组织 听觉神经
大脑(引起听觉,听到声音)
引言
在空气传导的整个过程中,任何部分发生障碍(例如鼓膜、听小骨或听觉 神经损坏),人都会失去听觉,成为聋哑人!!
有些歌唱演员在录音时,常带着耳机!
引言
三、双耳效应
为什么人和动物都有两只耳朵? 是“上帝”多余的杰作?显然不是。 对于同一个声音,两耳感受到的强度不同、感受到的时间不同、感受到的 振动的步调不同等,这些差异使人形成了辨别方向的感觉。 如果:我们转动头颅,两耳听到同样的响度、步调,表明声源就在我们的正前
(2)清音 清音由空气通过声道时,受声道某些部分压缩引起,较浊音而言更具有随
机性。
话音信号的频谱间隔对应音调周期T,包络信号是浊音在时域中实际波形的
函数(音量大小),上限频率fm=3~4 kHz,一般取3.4 kHz,存在三个峰点F1、 F2、F3,即谐振峰,话音信号的时域波形及其频谱如下图所示。
引言
但是:
如果仅是传导障碍,若能够想办法通过其他途径将振动传递给听觉神经, 则仍然能够感知声音。 例如: 骨传导。
引言
骨传导:声音通过头骨、颌骨传到听觉神经。贝多芬耳聋后,就是通过骨
传导进行创做的。
声音的产生(振动) 声音的传播(介质) 鼓膜振动 听小骨及其它组织 听觉神经
头骨、骨
大脑(引起听觉,听到声音)
内容的4个字符码(称为列表类型)开始,例如扩展名为.avi的视频文件就
有一个strl的列表类型。
7.3 常用音频文件
二、WAV语音文件格式
在多媒体应用中被广泛使用的是WAV语音文件。
WAVE文件是RIFF文件的形式简单,其格式类型为WAVE,如下图所示。
Chunk 子 块 WAV E 大小
数据 R IF F
7.1 音频信号
三、音频的种类
在自然界中,声音包含声响、语音和音乐等三种形式。在多媒体系统中, 声音不论是何种形式都是一种装载信息的媒体,统称为音频。由产生音频 的方式不同音频被分为波形音频,MIDI音频和CD音频三类。
7.1 音频信号
1 波形音频
以声波表示的声响、语音、音乐等各种形式的声音经过声音获取设备(例如
Leabharlann Baidu
② 数据大小用32位无符号数值表示,表示Chunk―数据”的长度和Chunk―数据” 后附加的数据长度,这一值还包括Chunk―辨别码”和Chunk―大小”所占用 的空间; ③ 数据是指二进制数据,用来描述具体的声音信号,数据可以是固定长度也 可以是可变长度。相对于RIFF文件起始位置,数据是“字对齐”的,这样 可以提高数据访问速度。如果数据的字节长度为奇数,在数据后面要附加
7.2 音频的获取与处理
组织 标准 制定时间
传送速率(Kb/s) 编码算法 质量 使用场合 5.0 CD
ISO G.711 1992
128
CCITT G.712 1984
32 ADPCM 4.1 长途电话网络
G.728 1992
16 LD–CELP 4.0
1972
64 PCM 4.3
7.2 音频的获取与处理
接 口 微 型 机
音箱
功放
压放
滤波
D /A
7.2 音频的获取与处理
四、有关音频信号的标准及规范
下表中列出了国际电报电话咨询委员会 (CCITT),欧洲移动通信专家组 (GSM),美国移动通信标准(CTIA)及美国国家安全局各自制定的有关电话 通信的编码标准。 下表中还给出了各种标准的大致使用领域以及它们的质量,其中,质量是 以最高为5.0分来表示的。
7.3 常用音频文件
Windows支持两种资源交互文件格式(Resource Interchange File Format, RIFF)的音频文件:MIDI文件和波形音频WAVE文件,目前最常用的是
WAVE文件。
7.3 常用音频文件
一、RIFF格式
RIFF可以看做是一种树状结构,其基本构成单位为“块”(Chunk),它 犹如树状结构中的节点。每个Chunk由“辨别码”(ID)、“数据大小”
CD音频是指以44.1 kHz频率、16位精度采样而获得的一种立体声数字化声
音。
7.2 音频的获取与处理
一、音频信号的获取
音频信号的获取框图如下图所示。
微 话筒 放大 滤波 采样 保持 A /D 接口 型 机
采样 脉冲
7.2 音频的获取与处理
二、音频信号的处理
不管多媒体信息是音频信号还是视频信号,其数据量都是十分巨大的。 如图所示的那样,经A/D转换的数字化音频信号直接进入计算机进行存储 (记录)或进行传送,是不可取的。
7.1 音频信号
如果有陨石撞上月球,地球上的人能否听到撞击声?
听不到,因为声音在真空中无法传播。
7.1 音频信号
2 声音的三要素
音调、音强和音色称为声音的三要素。
① 音调。与声波的频率相关,频率高则音调高,频率低则音调低。音调高时
声音尖锐,俗称高音;音调低时声音沉闷,俗称低音。人的耳朵对于声音 的感知频率范围为20 Hz~20 kHz之间。低于20 Hz的声波为次声波,高于 20 kHz的声波称为超声波。 ② 音强。取决于声波的幅度,振幅高时音强强,振幅低时音强弱。
麦克风)和声音播放设备(例如录音机、CD唱机等)输入,并通过声卡控制采
样,由A/D转换将模拟信号转变成数字信号,然后以*.WAV文件格式存储在 硬盘上,这种声音媒体称为波形音频。波形音频重放时,必须经过D/A转换 将数字信号转换成模拟信号,由声卡上的混音器混合后生成声波,再由音 箱输出声音。 波形音频的*.WAV文件中记录的是数字信号,可以使用计算机对*.WAV文 件进行各种处理,并像其他数据文件一样被存取、复制和传输。
多媒体开发与编程
7 音频处理与语音合成
音频信号
音频信号的获取与处理
常用音频文件
声卡基础
声音播放 MCI基础 设计简单的音频播放器 *语音合成
引言
我们生活的世界充满了各种声音
引言
听一听 猜一猜
---(事物)发出的---(怎样的)声音”
引言
通过对各类声音生成机理的深入研究,学者们发现:
x (t ) 音调周期 T
t T X (f) (a)
话音信号(浊音)的时域波形
t (b) X (f) F1 F2 F3
话音信号(清音)的时域波形
1/T (c)
fm(3 ~ 4 k H z )
f
话音信号(浊音)的频谱
引言
通过对话音信号的分析可知:
同一个人的话音信号的周期T大致是不变的。
7.1 音频信号
件记录的不是乐曲本身,而是一些描述乐曲演奏过程中的指令,因此,
MIDI音频是乐谱的数字化描述。MIDI文件的存储量比较小,因此,它可以 满足较长时间音乐播放的要求,但是MIDI文件的录制工作较为复杂,需要
使用MIDI创作并改编作品的专业知识以及专门化工具,例如键盘合成器等。
7.1 音频信号
3 CD音频
③ 音色。由叠加在声音基波上的谐波所决定,一个声波上的谐波越丰富,音
色越好。
7.1 音频信号
3 声音的连续谱
声音信号一般为非周期信号,包含有一定频带的所有频率分量,其频谱是
连续谱。声波的连续谱成分使声音听起来饱满、生动。
4 声音的方向性
声音的传播是以弹性波形式进行的,传播具有方向性,人通过到达左右两 耳声波的时间差及声音强度差异来辨别声音的方向。声音的方向性是产生 立体声效果和空间效果的基础。
fm t
P C M WAV E F O R M AT 结 构 大 小
P C M WAV E F O R M AT 结 构
Chunk 块 d a ta 声音数据大小 WAV E 声 音 数 据
7.3 常用音频文件
RIFF块包含两个子块,这两个子块的ID分别是“fmt‖和“data‖。 1.fmt子块 fmt子块由结构PCMWAVEFORMAT组成,大小为: sizeofof(PCMWAVEFORMAT) 数据组成就是PCMWAVEFORMAT结构中的数据。
一、声音是由振动产生的
声音是由于物体振动产生的。把正在发声的物体叫做声源。固体、液体、
气体都能发声,都可以作为声源。
引言
据说: 法国物理学家帕斯卡小时候在厨房玩,听到厨师用刀叉敲打盘子发出声音。
他很好奇,发现盘子被敲打后声音不断,但当用手按住盘子后,声音立即停
止了。帕斯卡通过反复试验、仔细研究,揭开了发声的奥秘:发声的根本原 因是物体的振动,敲打只是使物体振动起来。
除了上面所提到的数字电话编码标准外,调幅广播的音频信号范围为50 Hz~7 kHz,又称“7 kHz音频信号”,其最高频率为7 kHz,当使用16 kHz
对其采样并进行14位二进制编码时,其数据的传送速率为224 KB/s。
为了对最高频率进行压缩,CCITT于1988年为其制定了G.722标准,标准规 定这种信号的数据传送率为64 KB/s。
方或正后方。 ——立体听觉
1. 两只眼睛——立体视觉 2. 两个鼻孔——交替呼吸
引言
四、人的话音由声道产生,分为浊音和清音两种类型
(1)浊音
浊音由声带振动产生的准周期脉冲引起,每次振动使一股空气从肺部流进声
道并激励声道,各股空气之间的间隔称为音调间隙或音调周期T。 或者说,激励的速度就是音调。
引言
0 .0 5
0 .2
3 .4
7
15
20
f / kH z
7.1 音频信号
声音的频率分布 次声波 <20Hz 人耳可听域(音频) 20~20,000Hz 超声波 >20,000Hz
话 声 源 种
音
信
号
300Hz ~ 3,000Hz 频
调 幅 广 播 ( AM)
调频广播(FM) 高 级 音 响
50Hz ~ 7,000Hz
20Hz ~ 15,000Hz 3Hz ~ 40,000Hz
带 宽 度
类
7.1 音频信号
二、声音基本特性
1 波动性
任何物体的振动通过空气的传播都
会形成连续或间断的波动,这种波 动引起人的耳膜的振动,变为人的 听觉。 因此,声音是一种连续或间断的波
动。
声音传输时需要一定的介质,如空 气、水、钢铁等。
7.2 音频的获取与处理
三、音频信号的回放
经压缩的音频信号以一定的格式记录在有关的媒体上,例如,磁带、磁盘 及光盘等,或者以一定的格式传送到接收端。 在音频信号接收端或由媒体回放音频信号时,首先由专用的硬件或软件对 压缩数据进行解压缩,恢复音频数字信号,然后,经由下图所示的电路框 图对音频信号进行放音。