第三章 声音的合成

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.基于音节的编辑合成方式
在任何语言中,音节的数量比单词的数量少 很多; 基于音节的编辑方式在合成时的检索、控制 变得十分方便; 基于音节的合成方式的音质较差,很难表现 人们在讲话时的各种情感和声调的变化; 根据发音耦合的原理和要求,人们对单词的 发音制定了一定的规则,基于这种规则进 行声音合成,可以得到较好的声音效果。
3.录音编辑声音合成的分析
(1)以录音编辑的方式进行声音合成,需要 大容量的存储设备 (2)为了让一定容量的存储设备能存储更多 的声音信息,需要对声音信息的数据量进 行压缩 (3)通过编码的方式,减少声音信息中的冗 余性是实现声音信息压缩的基本方法。
三、脉冲代码调制PCM
脉冲代码调制 PCM(pulse code modulation) 是一种对模拟信号的编辑 声音信号是一种模拟信号,经PCM编码后,变 成数字信号 通常所说的PCM录音就是一种数字录音。
22,050 44,100
8
8 8
0.66 MB
1.32 MB 2.64 MB

一般 良好
11,025
22,050 44,100
16
16 16
1.32 MB
2.64 MB 5.29 MB

良好 优秀
• 4 .音频文件的种类及特点
• (1)MIDI文件(电子乐器数字接口) • 是用于在音乐合成器、电子乐器、 音序器和计算机之间交换音乐信息 的一种标准协议。
0011 0010 0001 0000 1001 1010 1011
常用声音信号与采样频率
声音信号 CD音乐 数字电话 数字电话 采样频率
44.1K
信号带宽
20K
16K
7K
8K
3.4K
声音采样
11011100 11001101
采样频率 Hz
数据长度 bit
数据量/分钟
音质评价
11,025
n=2时刻: 声音信号为5,预测误差为 e2=S2 – S1 =5-2=3 由于e2>0 分配增量 △=2,以码字1表示, 预测值为 S2= S1 + △ =4
n=3时刻: 声音信号为1,预测误差为 e3=S3 – S2 =1-4= -3 由于e3﹤0 分配增量为- △,以码字0表示, 预测值为 S3= S2 - △ =4-2=2
例: 设声音信号的采样频率为10KHz,PCM编码所 分配码字长度为8bit,传送该声音信号所 需的传递速率应不低于 10×103×8=8×104 bit∕s
(5)PCM录音及其声音合成系统
话筒 A∕D 变换器
录音Leabharlann Baidu
大容量 存储器 D∕A 变换器 扬声器
2.采样与量化
(1)在PCM调制中,采样频率应是声音信号 中最高频率的两倍以上 (2)声音信号中包括有多种不同的频率成分, 为使各种不同的频率成分都能很好地传递、 呈现,所需的带宽应是 20Hz---20KHz 采样频率应选为40Hz (3)对于连续的声音信息,由于其相关性, 通过前、后的有关信息可以实现信息的预 测和识别,声音合成时采样频率选为8KHz 就足够了(至多10KHz)
第二章 声音的合成
一、音频信号
• 1 .声音是一种波 • 声波可以在空气中传播,也可以在液体及 固体中传播。 • 声音三要素 • (1) 音调 — (高低) • (2) 音强 — (强弱) • (3) 音色 — (特质)
• 2 .音质
音质与频率范围成正比,频率范围 越宽音质越好 • 3 .声音采样 • 把声音信号按固定的时间间隔,转 换成有限个数字表示的离散序列。
1.基本原理
PCM编码过程: (1)对模拟声音信号进行采样
采样信号
振 幅
采样周期
t
(2)将各个采样点的声音信号值通过模∕数 变换(A ∕ D转换)变换成由0和1组成的 脉冲变换序列
码字序列
正值
0011 0010 0001 0000 1111 1110 1101
模拟信号
负值
(3)在PCM(脉冲代码调制)中所分配码字 的首位为符号位, 信号为正时,首位为0 信号为负时,首位为1 (4)对声音采样的频率称为采样频率:f 经采样后对每一个采样点分配的码字为a位, 用于存储1秒钟的声音信号所需的存储容量为 f· a ,它也表示了传递声音信号所需的速率。
乐器数字化接口文件 (.mid) WAV文件 MIDI文件
特点: [1] 真实记录自然声波形
特点:
[1] 纪录音符、时值、通道
[2] 使用电子键盘乐器 [3] 数据量小
STOP
教学进程
[2] 基本无数据压缩
[3] 数据量大
STOP
二、录音编辑
1.基于句子和单词的录音编辑方式
可以预先将句子、单词作为录音的单位, 对录音、讲话所涉及的有关句子或单词逐个 进行录音并保存 为了实现这种录音编辑方式,应事先存 入大量的有关单词、句子(即需要大量的存 储空间),声音合成时还需要快速地检出和 呈现(需要高速的检索和控制)。
五、差分脉冲代码调制
基本原理
DPCM方式的基本原理与DM方式相同,要求声 音信号相邻的两个采样信号间不应有很大 的变化,即声音信号是一种连续性的信号。 不同的是,DM是一位数的编码,DPCM则是多位 数的编码。
DPCM编码解码的原理图
DPCM编码中的各信号波形
2.粒状噪声与超载噪声
增量调制是一种一位数的编码方式,它 根据预测误差的正、负分配相应的△ 在很多情况下,信号的变化很小,甚至 不变,在这种情况下,DM编码仍然要分配 +△或-△.
2.粒状噪声与超载噪声
如上图,在原声音信号不变,或缓慢变化 时,DM编码的码字序列却是010101…这样 变化的码字序列。 这种变化的0、1序列,经解码后产生一种 噪声,对原声音符号的音质造成一定的影 响,称这种噪声为粒状噪声 (GranularNoise)。为了减小粒状噪声的影 响,应减小增量的幅度。显然, △的幅度 越小,粒状噪音越小。
声音文件:24.9K
声音文件:16K
• (2) WAVE (Waveform Audio)波形音频文件
• 多媒体系统、音乐光盘制作,记录物理波形,数 据量大 • WAVE格式文件是以RIFF为标准的
• 在Windows中,把声音文件存储到硬盘上的扩展名 为WAV。WAV记录的是声音的本身,所以它占 的硬盘空间大的很。例如:16位的44.1KHZ的立体 声声音一分钟要占用大约10MB的容量,和MIDI相 比就差的很远。
当增量的幅值减小时,会给DM方式的声音 信号带来超载噪声(OverloadNoise) 对于一定的增量幅值,当声音信号变化比 较大时,DM编码信号值的变化跟不上声音 信号的变化,使得编码信号值的变化比原 声音信号产生一种延迟 如图所示
超载噪声
为了减少超载噪声应增大增量的幅值, 这与减小粒状噪声是相矛盾的。 一般地,人们对超载噪声噪声的感知不 太敏感,而粒状噪声在整个频谱范围上都 会产生一定的影响,它对音质的影响较大。 因此,在决定增量的幅值时,与实际的声 音信号大小相比较,应选择增量足够小的 幅值 增量的幅值过小,必将使超载噪声增 加,为减少超载噪声,可增加采样频率, 使得在一定的采样间隔内声音信号的变化 减少。所以,在DM编码时,应慎重选择采 样频率和增量幅值。
声音信号、预测值、预测误差与码字序列及 其相互间的关系如下图所示
DM方式的信号波形
通过上述DM编码的过程,可得到声音信号 的DM编码的0、1符号序列。根据这样的符 号序列,通过DM编码的逆操作,可进行解 码,恢复原声音信号。 例如, △=2的情况下,接收的码字序列为 “1101 1100”,当码字“1”到来时,进行+2 的操作,当码字“0”到来时,进行-2的操作, 由此可得到解调后的声音信号为“2,4,2, 4,6,8,6,4”。
• 标准格式的WAV文件和CD格式一样,也是 44.1K的采样频率,速率88K/秒,16位量化 位数 • WAV格式的声音文件质量和CD相差无几
• MP3也就是指的是MPEG标准中的音频部分, 也就是MPEG音频层。根据压缩质量和编码 处理的不同分为 3层,分别对应 “*.mp1”/“*.mp2”/“*.mp3”这3种声 音文件。 • MPEG音频文件的压缩是一种有损压缩, MPEG3高压缩率,基本保持低音频部分不 失真,但是牺牲了声音文件中12KHz到 16KHz高音频这部分的质量来换取文件的尺 寸
• MIDI实质上是由MIDI控制器(或MIDI文件) 产生的指示电子音乐合成器要做什么、怎 么做(如演奏某个音符、加大音量、生成 音响效果)的一套标准指令。MIDI不是声 音信号,在MIDI电缆上传送的不是声音, 而是动作指令。
• 由于MIDI只是记录音乐信息的数字代码, 所以生成的文件比较小,便于传播,也便 于编辑修改 • 与Mp3、Wav等音频格式不同的是MIDI的播 放质量很大程度上取决于硬件或软件的音 源环境,也就是说同样的MIDI文件在不同 的电脑上可能有非常明显的效果差别,究 其原因是因为它们调用的波表音色库不一 样
如采样频率为10kHz 分配的码字长度为11bit, 记录1秒钟的声音信息所需要的存储容量为: 11×10×103=110(kb) 若以字节计算,记录1分钟的声音信号所需存 储容量: 110×103∕8=14(KB) 40KB的存储容量,只能存3秒钟
3.高频滤波
为提高声音合成效果,进行预处理: 采样频率为f 将声音信号中高于f∕2的 高频成分滤掉, 这种处理是通过低通滤波器完成
(4)PCM编码中,除需要以一定的频率进行 采样外,还需要对每一个样本进行量化, 分配一定的码字 (5)量化的精度,即分配码字的长度,对声 音的失真度有很大影响。
声音信号与量化精度的关系
量化噪音与量化精度,即分配码字长度a之间 有如下关系: 6(a-1)dB 例如:要求噪音的信噪比S∕N不低于60dB 6(a-1)=60 a=11 说明:在PCM编码时,分配的码字长度应不低 于11bit
低通滤波器
四、增量调制
1.基本原理
增量调制是一种以最低的一位数进行数据 压缩的编码方式 在DM系统中,应预先确定具有一定振幅 值的增量△,并根据当前信号与基于预测 编码的预测值之间的差值进行编码。 设当前时刻n的声音信号值为Sn ,基于预 测编码的n-1时刻的声音信号预测值为Sn-1 其间的误差值en 为 en = Sn -Sn-1 en为预测误差
预测编码是按照不断减少预测误差的方 向进行编码的,通过编码,使预测值Sn-1不 断逼近Sn 在DM方式中,预测值是以 Sn = Sn-1+ △ 确定的 下面以声音信号采样序列: 4,5,1,0,3‥‥ 在编码前,应预先确定增量△, 设△=2,并 给定编码的初始条件为S0=0
n=1时刻: 声音信号为4,由于初始条件为S0=0 e1=S1 - S0 =4-0=4 由于e1>0 分配增量 △=2,以码字0表示, 预测值为 S1= S0 + △ =2
• 相同长度的音乐文件, 用*.mp3格式来储存, 一般只有*.wav文件 的1/10,而音质要次 于CD格式或WAV格式 的声音文件。文件尺 寸小,音质好
声音文件
● WAV —— Wave,波形音频文件 (.wav)
● MIDI —— Musical Instrument Digital Interface,
相关文档
最新文档