数字变声器的设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要
变声器是通过改变输入音频的音色、音调,并将变声后的音频输出的工具。变声器是通过改变输入音频的音色、音调,并将变声后的音频输出的工具。根据变声器材质不同,变声器分为变声器硬件和变声器软件。变声器硬件,即通过硬件实现变声的工具本次课程设计是数字变声器的设计,整个程序使用MATLAB软件编写的。一个GUI界面实现录入一段10~15秒的语音,同时绘制出该语音的时域波形和频域波形,并实现了对该语音的保存和打开。
关键字:变声器;MATLAB软件;变声基本原理;语音;GUI;
目录
前言 (1)
第1章方案选择 (2)
1.1设计方案 (2)
1.2方案的选择 (2)
第2章变声的基本原理 (3)
2.1 基本概念 (3)
2.2 变声的原理 (4)
2.2.1 生成脉冲序列 (4)
2.2.2 计算预测系数 (5)
2.2.3 声道参数 (5)
第3章程序设计及仿真分析 (7)
3.1程序设计 (7)
3.1.1 分帧处理 (7)
3.1.2 计算预测系数 (7)
3.1.3 计算激励信号 (7)
3.1.4 重建语音 (8)
3.1.5 基音周期 (8)
3.1.6 合成激励的能量 (9)
3.1.7 变声处理 (10)
第4章GUI的设计 (11)
4.1 GUI简介 (11)
4.2 GUI界面设计 (11)
4.3 GUI界面运行流程图 (13)
4.4回调函数 (14)
4.4.1切换按钮 (14)
4.4.2 按钮 (15)
参考文献 (19)
设计总结 (20)
前言
我们每个人的声音不同,源于我们的每个人的音色和音调不同,我们所说的男中音、男高音,就是音调的不同,而即便音调一致,我们依然能区分出两个不同人的声音,或不同乐器的声音,这就是音色的不同。变声器,正是借助对声音音色和音调的双重复合改变,实现输出声音的改变。目前,语音伪装系统(变声器)被广泛应用于社会的各个领域。语音伪装设备经常出现在以下几个方面:为了防止打击报复,保护举报人的人身安全的匿名举报系统;记者采访时对采访对象声音的处理,保护被采访人的安全;应用于电台或电视台,可对热线电话进行声音的处理。独居女士和小孩;可用变声器应付骚扰电话和陌生人来访。另外,在智能手机或者平板电脑等便携式移动终端中利用变声器开发的小游戏等。因此,变声器的应用范围及其广泛。
我们每个人的声音不同,源于我们的每个人的音色和音调不同,我们所说的男中音、男高音,就是音调的不同,而即便音调一致,我们依然能区分出两个不同人的声音,或不同乐器的声音,这就是音色的不同。变声器,正是借助对声音音色和音调的双重复合改变,实现输出声音的改变。
本次课程设计就是运用我们所学到的理论知识,用MATLAB软件来实现对语音信号的变声处理,理论联系实际,从而更好地掌握以及运用所学习的知识。
第1章方案选择
1.1设计方案
方案一:
通过先对语音信号进行FFT变化得到频谱,然后搬移和改变基频,从而放大一部分频率并且减小一部分频率,从而实现对语音信号的变声处理。另外还可以调整语速从而改变声音。方案二:
我们可以采用线性预测参数合成法。线性预测参数合成法利用LPC语音分析方法,通过分析自然语音样本,计算出LPC系数,就可以建立信号产生模型,从而合成出语音,我们用周期脉冲序列构成的激励信号经过时变数字滤波器,并定期的改变激励参数和预测系数就能合成出语音。然后我们可以通过调整共振峰来实现语音的变声。
1.2方案的选择
方案一简单易懂,但是这种方法不易用参数进行控制,而且这种方法是通过频谱的搬移和改变来减小一部分的干扰,所以变声后的杂音较大,我们可以将它和滤波器结合起来。
方案二——线性预测参数合成法是目前比较简单和实用的一种语音合成方法,以其低数据率、低复杂度、低成本,受到特别的重视。LPC语音分析方法可以有效地估计基本语音参数,如基音、共振峰、谱、声道面积函数等,可以对语音的基本模型给出精确的估计,而且计算速度较快。这种方法可以比较容易的用参数进行控制。
综上所述:我们采用方案二——线性预测参数合成法来实现语音信号的变声处理。
第2章变声的基本原理
2.1 基本概念
1. 声道:声道是很多动物及人类都有的一个腔室,从声源产生的声音经由此处滤出。人的声道包括声道则包括喉腔、咽头、口腔和鼻腔。
2. 基音:一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为泛音。发音体整体振动产生的音,叫做基音,决定音高;发音体部分振动产生的音,叫做泛音,决定音色;基音和泛音结合一起而形成的音,叫做复合音,日常我们所听到的声音多为复合音。
3.共振峰:共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。
在语音声学中,共振峰决定着元音的音质,而在计算机音乐中,它们是决定音色和音质的重要参数。
无论是人声还是乐器,它们的声音特性都源自两个因素,一个是发声系统,如人的声带或乐器的振动簧片,另一个是共鸣系统。乐器不同的共鸣系统使其在一定频域中的分音的振幅得以突出,这样,这些区域就产生了这个乐器所特有的共振峰值,这些共振峰值同共鸣体的大小、形状的材料密切相关。由于一件乐器的结构是稳定的,因此在一件乐器发出的所有音调中,不论基频如何,都会表现出相同的共振峰值,只不过其显著性有强有弱罢了。这就可以帮助我们解释为什么在很多的乐器中,同一乐器所发出的不同音调具有相同的音质。
在语音声学中,人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响有自身的共振峰区。通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形),我们就能改变声音的共振峰。我们之所以能够区分不同的人声、元音,主要也是依靠它