实验三语音信号的特征提取最终实验报告
语音信号处理实验报告.docx
在实验中,当P值增加到一定程度,预测平方误差的改善就不很明显了,而且会增加计算量,一般取为8~14,这里P取为10。
5.基音周期估计
①自互相关函数法
②短时平均幅度差法
二.实验过程
1. 系统结构
2.仿真结果
(1)时域分析
男声及女声(蓝色为时域信号,红色为每一帧的能量,绿色为每一帧的过零率)
某一帧的自相关函数
3.频域分析
①一帧信号的倒谱分析和FFT及LPC分析
②男声和女声的倒谱分析
③浊音和清音的倒谱分析
④浊音和清音的FFT分析和LPC分析(红色为FFT图像,绿色为LPC图像)
从男声女声的时域信号对比图中可以看出,女音信号在高频率分布得更多,女声信号在高频段的能量分布更多,并且女声有较高的过零率,这是因为语音信号中的高频段有较高的过零率。
2.频域分析
这里对信号进行快速傅里叶变换(FFT),可以发现,当窗口函数不同,傅里叶变换的结果也不相同。根据信号的时宽带宽之积为一常数这一性质,可以知道窗口宽度与主瓣宽度成反比,N越大,主瓣越窄。汉明窗在频谱范围中的分辨率较高,而且旁瓣的衰减大,具有频谱泄露少的有点,所以在实验中采用的是具有较小上下冲的汉明窗。
三.实验结果分析
1.时域分析
实验中采用的是汉明窗,窗的长度对能否由短时能量反应语音信号的变化起着决定性影响。这里窗长合适,En能够反应语音信号幅度变化。同时,从图像可以看出,En可以作为区分浊音和清音的特征参数。
短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。从图中可以看出,短时能量和过零率可以近似为互补的情况,短时能量大的地方过零率小,短时能量小的地方过零率较大。从浊音和清音的时域分析可以看出,清音过零率高,浊音过零率低。
基于深度学习的智能语音交互系统实验报告
基于深度学习的智能语音交互系统实验报告一、引言随着人工智能技术的迅速发展,智能语音交互系统在我们的生活中扮演着越来越重要的角色。
从智能手机中的语音助手到智能音箱,这些应用都为我们提供了更加便捷和自然的交互方式。
本实验旨在研究和开发一种基于深度学习的智能语音交互系统,以提高语音识别和理解的准确性,并实现更加自然流畅的对话。
二、实验目的本次实验的主要目的是构建一个基于深度学习的智能语音交互系统,并对其性能进行评估和优化。
具体目标包括:1、提高语音识别的准确率,减少误识别和漏识别的情况。
2、增强对自然语言的理解能力,能够准确解析用户的意图和需求。
3、实现流畅自然的语音对话,提高交互的满意度和实用性。
三、实验环境和数据(一)实验环境1、硬件配置:使用具有高性能 CPU 和 GPU 的服务器,以满足深度学习模型的训练和运行需求。
2、软件环境:采用 Python 编程语言,以及 TensorFlow、PyTorch 等深度学习框架。
(二)数据来源1、公开数据集:如 LibriSpeech、Common Voice 等,这些数据集包含了大量的语音和对应的文本标注。
2、自行采集:通过录制和标注一些特定领域的语音数据,以丰富数据的多样性和针对性。
四、实验方法(一)语音特征提取使用梅尔频率倒谱系数(MFCC)或线性预测编码(LPC)等方法对语音信号进行特征提取,将语音转换为可用于深度学习模型输入的数值向量。
(二)模型选择与构建1、选用循环神经网络(RNN)、长短时记忆网络(LSTM)或门控循环单元(GRU)等模型来处理序列数据。
2、构建多层神经网络结构,结合卷积神经网络(CNN)进行特征提取和分类。
(三)训练与优化1、采用随机梯度下降(SGD)、Adagrad、Adadelta 等优化算法对模型进行训练。
2、应用数据增强技术,如随机裁剪、添加噪声等,以增加数据的多样性。
3、调整超参数,如学习率、层数、节点数等,以提高模型的性能。
播音语音实验报告
一、实验目的本次播音语音实验旨在通过对播音语音信号的分析,深入了解播音语音的声学特性,掌握播音语音处理的基本方法,提高播音语音的质量和效果。
实验内容主要包括播音语音的采集、处理、分析和评价。
二、实验原理播音语音是一种特殊的语音,具有清晰、流畅、自然的特点。
播音语音处理主要包括以下几个步骤:1. 信号采集:通过麦克风等设备采集播音语音信号。
2. 信号处理:对采集到的信号进行降噪、均衡、压缩等处理,提高信号质量。
3. 信号分析:对处理后的信号进行频谱分析、倒谱分析、线性预测分析等,提取语音特征。
4. 信号评价:根据语音特征评价播音语音的质量和效果。
三、实验设备1. 电脑:用于实验软件的运行和数据处理。
2. 麦克风:用于采集播音语音信号。
3. 信号处理软件:如MATLAB、Python等,用于信号处理和分析。
4. 语音分析软件:如PRAAT、SPTK等,用于语音特征提取和分析。
四、实验过程1. 信号采集首先,使用麦克风采集一段播音语音,确保录音环境安静,避免外界噪声干扰。
录音时长根据实验需求而定,一般建议为1-2分钟。
2. 信号处理使用信号处理软件对采集到的播音语音信号进行降噪、均衡、压缩等处理。
具体参数根据实际情况进行调整。
3. 信号分析(1)频谱分析使用频谱分析软件对处理后的播音语音信号进行频谱分析,观察信号的频谱分布情况,了解播音语音的频谱特性。
(2)倒谱分析使用倒谱分析软件对播音语音信号进行倒谱分析,提取语音的倒谱系数,分析播音语音的倒谱特性。
(3)线性预测分析使用线性预测分析软件对播音语音信号进行线性预测分析,提取语音的线性预测系数,分析播音语音的线性预测特性。
4. 信号评价根据语音特征评价播音语音的质量和效果,包括语音清晰度、流畅度、自然度等方面。
五、实验结果与分析1. 频谱分析结果通过频谱分析,可以发现播音语音信号的频谱分布较宽,主要分布在300Hz-3400Hz范围内,这与人类的听觉范围相吻合。
语音信号识别中的特征提取技术研究
语音信号识别中的特征提取技术研究语音信号识别是计算机科学领域中的一个重要研究方向。
在人类交流过程中,语音作为一种重要的信息载体,已经成为了现代社会中不可或缺的一部分,因此,对于计算机来说,如何将语音信号转换为计算机可读的数字信号,是目前研究的热点之一。
而语音信号的特征提取技术,作为语音信号识别领域中的重要一环,起着举足轻重的作用。
在语音信号识别中,所谓的特征提取就是将复杂的语音信号转换成机器学习算法可以处理的特征向量,从而实现对语音信号的识别。
特征提取的过程,主要包括信号预处理、特征提取和特征归一化三个步骤。
首先,信号预处理是将原始的语音信号进行降噪、滤波、增益等操作,以使语音信号更加清晰、准确。
同时,信号预处理还可以通过提高信噪比和降低信号干扰,来优化特征提取的结果。
接下来的特征提取过程则是将预处理后的语音信号量化为一组数学特征,以便计算机进行数字信号处理和分析。
在特征提取的过程中,常用的算法包括梅尔频率倒谱系数(MFCC)法、线性预测编码(LPC)法、傅里叶变换法等等。
其中,MFCC法是目前应用最为广泛的一种算法,它模拟人类听觉系统的处理方式,利用声音的波形和人类感觉器官对声音的调制响应,将语音信号抽象成一系列人工构建的数字特征,并具有计算效率高、特征表达能力强、不易受噪音干扰等特点。
相比之下,LPC法则是将语音信号分解为一系列谐波和噪声,更为复杂,但其也在某些场景下实现了更加优秀的语音信号识别效果。
最后,特征归一化的目的是在将特征向量输入机器学习模型之前,对其进行规范处理,消除数据的量纲和分布等差异,以获得更好的识别结果。
特征归一化方法包括线性区间缩放、标准化、均值归一化、范数归一化等。
其中,标准化是最为常用的一种归一化方法,它将数据的均值置为0、方差置为1,使数据分布在标准正态分布中,提升了特征向量在机器学习模型中的可用性和稳定性。
通过对这三个步骤的详细了解和实践经验的积累,研究者们已经取得了越来越好的语音信号识别效果。
语音课实验报告
实验名称:语音识别与合成实验实验时间:2023年4月15日实验地点:语音实验室一、实验目的1. 了解语音识别与合成的基本原理和过程。
2. 掌握语音识别与合成系统的搭建和调试方法。
3. 提高语音处理和语音识别的实践能力。
二、实验原理语音识别与合成技术是人工智能领域的一个重要分支,主要涉及语音信号处理、模式识别和自然语言处理等方面。
语音识别是将语音信号转换为相应的文本信息,而语音合成则是将文本信息转换为自然流畅的语音输出。
三、实验内容1. 语音信号采集实验采用麦克风采集语音信号,将采集到的语音信号进行预处理,包括去除噪声、归一化等操作。
2. 语音特征提取从预处理后的语音信号中提取特征,如梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)等,为后续的语音识别和合成提供依据。
3. 语音识别利用训练好的语音识别模型对采集到的语音信号进行识别,将识别结果输出为文本信息。
4. 语音合成将识别出的文本信息转换为语音输出,包括合成语音的音调、音量、语速等参数的调整。
四、实验步骤1. 语音信号采集(1)连接麦克风,确保设备正常工作。
(2)打开录音软件,调整录音参数,如采样率、量化位数等。
(3)进行语音采集,确保采集到的语音信号清晰、无杂音。
2. 语音特征提取(1)对采集到的语音信号进行预处理,包括去除噪声、归一化等操作。
(2)提取语音特征,如MFCC、LPC等。
3. 语音识别(1)使用已有的语音识别模型进行训练,如使用隐马尔可夫模型(HMM)或深度学习模型。
(2)将训练好的模型应用于采集到的语音信号,进行语音识别。
4. 语音合成(1)使用语音合成引擎,如FreeTTS、MaryTTS等,将识别出的文本信息转换为语音输出。
(2)调整合成语音的音调、音量、语速等参数,使语音输出更自然。
五、实验结果与分析1. 实验结果本次实验成功采集了语音信号,并提取了相应的语音特征。
通过语音识别,识别出了采集到的语音信号对应的文本信息。
实验三、语音信号采集实验(信号数模.模数转换)
(AD)、信号处理芯片(DSP)、数模 转换器(DA)等主要器件,DSP系统首 先将模拟信号经过一个或者多个硬件滤 波器,或者其它的信号预处理,到达AD 转换成为数字信号,传输到DSP,DSP对 子这个信号进行采集、处理、分析,如 果有必要再经过DA,转换成为模拟信号 输出,实验中可以由示波器查看输出的 信号波形。
实验三、语音信号采集实验 ——信号模数数模转换
一、实验目的
(1)了解CODEC芯片TLV320AIC23B工
作的基本原理,了解其作为A/D的原理 (2)理解DSP的MCBSP的工作原理以及 基本设置 (3)熟悉CCS与CSP和MCBSP的初始设置
六.实验步骤
1.打开CCS 2. 装入AD.pjt工程文件 3.编译,下载,运行,耳机将实时听到MIC收 到的声音 4.设置断点,运行程序,观察采样的数据,数 据保存在dataright数组中。在view-graph观察采样 数据,Graph的设置中,start address:表示数组的 起始地址;Acqusion buffer size:表示输入数据个 数;Display Data size:表示显示数据个数(要与程 序中宏定义的采样个数一致); Dsp data type:表述数据类型(选择16-bit signer integer) 5.变化采样频率或采样长度,重复执行第4步
观察采样数据四实验原理dsp的应用系统一般包括模数转换器ad信号处理芯片dsp数模转换器da等主要器件dsp系统首先将模拟信号经过一个或者多个硬件滤波器或者其它的信号预处理到达ad转换成为数字信号传输到dspdsp对子这个信号进行采集处理分析如果有必要再经过da转换成为模拟信号输出实验中可以由示波器查看输出的信号波形
八.任务
将音频信号输入方式从line in
语音识别 实验报告
语音识别实验报告语音识别实验报告一、引言语音识别是一项基于人工智能的技术,旨在将人类的声音转化为可识别的文字信息。
它在日常生活中有着广泛的应用,例如语音助手、智能家居和电话客服等。
本实验旨在探究语音识别的原理和应用,并评估其准确性和可靠性。
二、实验方法1. 数据收集我们使用了一组包含不同口音、语速和语调的语音样本。
这些样本覆盖了各种语言和方言,并涵盖了不同的背景噪音。
我们通过现场录音和网络资源收集到了大量的语音数据。
2. 数据预处理为了提高语音识别的准确性,我们对收集到的语音数据进行了预处理。
首先,我们对语音进行了降噪处理,去除了背景噪音的干扰。
然后,我们对语音进行了分段和对齐,以便与相应的文字进行匹配。
3. 特征提取在语音识别中,特征提取是非常重要的一步。
我们使用了Mel频率倒谱系数(MFCC)作为特征提取的方法。
MFCC可以提取语音信号的频谱特征,并且对人类听觉系统更加符合。
4. 模型训练我们采用了深度学习的方法进行语音识别模型的训练。
具体来说,我们使用了长短时记忆网络(LSTM)作为主要的模型结构。
LSTM具有较好的时序建模能力,适用于处理语音信号这种时序数据。
5. 模型评估为了评估我们的语音识别模型的准确性和可靠性,我们使用了一组测试数据集进行了模型评估。
测试数据集包含了不同的语音样本,并且与相应的文字进行了标注。
我们通过计算识别准确率和错误率来评估模型的性能。
三、实验结果经过多次实验和调优,我们的语音识别模型在测试数据集上取得了较好的结果。
识别准确率达到了90%以上,错误率控制在10%以内。
这表明我们的模型在不同语音样本上具有较好的泛化能力,并且能够有效地将语音转化为文字。
四、讨论与分析尽管我们的语音识别模型取得了较好的结果,但仍存在一些挑战和改进空间。
首先,对于口音较重或语速较快的语音样本,模型的准确性会有所下降。
其次,对于噪音较大的语音样本,模型的鲁棒性也有待提高。
此外,模型的训练时间较长,需要更多的计算资源。
心理学语音实验报告(3篇)
第1篇一、实验背景与目的随着科技的飞速发展,语音识别技术逐渐成为人机交互的重要方式。
为了探究语音信号在心理认知过程中的作用,本实验旨在通过一系列语音实验,探讨以下问题:1. 语音信号对记忆的影响;2. 语音信号对注意力的影响;3. 语音信号对情绪的影响。
二、实验方法1. 实验材料本实验选取了20名志愿者(男女各半,年龄在18-25岁之间)作为被试,均无听觉障碍。
实验材料包括以下内容:(1)语音刺激:选取了50个普通话单音节,分为清音和浊音两组,每组25个;(2)图片刺激:选取了50张与语音刺激对应的图片,分为清音组和浊音组;(3)情绪图片:选取了50张能够引起不同情绪的图片,分为积极情绪组和消极情绪组。
2. 实验程序(1)实验一:记忆实验被试在实验开始前进行听力测试,确保其听力正常。
实验过程中,被试依次听到清音和浊音刺激,并要求记住每个刺激的发音。
实验结束后,进行回忆测试,记录被试正确记忆的刺激数量。
(2)实验二:注意力实验被试在实验开始前进行注意力测试,确保其注意力集中。
实验过程中,被试依次看到清音和浊音图片,并要求在看到图片的同时,尽量忽略其他干扰信息。
实验结束后,记录被试在实验过程中出现的错误次数。
(3)实验三:情绪实验被试在实验开始前进行情绪测试,确保其情绪稳定。
实验过程中,被试依次看到积极情绪和消极情绪图片,并要求在看到图片的同时,尽量忽略其他干扰信息。
实验结束后,记录被试在实验过程中出现的心率变化。
3. 实验设备本实验使用以下设备:(1)计算机:用于播放语音刺激和图片刺激;(2)耳机:用于播放语音刺激;(3)心率仪:用于监测被试的心率变化。
三、实验结果与分析1. 实验一:记忆实验(1)结果:清音组被试正确记忆的刺激数量为15个,浊音组被试正确记忆的刺激数量为12个;(2)分析:结果表明,语音信号对记忆存在影响,清音刺激比浊音刺激更容易被记忆。
2. 实验二:注意力实验(1)结果:清音组被试错误次数为10次,浊音组被试错误次数为8次;(2)分析:结果表明,语音信号对注意力存在影响,清音刺激比浊音刺激更容易引起被试的注意力。
实验三语音信号的特征提取最终实验报告
实验三语音信号的特征提取一、实验目的1、熟练运用MATLAB软件进行语音信号实验。
2、熟悉短时分析原理、MFCC、LPC的原理。
3、学习运用MATLAB编程进行MFCC、LPC的提取。
4、学会利用短时分析原理提取MFCC、LPC特征序列。
二、实验仪器设备及软件HP D538、MATLAB三、实验原理1、MFCC语音识别和说话人识别中,常用的语音特征是基于Mel频率的倒谱系数(即MFCC)。
MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合。
Mel频率可以用如下公式表示:)700/1log(2595ff Mel+⨯=在实际应用中,MFCC倒谱系数计算过程如下;①将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换并得到其频谱。
②求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中是叠加的。
因此将每个滤波器频带内的能量进行叠加,这时第k 个滤波器输出功率谱)('kx。
③将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个左右。
MFCC系数为∑=-=MkMnkkxCn1']/)5.0(cos[)(logπ,n=1,2,...,L④将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。
2、LPC由于频率响应)(jweH反映声道的频率响应和被分析信号的谱包络,因此用|)(|log jweH 做反傅里叶变换求出的LPC 倒谱系数。
通过线性预测分析得到的合成滤波器的系统函数为)1/(1)(1∑=--=pi i i z a z H ,其冲激响应为h(n)。
h(n)的倒谱为)(^n h ,∑+∞=-=1^^)()(n nzn h z H 就是说)(^z H 的逆变换)(^n h 是存在的。
设0)0(^=h ,将式∑+∞=-=1^^)()(n nzn h z H 两边同时对1-z求导,得∑∑+∞=--=--∂∂=-∂∂1^1111)(]11log[n npi i zn h zza z得到∑∑∑∞+==-=+-+--=11111^1)(n pi ii pi i in za zia zn h n ,于是有∑∑∑+∞=+∞=+-+-=-=-1111^11)()1(n n i i n pi i zia zn h n z a 令其左右两边z 的各次幂前系数分别相等,得到)(^n h 和i a 间的递推关系⎪⎪⎪⎩⎪⎪⎪⎨⎧>--=≤≤--+==∑∑=-=p i i n i i n p n n h a n i n h pn k n h a n i a n h a h 1^^11^^1^),1()1()(1),()1()()1( ,按其可直接从预测系数{i a }求得倒谱)(^n h 。
语音相关技术实验报告
一、实验背景随着信息技术的飞速发展,语音技术逐渐成为人机交互的重要手段。
语音识别、语音合成、语音增强等语音相关技术的研究与应用,极大地丰富了人类生活的便捷性。
为了深入了解语音相关技术,本实验报告将针对语音识别、语音合成、语音增强三个方面进行实验分析。
二、实验目的1. 了解语音识别、语音合成、语音增强的基本原理;2. 掌握语音相关技术的实验方法和步骤;3. 分析实验结果,总结语音相关技术的优缺点。
三、实验原理1. 语音识别:语音识别技术是指将语音信号转换为对应的文本信息。
其基本原理是利用模式识别方法,对语音信号进行特征提取、特征匹配,最终实现语音到文本的转换。
2. 语音合成:语音合成技术是指将文本信息转换为语音信号。
其基本原理是利用语音合成引擎,将文本信息转换为语音单元序列,然后通过语音合成器合成语音信号。
3. 语音增强:语音增强技术是指提高语音信号质量,消除噪声、回声等干扰。
其基本原理是利用信号处理方法,对语音信号进行滤波、去噪等处理,提高语音信号质量。
四、实验内容1. 语音识别实验(1)实验步骤:① 采集语音数据,进行预处理,包括去除静音、归一化等;② 利用语音识别工具箱对预处理后的语音数据进行特征提取;③ 使用训练好的语音识别模型进行识别;④ 对识别结果进行评估。
(2)实验结果:实验结果显示,语音识别模型的识别准确率较高,能够较好地实现语音到文本的转换。
2. 语音合成实验(1)实验步骤:① 准备文本信息,包括文本格式、语音语调等;② 利用语音合成引擎对文本信息进行语音单元序列生成;③ 通过语音合成器合成语音信号;④ 播放合成语音。
(2)实验结果:实验结果显示,语音合成器合成的语音信号质量较高,语音语调自然,能够较好地实现文本到语音的转换。
3. 语音增强实验(1)实验步骤:① 采集含有噪声的语音数据;② 利用语音增强算法对噪声信号进行处理;③ 比较处理前后的语音信号质量;④ 评估语音增强效果。
语音信号处理实验报告
语音信号处理实验报告专业:电子信息工程班级:电子信息二班姓名:学号:指导教师:杨立东目录实验一特征提取 (3)一、实验目的: (3)二、实验原理: (3)三、实验内容 (3)程序: (3)实验二基音周期估计 (9)一、实验目的 (9)二、实验原理 (9)三、实验内容 (10)程序: (10)实验三倒谱的获取与应用 (13)一、实验目的 (13)二、实验原理 (13)三、实验内容 (14)程序 (14)实验四 HMM的训练 (17)一、实验目的 (17)二、实验原理 (17)三、实验内容 (17)程序 (17)实验总结 (20)实验一语音信号的特征提取一、实验目的:1、了解语音信号处理基本知识,语音信号的生成的数学模型。
2、理解和掌握语音信号的特征提取。
二、实验原理:语音信号随时间变化的频谱特性可以用语谱图直观的表示,语谱图的纵坐标对应频率,横坐标对应时间,而图像的黑白度对应于信号的能量。
因此声道的谐振频率在图上就表示成为黑带,浊音部分则以出现条纹图形为其特征,这是因为此时的时域波形有周期性,而在浊音的时间间隔内图形显得很致密。
三、实验内容Matlab编程实验步骤:1.新建M文件,扩展名为“.m”,编写程序;2.选择File/Save命令,将文件保存在F盘新建文件夹中;3.运行程序;程序:语谱图clear all;[x,sr]=wavread('welcome.wav'); %sr为采样频率if (size(x,1)>size(x,2)) %size(x,1)为x的行数,size(x,2)为x的列数 x=x';ends=length(x);w=round(44*sr/1000); %窗长,取离44*sr/100最近的整数n=w; %fft的点数ov=w/2; %50%的重叠h=w-ov;% win=hanning(n)'; %哈宁窗win=hamming(n)'; %哈宁窗c=1;ncols=1+fix((s-n)/h); %fix函数是将(s-n)/h的小数舎去d=zeros((1+n/2),ncols);for b=0:h:(s-n)u=win.*x((b+1):(b+n));t=fft(u);d(:,c)=t(1:(1+n/2))';c=c+1;endtt=[0:h:(s-n)]/sr;ff=[0:(n/2)]*sr/n;imagesc(tt/1000,ff/1000,20*log10(abs(d)));colormap(gray);axis xyxlabel('时间/s');ylabel('频率/kHz');时间/s频率/k H z246810121416x 10-40246810时间/s频率/k H z0246810121416x 10-4246810预加重(高频提取)[x,sr]=wavread('mmm.wav'); %读数据ee=x(200:455); %选取原始文件e 的第200到455点的语音,也可选其他样点 r=fft(ee,1024); %对信号ee 进行1024点傅立叶变换 r1=abs(r); %对r 取绝对值 r1表示频谱的幅度值 pinlv=(0:1:255)*8000/512 %点和频率的对应关系 yuanlai=20*log10(r1) %对幅值取对数signal(1:256)=yuanlai(1:256);%取256个点,目的是画图的时候,维数一致 [h1,f1]=freqz([1,-0.98],[1],256,4000);%高通滤波器 pha=angle(h1); %高通滤波器的相位 H1=abs(h1); %高通滤波器的幅值 r2(1:256)=r(1:256)u=r2.*h1' % 将信号频域与高通滤波器频域相乘 相当于在时域的卷积 u2=abs(u) %取幅度绝对值 u3=20*log10(u2) %对幅值取对数un=filter([1,-0.98],[1],ee) %un 为经过高频提升后的时域信号 figure(1);subplot(211);plot(f1,H1);title('高通滤波器的幅频响应'); xlabel('频率/Hz'); ylabel('幅度');subplot(212);plot(pha);title('高通滤波器的相位响应'); xlabel('频率/Hz');ylabel('角度/radians');figure(2);subplot(211);plot(ee);title('原始语音信号'); xlabel('样点数'); ylabel('幅度');axis([0 256 -0.1 0.1]);subplot(212);plot(real(un)); title('经高通滤波后的语音信号'); xlabel('样点数'); ylabel('幅度'); axis([0 256 -1 1]);figure(3);subplot(211);plot(pinlv,ee);title('原始语音信号频谱'); xlabel('频率/Hz'); ylabel('幅度/dB');subplot(212);plot(pinlv,u3);title('经高通滤波后的语音信号频谱'); xlabel('频率/Hz'); ylabel('幅度/dB');05001000150020002500300035004000-50510x 10-3原始语音信号频谱频率/Hz幅度/d B05001000150020002500300035004000-80-60-40-20经高通滤波后的语音信号频谱频率/Hz幅度/d B50100150200250-0.1-0.0500.050.1原始语音信号样点数幅度50100150200250-1-0.500.51经高通滤波后的语音信号样点数幅度05001000150020002500300035004000-50510x 10-3原始语音信号频谱频率/Hz幅度/d B05001000150020002500300035004000-80-60-40-20经高通滤波后的语音信号频谱频率/Hz幅度/d B短时能量[x,sr]=wavread('welcome.wav'); %读入语音文件 %计算N=50,帧移=50时的语音能量 s=fra(50,50,x);s2=s.^2; %一帧内各样点的能量 energy=sum(s2,2); %求一帧能量subplot(2,2,1) %定义画图数量和布局plot(energy); %画N=50时的语音能量图xlabel('帧数') %横坐标ylabel('短时能量 E') %纵坐标legend('N=50') %曲线标识axis([0,1500,0,2*10]) %定义横纵坐标范围%计算N=100,帧移=100时的语音能量s=fra(100,100,x);s2=s.^2;energy=sum(s2,2);subplot(2,2,2)plot(energy) %画N=100时的语音能量图xlabel('帧数')ylabel('短时能量 E')legend('N=100')axis([0,600,0,4*10]) %定义横纵坐标范围%计算N=400,帧移=400时的语音能量s=fra(400,400,x);s2=s.^2;energy=sum(s2,2);subplot(2,2,3)plot(energy) %画N=400时的语音能量图xlabel('帧数')ylabel('短时能量 E')legend('N=400')axis([0,150,0,1.5*10^2]) %定义横纵坐标范围%计算N=800,帧移=800时的语音能量s=fra(800,800,x);s2=s.^2;energy=sum(s2,2);subplot(2,2,4)plot(energy) %画N=800时的语音能量图xlabel('帧数')ylabel('短时能量 E')legend('N=800')axis([0,95,0,3*10^2]) %定义横纵坐标范围定义fra()function f=fra(len,inc,x)fh=fix(((size(x,1)-len)/inc)+1);f=zeros(fh,len);i=1;n=1;while i<=fhj=1;while j<=lenf(i,j)=x(n); j=j+1;n=n+1; endn=n-len+inc; i=i+1; end5001000150005101520帧数短时能量 EN=50200400600010203040帧数短时能量 EN=100050100150050100150帧数短时能量 EN=400204060800100200300帧数短时能量 EN=800短时平均过零率clear all[x1,sr]=wavread('welcome.wav'); %读入语音文件 x=awgn(x1,15,'measured');%加入15dB 的噪声 s=fra(220,110,x);%分帧,帧移110 zcr=zcro(s);%求过零率 figure(1); subplot(2,1,1) plot(x);title('原始信号'); xlabel('样点数'); ylabel('幅度');axis([0,300,-2*10,2*10]); subplot(2,1,2) plot(zcr);xlabel('帧数'); ylabel('过零次数');title('原始信号的过零率');axis([0,360,0,200]); 定义zcro()function f=zcro(x)f=zeros(size(x,1),1); %生成全零矩阵 for i=1:size(x,1)z=x(i,:); %提取一行数据 for j=1:(length(z)-1); if z(j)*z(j+1)<0; f(i)=f(i)+1; end end end50100150200250300-20-1001020原始信号样点数幅度50100150200250300350050100150200帧数过零次数原始信号的过零率实验二 基音周期估计一、实验目的在理论学习的基础上,进一步的理解和掌握基音周期估计中两种最基本的方法:基于短时自相关法和基于短时平均幅度差法。
语音声学分析实验报告
语音声学分析实验报告实验目的:本实验旨在通过语音声学分析,探索语音的声学特征,并对不同语音信号进行分类和识别。
实验步骤:1. 实验准备:- 首先,收集一组包含不同语音信号的音频数据集。
可以包括不同人的语音、不同语速或语调的语音等等。
确保数据集的多样性和代表性。
- 确保数据集的标注信息准确可靠。
可以使用标签或文件夹名称对不同语音进行分类。
- 确定特征提取方法。
常用的声学特征包括音频的频谱、频谱包络、声道信息等。
2. 数据预处理:- 将音频数据集转换为计算机可以处理的格式,如.wav或.mp3。
- 检查数据集中的噪声并进行去噪处理,以提高后续特征提取的准确性。
3. 特征提取:- 使用合适的特征提取方法,从每个语音信号中提取有代表性的声学特征。
常用的方法有短时傅里叶变换(STFT)、梅尔频谱倒谱系数(MFCC)等。
- 将每个语音信号提取到的声学特征保存为向量形式,方便后续的分类和识别。
4. 分类和识别:- 使用合适的分类算法对提取到的声学特征进行分类和识别。
常见的分类算法有支持向量机(SVM)、k近邻算法(KNN)等。
- 将数据集分为训练集和测试集,并进行交叉验证以评估分类器的性能。
- 分析分类和识别结果,评估算法的准确性和效率。
5. 结果分析和讨论:- 对实验结果进行分析,比较不同分类算法在声学特征提取和语音识别方面的性能差异。
- 探讨实验中遇到的问题和改进方法,分析可能影响分类和识别准确性的因素。
实验结论:通过语音声学分析,我们可以提取语音信号的声学特征,并使用分类算法进行语音的分类和识别。
实验的结果表明,声学特征对于语音信号的分类和识别具有重要作用,并且不同的分类算法在声学特征提取和语音识别方面具有差异性。
在实际应用中,可以根据不同的需求选择合适的声学特征和分类算法,以实现更准确和高效的语音识别。
语音信处理实验报告
语音信号处理实验报告——语音信号分析实验一.实验目的及原理语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理,并且语音合成的音质好坏和语音识别率的高低,都取决于对语音信号分析的准确性和精确性。
贯穿语音分析全过程的是“短时分析技术”。
因为从整体来看,语音信号的特性及表征其本质特征的参数均是随时间变化的,所以它是一个非平稳态过程,但是在一个短时间范围内(一般认为在10~30ms的时间内),其特性基本保持不变,即相对稳定,可将其看做一个准稳态过程,即语音信号具有短时平稳性。
所以要将语音信号分帧来分析其特征参数,帧长一般取为10ms~30ms。
二.实验过程2.仿真结果(1) 时域分析男声及女声(蓝色为时域信号,红色为每一帧的能量,绿色为每一帧的过零率) 某一帧的自相关函数3. 频域分析①一帧信号的倒谱分析和FFT 及LPC 分析-1-0.500.51-50050100150-1-0.500.51-40-2002040②男声和女声的倒谱分析③浊音和清音的倒谱分析④浊音和清音的FFT 分析和LPC 分析(红色为FFT 图像,绿色为LPC 图像)三. 实验结果分析 1. 时域分析实验中采用的是汉明窗,窗的长度对能否由短时能量反应语音信号的变对应的倒谱系数:,,……对应的LPC 预测系数:1,,,,,……原语音一帧语音波形一帧语音的倒化起着决定性影响。
这里窗长合适,En能够反应语音信号幅度变化。
同时,从图像可以看出,En可以作为区分浊音和清音的特征参数。
短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。
从图中可以看出,短时能量和过零率可以近似为互补的情况,短时能量大的地方过零率小,短时能量小的地方过零率较大。
从浊音和清音的时域分析可以看出,清音过零率高,浊音过零率低。
从男声女声的时域信号对比图中可以看出,女音信号在高频率分布得更多,女声信号在高频段的能量分布更多,并且女声有较高的过零率,这是因为语音信号中的高频段有较高的过零率。
语音信号处理实验报告
一、实验目的1. 理解语音信号处理的基本原理和流程。
2. 掌握语音信号的采集、预处理、特征提取和识别等关键技术。
3. 提高实际操作能力,运用所学知识解决实际问题。
二、实验原理语音信号处理是指对语音信号进行采集、预处理、特征提取、识别和合成等操作,使其能够应用于语音识别、语音合成、语音增强、语音编码等领域。
实验主要包括以下步骤:1. 语音信号的采集:使用麦克风等设备采集语音信号,并将其转换为数字信号。
2. 语音信号的预处理:对采集到的语音信号进行降噪、去噪、归一化等操作,提高信号质量。
3. 语音信号的特征提取:提取语音信号中的关键特征,如频率、幅度、倒谱等,为后续处理提供依据。
4. 语音信号的识别:根据提取的特征,使用语音识别算法对语音信号进行识别。
5. 语音信号的合成:根据识别结果,合成相应的语音信号。
三、实验步骤1. 语音信号的采集使用麦克风采集一段语音信号,并将其保存为.wav文件。
2. 语音信号的预处理使用MATLAB软件对采集到的语音信号进行预处理,包括:(1)降噪:使用谱减法、噪声抑制等算法对语音信号进行降噪。
(2)去噪:去除语音信号中的杂音、干扰等。
(3)归一化:将语音信号的幅度归一化到相同的水平。
3. 语音信号的特征提取使用MATLAB软件对预处理后的语音信号进行特征提取,包括:(1)频率分析:计算语音信号的频谱,提取频率特征。
(2)幅度分析:计算语音信号的幅度,提取幅度特征。
(3)倒谱分析:计算语音信号的倒谱,提取倒谱特征。
4. 语音信号的识别使用MATLAB软件中的语音识别工具箱,对提取的特征进行识别,识别结果如下:(1)将语音信号分为浊音和清音。
(2)识别语音信号的音素和音节。
5. 语音信号的合成根据识别结果,使用MATLAB软件中的语音合成工具箱,合成相应的语音信号。
四、实验结果与分析1. 语音信号的采集采集到的语音信号如图1所示。
图1 语音信号的波形图2. 语音信号的预处理预处理后的语音信号如图2所示。
语音信号处理实验报告
实验报告一、 实验目的、要求(1)掌握语音信号采集的方法(2)掌握一种语音信号基音周期提取方法(3)掌握短时过零率计算方法(4)了解Matlab 的编程方法二、 实验原理基本概念:(a )短时过零率:短时内, 信号跨越横轴的情况, 对于连续信号, 观察语音时域波形通过横轴的情况;对于离散信号, 相邻的采样值具有不同的代数符号, 也就是样点改变符号的次数。
对于语音信号, 是宽带非平稳信号, 应考察其短时平均过零率。
其中sgn[.]为符号函数⎪⎩⎪⎨⎧<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n))短时平均过零的作用1.区分清/浊音:浊音平均过零率低, 集中在低频端;清音平均过零率高, 集中在高频端。
2.从背景噪声中找出是否有语音, 以及语音的起点。
(b )基音周期基音是发浊音时声带震动所引起的周期性, 而基音周期是指声带震动频率的倒数。
基音周期是语音信号的重要的参数之一, 它描述语音激励源的一个重要特征, 基音周期信息在多个领域有着广泛的应用, 如语音识别、说话人识别、语音分析与综合以及低码率语音编码, 发音系统疾病诊断、听觉残障者的语音指导等。
因为汉语是一种有调语言, 基音的变化模式称为声调, 它携带着非常重要的具有辨意作用的信息, 有区别意义的功能, 所以, 基音的提取和估计对汉语更是一个十分重要的问题。
由于人的声道的易变性及其声道持征的因人而异, 而基音周期的范围又很宽, 而同—个人在不同情态下发音的基音周期也不同, 加之基音周期还受到单词∑--=-=10)]1(sgn[)](sgn[21N m n n n m x m x Z发音音调的影响, 因而基音周期的精确检测实际上是一件比较困难的事情。
基音提取的主要困难反映在: ①声门激励信号并不是一个完全周期的序列, 在语音的头、尾部并不具有声带振动那样的周期性, 有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。
语音信号_实验报告
一、实验目的1. 理解语音信号的基本特性及其在数字信号处理中的应用。
2. 掌握语音信号的采样、量化、编码等基本处理方法。
3. 学习语音信号的时域、频域分析技术。
4. 熟悉语音信号的增强、降噪等处理方法。
二、实验原理语音信号是一种非平稳信号,其特性随时间变化。
在数字信号处理中,我们通常采用采样、量化、编码等方法将语音信号转换为数字信号,以便于后续处理和分析。
三、实验内容1. 语音信号的采集与预处理- 使用麦克风采集一段语音信号。
- 对采集到的语音信号进行预加重处理,提高高频成分的幅度。
- 对预加重后的语音信号进行采样,采样频率为8kHz。
2. 语音信号的时域分析- 画出语音信号的时域波形图。
- 计算语音信号的短时能量和短时平均过零率,分析语音信号的时域特性。
3. 语音信号的频域分析- 对语音信号进行快速傅里叶变换(FFT)分析,得到其频谱图。
- 分析语音信号的频谱特性,提取关键频段。
4. 语音信号的增强与降噪- 在语音信号中加入噪声,模拟实际应用场景。
- 使用谱减法对加噪语音信号进行降噪处理。
- 对降噪后的语音信号进行主观评价,比较降噪效果。
5. 语音信号的回放与对比- 对原始语音信号和降噪后的语音信号进行回放。
- 对比分析两种语音信号的时域波形、频谱图和听觉效果。
四、实验步骤1. 采集语音信号- 使用麦克风采集一段时长为5秒的语音信号。
- 将采集到的语音信号保存为.wav格式。
2. 预处理- 使用Matlab中的preemphasis函数对采集到的语音信号进行预加重处理。
- 设置预加重系数为0.97。
3. 时域分析- 使用Matlab中的plot函数画出语音信号的时域波形图。
- 使用Matlab中的energy和zero crossing rate函数计算语音信号的短时能量和短时平均过零率。
4. 频域分析- 使用Matlab中的fft函数对语音信号进行FFT变换。
- 使用Matlab中的plot函数画出语音信号的频谱图。
播音语音实验报告总结(3篇)
第1篇一、实验目的本次播音语音实验旨在通过一系列的语音处理和分析,深入了解语音信号的基本特性,掌握语音信号处理的基本方法,并学会使用相关软件进行语音信号的采集、处理和分析。
通过实验,提高对语音信号处理技术的认识和实际操作能力。
二、实验原理语音信号处理是现代通信、语音识别、语音合成等领域的基础技术。
实验过程中,我们主要学习了以下原理:1. 语音信号采集:通过麦克风采集语音信号,将其转换为数字信号。
2. 时域分析:分析语音信号的波形、幅度、频率等特性。
3. 频域分析:将时域信号转换为频域信号,分析信号的频谱特性。
4. 语音处理算法:如滤波、降噪、增强、压缩等,提高语音信号质量。
5. 语音识别:通过特征提取和模式识别技术,实现语音信号到文字的转换。
三、实验过程1. 语音信号采集:使用麦克风采集一段普通话语音信号,并将其保存为WAV格式。
2. 时域分析:- 使用MATLAB软件打开WAV文件,观察语音信号的波形。
- 计算语音信号的幅度、频率等参数。
- 分析语音信号的时域特性,如过零率、平均幅度等。
3. 频域分析:- 使用MATLAB软件进行快速傅里叶变换(FFT),将时域信号转换为频域信号。
- 分析语音信号的频谱特性,如频率成分、能量分布等。
4. 语音处理:- 使用MATLAB软件实现滤波、降噪、增强、压缩等处理算法。
- 观察处理前后语音信号的变化,评估处理效果。
5. 语音识别:- 使用现有的语音识别工具(如Google语音识别API)对处理后的语音信号进行识别。
- 分析识别结果,评估语音识别系统的性能。
四、实验结果与分析1. 时域分析:- 观察到语音信号的波形具有明显的周期性,频率成分集中在200Hz到4kHz之间。
- 语音信号的幅度随时间变化较大,具有非线性特性。
2. 频域分析:- FFT结果显示,语音信号的频谱具有明显的频带特性,主要集中在300Hz到3.5kHz之间。
- 频谱能量分布不均匀,存在明显的峰值,对应语音信号的基频及其谐波。
语音信号处理实训报告
一、实训目的本次实训旨在让学生深入了解语音信号处理的基本原理、方法和应用,培养学生的实际操作能力和创新思维。
通过本次实训,使学生能够掌握以下内容:1. 语音信号的基本特性;2. 语音信号处理的基本流程;3. 语音信号预处理、特征提取和参数估计方法;4. 语音识别和语音合成技术;5. 语音信号处理在实际应用中的案例分析。
二、实训内容1. 语音信号采集与预处理(1)采集语音信号:使用麦克风采集一段语音信号,确保录音环境安静,避免噪声干扰。
(2)语音信号预处理:对采集到的语音信号进行预加重、加窗、分帧等处理,以消除噪声、提高信号质量。
2. 语音信号特征提取(1)短时能量:计算语音信号的短时能量,作为语音信号的一个基本特征。
(2)过零率:计算语音信号的过零率,反映语音信号的频率特性。
(3)梅尔频率倒谱系数(MFCC):利用梅尔滤波器组对语音信号进行滤波,然后计算滤波器输出的能量,并经过对数变换得到MFCC特征。
3. 语音识别(1)建立语音识别模型:采用隐马尔可夫模型(HMM)作为语音识别模型。
(2)训练模型:使用大量标注语音数据对模型进行训练。
(3)识别测试:使用测试数据对模型进行识别,评估识别准确率。
4. 语音合成(1)建立语音合成模型:采用合成语音波形合成(TTS)技术。
(2)生成语音波形:根据输入文本和合成模型,生成对应的语音波形。
(3)语音波形后处理:对生成的语音波形进行滤波、归一化等处理,提高语音质量。
三、实训结果与分析1. 语音信号预处理通过预加重、加窗、分帧等处理,提高了语音信号的质量,降低了噪声干扰。
2. 语音信号特征提取MFCC特征能够较好地反映语音信号的频率特性,为语音识别和合成提供了有效的特征。
3. 语音识别在测试数据上,语音识别模型的准确率达到80%,说明模型具有一定的识别能力。
4. 语音合成生成的语音波形清晰、自然,经过后处理后的语音质量较高。
四、实训总结本次实训使我对语音信号处理有了更深入的了解,掌握了语音信号处理的基本原理、方法和应用。
语音信号实验报告
一、实验目的1. 理解语音信号的基本特性和处理方法。
2. 掌握语音信号的采样、量化、编码等基本过程。
3. 学习使用相关软件对语音信号进行时域和频域分析。
4. 了解语音信号的降噪、增强和合成技术。
二、实验原理语音信号是一种非平稳的、时变的信号,其频谱特性随时间变化。
语音信号处理的基本过程包括:信号采集、信号处理、信号分析和信号输出。
三、实验仪器与软件1. 仪器:计算机、麦克风、耳机。
2. 软件:Matlab、Audacity、Python。
四、实验步骤1. 信号采集使用麦克风采集一段语音信号,并将其存储为.wav格式。
2. 信号处理(1)使用Matlab读取.wav文件,提取语音信号的采样频率、采样长度和采样数据。
(2)将语音信号进行时域分析,包括绘制时域波形图、计算信号的能量和过零率等。
(3)将语音信号进行频域分析,包括绘制频谱图、计算信号的功率谱密度等。
3. 信号分析(1)观察时域波形图,分析语音信号的幅度、频率和相位特性。
(2)观察频谱图,分析语音信号的频谱分布和能量分布。
(3)计算语音信号的能量和过零率,分析语音信号的语音强度和语音质量。
4. 信号输出(1)使用Audacity软件对语音信号进行降噪处理,比较降噪前后的效果。
(2)使用Python软件对语音信号进行增强处理,比较增强前后的效果。
(3)使用Matlab软件对语音信号进行合成处理,比较合成前后的效果。
五、实验结果与分析1. 时域分析从时域波形图可以看出,语音信号的幅度、频率和相位特性随时间变化。
语音信号的幅度较大,频率范围一般在300Hz~3400Hz之间,相位变化较为复杂。
2. 频域分析从频谱图可以看出,语音信号的能量主要集中在300Hz~3400Hz范围内,频率成分较为丰富。
3. 信号处理(1)降噪处理:通过对比降噪前后的时域波形图和频谱图,可以看出降噪处理可以显著降低语音信号的噪声,提高语音质量。
(2)增强处理:通过对比增强前后的时域波形图和频谱图,可以看出增强处理可以显著提高语音信号的幅度和频率,改善语音清晰度。
语音信号处理实验报告
语音信号处理实验报告语音信号处理实验报告一、引言语音信号处理是一门研究如何对语音信号进行分析、合成和改善的学科。
在现代通信领域中,语音信号处理起着重要的作用。
本实验旨在探究语音信号处理的基本原理和方法,并通过实验验证其有效性。
二、实验目的1. 了解语音信号处理的基本概念和原理。
2. 学习使用MATLAB软件进行语音信号处理实验。
3. 掌握语音信号的分析、合成和改善方法。
三、实验设备和方法1. 设备:计算机、MATLAB软件。
2. 方法:通过MATLAB软件进行语音信号处理实验。
四、实验过程1. 语音信号的采集在实验开始前,我们首先需要采集一段语音信号作为实验的输入。
通过麦克风将语音信号输入计算机,并保存为.wav格式的文件。
2. 语音信号的预处理在进行语音信号处理之前,我们需要对采集到的语音信号进行预处理。
预处理包括去除噪声、归一化、去除静音等步骤,以提高后续处理的效果。
3. 语音信号的分析语音信号的分析是指对语音信号进行频谱分析、共振峰提取等操作。
通过分析语音信号的频谱特征,可以了解语音信号的频率分布情况,进而对语音信号进行进一步处理。
4. 语音信号的合成语音信号的合成是指根据分析得到的语音信号特征,通过合成算法生成新的语音信号。
合成算法可以基于传统的线性预测编码算法,也可以采用更先进的基于深度学习的合成方法。
5. 语音信号的改善语音信号的改善是指对语音信号进行降噪、增强等处理,以提高语音信号的质量和清晰度。
常用的语音信号改善方法包括时域滤波、频域滤波等。
六、实验结果与分析通过实验,我们得到了经过语音信号处理后的结果。
对于语音信号的分析,我们可以通过频谱图观察到不同频率成分的分布情况,从而了解语音信号的特点。
对于语音信号的合成,我们可以听到合成后的语音信号,并与原始语音信号进行对比。
对于语音信号的改善,我们可以通过降噪效果的评估来判断处理的效果。
七、实验总结通过本次实验,我们深入了解了语音信号处理的基本原理和方法,并通过实验验证了其有效性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验三语音信号的特征提取一、实验目的1、熟练运用MATLAB软件进行语音信号实验。
2、熟悉短时分析原理、MFCC、LPC的原理。
3、学习运用MATLAB编程进行MFCC、LPC的提取。
4、学会利用短时分析原理提取MFCC、LPC特征序列。
二、实验仪器设备及软件HP D538、MATLAB三、实验原理1、MFCC语音识别和说话人识别中,常用的语音特征是基于Mel频率的倒谱系数(即MFCC)。
MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合。
Mel频率可以用如下公式表示:)700/1log(2595ff Mel+⨯=在实际应用中,MFCC倒谱系数计算过程如下;①将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换并得到其频谱。
②求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中是叠加的。
因此将每个滤波器频带内的能量进行叠加,这时第k 个滤波器输出功率谱)('kx。
③将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个左右。
MFCC系数为∑=-=MkMnkkxCn1']/)5.0(cos[)(logπ,n=1,2,...,L④将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。
2、LPC由于频率响应)(jweH反映声道的频率响应和被分析信号的谱包络,因此用|)(|log jweH 做反傅里叶变换求出的LPC 倒谱系数。
通过线性预测分析得到的合成滤波器的系统函数为)1/(1)(1∑=--=pi i i z a z H ,其冲激响应为h(n)。
h(n)的倒谱为)(^n h ,∑+∞=-=1^^)()(n nzn h z H 就是说)(^z H 的逆变换)(^n h 是存在的。
设0)0(^=h ,将式∑+∞=-=1^^)()(n nzn h z H 两边同时对1-z求导,得∑∑+∞=--=--∂∂=-∂∂1^1111)(]11log[n npi i zn h zza z得到∑∑∑∞+==-=+-+--=11111^1)(n pi ii pi i in za zia zn h n ,于是有∑∑∑+∞=+∞=+-+-=-=-1111^11)()1(n n i i n pi i zia zn h n z a 令其左右两边z 的各次幂前系数分别相等,得到)(^n h 和i a 间的递推关系⎪⎪⎪⎩⎪⎪⎪⎨⎧>--=≤≤--+==∑∑=-=p i i n i i n p n n h a n i n h pn k n h a n i a n h a h 1^^11^^1^),1()1()(1),()1()()1( ,按其可直接从预测系数{i a }求得倒谱)(^n h 。
这个倒谱是根据线性预测模型得到的,又称为LPC 倒谱。
LPC 倒谱由于利用线性预测中声道系统函数H (z )的最小相位特性,因此避免了一般同态处理中求复对数的麻烦。
四、实验步骤及程序1、MFCC (1)、实验步骤 ① 输入样本音频② 给样本音频预加重、分帧、加窗 ③ 将处理好的样本音频做傅里叶变换 ④ 进行Mel 频率滤波 ⑤ 进行Log 对数能量⑥ 对样本求倒谱 ⑦ 输出MFCC 图像(2)、MFCC 提取程序流程图s(n) s(n) X(k) X(k)图3.1 MFCC 特征提取(3)、MFCC 特征提取实验源程序 close allclear clc[x]=wavread('1.wav');bank=melbankm(24,256,8000,0,0.5,'m'); bank=full(bank);bank=bank/max(bank(:));for k=1:12 n=0:23;dctcoef(k,:)=cos((2*n+1)*k*pi/(2*24)); endw = 1 + 6 * sin(pi * [1:12] ./ 12); w = w/max(w);% 预加重滤波器xx=double(x);xx=filter([1 -0.9375],1,xx);% 语音信号分帧xx=enframe(xx,256,80);% 计算每帧的MFCC 参数 for i=1:size(xx,1) y = xx(i,:);s = y' .* hamming(256); t = abs(fft(s)); t = t.^2;预加重、分帧、加窗 DFT/FFT Mel 频率滤波组 Log 对数能量DCT 求倒谱c1=dctcoef * log(bank * t(1:129)); c2 = c1.*w'; m(i,:)=c2'; end figureplot(m);xlabel('帧数');ylabel('幅度');title('MFCC');2、LPC (1)、实验步骤 1、输入原始语音2、对样本语音进行加窗处理3、计算LPC 系数4、建立语音正则方程5、输出原始样本语音、预测语音波形和预测误差6、输出LPC 谱7、求出预测误差的倒谱8、输出原始语音和预测语音的语谱图 (2)实验流程 输入原始语音图3.2 LPC 系数实验流程图(3)、LPC 系数实验源代码I = wavread('1.wav');%读入原始语音 %subplot(3,1,1), plot(I);title('原始语音波形') %对指定帧位置进行加窗处理 Q = I';N = 256; % 窗长Hamm = hamming(N); % 加窗 frame = 60;%需要处理的帧位置M = Q(((frame - 1) * (N / 2) + 1):((frame - 1) * (N / 2) + N)); Frame = M .* Hamm';%加窗后的语音帧[B,F,T] = specgram(I,N,N/2,N); [m,n] = size(B);加窗处理输出图像计算LPC 系数建立语音正则方程for i = 1:mFTframe1(i) = B(i,frame);endP =input('请输入预测器阶数 = ');ai = lpc(Frame,P); % 计算lpc系数LP = filter([0 -ai(2:end)],1,Frame); % 建立语音帧的正则方程FFTlp = fft(LP);E = Frame - LP; % 预测误差subplot(2,1,1),plot(1:N,Frame,1:N,LP,'-r');grid;title('原始语音和预测语音波形')subplot(2,1,2),plot(E);grid;title('预测误差');pausefLength(1 : 2 * N) = [M,zeros(1,N)];Xm = fft(fLength,2 * N);X = Xm .* conj(Xm);Y = fft(X , 2 * N);Rk = Y(1 : N);PART = sum(ai(2 : P + 1) .* Rk(1 : P));G = sqrt(sum(Frame.^2) - PART);A = (FTframe1 - FFTlp(1 : length(F'))) ./ FTframe1 ;subplot(2,1,1),plot(F',20*log(abs(FTframe1)),F',(20*log(abs(1 ./ A))),'-r');grid;xlabel('频率/dB');ylabel('幅度');title('短时谱');subplot(2,1,2),plot(F',(20*log(abs(G ./ A))));grid;xlabel('频率/dB');ylabel('幅度');title('LPC谱');pause%求出预测误差的倒谱pitch = fftshift(rceps(E));M_pitch = fftshift(rceps(Frame));subplot(2,1,1),plot(M_pitch);grid;xlabel('语音帧');ylabel('/dB');title('原始语音帧倒谱');subplot(2,1,2),plot(pitch);grid;xlabel('语音帧');ylabel('/dB');title('预测误差倒谱');pause%画出语谱图ai1 = lpc(I,P); % 计算原始语音lpc系数LP1 = filter([0 -ai(2:end)],1,I); % 建立原始语音的正则方程subplot(2,1,1);specgram(I,N,N/2,N);title('原始语音语谱图');subplot(2,1,2);specgram(LP1,N,N/2,N);title('预测语音语谱图');五、实验结果与分析1、MFCC图3.3 MFCC特征提取图像通过计算MFCC参数,获得了声纹识别的特征参数。
由于MFCC参数是对人耳听觉特征的描述,因此,可以认为,不同声纹的MFCC参数距离,能够代表人耳对两个语音听觉上的差异,可以为声纹的识别提供可靠的依据。
2、LPC图3.4 原始语音波形请输入预测器阶数= 12图3.5原始语音和预测语音波形及预测误差波形图3.6 短时谱和LPC谱波形图3.7原始语音帧倒谱和预测误差倒谱波形图3.8原始语音和预测语音语谱图LPC系数ai =Columns 1 through 81.0000 -1.0914 0.5025 -0.7485 0.1557 0.2863 0.0744 0.2411 Columns 9 through 13-0.2815 0.1132 -0.2464 0.3990 -0.1947通过计算LPC系数可以很好的利用先行预测中声道系统函数的最小相位特性来提取特征函数六、实验体会通过本次实验是我更加熟练运用MA TLAB软件进行编程,对MFCC和LPC两种特征序列的提取原理有了更深的理解,能够更好地运用课堂上所学的基础知识运用到实验当中,对于以后的学习有了很大的帮助。