mx_提取语音文件共振峰数据(F1-F3)Hz
学语音特征提取的技术方法
学语音特征提取的技术方法
随着语音识别技术的不断发展,在语音特征提取方面,也出现了越来越多的技术方法。
本文将介绍一些常见的语音特征提取技术方法,包括:
1. 短时能量:指语音信号在短时间内的能量大小,可以用于检
测语音信号中的音频强度变化。
2. 频率特征:指语音信号的频率分布情况,包括基音频率、共
振峰频率、频谱包络等。
3. 线性预测编码(LPC):基于信号的线性预测模型,可以用于提取语音信号的共振峰频率和频谱包络。
4. 声道模型:通过模拟声道的传输特性,可以提取语音信号的
共振峰频率和声道长度等特征。
5. 隐马尔可夫模型(HMM):基于统计的方法,通过学习大量的语音样本,可以提取语音信号的特征序列,用于语音识别。
以上是一些常见的语音特征提取技术方法,不同的方法适用于不同的场景和应用。
在实际应用中,需要结合具体的需求和场景,选择最适合的技术方法,提高语音识别的准确率和效率。
- 1 -。
语音信号处理复习题
语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 2010 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 0004 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FCE2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................2 画出语音信号的产生模型,简述语音的产生过程。
语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。
3 为生么语音信号要进行“短时〞分析。
答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性根本保持不变,即语音信号具有“短时平稳性〞,因而可将语音信号看成准平稳过程,对其进行短时分析.4 语音信号的时域分析方法有那些?答:短时能量,短时平均过零率,短时自相关函数5 语音信号频率范围是多少?答:语音信号的频率大约在20Hz~20KHz。
6 什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。
答:浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。
由声带的尺寸、特性和声带所受张力决定。
F0的大小决定了声音的上下,称为音高。
男性的F0大致分布在:60-200Hz,女性和儿童的F0大致分布在:200-450Hz7 可以认为多长的时间范围内,语音信号是平稳信号。
答:10-30ms8 语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz~20kHz左右;音乐的采样率可以高达44kHz。
9 如何利用语音信号的时域分析方法进行清、浊判断。
答:1、短时能量分析依据:是基于语音信号幅度随时间变化】清音段幅度小,其能量集中高频段;浊音段幅度较大,其能量集中低频段;2、平均幅度分析的依据:清音段幅度小,浊音段幅度较大。
一种LPC改进算法在提取耳语音共振峰中的应用
第27卷第3期VoL27.No.3西华大学学报(自然科学版)JournalofXihuaUniversity·NaturalScience2008年5月May.2008文章编号:1673-159X(2008)03-0077-04一种LPC改进算法在提取耳语音共振峰中的应用刘建新1,曹荣1,赵鹤鸣2(1.成都纺织高等专科学校机械系,四川成都611731;2.苏州大学电子信息学院,江苏苏州215021)摘要:传统线性预测编码(LPC)算法在提取语音共振峰时存在虚假峰和合并峰的问题。
耳语音不同于正常语音的特性,使得准确提取其共振峰存在更大的困难。
本文分析了共振峰提取中存在的极点交叉问题,通过对极点排序,提出基于极点交叉的LPC改进算法,从而有效解决这两个问题,实验结果证明此算法能够根据实际要求准确提取耳语音的前三个或前四个共振峰。
关键词:线性预测编码(LPC);极点交叉;共振峰提取;耳语音中图分类号:TN912.3文献标识码:A耳语音是人们的一种语音交流方式。
例如在公众场合手机通话时,为不影响他人或为了对话的保密性,人们常常使用耳语音方式,然而由于耳语音发音的特殊性和受对话环境的影响,这种方式下的语音信号不仅信噪比低而且可懂度、清晰度都较差。
在其它的一些场合,也会涉及耳语音问题,例如:语音学家用耳语音研究语音感知问题、医学专家通过耳语音对噪音病人进行诊断、公安和法院通过耳语音分析来辨别说活人身份等等。
另外,国外有些用于低比特率语音编码和语音识另0的数据库中也包括了对耳语音的要求。
这说明耳语音虽是一种特定的发音模式,但其应用有着相当的广泛性【l,2j]。
在语音信号分析中共振峰是一个最基本的表征语音信号特征的参数。
共振峰参数包括共振峰频率和频带宽度,它是区别不同韵母的重要参数。
现在已经发展出多种共振峰提取算法。
例如McCandless提出了用线性预测谱提取语音信号前三个共振峰的算法MJ,ZhaoQi—fang利用自相关函数问接提取噪声环境下的语音共振峰∞J,Welling在动态规划法的基础上提取共振峰MJ,Araujo使用MEL谱算法提取共振峰¨1,Zolf:aghafi则使用高斯分布提取共振峰[8],但是这些方法只适用于正常语音共振峰的提取。
语音识别(speechrecognition)
差,找出最小的失真误差对应的码本(代表一个
字),将对应的字输出作为识别的结果。
码本 每一个字做一 个码本,共M个字
Y1 Y2 YM
模板库
任意 语音 帧
特征矢量 X 序列形成
计算 输出结果Yi 失真误差 判决
特征矢量序列 模板库
X={X1 , X2 , …… , XN} Y1 , Y2 , …… , YM
语音识别(speech recognition)
语音识别技术的一般概念
语音识别的原理和识别系统的组成
动态时间规整DTW
基于统计模型框架的识别法(HMM)
说话人识别
语种辨识
语音识别技术的一般概念
一、语音识别的定义 二、语音识别的应用
三、语音识别的类型
四、语音识别的方法
五、语音识别的主要问题
一、语音识别的定义
多领域。
随着语音识别技术的逐渐成熟,语音识别技术开
始得到广泛的应用,涉及日常生活的各个方面如电信、
金融、新闻、公共事业等各个行业,通过采用语音识
别技术,可以极大的简化这些领域的业务流程以及操
作;提高系统的应用效率。
语音识别应用实例
1.语音识别以IBM推出的ViaVoice为代表,国内
则推出Dutty ++语音识别系统、天信语音识别系统、
语音识别是指从语音到文本的转换,即让计算
机能够把人发出的有意义的话音变成书面语言。通
俗地说就是让机器能够听懂人说的话。
所谓听懂,有两层意思,一是指把用户所说的
话逐词逐句转换成文本;二是指正确理解语音中所
包含的要求,作出正确的应答。
二、语音识别的应用
语音识别技术是以语音为研究对象,涉及到生理 学、心理学、语言学、计算机科学以及信号处理等诸
实现基于共振峰和基音的语音合成 matlab代码
实现基于共振峰和基音的语音合成 matlab代码要实现基于共振峰和基音的语音合成,可以使用MATLAB来进行编程。
以下是一个简单的示例代码,演示如何使用MATLAB生成基于共振峰和基音的合成语音:matlab设置基本参数fs = 44100; 采样率(Hz)T = 1; 合成语音的时长(秒)f0 = 100; 基音频率(Hz)vowel = 'a'; 要合成的元音声音计算共振峰参数f1 = 730; 第一个共振峰频率(Hz)f2 = 1090; 第二个共振峰频率(Hz)b1 = 100; 第一个共振峰带宽(Hz)b2 = 50; 第二个共振峰带宽(Hz)计算基音周期和长度period = round(fs/f0);n = round(fs*T);生成基音信号x = zeros(n, 1);for i = 1:period:nx(i:i+period-1) = ones(period, 1);end生成共振峰滤波器[b, a] = resonator([f1 f2], [b1 b2], fs);对基音信号进行共振峰滤波y = filter(b, a, x);播放合成的语音soundsc(y, fs);在这个示例中,首先设置了一些基本的参数,如采样率、合成语音时长、基音频率和要合成的元音声音。
然后,根据提供的共振峰参数计算滤波器系数。
接下来,生成基音信号,以及应用共振峰滤波器生成合成的语音信号。
最后,使用`soundsc`函数播放合成的语音。
请注意,这只是一个简单的示例,涵盖了基本的合成过程。
实际的语音合成可能需要更多的复杂处理和算法,以便更准确地模拟人类语音的特征。
室内语言辅音的清晰度损失与声源指向特性的关系
室内语言辅音的清晰度损失与声源指向特性的关系赵其昌【摘要】介绍了室内音质评价量、辅音清晰度损失的计算方法;室内语言清晰度损失与声源指向特性的关系以及汉语语音的特性,听力随年龄增长的听阈下降的统计值和通过声源覆盖角计算指向性因数的方法。
%The computer method for the articulation loss of consonants as a criterion for speech transmission in a room and the relationship between the articulation loss of consonants and the directive characteristic of sound source were presented in the paper. The fol owing contacts were introduced including the characteristic of Chinese speech sounds, the statistical distribution of hearing thresholds descent as a function of age, the compte method of directive factor by the coverage angle of sound source.【期刊名称】《演艺科技》【年(卷),期】2014(000)005【总页数】4页(P22-24,48)【关键词】室内音质评价;辅音清晰度损失;声源的指向性因数;覆盖角【作者】赵其昌【作者单位】南京大学声学研究所,江苏南京 210093【正文语种】中文1 引言在设计厅堂音质时,最重要的也是最基本的要求是讲话要听得清楚、能听懂,于是提出了语言可懂度的指标。
发音的人所发出的语言单位(句、词、音节)经语言传递系统而被听者正确识别的比率,称为语言可懂度。
正常青年汉语普通话单元音共振峰测量
正常青年汉语普通话单元音共振峰测量陈阳(浙江中医药大学听力与言语科学学院杭州)2010年12月24号摘要为了研究本人普通话单元音共振峰的特征,对本人的普通话元音(a、o、e、i、u、ü)共振峰做了测量。
共振峰的测量采用LPC法,给出了具有统计意义的前三个共振峰(F1、F2、F3)的平均值。
对所测结果的观察发现统计测量的结果与前人的测量结果没有明显的差别。
除了常用的最低的三个共振峰外,F2/F1、F3/F2可能会给单元音的细节辨识提供两个新的特征参量。
Statistical survey of chinese pure vowel formants in the Normal YouthChenYang(Zhejiang Chinese Medical University ,Auditory And Speech Science Academy)December. 24 ,2010Abstract In order to investigate my characteristics of the pure vowel formants ,the test have been done latest.The formants were measured using LPC method.The averaged values and no deviations of formants were given with statistical meaning.The results show the difference from the measurements done by other引言自上世纪六十年代起,就有研究者对普通话单元音的共振峰进行了测量,但当时的测量样本数极少,测量结果缺乏统计意义上的可靠性,难以反映汉语普通话元音的群体特征。
随着语音技术的发展,语音合成、语音识别等技术产品已经进入应用市场,由于我国是以普通话为公共语言,因此应该对语音技术产品所使用的普通话特征参数进行规范化。
基于语音频谱的共振峰声码器实现
基于语音频谱的共振峰声码器实现王坤赤;蒋华【摘要】共振峰声码器因其在理论上具有最低码率而一直是参数语音编码算法研究的重点.共振峰编码器的关键算法是基频和共振峰等语音参数的提取.在高分辨率语谱图基础上,利用语音信号的频域特性设计了一种简单有效的基频和共振峰提取算法.通过评价重建语音信号的音质,证明了参数提取算法的准确性.根据语音实验确定编码参数包含基频和前4个共振峰,并在保证语音质量的前提下制定各参数的量化指标.应用实际语音信号对算法的性能进行测试,试验结果证明算法在码率为1 400 b/s时具有良好的语音质量.【期刊名称】《现代电子技术》【年(卷),期】2007(030)021【总页数】3页(P168-170)【关键词】共振峰语音编码;基频;共振峰;谐波合成【作者】王坤赤;蒋华【作者单位】南通大学,电子信息学院,江苏,南通,226007;南通大学,电子信息学院,江苏,南通,226007【正文语种】中文【中图分类】TN912.321 引言语音编码算法利用语音信号的冗余信息及某些人耳不敏感的信息,可以在低比特率上获得较高质量的重建语音,压缩编码一直是通信中的关键技术。
语音信号研究者们一直在寻求一种在保持语音质量不显著下降的情况下使语音信号的编码比特率最小的方法,特别地,低比特率语音编码体制(比特率在4.8 kb/s以下) 因其广泛的需求而得到研究者的重视[1]。
语音编码器的性能常常用比特率、延时、复杂度和质量4个属性来进行衡量[2],因此,在分析语音编码器的性能时,主要应该考虑这些属性。
值得注意的是,这些属性之间不是孤立的,而是相互紧密联系的,例如,低比特率的编码器一般比高比特率的编码器有更大的延时、更高的算法复杂度和较低的语音质量。
因此在对各种编码算法进行取舍时,应根据实际应用环境,在这些属性之间进行权衡。
共振峰参数编码算法在低码率的音频编码中应用越来越广泛。
与基于时域波形的压缩算法相比,他在传输的过程中只需要传输构造信号所用的基频和共振峰参数,因此可以大大地降低传输的码率,实现低码率下的多媒体通信。
一种基于加权Mel倒谱的语音信号共振峰提取算法
一种基于加权Mel倒谱的语音信号共振峰提取算法杨鸿武;赵涛涛【摘要】提出了一种利用加权Mel倒谱提取语音信号共振峰的算法.首先对短时语音信号进行加权Mel倒谱分析,获得包含频谱主要成分的加权Mel倒谱系数;然后利用离散余弦平滑算法,从加权Mel倒谱系数获得谱包络,并从谱包络的峰值位置获得候选共振峰;最后根据共振峰的连续性约束条件和频率范围,从候选共振峰筛选得到共振峰的估计值.实验结果表明,本算法比倒谱法提取的共振峰误差更小,在噪声环境下具有较好的鲁棒性.【期刊名称】《西北师范大学学报(自然科学版)》【年(卷),期】2014(050)001【总页数】5页(P53-57)【关键词】加权Mel倒谱;共振峰;DCT变换;鲁棒性【作者】杨鸿武;赵涛涛【作者单位】西北师范大学物理与电子工程学院,甘肃兰州 730070;西北师范大学物理与电子工程学院,甘肃兰州 730070【正文语种】中文【中图分类】TN912.3人在发声时气流通过声道引起声道振动而产生的一组共振频率称为共振峰.共振峰一般对应为语音信号的频谱峰值,具有较大的能量,是频谱的主要成分,决定信号的时域波形.共振峰是语音信号最重要的特征参数之一,广泛应用于语音分析、语音识别、语音合成等领域.准确有效的共振峰提取是语音信号处理的重要研究课题[1].目前用于共振峰提取的算法主要分为3类:基于频谱峰值提取法、基于线性预测求根法和基于语音分析合成法[2,3].基于频谱峰值提取算法由于计算量小,被广泛使用,但是容易受合并共振峰和虚假共振峰的影响.基于线性预测求根法则通过求解传递函数多项式得到共振峰频率,计算量比较大,目前虽然有人提出更高效的改进算法[3],但其准确度并不高.基于语音分析合成法属于一种迭代方法,通过合成误差来判断估计效果,在迭代过程中不断减小合成误差,从而提高估计准确度,但计算时间较长,难以实现实时计算.文中提出了一种基于加权Mel倒谱(WMCEP,Weighted Mel-cepstrum)的语音信号共振峰提取算法,通过对语音信号进行加权Mel倒谱分析获取信号频谱的主要成分,能够准确得到共振峰位置,在一定程度上解决了以上方法的不足,避免了虚假共振峰的影响,并且在一定噪声环境下具有较好的鲁棒性.1 加权Mel倒谱分析原理1.1 加权Mel倒谱分析Mel倒谱分析是语音信号处理领域最重要的分析方法之一,广泛应用于语音编码和语音合成中.Mel倒谱定义为语音信号弯折频率尺度对数频谱的逆傅里叶变换[4]:其中,X(ejω)为语音信号x(n)的逆傅里叶变换;弯折频率尺度β(ω)为一阶全通滤波器的相位响应[5]:其中,α为Mel频率变换系数,当α=0.35时,相位响应β(ω)能够很好地接近人耳的听觉尺度.语音信号的频谱可以由(m+1)阶的Mel倒谱来建模.对一帧语音信号x(n),n=0,1,…,N-1,定义该信号的修正周期为[5]其中w(n)为窗函数.求出(4)式的最小值就可得到M阶MCEP系数cm(m=0,1,…,M-1).对于语音信号,确定了MCEP系数后,根据(1)式可得到频率响应的估值,即MCEP包络[6].文献[6]表明,Mel倒谱虽然能够逼近语音信号共振峰处的修正周期,但会移动和加强共振峰.为了提高估计准确率,定义(5)式所示的误差函数为加权Mel倒谱系数(WMCEP)的估计误差函数,通过求解(5)式的最小化问题得到WMCEP系数,其中W(ω)为感知权重函数[6].1.2 基于心理声学模型的感知权重函数人耳对声音的感知与频率呈非线性关系,在语音信号中一般采用信号掩蔽比(RSM,Signal-tomask ratio)反映不同频率分量对听觉的贡献,以及人耳对该频率成分的听觉敏感度.在MPEG-1和MPEG-2中定义了心理声学模型[6],利用心理声学模型,可以获得信号掩蔽比.文中选择MPEG-2中的心理声学模型的输出RSM做为感知权重函数.由于MPEG-2中输出的RSM不是连续值,通过对RSM进行线性插值得到连续的感知权重函数[6]:其中L(ω)为初始权重函数.2 基于WMCEP的共振峰提取方法在加权Mel倒谱分析中,利用人耳的听觉感知特性,从语音信号的短时幅度谱得到WMCEP系数,该系数保留了原始语音信号频谱的主要成分.语音信号的共振峰对应着频谱的重要成分,频谱包络的峰值点位置即为共振峰频率.因此,可以通过WMCEP表示的频谱包络来估计共振峰.基于WMCEP提取语音信号共振峰的流程如图1所示,主要包括预处理、WMCEP包络提取和后处理.图1 算法流程Fig 1Flow chart of formants extraction1)预处理.对语音信号预加重、分帧和加窗.预加重采用一阶FIR滤波器进行滤波,滤波器系数取0.97,帧长取20~30ms,帧移为5~15ms,采用Hamming窗加窗.2)WMCEP包络提取.① 对分帧加窗后的语音信号进行DFT变换得到信号的短时谱,利用(3)式对短时谱进行周期修正得到信号的修正周期图;②通过求解(5)式的最小化问题得到最优的WMCEP系数;③ 利用(1)式求得cm 和e-jβ(ω)m在各离散频率点上的乘积之和,得到WMCEP对应的谱包络.为了提高帧与帧之间的相关性并有效降低谱失真,文中采用离散余弦变换平滑算法(DCT,Discrete cosine transformation)对WMCEP进行平滑处理.在平滑过程中,一次输入L帧语音,即当前的N帧语音,之前的m帧语音和之后的p帧语音,L=m+N+p.这L个语音帧的WMCEP系数的每一维构成一个系数向量[7]:利用DCT变换对每一个向量Fi进行变换,得到DCT系数向量[7]:将系数向量的第(k+1)维到L维的系数置0,得到截断后的系数向量Yi′:然后对Yi′进行逆离散余弦变换(IDCT,Inverse discrete cosine transformation),得到平滑后的系数向量Fi′[7]:图2 加权Mel倒谱包络Fig 2Envelope of Mel-cepstrum在Fi′中提取当前帧的第n维系数,得到当前帧的平滑后的第n维WMCEP.图2为平滑处理后的WMCEP包络,从图2可以看出,平滑后的WMCEP能够准确地逼近语音信号共振峰对应的修正周期.3)后处理.确定共振峰最终估计值.利用WMCEP算法得到的是共振峰频率候选值,这些侯选值包括正确的估计,也存在错误的估计,需要进一步处理.文中首先根据共振峰轨迹的连续性约束及频率范围,对这些侯选值进行筛选得到若干筛选后的共振峰频率,然后根据各筛选后的共振峰频率的大小进行加权平均得到最终的共振峰估计值.图3为元音/a/前3个共振峰频率估计结果.图3 元音/a/的一帧语音的前3个共振峰Fig 3Formants of one frame of voiced speech signal/a/3 实验结果分析采用语音信号“好吧”(男声)以及3个汉语元音/a/,/o/,/e/进行实验.其中,语音信号“好吧”采样频率为16kHz,采用Hamming窗加窗,帧长32ms,200个采样点;3个元音采样频率为8kHz,采用 Hamming窗加窗,帧长为25ms,200个采样点.先从语谱图中获得语音信号“好吧”的前3个共振峰,第一共振峰频率为974Hz,第二共振峰频率为2 420Hz,第三共振峰频率为3 302Hz.再分别利用倒谱法和文中算法对该语音信号进行前3个共振峰的检测,结果如图4所示.从图4可以得到倒谱法提取的第一共振峰频率为1 033Hz,第二共振峰频率为2 491Hz,第三共振峰频率为3 360Hz.加权Mel倒谱法提取的第一共振峰频率为963Hz,第二共振峰频率为2 410 Hz,第三共振峰频率为3 298Hz.比较检测结果可知加权Mel倒谱法提取的共振峰频率误差更小,准确性更高,这主要是因为加权Mel倒谱考虑了人耳的听觉特性.表1~3为3种方法对3个元音的共振峰检测结果.图4 语音信号“好吧”(男声)的共振峰估计Fig 4Formant estimation of malespeech signal“/hao ba/”表1 元音/a/的实验结果对比(Hz)Tab 1The comparison of experimental results for voiced speech/a/算法共振峰序号F1 F2 F 3语谱图556.7 1 512.4 2 357.4倒谱法 586.2 1 562.5 2 380.8文中方法564.9 1 496.3 2 342.1 表2 元音/o/的实验结果对比(Hz)Tab 2The comparison of experimental results for voiced speech/o/3算法 FFF 1 2谱图631.5 1 113.3 3 01共振峰序号语648.3 1 120.5 3 021.2 2.4倒谱法 670.3 1 012.2 2 988.0文中方法为了验证算法的准确性,以语谱图法提取的共振峰频率作为参考,分别计算倒谱法和文中算法提取的前3个共振峰的平均误差,如图5所示.从图5可以看出,文中方法对前3个共振峰检测的平均误差都小于倒谱法.表3 元音/e/的实验结果对比(Hz)Tab 3The comparison of experimental results for voiced speech/e/算法共振峰序号F1 F2 F 3 584.9 1140.2 2 973.8 598.3 1134.5 2 965.7倒谱法 563.2 1164.7 2 896.6文中方法语谱图图5 2种共振峰提取算法的平均误差对比Fig 5The average error comparison of two formant extraction algorithms为了进一步验证文中提出的方法在自然语流上提取共振峰的准确性,选取了1个男性录音人在实验室环境下录制的10句普通话语音,每个语句由5~7个音节构成,以16kHz,16bit量化的 Wave格式保存.对这些语音,手工标注了每个音节的清音段和浊音段边界,并对浊音段分别利用文中算法和倒谱法进行共振峰提取. 为了客观评价本文算法的精度,分别计算出由倒谱法提取的共振峰和文中算法提取的共振峰的均方根误差(ERMSE),列于表4.从表4可以看出,文中算法的均方根误差均值为9.1Hz,倒谱法的均方根误差均值为13.6Hz.可见,文中提出的共振峰提取算法准确性要高于倒谱法.表4 2种方法提取的共振峰均方根误差(Hz)Tab 4The root mean squareerror of two formant extraction algorithms共振峰序号F1 F2 F3 15.6 13.9 11.5文中算法倒谱法10.2 7.4 9.84 算法鲁棒性分析以测试语音/a/为例添加高斯白噪声,以检查算法的鲁棒性.表5为不同信噪比下的第一共振峰F1、第二共振峰F2和第三共振峰F3的估计结果.当信噪比RSN>20dB时,文中提出的算法能够很好实现对共振峰的估计,对于不同的RSN估计结果不同是由于频率分辨率的原因.文中提出的算法是一种搜索算法,搜索点显然只能局限于计算的有限个频谱值上,因此FFT计算点数决定了估计的分辨率.在这里FFT计算点数等于帧长N=200,采样频率fs=8 000Hz,所以估计分辨率为40Hz.由表5可以看出,当RSN>20dB时,估计误差小于40Hz,显然说明估计结果是一致的;当RSN=20dB时,估计开始出现误差;当RSN<20dB时,频谱基本上被噪声频谱淹没,看不到峰值,估计已经变得没有意义,因此没有列出结果.综上所述,本算法在一定噪声环境下具有较好的鲁棒性.表5 不同信噪比(RSN)下的共振峰估计结果(Hz)Tab 5Result of formants estimation under different signal-to-noise ratio估计值无噪语音RSN F1估计值 F2估计值 F3 556.7 1 512.4 2 357.4 50dB 542.3 1 507.1 2 376.8 30dB 568.3 1 525.8 2 384.5 20dB 547.2 1 560.6 2 344.75 结束语文中提出一种基于加权Mel倒谱的共振峰提取算法,对语音信号进行加权Mel倒谱分析得到的加权Mel倒谱系数代表了语音频谱的主要成分,经过DCT平滑处理得到的加权Mel倒谱包络能够准确地逼近共振峰对应的修正周期.根据共振峰连续性约束和频率范围,对得到的共振峰频率侯选值进行筛选,从而得到共振峰估计值.实验结果表明,文中算法提取的语音信号前3个共振峰的准确率高于倒谱法,并且在一定噪声环境下具有较好的鲁棒性.参考文献:[1]LÜG,ZHAO H.Developments of the research of the formant tracking algrithm[J].Computer and Information Science,2010,3(1):68-71. [2]CODELLO I, KUNISZYK-JOZKOWIAK W.Formant paths tracking using linear prediction based methods[J].Annales UMCS Informatica AI,2010,10(2):7-12.[3]赵毅,尹雪飞,陈克安.一种新的基于倒谱的共振峰频率检测算法[J].应用声学,2010,29(6):416-424.[4]KOISHIDA K,TOKUDA K,KOBAYASHI T,et al.CELP speech coding based on mel-generalized cepstral analyses [J]. Electronics and Communications in Japan,2000,83(5):32-41.[5]HONGWU Y,HUANG D,LIANHONG C A I.Perceptually weighted melcepstrum analysis of speech based on psychoacoustic model[J].IEICE transactions on information and systems,2006,89(12):2998-3001.[6]黄德智,杨鸿武,蔡莲红.语音信号的加权 Mel倒谱分析[J].信号处理,2006,22(6):840-843.[7]赵铭,崔慧娟,唐昆,等.谱包络参数的平滑算法[J].清华大学学报:自然科学版,2005,45(4):448-451.[8]陈宁,万茂文.语音信号共振峰频率估计的分段线性预测算法[J].计算机工程与应用,2009,45(28):156-159.[9]DUCKWORTH M,MCDOUGALL K,DE JONG G,et al.Improving the consistency of formant measurement[J].International Journal of SpeechLanguage and the Law,2011,18(1):35-51.。
语音信号共振峰提取方法的研究分析
语音信号共振峰提取方法的研究分析
杨丹;姜占才;余蓥良;李振起
【期刊名称】《科技信息》
【年(卷),期】2012(000)004
【摘要】目前的提取语音共振峰的方法比较多,常用的方法有倒谱法、LPC谱估计法、LPC倒谱法,但没有一种方法是十分完美的,为了系统的深入的研究共振峰的提取,本文对同一帧语音信号进行了不同方法的共振峰提取实验仿真,给出了具体的共振峰频率数据,同时对不同方法的优缺点进行了科学的、深入的研究分析,用Matlab对算法进行仿真实现,实验结果表明共振峰的提取方案中LPCC倒谱法避免了一般同态处理中对复对数的麻烦,可以较为理想的实现对共振峰的提取.
【总页数】2页(P161-162)
【作者】杨丹;姜占才;余蓥良;李振起
【作者单位】青海师范大学物理系;青海师范大学物理系;青海师范大学物理系;青海师范大学物理系
【正文语种】中文
【相关文献】
1.基于共振峰增强的语音信号共振峰频率估计
2.基于共振峰曲线的语音信号动态特征提取方法
3.基于不同算法的语音信号共振峰提取研究与实现
4.基于Hilbert-Huang变换提取语音信号共振峰方法研究
5.基于Hilbert-Huang变换提取语音信号共振峰方法研究
因版权原因,仅展示原文概要,查看原文内容请购买。
一种新的语音信号共振峰提取的算法
一种新的语音信号共振峰提取的算法
何峰;陈晓清;李国锁;林嘉宇
【期刊名称】《信号处理》
【年(卷),期】2007(023)004
【摘要】本文提出了一种新的语音信号共振峰的提取方法.在LPC幅度谱上搜寻最大的极大值点所对应的频率,并将它作为构成声道参数的某一谐振腔所对应的共轭复根的角度,再通过LPC系数的相-频特性的一次导数和三次导数相结合的方法求出这对共轭复根的幅度,从而确定了该谐振腔,也就得到了该谐振腔的共振峰.然后,用LPC的多项式对该谐振腔所对应的多项式做多项式除法,得到新的LPC系数,接着重复前面的步骤,可以较好地求出在LPC谱中对应幅度最大的两个共振峰.
【总页数】4页(P618-621)
【作者】何峰;陈晓清;李国锁;林嘉宇
【作者单位】国防科技大学电子科学与工程学院,湖南长沙,410073;国防科技大学电子科学与工程学院,湖南长沙,410073;国防科技大学电子科学与工程学院,湖南长沙,410073;国防科技大学电子科学与工程学院,湖南长沙,410073
【正文语种】中文
【中图分类】TN91
【相关文献】
1.一种基于共振峰提取的多通道响度补偿算法 [J], 赵毅;尹雪飞;陈克安
2.一种新的共振峰参数提取算法及在语音识别中的应用 [J], 章文义;朱杰;陈斐利
3.一种基于加权Mel倒谱的语音信号共振峰提取算法 [J], 杨鸿武;赵涛涛
4.一种LPC改进算法在提取耳语音共振峰中的应用 [J], 刘建新;曹荣;赵鹤鸣
5.基于不同算法的语音信号共振峰提取研究与实现 [J], 潘涛; 王胜利
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
syTier=sy_Tier
pyTier=py_Tier
type=informant_character
saveFileName$=save_File_Name$
if right$(tFilePath$,1)<>"\"
tFilePath$=tFilePath$+"\"
endif
if right$(sFilePath$,1)<>"\"
sFilePath$=sFilePath$+"\"
endif
if right$(saveFilePath$,1)<>"\"
saveFilePath$=saveFilePath$+"\"
endif
saveFile$=saveFilePath$+saveFileName$+".csv"
#提取midT位置的共振峰数据
select Formant 'objectName$'
fOne=Get value at time... 1 'midT' Hertz Linear
fTwo=Get value at time... 2 'midT' Hertz Linear
fThr=Geபைடு நூலகம் value at time... 3 'midT' Hertz Linear
#输出文件
fileappend 'saveFile$' 'sFileName$','seqOfSyl','syl$','ini$','fin$','tone$','fOne','fTwo','fThr''newline$'
sFileName$=sFilePath$+objectName$+".wav"
tFileName$=tFilePath$+objectName$+".TextGrid"
Read from file... 'sFileName$'
if type=1
topFre=5000
elsif type=2
sentence save_File_Path F:\课程\实验语音学前沿\单音节(M01-M15)\saveFile
comment 标注文件设置
natural sy_Tier 1
natural py_Tier 2
comment 发音人特征
choice informant_character: 1
filedelete 'saveFile$'
fileappend 'saveFile$' 文件路径,音节序号,音节,声母,韵母,声调,第一共振峰(Hz),第二共振峰(Hz),第三共振峰(Hz)'newline$'
#创建文件名列表,逐个分析
Create Strings as file list... fileList 'sFilePath$'*.wav
endif
endfor
select TextGrid 'objectName$'
Remove
select Formant 'objectName$'
Remove
select Sound 'objectName$'
Remove
endfor
select Strings fileList
syl$=left$(syl$,length(syl$)-1)
sT=Get starting point... 'syTier' 'seqOfFinInSy'
eT=Get end point... 'syTier' 'seqOfFinInSy'
midT=(sT+eT)/2
fin$=Get label of interval... 'syTier' 'seqOfFinInSy'
if ini$=fin$
ini$="Zero"
endif
tone$=right$(syl$,1)
fin$=left$(fin$,length(fin$)-1)
Remove
seqOfSyl=0
for iSyl from 1 to numOfSyl
select TextGrid 'objectName$'
syl$=Get label of interval... 'pyTier' 'iSyl'
if syl$<>"silb" and syl$<>"sile"
seqOfIniInSy=Get interval at time... 'syTier' 'sTInIni'
seqOfFinInSy=Get interval at time... 'syTier' 'eTInRhy'
ini$=Get label of interval... 'syTier' 'seqOfIniInSy'
seqOfSyl=seqOfSyl+1
sTOfSyl=Get starting point... 'pyTier' 'iSyl'
eTOfSyl=Get end point... 'pyTier' 'iSyl'
sTInIni=sTOfSyl+0.005
eTInRhy=eTOfSyl-0.01
topFre=5500
else
topFre=8000
endif
To Formant (burg)... 0 5 'topFre' 0.025 50
Read from file... 'tFileName$'
numOfSyl=Get number of intervals... 'pyTier'
numOfFiles=Get number of strings
for iFile from 1 to numOfFiles
select Strings fileList
fileName$=Get string... 'iFile'
objectName$=fileName$-".wav"
button 男
button 女
button 小孩
comment 保存文件名称
sentence save_File_Name
endform
#提取对话框中的数据
sFilePath$=sound_File_Path$
tFilePath$=textGrid_File_Path$
#作者:
#目的:提取带有标注的语音文件各音节的共振峰数据,从F1到F3
#start:09.9.14
form 基本设置
comment 路径设置
sentence sound_File_Path F:\课程\实验语音学前沿\单音节(M01-M15)\m01\sounds
sentence textGrid_File_Path F:\课程\实验语音学前沿\单音节(M01-M15)\m01\TextGrid(handy)