有效提取耳语音共振峰的改进方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿口期:2008—04—25 修同日期:2008—07-07
万方数据
吕 岗,赵鹤鸣,刘建新,等:有效提取耳语音共振峰的改进方法
2009,45(19) 135
为便于讨论,先假设存在两个极点孙孙则在辐角咖,处的极点
上兀———L1
(7)
.2
功率lH(,’)I为:
(1-ri’)‘“‘1一轨’c∞(也—屯)t
极点半径氍‘
(2)
由辐角和半径,盯得传递函数:
日(盈)=—上丽
(3)
l—rfe z‘
极点盈在。域的功率谱为:
fl州l一枷1(;磊 ∽舻I 2 ‘-1 l一2r cos(口—西;)+L
‘4’
基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60572076);江苏省高校自然科学研究计划项目 (University Natural Science Research Project of Jingsu Pin,nee of China Grant No.05KJB5101 13)。
图2是耳语音【6】的语谱图,由图可以大体估计出前三个共 振峰的频率分别在600 Hz、1 000Hz和3000Hz附近。
3共振峰提取方法的改进 3.1带宽修正算法
根据前述分析,在极点功率谱中,如果删除—个根,那么离 这个根相近的极点共振峰的带宽将变窄,而与这个根相距远的 极点共振峰的带宽将变宽。因此,本文提出了一种改进的LPC 算法,它根据极点功率不变的原则,在删除根的同时利用极点 交互因子修改剩余根的共振峰带宽。从而实现准确提取耳语音 共振峰的目的。
点的同时,利用极点交互因子修正剩余极点的共振峰带宽,通 过减小极点交互影响引起的误差实现准确提取共振峰的目的。
2极点交巨影响问题 首先,实现频域到:域的转换。若采样频率是只,则LPc算
法求得的共振峰E和3 dB带宽最,可按如下公式转换为:域 上角度为也半径为Fi的极点。
极点辐角咖l-21T鲁
(1)
一半
【2】Zhao Qi—fang,Shimamura T,Suzuki J.A robust algorithm for for_ mant frequency extraction of noisy speeeh[C]//ISCAS,1998,5:534- 537.
【3】Zolfaghari P,Robinson T.Formant analysis using mixtures of Gaus— sians[C]//ICSLP,1996,2:1229—1232.
LV Gang,ZHAO He-ming,LIU JLan一】dn,et ai.Improved method for effectively extracting whisper speech formant. Computer Engineering and Applications,2009,45(19):134-136.
4实验结果 实验选取汉语普通话中的[a】、【o】、[e1、【i】、[u】、[n】六个单元音
耳语音音素为样本。分别采用LPC算法和PIF—LPC算法提取 前三个共振峰,并用轨迹跟踪法判别提取结果的准确性。
实验语音样本的采样率为8 kHz,采用Hamming窗,每帧 256个采样点,帧移为帧长的1/4。
Abstract:Whisper is stirred by noise.Comparing with normal speech。the formant of whisper is shifted and the bandwidth is broadened,and that will bring up the problem of spurious peaks when using the tranditional conventional liner prediction coding for formant extraction.By analyzing power spectrum,an improved approach has been proposed.Based on the role that the pole power is not change,the algorithm modifies the whisper formant bandwidths using pole interaction factor,and extracts formants exactly.Experimental results with mono-vowel phones in Mandarin speech prove the ability of this algorithm. Key words:whispered speech;formant;liner prediction coding;pole interaction
时间/ms 图5基于PIF—LPC算法的耳语音同共振蜂轨迹
仿真实验证明改进算法能更有效地提取噪声激励的耳语音共 振峰。
参考文献:来自百度文库
【1】Gao M.Tones in whispered Chinese:Articulator and perceptual cues[D].Canada:University of Victoria,2002.
134 2009,45(19)
Computer Engineering and Applications计算机工程与应用
有效提取耳语音共振峰的改进方法
吕 岗,赵鹤鸣,刘建新,龚呈卉 LV Gang,ZHAO He-ming,LIU Jian-xin,GONG Cheng-hui
苏州大学电子信息学院,江苏苏州215021 School of Electronics and Information Engineering,Sooehow University,Suzhou,Jiangsu 215021,China E-mail:lvgang@suda.edu.cn
算法的实现原理如下:假设需要保留的是角度为靠半径
22南×瓦靠2南(6) 为ri的共振峰极点%需要删除的是角度为幽半径为rj的共振
峰极点研。根据公式(5),角度如处的功率为:
I舻)I
图2耳语音【6】的语谱图
图3是采用传统LPC算法提取耳语音【6】的前三个共振峰 的帧轨迹图,从图中可发现语音的第3、4、5、8、11、18帧提取的 共振峰发生了错误。
1引言 耳语音是一种特定的发音模式,人们发耳语音时,声带不
振动,语音信号没有基,频”。因此,共振峰成为表征耳语音信号 特征的最基本参数。目前,线性预测编码(12C)是提取语音信 号共振峰的基本方法。然而LPC算法在提取共振峰时,易受信 号中噪音产生的虚假峰干扰,从而影响提取结果的准确度。为 了克服这个缺点,各种改进算法被提出,如Zhao的自相关函数 法【2|,Zolfaghafi的高斯滤波法p等等。这些改进算法都足采用对 语音信号去噪的方法达到消除虚假峰的效果。但是耳语音的激 励源就是噪声Ilj,所以上述的改进算法并不适合提取耳语音的 共振峰。
LPC算法是通过求解线性预测多项式的根并根据根对应 的共振峰带宽大小来决定根取舍的方法来提取共振峰的…。由 于根极点之问存在交互影响嘲,可能导致—个甚至更多的实际 根被当成虚假根而删除。相对于正常音,耳语音声强降低,共振
峰带宽增宽悯。所以极点交互影响问题在提取耳语音共振峰时 显得更加突出。通过分析产生极点交互影响的原凶,提出了一 种改进LPC算法。它根据极点功率不变的原则,在删除多余极
图5是采用PIF—LPC算法提取耳语音M的前三个共振峰 的帧轨迹图,与耳语音的语谱图相比,PIF—LPC算法求得了耳 语音F1、F2、F3共振峰的正确值。
5结论 由于传统LPC算法是根据共振峰带宽大小决定根的取
舍,在极点交互影响的情况下,往往会将实际根误判为虚假根 而删除,这种现象在共振峰带宽增大的耳语音上表现的更加显 著。因此基于极点功率不变的原则,提出了PIF—LPC算法,它 通过在删除根的同时利用极点交互因子修改剩余根的共振峰 带宽的办法来减小极点交互问题的影响。对汉语单元音音素的
上.————L—一:上.△1日l(5) (1一r1)‘1—2r2 cos(‘bl咄)t(1一r1)‘
这里“是其他极点的半径,h’是对应的修改后的极点半 径,Ⅳ是保留的线性预测多项式极点的个数。
这里△旧称之为极点交互因子四(Pole Interaction Factor,PIF)。 3.2算法的实现
它反映了极点=:对极点:。处功率的影响程度。
万方数据
136 2009,45(19)
Computer Engineering and Applications计算机工程与应用
∞
螽
孽
频率,Hz 图4两种算法对耳语音【6】的第四帧共振蜂的提取效果对比
变宽了。传统LPC算法就会将1 002 Hz处的极点作为虚假根 删除。而改进的PIF—LPC算法由于在删除根的同时,利用极点 交叉因子修改了共振峰带宽,所以将频率3 673 Hz处的虚假峰 识别出来,避免误删实际的共振峰。
(4)根据共振峰的带宽大小排序,将带宽最大的极点删除;
(5)由公式(6)求取修改后的共振峰带宽;
(6)由公式(7)修正其余共振峰的带宽;
(7)重复第(4)步~第(6)步,直到得到需要保留的共振峰个
数为止。
频翠,№ 图I极点交互问题示意图
在语音信号分析中,极点的总功率不会因为极点的增减而 发生变化。所以,假设存在—个极点钆它的功率谱包络如图I 中虚线所示,则增加了一个极点幻后,由于极点交互,增加的 这个极点将影响原先极点的共振峰带宽,从图I中的实线可以 看到增加的极点::使得=。处的共振峰带宽增宽。这就可能导 致按照共振峰带宽大小取舍根的LPC算法将z,这个实际根误 判成虚假根而删除。
‘
算法的基本流程如下:
在:域上,当极点::向z。逐渐靠近时,由公式(5)可知,辐
(1)预处理;
角差值将减小,由于极点在单位园内,所以PIF将增大,极点:。
(2)运用LPC法求极点;
处的功率将增大。反之当极点z:向:,逐渐远离时,PIF将减
(3)由公式(2)计算每个极点对应的共振峰带宽;
小,极点z。处的功率将变小。这种现象称为极点交互影响问题。
摘要:耳语音是噪声源激励,与正常音相比,其共振峰位置发生了偏移,带宽增宽。故采用传统的线性预测法提取耳语音共振峰 时存在虚假峰问题。通过分析功率谱,提出了一种改进算法。根据极点功率不变的原则,利用极点交互因子修正共振峰的带宽,从 而准确地提取出耳语音的共振峰。对汉语普通话单元音音素仿真实验的结果证明了该算法的有效性。 关键词:耳语音;共振峰;线性预测编码;极点交互 DOI:10.3778/j.issn.1002—8331.2009.19.041 文章编号:1002—8331(2009)19-0134--03 文献标识码:A 中图分类号:TN912.3
作者简介:吕岗(1973一),男,博士,讲师,研究方向:ig音信号处理、计算智能等;赵鹤鸣(1957一),男,教授,博士生导师,主要研究方向:语音信号处 理、神经网络理论及应用;刘建新(1978-),硕士研究生,主要研究方向:语音信号处理;龚呈卉(1981一),硕士研究生,主要研究方向:语 音信号处理。
这里‘’表示删除极点:,而保持谱能量不变时对应的新的 极点半径。
考虑到改变—个极点的半径对其他极点的影响。因此公式
(6)扩上展为兀:———上——可×———上——了= (1一ri)1“l-2~cos(6,—丸)t l一奶cos(屯—屯)哼
图3基于LPC算法的耳语音【6】共振峰轨迹
图4是耳语音【6】的第4帧语谱图,从图中可知,由于真正 的第一、第二共振峰靠的很近,受极点的交互影响,它们的带宽
【4】Lima Amujo A M,Violaro F.Formant frequency estimation using a mel scale LPC algnrithIll【C]//IEEE ITS,1998,1:207-212.
【5】hoh T。Takeda K,Itakura F.Analysis and recognition of whispered speech[J].Speech Communication,2005,45(2):139—152.
万方数据
吕 岗,赵鹤鸣,刘建新,等:有效提取耳语音共振峰的改进方法
2009,45(19) 135
为便于讨论,先假设存在两个极点孙孙则在辐角咖,处的极点
上兀———L1
(7)
.2
功率lH(,’)I为:
(1-ri’)‘“‘1一轨’c∞(也—屯)t
极点半径氍‘
(2)
由辐角和半径,盯得传递函数:
日(盈)=—上丽
(3)
l—rfe z‘
极点盈在。域的功率谱为:
fl州l一枷1(;磊 ∽舻I 2 ‘-1 l一2r cos(口—西;)+L
‘4’
基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60572076);江苏省高校自然科学研究计划项目 (University Natural Science Research Project of Jingsu Pin,nee of China Grant No.05KJB5101 13)。
图2是耳语音【6】的语谱图,由图可以大体估计出前三个共 振峰的频率分别在600 Hz、1 000Hz和3000Hz附近。
3共振峰提取方法的改进 3.1带宽修正算法
根据前述分析,在极点功率谱中,如果删除—个根,那么离 这个根相近的极点共振峰的带宽将变窄,而与这个根相距远的 极点共振峰的带宽将变宽。因此,本文提出了一种改进的LPC 算法,它根据极点功率不变的原则,在删除根的同时利用极点 交互因子修改剩余根的共振峰带宽。从而实现准确提取耳语音 共振峰的目的。
点的同时,利用极点交互因子修正剩余极点的共振峰带宽,通 过减小极点交互影响引起的误差实现准确提取共振峰的目的。
2极点交巨影响问题 首先,实现频域到:域的转换。若采样频率是只,则LPc算
法求得的共振峰E和3 dB带宽最,可按如下公式转换为:域 上角度为也半径为Fi的极点。
极点辐角咖l-21T鲁
(1)
一半
【2】Zhao Qi—fang,Shimamura T,Suzuki J.A robust algorithm for for_ mant frequency extraction of noisy speeeh[C]//ISCAS,1998,5:534- 537.
【3】Zolfaghari P,Robinson T.Formant analysis using mixtures of Gaus— sians[C]//ICSLP,1996,2:1229—1232.
LV Gang,ZHAO He-ming,LIU JLan一】dn,et ai.Improved method for effectively extracting whisper speech formant. Computer Engineering and Applications,2009,45(19):134-136.
4实验结果 实验选取汉语普通话中的[a】、【o】、[e1、【i】、[u】、[n】六个单元音
耳语音音素为样本。分别采用LPC算法和PIF—LPC算法提取 前三个共振峰,并用轨迹跟踪法判别提取结果的准确性。
实验语音样本的采样率为8 kHz,采用Hamming窗,每帧 256个采样点,帧移为帧长的1/4。
Abstract:Whisper is stirred by noise.Comparing with normal speech。the formant of whisper is shifted and the bandwidth is broadened,and that will bring up the problem of spurious peaks when using the tranditional conventional liner prediction coding for formant extraction.By analyzing power spectrum,an improved approach has been proposed.Based on the role that the pole power is not change,the algorithm modifies the whisper formant bandwidths using pole interaction factor,and extracts formants exactly.Experimental results with mono-vowel phones in Mandarin speech prove the ability of this algorithm. Key words:whispered speech;formant;liner prediction coding;pole interaction
时间/ms 图5基于PIF—LPC算法的耳语音同共振蜂轨迹
仿真实验证明改进算法能更有效地提取噪声激励的耳语音共 振峰。
参考文献:来自百度文库
【1】Gao M.Tones in whispered Chinese:Articulator and perceptual cues[D].Canada:University of Victoria,2002.
134 2009,45(19)
Computer Engineering and Applications计算机工程与应用
有效提取耳语音共振峰的改进方法
吕 岗,赵鹤鸣,刘建新,龚呈卉 LV Gang,ZHAO He-ming,LIU Jian-xin,GONG Cheng-hui
苏州大学电子信息学院,江苏苏州215021 School of Electronics and Information Engineering,Sooehow University,Suzhou,Jiangsu 215021,China E-mail:lvgang@suda.edu.cn
算法的实现原理如下:假设需要保留的是角度为靠半径
22南×瓦靠2南(6) 为ri的共振峰极点%需要删除的是角度为幽半径为rj的共振
峰极点研。根据公式(5),角度如处的功率为:
I舻)I
图2耳语音【6】的语谱图
图3是采用传统LPC算法提取耳语音【6】的前三个共振峰 的帧轨迹图,从图中可发现语音的第3、4、5、8、11、18帧提取的 共振峰发生了错误。
1引言 耳语音是一种特定的发音模式,人们发耳语音时,声带不
振动,语音信号没有基,频”。因此,共振峰成为表征耳语音信号 特征的最基本参数。目前,线性预测编码(12C)是提取语音信 号共振峰的基本方法。然而LPC算法在提取共振峰时,易受信 号中噪音产生的虚假峰干扰,从而影响提取结果的准确度。为 了克服这个缺点,各种改进算法被提出,如Zhao的自相关函数 法【2|,Zolfaghafi的高斯滤波法p等等。这些改进算法都足采用对 语音信号去噪的方法达到消除虚假峰的效果。但是耳语音的激 励源就是噪声Ilj,所以上述的改进算法并不适合提取耳语音的 共振峰。
LPC算法是通过求解线性预测多项式的根并根据根对应 的共振峰带宽大小来决定根取舍的方法来提取共振峰的…。由 于根极点之问存在交互影响嘲,可能导致—个甚至更多的实际 根被当成虚假根而删除。相对于正常音,耳语音声强降低,共振
峰带宽增宽悯。所以极点交互影响问题在提取耳语音共振峰时 显得更加突出。通过分析产生极点交互影响的原凶,提出了一 种改进LPC算法。它根据极点功率不变的原则,在删除多余极
图5是采用PIF—LPC算法提取耳语音M的前三个共振峰 的帧轨迹图,与耳语音的语谱图相比,PIF—LPC算法求得了耳 语音F1、F2、F3共振峰的正确值。
5结论 由于传统LPC算法是根据共振峰带宽大小决定根的取
舍,在极点交互影响的情况下,往往会将实际根误判为虚假根 而删除,这种现象在共振峰带宽增大的耳语音上表现的更加显 著。因此基于极点功率不变的原则,提出了PIF—LPC算法,它 通过在删除根的同时利用极点交互因子修改剩余根的共振峰 带宽的办法来减小极点交互问题的影响。对汉语单元音音素的
上.————L—一:上.△1日l(5) (1一r1)‘1—2r2 cos(‘bl咄)t(1一r1)‘
这里“是其他极点的半径,h’是对应的修改后的极点半 径,Ⅳ是保留的线性预测多项式极点的个数。
这里△旧称之为极点交互因子四(Pole Interaction Factor,PIF)。 3.2算法的实现
它反映了极点=:对极点:。处功率的影响程度。
万方数据
136 2009,45(19)
Computer Engineering and Applications计算机工程与应用
∞
螽
孽
频率,Hz 图4两种算法对耳语音【6】的第四帧共振蜂的提取效果对比
变宽了。传统LPC算法就会将1 002 Hz处的极点作为虚假根 删除。而改进的PIF—LPC算法由于在删除根的同时,利用极点 交叉因子修改了共振峰带宽,所以将频率3 673 Hz处的虚假峰 识别出来,避免误删实际的共振峰。
(4)根据共振峰的带宽大小排序,将带宽最大的极点删除;
(5)由公式(6)求取修改后的共振峰带宽;
(6)由公式(7)修正其余共振峰的带宽;
(7)重复第(4)步~第(6)步,直到得到需要保留的共振峰个
数为止。
频翠,№ 图I极点交互问题示意图
在语音信号分析中,极点的总功率不会因为极点的增减而 发生变化。所以,假设存在—个极点钆它的功率谱包络如图I 中虚线所示,则增加了一个极点幻后,由于极点交互,增加的 这个极点将影响原先极点的共振峰带宽,从图I中的实线可以 看到增加的极点::使得=。处的共振峰带宽增宽。这就可能导 致按照共振峰带宽大小取舍根的LPC算法将z,这个实际根误 判成虚假根而删除。
‘
算法的基本流程如下:
在:域上,当极点::向z。逐渐靠近时,由公式(5)可知,辐
(1)预处理;
角差值将减小,由于极点在单位园内,所以PIF将增大,极点:。
(2)运用LPC法求极点;
处的功率将增大。反之当极点z:向:,逐渐远离时,PIF将减
(3)由公式(2)计算每个极点对应的共振峰带宽;
小,极点z。处的功率将变小。这种现象称为极点交互影响问题。
摘要:耳语音是噪声源激励,与正常音相比,其共振峰位置发生了偏移,带宽增宽。故采用传统的线性预测法提取耳语音共振峰 时存在虚假峰问题。通过分析功率谱,提出了一种改进算法。根据极点功率不变的原则,利用极点交互因子修正共振峰的带宽,从 而准确地提取出耳语音的共振峰。对汉语普通话单元音音素仿真实验的结果证明了该算法的有效性。 关键词:耳语音;共振峰;线性预测编码;极点交互 DOI:10.3778/j.issn.1002—8331.2009.19.041 文章编号:1002—8331(2009)19-0134--03 文献标识码:A 中图分类号:TN912.3
作者简介:吕岗(1973一),男,博士,讲师,研究方向:ig音信号处理、计算智能等;赵鹤鸣(1957一),男,教授,博士生导师,主要研究方向:语音信号处 理、神经网络理论及应用;刘建新(1978-),硕士研究生,主要研究方向:语音信号处理;龚呈卉(1981一),硕士研究生,主要研究方向:语 音信号处理。
这里‘’表示删除极点:,而保持谱能量不变时对应的新的 极点半径。
考虑到改变—个极点的半径对其他极点的影响。因此公式
(6)扩上展为兀:———上——可×———上——了= (1一ri)1“l-2~cos(6,—丸)t l一奶cos(屯—屯)哼
图3基于LPC算法的耳语音【6】共振峰轨迹
图4是耳语音【6】的第4帧语谱图,从图中可知,由于真正 的第一、第二共振峰靠的很近,受极点的交互影响,它们的带宽
【4】Lima Amujo A M,Violaro F.Formant frequency estimation using a mel scale LPC algnrithIll【C]//IEEE ITS,1998,1:207-212.
【5】hoh T。Takeda K,Itakura F.Analysis and recognition of whispered speech[J].Speech Communication,2005,45(2):139—152.