一种基于语音频谱的基频和共振峰提取算法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一2l一
和高频衰减信号的乘积。实际语音分析过程中各时
刻频谱序列的傅里叶变换后衰减幅度差异很大,低
频部分有时会出现分支脉冲的幅值大于下一个周期
主脉冲的幅值,这对信号周期地分辨产生一定的干
扰,而无法准确估计基频值。所以本文在确定基频
时利用高频部分衰减幅度差异较小的特点,分析其
周期特性并用来计算语音基频。 共振蜂参数包括共振峰频率、频带宽度和幅值,
由于人耳对共振峰的参数中的中心频率敏感, 而对幅值和带宽不敏感,所以本文只用共振峰的中 心频率和最大幅值两个参数信息来合成语音。根据 成年人语音信号的共振峰带宽大约为300池,将各 共振峰的带宽统一定为300}k。重新作语音频谱包 络线时,以各共振峰中心频率值为中点、最大能量为 幅度作宽度为300比的门信号,然后根据新生成的 包络线确定基频的各次谐波的幅值。利用公式(3), (4)合成语音信号。
过口唇辐射出来。浊音的激励信号是发音时声门短
暂的开放形成一个短暂强烈的冲击气流,清音的激
励信号是气流通过声道狭窄部位时形成湍流。声源
激励声道,受到声道的调制,因而声源谱中有的分量
得到加强,有的被减弱,形成一系列共鸣频率。声道
对声源谱的各分量作有选择的传递,因此声道的共
鸣是声道的传递特性,声道的传递函数是一个全极
中图分类号:哪!2.3 文献标识码:A 文章编号:1009一笛52(2007)10一0020一03
2∞7年第加期
一种基于语音频谱的基频和共振峰提取算法
王坤赤,蒋华
(南通大学电子信息学院,南通226I斯)
摘要:基音频率和共振峰频率的提取在语音编码、语音合成和语音识别中有着广泛的应用。
通过深入分析语音信号的时域和频域性质,针对语音信号幅度谱的特征设计了一种有效的基频
K碍woHb:如ndam朗tal
语音参数指表示基频、声门激励和声道形状的 数值,语音参数是语音信号识别的主要特征点。在 语音信号分析技术中表征语音信号主要特征的是基 频和共振峰两个最基本的语音参数。
基频是指浊音的发生过程中声带振动的频率。 目前已有很多基频提取的方法。主要有时域的自相 关法、频域的僦谱法等…。但由于语音信号变化十 分复杂,声门激励信号并不是一个完全周期的序列、 不同发声类型声带振动的复杂性和不同信号在反映 声带振动时的差异,例如声道共振峰有时会严重影
为验证语音谱中是否含有说话人音质特征,根 据语音频谱来确定基频各次谐波的幅度。这种方法
重建的语音信号与原语音信号完全一致,可以清晰 地分辨说话人音质特征。如果只根据共振峰区域的
语音频谱重建语音信号,音质特征丢失情况没有明 显改善。
5结束语 只利用提取出基频和共振峰信息所重建的语音
信号保留原语音信号中的语音内容和语气语调,这
不确定误差和数据的不稳定性“1。
收基稿金日项期目::砌省一高0校7—自2然6 科学基础研究项目(郴l㈣)
作者简介:王坤赤(i町1一),男.2002年9月毕业于中国协和医科大 学.主要研究方向为语音信号处理。
l语音信号的频域分析
语音信号根据激励不同可分为清音和浊音两
种,两种发音都是激励信号通过声道的调制,最后通
样序列,而我们要分析的语音基频就是采样序列的
周期,所以应用语音频谱提取基频就是确定采样序
万方数据
列周期的过程。根据语音频谱是周期采样序列的性 质,对其进行傅里叶变换后会得到—个周期序列,这 个周期序列周期的倒数就是基音频率。根据这样的 周期信号不但会非常容易判断出语音的基频,而且 相应的共振峰曲线也可准确地由其低频部分进行傅 里叶逆变换确定。本文因此采用这种方法进行语音 参数的提取。
共振峰信息包含在语音频谱的包络中。因此共振峰
参数提取的关键是估计语音频谱包络,并认为谱包
络中的最大值就是共振峰。利用语音频谱傅里叶变 换相应的低频部分进行逆变换,就可以得到语音频
谱的包络曲线。根据依据频谱包络线各峰值能量的
大小确定出第1至第4共振峰,如图3所示。
_“q






/ 』
,一压一砖瓜~
afI】|让酬pmbl锄in At曲譬ct:‰don(Sd瑚I d日∞瞳加重cWhAh瑚N础GmK,lm№—峨cIhJil,山J硼I衄AN,G ,H岫 N蜘蛔嗥22鲫,o妇a)
0f缸ldan啪m唧豇研肌d F0埘锄协0f a Bpeech sigdi8
witIlthe血hlIe缸删h spec咖.11le蜊d1Ini8酬by坤Ⅻ咖咖 I优倒临.An 8p。ech coding,吕p∞ch sylltll髓is aIld 8peecII
点函数。
对于浊音,每一个声门的开合周期都会产生一
个脉冲信号,这个脉冲信号经过声道的调制后通过
唇辐射出去。在时域上通过声道后的响应信号s(f) 是激励的脉冲信号e(I)与声道的冲激响应。(1)的 卷积,在频域上响应信号的频谱则是激励的频谱函
数与声道系统函数的乘积。
J(t)=e(t)*口(f)
(1)
s(如)=E(知)·P(知)
2基频及共振峰提取
本文分析算法所需要的语音频谱是由机语公司 的sA—0505语谱仪分析得到的。sA—0505频谱分 析仪最高精度分别是频率分辨率为5m,时间分辨 率为5一。分析结果是各频率分量的幅值函数,不 包含相位信息。由于语音信号中相位信息不影响语 音分辨,所以在此基础上的进一步分析语音信号具 有一定的意义。
特征的识别点。由于表征声道形状的共振峰信息和
声门激励信息在时域和频域分别进行卷积和,所以它
们分离开非常困难。而人对共振峰的中心频率值敏
感,对共振峰的幅值不敏感。所以本算法在提取共振
峰参数时,并没有将声门激励分离出来。
声门以一定节律进行振动而形成了浊音信号, 在时域上可以表示为单次声门激励所产生响应与周
(2)
根据语音实验可知声门激励信号的频谱是高频衰减
信号,所以响应信号的频谱是声道系统函数与高频
衰减信号的积,也就是共振峰的频谱特性将要产生 大一12dB,倍频程左右的高频衰减作用。当信号通
过唇辐射出的过程中会产生高频提升作用,根据语
音信号分析,嘴唇辐射影响引起的输出信号高频提 升作用大约有每倍频程6dBo不同人的声门激励和 辐射都不同,在语音分辨时这些信息作为个人音质
文件可由m5l创建嫩成库文件,也可以与席文件
~起经ul连接定位生簸绝对耳标文佟(.ABs)。 A潞文箨壶。壬珏l转换藏掭准翦}融文搏。黻鼷调
试器西唧e5l或&ape5l使用进行源代码级调试,
也可使用仿真器誊接对目标板进行调试,也可以直 接写入程序存贮器如黼ROM中。
(2)软件系统的结构设计 嵌入式多任务软件的设计与通常软件的设计一 榉,具毒生命周期耱攫斑生命羼期静各个殓教(舞求 努辨、慧薄设诗、详缨设诤、缭磅、测试及壤护),务令 阶段可以选择耀荚穰激进行设计支持。整个搿发过 程可以沿用瀑布模捌、僚型模型、螺旋模型簿模式。 萁一般设计原则(如抽象、模块化、完整性、维护性、 可重用等)都适用予傲。所不同的是,嵌人斌软件具 有自身独有但又相避黧簧的设计概念,如有限状态 枧模型、并发帮同步、封褥约隶以及空霹约袭簿,这 慧设诤概念会影璃蓑瑕入式软箨嚣性携,掰浚软俘 设计时应考虑嵌入式系绕静这些独有概念。数糖流 图如图4所示。 采用实时多任务控制方式设计软件的方糖与步 骤如下:需求分析、数据流分析、分解任务、定义任务 阉接口、拄务级盼设计、模块构筑、任务与系统集成、
质的信息,但音质信息与共振峰、基频信息是相互独 立的,临床实验证明嗓音音质的特征与基频的频率 和振幅震颤没有相关性n0】。只提取基频和共振峰两 个参数会把说话人的音质特征过滤掉。(下转第1弱页)
试、仿真等整个开发流程。开发人员可使用瑚lE本 身、其它编辑器编辑C或汇编源文件。然后分剐由 c51及A5l编译器缩译生成目标文件(.OBJ)。目标
响激励信号的谐波结构o】。基音周期变化范围大, 从老年男性的80也到儿童女性的500m,接近三个 倍频程。这些困难使得基频检测一直没有得到很好 的解决,迄今为止人们一直在寻找一个完善的方法 可以适用于不同的讲话者和环境…。
共振峰定义为声道脉冲响应,如果将声道视为 一20一
万方数据
一个谐振腔,共振峰就是这个腔体的谐振频率。语 音信号合成的研究表明,表示浊音信号最主要的是 前三个共振峰。共振峰分析的一个主要同题在于声 道脉冲响应并不是直接可测的参量,待处理的语音 信号的参数是全极点模型和准周期声门激励函数的 卷积。用于共振峰分析的主要是倒谱分析和线性预 测分析”一。近年来,提出了许多新的共振峰参数 提取技术与方法,如基于逆滤波器的共振峰提取方 法、频域线性预测算法的共振峰估计方法和基于 Hilbert—Huang变换的语音信号共振峰频率估计方 法等”。7】,这些方法计算复杂实时性不足,算法的许 多参数需要根据人的主观经验确定,会造成人为的
图3根据语音频谱包络确定共振蜂
3参数提取算法性能测试
对于提取参数准确性的测试,可以遮时域和频 域上与人工分析的结果进行比较。这种方法可以定 量计算出提取算法的准确度,但工作量大不易实现。 由于基频和共振峰两个基本信息是语音信号辨别的 主要特征点,所以判断两个参数重建语音信号的语 音质量就可了解参数提取算法的性能。语音信号重 建采用谐波合成方法,即首先根据共振峰信息建立 语音频谱的包络,然后根据频谱包络确定基频及其 各次谐波的幅值并合成语音信号。本文应用所得到 的参数重新生成语音,主观分辨合成语音的质量,据 此判断参数提取算法准确度。
①语音信号不仅包含浊音部分,清音部分也被
重建出来,整段语音信号内容清晰可辨。 ②语音信号保留了原语音信号的音调、语气。
③说话人的音质特征信息被过滤掉了,重建的 语音听起来像另一个人在模仿说话者。
④与原语音信号对比,重建的语音信号听起来
略有混音。这是由于语音频谱分析仪的时间分辨率
有限,得到的语音频谱包含多个基频周期的信息,所 以重建的语音信号具有略带混音的特征。
证明了本算法提取的参数是准确的,并且可以用于 实际语音信号参数分析。实验结果符合关于基频和 共振峰承载语音信号中语气语调和语音内容的理
论。本算法实现了对语音信号中最主要信息的提
取,ቤተ መጻሕፍቲ ባይዱ对于下一步的语音编码、语音合成和语音识别 等语音信号处理来说都有重要意义。
Ma咖rr幽认为人耳的柯蒂氏器官是靠感知不
同的共振峰频率分布来区分不同的说话人,基音周 期与共振峰频率能够表示85%的说话人特征”1。 而语音音质的实验却表明虽然语音频谱中包含了音
a190Iitl】1n f缸t}-e如ndm珊mal and fon啪ts既-
慨60nis捌粤ledill钾cord锄ce
exⅡacted,“出e础 dle印∞cll si印al璐i口g tlle vallIe 0f缸I】(I舶删】tal自eq呦cy舭】d南m哪鹏枷ch is
b删c】r;如m哪;印oeclI印ec蜘)gmm 幽。哪th&t the弘暖哪e晾’vaIue is扯curaoy in diⅧ隔ified c啊-di妇.
一22一 万方数据

t(f)=芝:A.c08(2Ⅱ可;‘+%(“))
(3)
^=O
矿(f)为合成语音信号,工为基频。为避免出现
尖峰信号,设定了相位%(m)函数。
做(∞)=等一0.002×工×n
(4)

4结果
为检验算法性能,用于实验的语音信号来源有
使用普通声卡和麦克风录制的成年男女、JL童正常
谈话录音;网络上的r呻3语音信号。应用语谱仪分 析得到语谱图后,提取语音信号的基频与共振峰参 数,并根据基频和共振峰信息重新合成语音信号。 经主观判断,重建的语音信号具有以下特征:
期冲激脉冲的卷积,在频域上则是响应信号的频谱
与周期冲激脉冲的乘积。所以浊音信号是频域上的
取样信号,取样信号的频率就是基频。这就是说如
果基频能保持较长时间的稳定,语音信号在频域上
就会是离散信号。而实际上基频信号不是稳定不变
的,即使是同一音调和发音,基频也有小的波动,所
以语音的频谱不会是完全离散的。
由于语音信号浊音时段的频谱实质上是周期采
在实际的语音参数提取过程中,首先应用机语 语谱仪分析语音信号,得到语音的时频分析图谱。 从中选一时刻的频谱如图1所示。
图l汉语拼音“e”的幅度谱
对各时刻的频谱序列进行傅里叶变换,图l所 示时刻的频谱序列的傅里叶变换如图2所示。
田2颤谱序列的幅度谱
从图1中可以看出,由于实际的语音是准周期 信号和实际上是短时间信号的频率分析,其频谱序 列不是周期性冲激函数序列的采样,而是近似三角 脉冲的采样,所以其傅里叶变换的幅度为高频衰减。 从图2中可以观察到频谱序列的幅度谱是周期信号
和共振峰提取算法。并对实际语音信号进行参数提取测试,实验结果证明了这种算法能够准确
提取不同讲话者和录音条件下的语音信号的基频与共振峰额率。
关键词:基频;共振峰;语谱图
AⅡa190ritllIn to e妣ract the fundamental freq眦ncy蛐d
fbrmants h嬲e On speech spectrogram
相关文档
最新文档