基音周期

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音是语言的声学表现,语言是人类交流信息最自然、最有效、最方便的手段。在高度信息化的今天,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。

语音处理的研究目标多种多样,所涉及的学科门类也是丰富多彩的,其中包括了语音和语言学、声学、心理学、认知科学、计算机、数理统计、信号处理、人工智能和模式识别等等,并且它始终与当前信息科学中最活跃的前沿学科,如神经网络理论、小波变换理论、模糊集理论、时频分布理论和混沌与分形理论等保持密切联系并共同发展着。语音处理研究者常常从这些领域的进展中找到突破口,使语音处理技术研究取得突破性的进展,其研究成果具有重要的学术及应用价值。语音信号处理主要包括语音识别、语音合成、语音压缩编码和语音增强等分支[1]。

语音识别技术是指计算机系统能够根据输入的语音识别出其代表的具体意义,进而完成相应的功能。一般的方法是事先让用户朗读有一定数量文字、符号的文档,通过录音装置输入、存储到计算机,作为声音样本。以后,当用户通过语音识别系统操作计算机时,用户的声音通过转换装置进入计算机内部,语音识别技术便将用户输入的声音与事先存储好的声音样本进行对比。系统根据对比结果,输入一个它认为最“象”的声音样本序号,就可以知道用户刚才念的声音是什么意义,进而执行此命令。因此通过语音识别技术,计算机可以“听”懂人类的语言。

语音合成是人机语声的一个重要组成部分,语音合成技术赋予机器“人工嘴巴”的功能,即解决让机器说话问题。是将计算机自己产生的或外部输入的文字信息,比如文本文件内容、WORD文件内容等文字信息,按语音处理规则转换成语音信号输出,即使计算机流利地读出文字信息,使人们通过“听”就可以明白信息的内容。也就是说,使计算机具有了“说”的能力,能够将信息“读”给人类听。这种将文字转换成语音的技术称之为文语转换技术,简称TTS( Text to Speech)技术,也称为语音合成技术。

语音编码就是将模拟语音信号数字化,数字化之后可以作为数字信号传输、存储或处理,可以充分利用数字信号处理的各种技术。为了减小存储空间或降低

传输比特率节省带宽,还需要对数字化之后的语音信号进行压缩编码,这就是语音压缩编码技术。语音压缩编码的目的就是用尽可能低的数码率获得尽可能好的合成语音质量,同时又要使编码过程的计算代价尽可能小。语音压缩编码技术在移动通信、卫星通信、多媒体技术以及IP电话通信中得到普遍应用,起着举足轻重的作用。

语音增强就是从带噪语音中提取纯净语音,也即语音消噪。语音增强主要应用范围是降低听觉噪声、识别系统的预处理和线性预测编码的预处理,这种技术对于语音识别和说话人识别是十分重要的。

语音信号分析是语音信号处理的前提和基础,只有分析出可表征语音信号本质特征的参数,才有可能利用这些参数进行高效的语音合成、语音识别、语音压缩编码等处理,其中基音周期是最重要的语音信号的特征参数之一[2]。

1.2 基音周期概述

1.2.1 基音周期的定义及意义

人在发浊音时,气流通过声门使声带产生张驰振荡式振动,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分能量。这种声带振动的频率称为基频,相应的周期就称为基音周期(Pitch),它由声带逐渐开启到面积最大(约占基音周期的50%)、逐渐关闭到完全闭合(约占基音周期的35%)、完全闭合(约占基音周期的15%)三部分组成[3]。

基音周期的估计称为基音检测[4](Pitch Detection),基音检测的最终目标是画出和声带振动频率完全一致的基音周期变化轨迹曲线,如不可能则尽量找出相吻合的轨迹曲线。

在语音信号处理中,语音信号参数提取的准确性非常重要。只有获得准确的参数,才能利用这些参数进行高效的处理,而在许多参数提取中,基音周期的提取尤为重要,广泛地应用于语音压缩编码、语音分析合成以及语音识别等方面,所以,准确可靠地估计并提取基音周期对语音信号处理至关重要[5][6]。它直接影响到合成语音是否真实再现原始语音信号,影响到语音识别的识别率,影响到语音压缩编码的正确率。

1.2.2 影响基音周期检测的因素

由于声道的易变性及声道特征因人而异,而基音的范围又很宽,即使是同一个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情,基音提取的主要困难反映在[7][8]:

l)语音信号变化十分复杂,声门激励的波形并不是一个完全的周期序列。在语音的头尾部并不具有声带振动那样的周期性,对有些清浊音的过渡帧很难判定它属于周期性还是非周期性,从而对估计基音周期带来一定的影响。

2)从语音信号中去除声道的影响,直接取出仅与声带振动有关的声源信息并非易事。如声道共振峰可能强烈改变声门波形的结构,从而严重影响激励信号的谐波结构,会给基音检测造成困难。

3)语音信号是准周期的,且共振峰结构和噪声有时会影响波峰和过零率,很难准确定位基音周期的开始和结束。

4)区分清音语音和低电平浊音段是导致基音检测困难的另一个重要因素。在许多情况下,清音语音与低电平浊音段之间的过度段是非常细微的,确认它是极其困难的。

5)在实际应用中,背景噪声强烈影响基音检测的性能。

6)基音周期变化范围较大,从低音男性的50Hz到高音女性或儿童的500Hz,接近三个倍频程,这也给基音周期的检测带来了一定的困难。另外,浊音信号可能包括很多谐波分量,而基波分量往往不是最强的分量,这些谐波成分叠加在一起,使语音信号的波形变得很复杂,给基音检测带来困难,经常发生基频估计结果比实际基音频率大很多。

由于这些困难,尽管基音提取的方法很多,但迄今尚未找到一个完善的方法可以对各类人群(包括男人、女人、老人、小孩及不同语种)和各种环境条件情况下都能获得满意的检测结果。

1.2.3 基音周期检测的国内外研究现状

尽管基音周期检测有许多困难,但因为它的重要性,基音周期检测一直是一

相关文档
最新文档