语音识别基础讲义02
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章语音的特征
2.1发音的生理机构与过程
2.1.1 发音的生理机构
人的发音生理机构见图2.1。
如图所示,
发音器官主要由以下三个部分所构成:
(1)主声道:一般将声门(声带开口处)
以上,经咽喉、口腔(舌、唇、腭、
小舌)的管道称为主声道。
(2)鼻道:经小舌和鼻的管道称为鼻道。
鼻道只有在发音时通过小舌下才被
打开。
小舌上抬时鼻道将被关闭。
(3)次声门系统:经肺、支气管和气管
的管道称为次声门系统。
图2.1 发音器官示意图
2.1.2 语音的产生过程
语音的产生过程可分为音源产生、声道调音和向外辐射三个阶段。
音源可分为声带音源和非声带音源两大类,非声带音源又可分为噪声音源和爆破音源。
声带振动周期称为基本周期(Fundamental Period),其倒数称为基本频率(Fundamental Frequency)。
男性的基本频率一般为50~250Hz,女性的基本频率一般为100~500Hz。
当发音的基本周期随时间变化时,便可感知重音和语调(Intonation)。
音源波由基波及其谐波成分构成。
声道调音(Articulation)指为了发出各种各样的声音,需要诸如舌、口唇、腭等的器官对声道形状进行的调整。
有了不同的声道形状,就能给出声道的不同的传递特性,并由于声道腔的共鸣作用,使得语音能量按频率发生强弱变化。
声道腔共鸣特性反映在其频率特性上,便有一系列共振峰的出现,这些共振峰所对应的频率称为共振峰频率(Formant)。
根据产生的音源不同大致可形成以下三种语音:
(1)浊音(V: V oiced speech)的产生
音源是位于声门处的准周期空气脉冲序列。
空气从肺部排出形成空气流,空气流经过声带时,如果声带是绷紧的,则将在声门处产生出一个准周期性脉冲气流。
即声带产生弛张振动,形成周期性地开启和闭合。
声带启开时空气流从声门喷射出来,形成一个脉冲,声门闭合时相应于脉冲序列的间隙。
该空气脉冲流通过声道后最终从嘴唇辐射出声波,这便是浊音语音。
(2)清音(U: Unvoiced speech)的产生
音源是位于声道的某个收缩区的湍流(类似噪音)。
如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。
空气通过声门后,如果声道某个部位发生了收缩,形成了一个狭窄的通道,则当空气流到达此处时将被迫以高速气流冲过收缩区,并在附近产生出空气湍流。
这种湍流空气通过声道后便形成所谓的清音(也称摩擦音)。
(3)爆破音(P: Plosive speech)的产生
音源是位于声道某个闭合点处建立起来的气压,其具有突然释放的特性。
声带状态同湍流音源一样,但当空气通过声门后,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,一旦闭合点突然开启便会让气压快速释放,经过声
道后便形成所谓的爆破音。
2.1.3语音分类
按主声道、鼻道可以将语音分为以下两种类型:
(1)口音:指在发音时气流不经过鼻腔的音,即通过主声道发出的音。
(2)鼻音:指在发音时气流经过鼻腔的音。
按音源的激励形式可以将语音分为以下三种类型:
(1)浊音:发音时声带振动使气流产生准周期的脉冲,这一空气脉冲激励声道而得到的音(也称有声语音)。
(2)清音:发音时声带不振动,仅以类似于宽带噪声音源输出的湍流气流高速冲过某处收缩的声道而产生的音(也称无声语音)。
(4)爆破音:由声道在完全闭合的情况下突然释放而产生的音。
2.2语音的基本特性
2.2.1语音的物理属性
语音既然是人的发音器官发出来的一种声波,它就和其它各种声音一样,也具有声音的物理属性。
这就是说,每种音都具有一定的音色、音调、音强和音长。
音色是一种声音区别于其它声音的基本特征。
音色因以下三个音素而不同,①发音体(声带)振动发出的音与声带不振动而由别的发音器官发出的音的音色不同;②虽然应用相同的发音器官,但采用送气的方法与不送气的方法发出的音的音色不同;③声道形状和尺寸的不同发出的音的音色不同。
音调是指声音的高低,它取决于声波的频率(也称语音基频),而声波频率又与发音体的长短、厚薄以及松紧程度有关。
音强是指声音的强弱,它是由声波振动幅度所决定的。
音长是指声音的长短,它取决与发音持续时间的长短。
2.2.2 汉语语音基础及其特性
任何语言的语音都有元音(V owel)和辅音(Consonant)两种音素(Phoneme),它们是按音素的发音特征来分类的。
音素:根据语言学(音韵论)的定义,声音的最小基本单位称为“音素”,采用音韵符号/ a / 表示。
元音:其特征是由声带振动而发音并且声道比较畅通。
元音最重要的特色是由于声道中发生谐振的结果使声音具有音色。
也就是说,每个元音的特点是由声道的形状和尺寸来决定的。
辅音:其特征是声道受阻,有无音响还在其次。
辅音最重要的特色是语音流中有湍流和其它间断。
发辅音时,如果声带不振动,发出的辅音称为清辅音(也称噪音),如果声带振则称为浊辅音。
形成受阻的部位和发音方法的不同,发出的辅音也就不同。
声母和韵母是按汉语字音的结构来分类的。
在我国,传统的音韵学对语音的分析,是采用音、韵、调系统的分析方法。
每个“字音”分析为“声母”和“韵母”两部分,每个“字音”又有阴平、阳平、上声、去声四种声调。
声母:声母可以由辅音来充当,但辅音不一定就是声母。
汉语普通话中共有22个辅音,除ng以外的21个可以作为声母(参见表2.1)。
韵母:韵母可以由元音来充当。
它包括单韵母(一个元音)、复韵母(两个或两个以上
的元音)和带声韵母(元音和辅音、即用“n ”或“ng ”收尾的韵母)。
汉语普通话中有10个元音组成38个韵母。
表2.2列举了35个韵母,另外“i 资” 、“i 知” 、“er ” 、“ ê” 为4个特殊韵母。
在汉语中一个字对应与一个音节(Syllable),所以它是由声母、韵母和声调按一定的方式构成的,它是语言的最小使用单位。
一般韵母又可分为韵头、韵腹和韵尾,韵头只能是“i ”、“u ”、“ü”,韵腹是主要部分,其发音较强,韵尾只能是“i ”、“u ”、“n ”和“ng ”,前两者可作为韵母独立存在。
表2.1 汉语辅音表
表2.2 汉语韵母表
声调具有区分字义的功能。
对同一个
声母和韵母构成的字音,音调不同,则对 应的字也不同,意思也完全不同。
图2.2 表示汉语四种声调的位置关系。
在汉语普通话中,并不是任何声母和 韵母都能组合拼成音节的,21个声母和35 个韵母共约配合成400个音节,再加上四个 声调组成1600个左右的带调音节。
5 4 3 2 1
图2.2 汉语四声位置图
语音可以直接用它的时间波形来表示。
根据时间波形可以看出语音信号的一些重要特征。
图2.3给出了一个音节字为“沙地(sha1di4)”的波形。
从中可观察到以下几种类型的波形区间:
(1)静息波区间(S: Silence speech):这是语音未发声区间,反映在语音信号的始端、音节之间的间隙和语音信号的终端。
在波形上是由背景噪声所构成的一条细线。
(2)准周期波区间(V: V oiced speech):这是元音“a”和“i”的波形,具有比较明显的周期性,各个元音的波形是不同的。
在充分短(5ms~30ms)的时间区间(也称短时
区间)内,可观察到语音信号的变化非常缓慢,故可近似地认为在短时区间内语
音信号的特性基本上是不变的。
对汉语语音,还可以从其周期性变化趋势推断出
声调变化等。
另外,还能从波形推断出其能量主要集中在低频成分。
(3)噪声波区间(U: Unvoiced speech):这是辅音“sh(清擦音)”的波形,其振幅小于准周期波的振幅。
从波形推断出其能量主要集中在高频成分。
(4)脉冲波区间:这是辅音“d(塞音)”的起始阶段波形。
(5)过渡区间:这是辅音与(或称转接)元音、元音与元音之间的过渡区间。
图2.3 汉语波形特征
语音还可以通过频谱表现(spectral representation)来描述其音素的特性。
常用的有语谱图(sound spectrogram)。
语谱图是一种用二维图形,用来描述语音能量在连续频率轴上随时间的变化规律。
即其纵轴对应于频率,横轴对应于时间,图像浓黑程度正比于语音信号的能量。
图2.4表示普通话的语谱图。
语谱仪的带通滤波器为宽带(300Hz)时,便可得到宽带语谱仪。
这时由于时间分辨率高,因而可以明显看出时间波形的每个周期(纵向细线层)。
但是,由于频率分辨率不高,不足以分辨激励所形成的细微结构(横向细线层)。
宽带语谱仪能够清晰地显示出共振峰随时间的变化情况(参见图2.4(a))。
窄带语谱仪(50Hz),因频率分辨率高,能显示出激励信号的基频及其各个谐波(参见图2.4(b))。
但是,由于时间分辨率的下降,不能明显看出共振峰的变化。
图2.4 普通话语音(sha1 di4)的语谱图(上图为宽带,下图为窄带)
另外,在分析音素特性时,常用到振幅频谱图(或对数振幅谱)。
对元音而言,在其频谱图上能清楚地看出浊音的基音及其谐波频率。
此外,还能看到3~4个能量集中的区域,这就是对应的几个共振峰频率,从低到高分别称为F1 、F2 、F3等。
表2.3给出了普通话七个韵母的共振峰频率。
从表中可以看到,各韵母音色上的差异可用斗三个共振峰频率(F1、F2、F3)来表征,F1主要分布在290Hz至1KHz范围内,F2分布在500Hz至2.5KHz范围内,而F3分布在205Hz至4KHz范围内。
图2.4给出了普通话六个韵母语音的频谱图
2.2.4语音的音律特性
汉语的音律特性,主要是指语音的音高、音强和音长等方面所显示出来的抑扬顿挫的特性。
音高即对应了声调。
从语音信号处理的角度讲,声调一般可用基频随时间变化的曲线来表征。
音强指的是语音的轻重问题。
一般存在三种重音,即正常重音、对比重音和轻音。
正常重音的声学特点是,声调的完整性和音长的加长,而不是音强的加强。
轻音首先失去了原有的声调,其次是音长大大缩短。
对比重音不同于正常重音的地方是,它的音高范围大,音长更长,音强也往往有所增加。
音强一般可用信号的能量、持续时间来表征。
语音的韵律特性还有待于进一步研究。
表2.3 汉语拼音七个韵母的共振峰频率(Hz)
图2.5 汉语六个韵母语音的频谱图
图2.4 普通话语音(sha1 di4)的语谱图(上图为窄带,下图为宽带)图2.3 汉语波形特征
图2.1 发音器官示意图
图2.5 汉语六个韵母语音的频谱图。