语音识别基础讲义02
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章语音的特征
2.1发音的生理机构与过程
2.1.1 发音的生理机构
人的发音生理机构见图2.1。如图所示,
发音器官主要由以下三个部分所构成:
(1)主声道:一般将声门(声带开口处)
以上,经咽喉、口腔(舌、唇、腭、
小舌)的管道称为主声道。
(2)鼻道:经小舌和鼻的管道称为鼻道。
鼻道只有在发音时通过小舌下才被
打开。小舌上抬时鼻道将被关闭。
(3)次声门系统:经肺、支气管和气管
的管道称为次声门系统。
图2.1 发音器官示意图
2.1.2 语音的产生过程
语音的产生过程可分为音源产生、声道调音和向外辐射三个阶段。
音源可分为声带音源和非声带音源两大类,非声带音源又可分为噪声音源和爆破音源。声带振动周期称为基本周期(Fundamental Period),其倒数称为基本频率(Fundamental Frequency)。男性的基本频率一般为50~250Hz,女性的基本频率一般为100~500Hz。当发音的基本周期随时间变化时,便可感知重音和语调(Intonation)。音源波由基波及其谐波成分构成。
声道调音(Articulation)指为了发出各种各样的声音,需要诸如舌、口唇、腭等的器官对声道形状进行的调整。有了不同的声道形状,就能给出声道的不同的传递特性,并由于声道腔的共鸣作用,使得语音能量按频率发生强弱变化。声道腔共鸣特性反映在其频率特性上,便有一系列共振峰的出现,这些共振峰所对应的频率称为共振峰频率(Formant)。
根据产生的音源不同大致可形成以下三种语音:
(1)浊音(V: V oiced speech)的产生
音源是位于声门处的准周期空气脉冲序列。空气从肺部排出形成空气流,空气流经过声带时,如果声带是绷紧的,则将在声门处产生出一个准周期性脉冲气流。即声带产生弛张振动,形成周期性地开启和闭合。声带启开时空气流从声门喷射出来,形成一个脉冲,声门闭合时相应于脉冲序列的间隙。该空气脉冲流通过声道后最终从嘴唇辐射出声波,这便是浊音语音。
(2)清音(U: Unvoiced speech)的产生
音源是位于声道的某个收缩区的湍流(类似噪音)。如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气通过声门后,如果声道某个部位发生了收缩,形成了一个狭窄的通道,则当空气流到达此处时将被迫以高速气流冲过收缩区,并在附近产生出空气湍流。这种湍流空气通过声道后便形成所谓的清音(也称摩擦音)。
(3)爆破音(P: Plosive speech)的产生
音源是位于声道某个闭合点处建立起来的气压,其具有突然释放的特性。声带状态同湍流音源一样,但当空气通过声门后,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,一旦闭合点突然开启便会让气压快速释放,经过声
道后便形成所谓的爆破音。
2.1.3语音分类
按主声道、鼻道可以将语音分为以下两种类型:
(1)口音:指在发音时气流不经过鼻腔的音,即通过主声道发出的音。
(2)鼻音:指在发音时气流经过鼻腔的音。
按音源的激励形式可以将语音分为以下三种类型:
(1)浊音:发音时声带振动使气流产生准周期的脉冲,这一空气脉冲激励声道而得到的音(也称有声语音)。
(2)清音:发音时声带不振动,仅以类似于宽带噪声音源输出的湍流气流高速冲过某处收缩的声道而产生的音(也称无声语音)。
(4)爆破音:由声道在完全闭合的情况下突然释放而产生的音。
2.2语音的基本特性
2.2.1语音的物理属性
语音既然是人的发音器官发出来的一种声波,它就和其它各种声音一样,也具有声音的物理属性。这就是说,每种音都具有一定的音色、音调、音强和音长。
音色是一种声音区别于其它声音的基本特征。音色因以下三个音素而不同,①发音体(声带)振动发出的音与声带不振动而由别的发音器官发出的音的音色不同;②虽然应用相同的发音器官,但采用送气的方法与不送气的方法发出的音的音色不同;③声道形状和尺寸的不同发出的音的音色不同。
音调是指声音的高低,它取决于声波的频率(也称语音基频),而声波频率又与发音体的长短、厚薄以及松紧程度有关。
音强是指声音的强弱,它是由声波振动幅度所决定的。
音长是指声音的长短,它取决与发音持续时间的长短。
2.2.2 汉语语音基础及其特性
任何语言的语音都有元音(V owel)和辅音(Consonant)两种音素(Phoneme),它们是按音素的发音特征来分类的。
音素:根据语言学(音韵论)的定义,声音的最小基本单位称为“音素”,采用音韵符号/ a / 表示。
元音:其特征是由声带振动而发音并且声道比较畅通。元音最重要的特色是由于声道中发生谐振的结果使声音具有音色。也就是说,每个元音的特点是由声道的形状和尺寸来决定的。
辅音:其特征是声道受阻,有无音响还在其次。辅音最重要的特色是语音流中有湍流和其它间断。发辅音时,如果声带不振动,发出的辅音称为清辅音(也称噪音),如果声带振则称为浊辅音。形成受阻的部位和发音方法的不同,发出的辅音也就不同。
声母和韵母是按汉语字音的结构来分类的。在我国,传统的音韵学对语音的分析,是采用音、韵、调系统的分析方法。每个“字音”分析为“声母”和“韵母”两部分,每个“字音”又有阴平、阳平、上声、去声四种声调。
声母:声母可以由辅音来充当,但辅音不一定就是声母。汉语普通话中共有22个辅音,除ng以外的21个可以作为声母(参见表2.1)。
韵母:韵母可以由元音来充当。它包括单韵母(一个元音)、复韵母(两个或两个以上
的元音)和带声韵母(元音和辅音、即用“n ”或“ng ”收尾的韵母)。
汉语普通话中有10个元音组成38个韵母。表2.2列举了35个韵母,另外“i 资” 、“i 知” 、“er ” 、“ ê” 为4个特殊韵母。
在汉语中一个字对应与一个音节(Syllable),所以它是由声母、韵母和声调按一定的方式构成的,它是语言的最小使用单位。
一般韵母又可分为韵头、韵腹和韵尾,韵头只能是“i ”、“u ”、“ü”,韵腹是主要部分,其发音较强,韵尾只能是“i ”、“u ”、“n ”和“ng ”,前两者可作为韵母独立存在。
表2.1 汉语辅音表
表2.2 汉语韵母表
声调具有区分字义的功能。对同一个
声母和韵母构成的字音,音调不同,则对 应的字也不同,意思也完全不同。图2.2 表示汉语四种声调的位置关系。
在汉语普通话中,并不是任何声母和 韵母都能组合拼成音节的,21个声母和35 个韵母共约配合成400个音节,再加上四个 声调组成1600个左右的带调音节。
5 4 3 2 1
图2.2 汉语四声位置图