语音信号处理第2章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
zL ()
jLr Rr Rr jLr
式中,
Rr
128
9 2
,
L,r 这38a里c ,
是口唇a张开时的开口半径,
是声波c传播速度。
图2-23 显示了辐射阻抗的实部和虚部的频率响应曲线。
❖ 由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型是一阶类
高通滤波器。
语音信号的数学模型
❖ 一是把声道视为由多个等长的不同截面积的管子串联而成的 系统。按此观点推导出的叫“声管模型”。
❖ 另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰 模型”。
❖ 共振峰模型,把声道视为一个谐振腔。基于物理声学的共振 峰理论,可以建立起三种实用的共振峰模型:级联型、并联 型和混合型。
声道模型 级联型
Leabharlann Baidu
❖ 辅音:呼出的声流,由于通路的某一部分封闭起来或受到阻 碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生 的音素称为辅音。
❖ 发辅音时由声带是否振动引起浊音和清音的区别,声带振动 的是浊音,声带不振动的是清音。
2.2 语音和语言
❖ 决定元音音色的主要因素是舌头的形状及其在口腔中的位置 (简称舌位)、嘴唇的形状(简称口形)等。元音的另一个重要 声学特性是共振峰(Formant)。共振峰参数是区别不同元 音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。
❖ 喉的部分称为声门。 ❖ 从声门到嘴唇的呼气通道叫做声道(Vocal Tract)。 ❖ 声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形
状的不断改变,而发出不同的语音。
语音听觉系统
❖ 人耳由内耳、中耳和外耳三部分组成。
语音听觉系统
❖ 人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时 频分析特性;另一个是人耳听觉掩蔽效应。
2.6 语音信号的特性分析
语音信号的时域波形和频谱特性
❖ 在时间域里,语音信号可以直接用它的时间波形表示出来,通过观察时间波形可 以看出语音信号的一些重要特性。下图是汉语拼音“sou ke”的时间波形。表示 这段语音波形采用的采样频率是8kHz,量化精度是16bit。
语音信号的时域波形和频谱特性
❖ 这时认为声道是一组串联的二阶谐振器。从共振峰理论来看, 整个声道具有多个谐振频率和多个反谐振频率,所以它可被 模拟为一个零极点的数学模型;但对于一般元音,则用全极 点模型就可以了。它的传输函数可分解表示为多个二阶极点
的网络的串联:
V (z)
M 1 2eBkT cos(2 FkT ) e2BkT k1 1 2eBkT cos(2 FkT )z1 e2BkT z2
声道模型 级联型
G
语音
激励模型 V1 V2 V3 V4 V5 辐射模型
声道模型 并联型
❖ 对于非一般元音以及大部分辅音,必须考虑采用零极点模型。
此时,模型的传输函数如下:
R
br z r
V (z) r0 N 1 ak z k k 1
❖ 通常,N>R,且设分子与分母无公因子及分母无重根,则 上式可分解为如下部分分式之和的形式:
独分析的方法均有局限性。因此,人们致力于研究语音的时频分析特性, 把和时序相关的傅立叶分析的显示图形称为语谱图(Sonogram,或者 Spectrogram)。
语音信号的统计特性
❖ 语音信号的统计特性可以用它的波形振幅概率密度 函数和一些统计量如均值和自相关函数来描述。表 示语音信号的统计特性的概率密度的估算方法是根 据长时间范围内一段语音信号的大量取样数据的幅 度绝对值计算出其幅度直方图,然后,根据统计的 振幅直方图,寻找近似的概率密度表达式。
2.5 语音信号生成的数学模型
❖ 建立了语音信号的数学模型,才能够用计算机来定量地对语 音信号进行模拟和处理。
❖ 理想的模型是线性的和时不变的。语音信号是非平稳随机过 程,其特性是随着时间变化的,所以模型中的参数应该是随 时间而变化的。但语音信号特性随着时间变化是很缓慢的。 所以可以作出一些合理的假设,将语音信号分为一些相继的 短段进行处理,在这些短段中可以认为语音信号特性是不随 着时间变化的平稳随机过程。这样在这些短段时间内表示语 音信号时,可以采用线性时不变模型。
0 n N1 N1 n N1 N2 其他
式中,N1为斜三角波上升部分的时间,N2为其下降部分的时 间。单个斜三角波波形的频谱的图形如图2-18所示。由图可 见,它是一个低通滤波器。
激励模型
❖ 上式表示斜三角波形可描述为一个二极点的模型。因此,斜
三角波形串可视为加权了单位脉冲串激励上述单个斜三角波
❖ 语音学(Phonetics)是研究言语过程的一门科学。 它考虑的是语音产生、语音感知等的过程以及语音 中各个音的特征和分类等问题。现代语音学发展成 为三个主要分支:发音语音学、声学语音学、听觉 语音学。
2.2 语音和语言
❖ 语音是人的发声器官发出的一种声波,它具有一定的音色, 音调,音强和音长。其中,音色也叫音质,是一种声音区别 于另一种声音的基本特征。音调是指声音的高低,它取决于 声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。 声音的长短叫音长,它取决于发音时间的长短。
激励模型
❖ 激励模型一般分成浊音激励和清音激励来讨论。发浊音时, 由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲 波的波形类似于斜三角形的脉冲,它的数学表达式如下:
(1/ 2)[1 cos(n / N1)], g(n) cos[ (n N1 ) / 2N2 ],
0,
❖ 人的说话过程可以分为五个阶段: ❖ (1)想说阶段 ❖ (2)说出阶段 ❖ (3)传送阶段 ❖ (4)理解阶段 ❖ (5)接收阶段
2.2 语音和语言
❖ 人的说话的过程:
2.2 语音和语言
❖ 语言是从人们的话语中概括总结出来的规律性的符 号系统。包括构成语言的语素、词、短语和句子等 的不同层次的单位,以及词法、句法、文脉等语法 和语义内容等。语言学是语音信号处理的基础。
❖ 二、通过处理的某种运算以达到某种用途的要求,例如人工 合成出语音、辨识出讲话者、识别出讲话的内容等等。
2.2 语音和语言
❖ 人们讲话时发出的话语叫语音,它是一种声音,具有称为声 学特征的物理特性。语音(Speech)是声音(Acoustic) 和语言(Language)的组合体。可以这样定义语音:语音 是由一连串的音组成语言的声音。
V (z)
M
Ai
i1 1 Bi z 1 Ci z 2
声道模型 并联型
声道模型 混合型共振峰模型
辐射模型
❖ 从声道模型输出的是速度波uL (n,) 而语音信号是声压波 ,pL二(n)者之倒比称 为辐射阻抗 。它Z表L 征口唇的辐射效应,也包括圆形的头部的绕射效应 等。当然,从理论上推导这个阻抗是有困难的。但是如果认为口唇张开 的面积远小于头部的表面积,则可近似地看成平板开槽辐射的情况。此 时,可推导出辐射阻抗的公式如下:
❖ 语音信号属于短时平稳信号,一般认为在10~30ms内语音 信号特性基本上是不变的,或者变化很缓慢。于是,可以从 中截取一小段进行频谱分析。下图给出“sou”中音素“ou” 的傅里叶变换 :
30
20
幅 度 10 /dB
0
-10
-20
-30
-40
-500
1
2
3
4
频率/kHz
语音信号的语谱图
❖ 语音的时域分析和频域分析是语音分析的两种重要方法。显然这两种单
❖ 综上所述,完整的语音信号的数学模型可以用三个子模型: 激励模型、声道模型和辐射模型的串联来表示。如图所示:
基音频率 F0
Av 声道参数
周期脉冲 发生器
声门脉冲 模型G(z)
随机噪声 发生器
声道模型 v(z)
浊音/清音开关
辐射模型 R(z)
输出语音
激励源
声道模型
辐射模型
Au
它的传输函数可以表示为: H(z) A U(z)V (z)R(z)
语音信号的统计特性
❖ 通过对语音信号的统计特性的研究表明,语音信号振幅分布 的概率密度有两种逼近方法,一种是修正伽玛(Gamma) 分布概率密度函数
k ek x
pG (x) 2 x
❖ 另一种是拉普拉斯(Laplace)分布概率密度函数
pL 0.5e x
语音信号处理基础知识
1.什么叫语音?什么叫语言?人们说话的过程可分为哪五个阶段?每 个阶段的主要内容是什么? 2.人类的发音器官包括哪些部分?在发音时各部分都起什么作用?音 调频率有什么因素决定?发声时声道是如何活动的? 3.人类的听觉器官包括哪些部分?在听音时他们是如何起作用的?基 底膜是如何起关键作用的? 4.人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音 信号处理系统有什么启示? 5语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的 ?辐射模型又是怎样推导出来的?它们各属于什么性质的滤波器?
❖ 一般地说,就语音的基音频率而言是女声和童声高于男声, 但是实验表明:区分语音是男声还是女声、是成人声音还是 儿童声音,更重要的因素是共振峰频率的高低。
2.3 汉语语音学
汉语语音的特点:
❖ 音系简单。这是指音素少、音节少。音节的结构也比较简单。 ❖ 由于清辅音多,而且多是弱清音,而且开口呼的音节占全部
音节的一半以上,所以汉语语音听感上有清亮、高扬和舒服、 柔和的感觉。 ❖ 有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准 确而丰富。
汉语的拼音方法
❖ 汉语由音素构成声母或韵母。有时,将含有声调 (汉语通常认为有五个声调)的韵母称为调母。由 单个调母或由声母与调母拼音成为音节。汉语的一 个音节就是汉语一个字的音,即音节字。由音节字 构成词(其中主要是两音节字构成的两字词,约占 74%),最后再由词构成句子。国际上,都是用音 标来描述拼音过程的。汉语也不例外。汉语拼音的 音标包括:声母表、韵母表和声调符号等。
模型的结果。而该单位脉冲串及幅值因子则可表示成下面的
z变换形式:
E(z)
1
Av z
1
所以,整个浊音激励模型可表示为:
U (z)
G(z)E(z)
Av 1 z 1
•
(1
1 e cT
z 1 ) 2
也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲 串。
声道模型
❖ 关于声道部分的数学模型,有多种观点,目前最常用的有两 种建模方法。
❖ 如果信号是一个多频率信号,则产生的行波将沿着基底膜在 不同的位置产生最大幅度。从这个意义上讲,耳蜗就象一个 频谱分析仪,将复杂的信号分解成各种频率分量。
❖ 并非所有的声音都能被人耳听到,这取决于声音的强度和其 频率范围。心理声学中的听觉掩蔽效应是指,在一个强信号 附近,弱信号将变得不可闻,被掩蔽掉了。
❖ 说话时一次发出的,具有一个响亮的中心,并被明显感觉到 的语音片段叫音节(Syllable)。一个音节可以由一个音素 (Phoneme)构成,也可以由几个音素构成。音素是语音 发音的最小单位。
2.2 语音和语言
❖ 任何语言都有语音的元音(Vowel)和辅音(Consonant) 两种音素。
❖ 元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从 唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称 为元音。
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.1 概述
❖ 语音信号处理 是研究用数字信号处理技术对语音信号进行 处理的一门学科。
❖ 目的:
❖ 一、通过处理得到一些反映语音信号重要特征的语音参数以 便高效的传输或储存语音信号信息;
汉语音节的一般结构
汉语的声调
❖ 汉语是一种声调语言,相同声母和韵母构成的音节随声调的 不同而具有完全不同的意义,对应着不同的汉字。汉语普通 话的声调只有阴平、阳平、上声、去声以及“轻声”等五种 声调。
2.4 语音生成系统和语音感知系统
语音发音系统
❖ 人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和 口。这些器官共同形成一条形状复杂的管道。