语音信号处理-第02章 语音信号的产生、特征与人耳的听觉特性
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号处理
Speech Signal Processing
长春工业大学图像工程研究所 史东承教授
dcshi@ 2010.8
第二章 语音信号的产生、特征 与人耳的听觉特性
§2.1 语音信号的产生
鼻腔 软腭 口腔 鼻子
嘴巴
气管 声带
人类发音器官示意图
发音器官:
产生语音的器官
1)肺和气管:能源与能量传输; 2)咽喉:振动源,包括声带和声门; 3)声道(声门到嘴唇的呼气通道):谐振腔 (包括口腔、鼻腔等); 4)其他发音器官:包括嘴唇、齿、舌、面颊 等,使谐振腔改变形状。
1
发音机理
• 喉位于气管的上端,实际 上是气管末端一圈软骨构 成的一个框架,前方稍高 处的软骨称为甲状软骨, 前后方环成一圈的称为喉 部环形软骨,喉中两片肌 肉称为声带,声带之间的 空隙为声门。
• 当声带张开时,声门打 开,空气可自由呼出,正 常呼吸就处于这种情况; 当声带闭合,声门关闭。
当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝,当气 流通过窄缝时压力减小,外界压力大,从而 两片声带完全闭合使得气流不能通过,当气 声带靠拢 流阻断时压力恢复正常,推开两片声带,声 门再次打开,气流再次流过。
声带的开启和闭合称 为振动。
这一振动过程周 而复始,形成了一串周期 性脉冲气流送入声道。
这 个过程发出的音称为浊音。
如汉语发音的[a]、[i]、 [u]和[o]等。
Tp 基音周期
男声发音“我的语音”的时域波形和语谱图
2
第二章 语音信号的产生、特征 与人耳的听觉特性
§2.2 语音信号的分类 声学语音学,根据激励方式划分:
(1)浊音(Voiced Speech),又称为有声语音基音(pitch): 声道打开,声带在先打开后关闭,气流经过使声带要发生张 驰振动,变为准周期振动气流。
浊音的激励源被等效为准周 期的脉冲信号。
(2)清音(Unvoiced Speech),又称为无声语音:声带不振 动,而在某处保持收缩,气流在声道里收缩后高速通过产生 湍流,再经过主声道(咽、口腔)的调整最终形成清音。
清 音的激励源被等效为一种白噪声信号。
(3)爆破音(Plosive Speech):声道关闭之后产生压缩空气 然后突然打开声道所发出的声音。
语音的形成原理
• 肺中的空气受到挤压形成气流,气流通过声 门(Vocal Cords)(声带)沿着声道(Vocal Tract) (由咽-Pharynx、喉-Throat、口腔Cavity等组成)释放出去,就形成了语音。
• 气流Stream、声门(Glottis)可以等效为一 个激励源Excitation,声道可以等效为一个 时变滤波器(共振峰)。
• 语音信号具有很强的相关性(长期相关、短 期相关)。
浊音
• 激励脉冲的周期值称为“基音周期”,用Tp表示。
1 • Tp f
p
发音语音学
•⎨
⎧音素:构成语音流的最小单位⎫ ⎬ ⎩音节:发声的最小单位 ⎭
都是基本单位,二者等同。
称为“基因频率” 。
fs与声带尺寸
与特性有关。
f
⎧男性说话者 f 在60 − −200 Hz范围内 p ⎪ :⎨ p ⎪女性说话者和小孩 f p在200 − −450 Hz之间 ⎩
• 由音节构成词,由词构成“节奏群”或“句子”;音素 的各种不同发音方式称为“音素变体”。
• 音节=元音Vowel+ 辅音Consonant • 辅音在元音前或后端(声母) • 元音是音节主干(长度和能量占主要部分)(是浊 音)(韵母) • 音节结构:C-V结构,V-C结构,C-V-C结构
• 由周期脉冲串产生的语音称为“浊音” 。
3
汉语普通话音节结构框架
发音语音学
• • • • • 韵母a,i,u,o为浊音; 声母s,sh,h,x,f为清音; 声母z,zh,j既有清音又有浊音。
鼻音韵母n,ng. 鼻音声母m,n,l.
• Phoneme (smallest)音素:清音,浊音 • Morpheme 词素 • Syllable 音节:元音和辅音构成; (声母和韵母) • Word 单词 • Phrase 短语 • Sentence 句子 • Paragraph 段落 • Topics, Articles, Stories 主题文章
4
语音信号时频特性
第二章 语音信号的产生、特征 与人耳的听觉特性
§2.3 语音信号产生的模型 语音生成模型常用的有: (1)声管模型:波动方程描述 (2)LPC模型:数学模型描述 (3)共振峰模型:谐振腔描述
32毫秒女声的时域波形及其功率谱
一.无损声管模型
• 短期内,声道可以表示为形状稳定的管道 • 各段管子截面积的和差比,称为反射系数
一.无损声管模型
13cm 8.5cm
17cm
声道的无损模型 • • 声道为一变截面积的声管。
声道的频率特性主要取决于声道截面最小值出 现的位置(该点称为收紧点)。
收紧点位置由 舌来控制。
5
气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向 外辐射。
气流流过声道时犹如通过了一个具有某种 谐振特性的腔体,放大某些频率,在频谱上形成相 应位置的峰起,称为共振峰。
讲话时,由于舌和唇 的连续运动,使声道形 输出气流 声带振动频率 状改变,随即改变谐振 的频率 频率,使得发不同的音。
声道的谐振特性 声道的不同的形状,对 应不同的谐振频率。
谐振频率的计算
谐振频率发生在:Fn= 2n-1 c (声道的横截面是均匀的,发元音e时,声道近 似是均匀的。
) L = 17cm,声道的长度,c = 340 m/s n = 1,2,3 … 称为第一共振峰F1=500Hz 、 第二共振峰F2=1500Hz 、 第三共振峰F3=2500Hz , …
4L
二.离散时域模型
语音信号产生的离散时域数字模型
• a .声道模型 : V ( Z ) =H ( Z ) =
G 1 − ∑ ai Z − i
i =1 P
⎧ ⎧浊音激励+激励形成 ⎪激励源 ⎨ ⎩清音激励 ⎪ 由四部分组成: ⎪声道模型V(Z) ⎨ ⎪ ⎪辐射模型R(Z) ⎪增益参数G和清浊音标识U/V ⎩
• 把连续变化的声管,近似为由P段截面不变的声 管的串接。
当P=8~12时可以满足一般精度要 求,一般取P=10。
• P取偶数,此时V(Z)有P/2对共轭极点。
其共轭极 点为 exp ( ± j ) , k = 1, 2... p
r
k
ω
k
2
• 各
ω
k
= 2π F k
称为语音信号的共振峰。
6
语音信号产生的离散时域数字模型
• b.基音系数 • 设:语音信号采样频率为 fs,基音频率 F0,则 N0=fs/F0 • 当 fs=8kHz(8000样/秒),F0=50~450Hz时 有 N0=18~160 • 取样周期Ts=1/fs,即每隔Ts时长取一个样。
• N0的意义:系统要求每隔N0*Ts时间产生一 个冲激脉冲。
基音频率F0 (Fundamental Frequency)
• ☆基音频率F0 =1/Tp由声带的质量来决定。
• ☆ F0的大小决定了声音的高低,称为音高。
• ☆ 男性的F0大致分布在: 60~200Hz • ☆ 女性和儿童的F0大致分布在:200~450Hz
语音信号产生的离散时域数字模型
• c.脉冲激励形成模型 • 取: {G ( z ) = ⎡ 1 − g 1 z ⎣
语音信号产生的离散时域数字模型
• d.辐射模型 −1 • R(z)= 1 − r z ,表示嘴型对语音的影响 • e.声道面积函数
(
)
(
−1
)(1 − g z )⎤ ⎦
−1 2
−1
• 其中g1,g2为接近1的小数,Av用于调节浊音 的幅度或能量;Au用于调节清音的幅度或 能量;G(Z)按12dB每倍频程速度下降。
• ▲ 上述模型中G(Z)和R(Z)始终保持不变。
Fp, Av, Au和浊/清开关及a1~ap随时间变化。
但变化速度受限,一般认为在10~30ms内保 持不变,常取语音分析帧长为20ms,但对塞 音和爆破音取帧长为5ms。
7
语音信号产生的离散时域数字模型
• f.激励源修正模型 • 把浊/清开关改为按权相加操作。
激励模型
三.共振峰模型
H1 H2 H3 H4 H5 辐射模型 语 音
级联型共振峰模型
A1 H1
A2
H2
激励模型
G
A3
H3
混合
辐射模型
语 音
• 以上模型的缺点:传输函数不含零点(全 极点模型)
A4 A5
H4
并联型共振峰模型
H5
周期脉冲 激励模型
Gu
H1
H2
H3
H4
H5
第二章 语音信号的产生、特征 与人耳的听觉特性
§2.4 人耳的听觉特征
语音听觉系统(一个十分巧妙的音频信号处理器)
混 合 语 辐射模型 音
浊音增益 基音周期T 清音增益
A1
H1
A2 随机噪声 激励模型
H2
人类接收语音由人耳来完成,空气振动由耳廓收 集,经外耳道而抵达鼓膜,鼓膜随之振动,使鼓室 中的空气和听骨链也发生振动,听骨链的振动经前 庭窗(卵圆窗)激励前庭淋巴,变为液波,液波使 位于基底膜上的螺旋器受到刺激,将神经冲动经听 神经传到中枢而产生听觉。
Gv
A3
H3
A4
H4 H5
混合型共振峰模型
A5
8
• 听阈:
• 指人进入声场后能听到的自由场最低声压级,即可 听声的最小声压级(dB) 。
• 正常人的听阈介于-5 130dB之间,对低频和高频 是不敏感的,听阈为60dB,在1kHz附近最敏感。
• 听觉范围
– 频率: 0.02Hz-20kHz – 强度: -5 ~130dB SPL(声压级)
• 响度
• 人耳对于频率不同的纯音的听辩灵敏度,在数 值上等于1KHz纯音的声强级,单位:方(Phon) • 主观值 – 强度 – 频率 – 波形 • 单位: 宋(Sone) – 频率为1KHz、在听阈之上40dB的纯音所具 有的响度为1Sone.
• 纯音听阈与频率有关 40Hz 1kHz 4dB 50dB
15kHz 24dB
常规声场的声压级表
声 源 飞机附近 织布车间 地 铁 繁华街道 普通谈话 安静房间 耳 语 树叶沙沙声 农村静夜 声压/Pa 200 20 0.63 0.063 0.02 0.002 0.00063 0.0002 0.000063 声压级/dB 140 100 90 70 60 40 30 20 10
Fletcher-Munson 人耳听觉等响度级曲线
9
• 音调:
• 音调是听觉分辩声音高低时,用于描述这 种感受的一种特性。
– 对于频率低的声音,听起来感觉它的音调”低”
• 主观值
– 频率,声强及波形
• 单位:Mel
– 一个高于听阈40dB、频率为1KHz的纯音所产 生的音调为1000Mel.
人耳结构和功能
• 1. 外耳:有对声源定位和对声音放大的作用,由 耳廓和外耳道组成。
• 耳 廓:呈漏斗型,其作用是收集声音。
• 外耳道:直至鼓膜,其中充满空气,是一谐振 腔,使谐振频率附近的频率成分有某些放大作 用,导致声音有某些失真。
• 外耳道的长度为2.5cm,对波长为其4倍作用的声 波能起到较好的放大作用,即有:4×2.5=10cm, 3000-4000Hz声波的波长为8.5cm-11.41cm,因此外 耳道对这部分频率的信号有10dB左右的扩音作用。
2.中耳
• 结构:总容量为 2 立方厘米,内含三块听 小骨,锤骨、砧骨、镫骨,其中锤骨与鼓 膜相接触,镫骨则与内耳的前庭窗相接触。
• 作用:进行阻抗变换,将中耳两端的声阻 抗匹配起来;保护内耳。
在一定声强范围 内,听小骨实现声音的线性传递,而在特 强声时,实现非线性传递。
10
临界带宽值得确定实验测量实例
频率选择性
不同频率分量所包含的语音信息–1000Hz以下功率80%,清晰度10%限幅削波的影响
哈斯技巧:哈斯技巧就是简单的将一个原始信号分配到立体声输出的一个声道上,而将它的幻像复制信号延时1~35ms,分配到立体声输出的另一个声道上而产生的。