语音信号处理课件-第02章基础知识
语音信号处理PPT_第二章 语音信号处理基础知识
![语音信号处理PPT_第二章 语音信号处理基础知识](https://img.taocdn.com/s3/m/cdad127402768e9951e738a2.png)
把从肺部呼出的直流气流变为音源,即变为交流的断续 流或乱流; 喉对音源起共振和反共振的作用,使它带有音色; 从嘴唇或鼻孔去空间辐射的作用;
肺把气流送入喉;喉将来自肺的气流调制为周期性脉冲或类 似随机噪声的激励声源,并送入声道;声道对频谱进行润色 后在嘴唇处的气压变化形成可以传播的声波。 肺相当于动力源,喉相当于调制器,声道相当于滤波器和扩 音器。
3.
韵母
38个韵母:8个单韵母,14个复韵母,16个鼻韵母。 单韵母是由单元音构成的,如:a、o、e、i、u、u。 复韵母是由复合元音构成的韵母,如:ai、ei、ao、ou等。 鼻韵母是由鼻辅音“n”或“ng”收尾的韵母,如:an、en、 uan、ang、eng、iang等。 韵母发音时声带是振动的,音强也较大,波形上可以看到大 的振幅,而且呈现周期性。 注意:元音不等同于韵母,元音、辅音是按音素的发音特征 来分的;而声母、韵母则是按音节结构来分的。
2.5.2 语音信号的语谱图
声纹:语谱图上其不同的黑白程度, 形成的不同的纹路。不同的人有不同的 声纹,利用声纹进行说话人识别。 横杆:与时间轴平行的几条深黑色 条纹,对应共振峰。语谱图中有无横杆 是判断是否是浊音的标志。 竖直条:与时间轴垂直的窄黑条, 每个竖直条相当于一个基音,条纹间隔 表示基音周期。 元音在语谱图上对应横杆(共振峰的存在) 噪声和清擦音表现为乱纹。
2.1 语音和语言 一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面: 语言学:各个音的排列规则及其含义的研究。 语音学:各个音的物理特性和分类的研究。考虑的是语 音的产生、感知等过程。三个主要的分支:发音语音学、 声学语音学、听觉语音学。
【精选】语音信号处理复习课件
![【精选】语音信号处理复习课件](https://img.taocdn.com/s3/m/6f4fcccbdd88d0d232d46a01.png)
基音检测
自相关法 倒谱法
简化逆滤波法(SIFT)
共振峰估值
1. 带通滤波器法 2. DFT法
3. 倒谱法
4. LPC法
第9章思考题
1.基音检测的自相关法中的中心削波处理的思 路及实现过程? 2.用倒谱法实现基音检测和共振峰检测的原理 及实现框图?
•语音编码的概念、应用和分类等 •语音信号的压缩编码原理 • 语音通信中的语音质量 •脉冲编码调制(PCM)及其自适应
1.什么叫做隐马尔可夫过程?为什么说 语音信号可以看成隐马尔可夫过程?
2. HMM模型的结构主要有哪两种?它们 的特点是什么?
3.隐马尔可夫模型有哪些模型参数?请 叙述这些参数的含义和定义式。
根据某状态HMM模型,每一种路 径输出某某符号的概率计算。
语音检测分析——语音特征参数的提取和分析。
主要包括:基音检测和共振峰参数的估值。
u(n)
H(z)
s(n)
图6-1 信号s(n)的模型化
H(z)
G
p
,
语音信号的基础知识课件
![语音信号的基础知识课件](https://img.taocdn.com/s3/m/8251b5a1988fcc22bcd126fff705cc1755275fef.png)
虚拟助手是一种能够协助用户完成日 常任务的应用。通过语音合成与识别 技术,虚拟助手能够理解用户的意图 ,提供相应的服务。例如,日程提醒 、天气查询、音乐播放等。
有声读物是一种将书籍转换为音频形 式的产品。通过语音合成技术,可以 将文字转换为自然语音朗读;通过语 音识别技术,可以方便地实现音频文 件的文字转录。有声读物的出现为那 些不方便阅读或视力不好的人群提供 了方便的阅读方式。
05 语音信号的未来发展
语音信号处理技术的发展趋势
01
深度学习算法的广泛应用
随着深度学习技术的不断发展,语音信号处理将更加依赖于深度学习算
法,如卷积神经网络、循环神经网络等,以提高语音识别的准确率和语
音合成的自然度。
02
端到端语音处理
端到端语音处理技术将逐步成为主流,这种技术能够直接将输入的语音
语音合成技术的原理
语音合成技术主要基于波形编码、统 计建模和深度学习等技术实现。其中 ,波形编码通过模仿人类发音器官的 动作,生成与人类语音相似的波形; 统计建模则通过建立声学模型和语言 模型,预测语音的波形;深度学习则 通过训练神经网络,学习语音的生成 过程。
语音合成技术的应用
语音合成技术的应用非常广泛,包括 智能客服、虚拟助手、有声读物等领 域。通过语音合成技术,这些应用能 够以自然的方式与用户进行交互,提 供更加智能化的服务。
语音识别
将语音信号转换为文本信息, 实现人机交互。
情感分析
通过分析语音信号中的情感特 征,实现情感识别和分类。
语音通信
利用语音信号进行远程通信, 是最常见的应用之一。
语音合成
将文本信息转换为语音信号, 用于自动播报、虚拟人物等领 域。
说话人识别
利用语音信号中的个性特征, 识别出说话人的身份。
语音信号处理第2章-语音信号基础
![语音信号处理第2章-语音信号基础](https://img.taocdn.com/s3/m/08895b0752d380eb62946dfd.png)
信息科学与工程学院
东南大学
2.2 语音和语言
语音研究分为两类:
语言学:包括构成语言的语素、词、短语和句 子等的不同层次的单位,以及词法、句法、文 脉等语法和语义内容等。语言学是语音信号处 理的基础。 语音学:考虑的是语音产生、语音感知等的过 程以及语音中各个音的特征和分类等问题。语 音学发展成为三个主要分支:发音语音学、声 学语音学、听觉语音学。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
同时掩蔽
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
短时掩蔽
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
语音信号是非平稳随机过程 短时分析:短段时间内表示语音信号时, 采用线性时不变模型。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
汉语的每个汉字是一个音节,音节一般由声母 、韵母和声调三部分组成。 更为细致的将一个音节划分为9个部分,其中1 ~4段属于声母(辅音),6~9段属于韵母( 元音)。第5段是二者的过渡段。 第7段(主要元音段)是每个音节是具有的。 汉语中一般有五个声调,即阴平、阳平、上声 、去声以及轻声。
0.4
-0.2 -0.3
20 40 60 80 100 120 140 160
0
20
40
60
80
100
120
140
160
0.3
50
50
0
0
0.2
-50
-50
-100
0
0.5
1
1.5
2
2.5
语音信号处理_2_基础知识
![语音信号处理_2_基础知识](https://img.taocdn.com/s3/m/7227ea4e767f5acfa1c7cd37.png)
声调
声调(5个)
孤立音节中有四个声调,调型称之为阴平、 阳平、上声、去声,简称1、2、3、4声 连续语音中由音节弱化、致使原有调型丢失, 形成轻声 上声连读变调:上声变阳平 主要由韵母音段的音高所负载
第二章 语音信号的声学基础 及产生模型
语音学 语音产生过程 语音信号的特性分析 语音感知 语音产生数学模型
语音感知
听觉器官(声学特征)
音质、音强、音高、音长
感知效应
感知效应
听阈 主观响度 主观音高 言语的选择性感知
感知效应
听阈
频率范围20~20kHz 声强0~120dB(0dB eq. 20uPa)
主观响度 主观音高 言语的选择性感知
主观响度
响度级(Loudness Level), Phon数值上等 于1kHz纯音的声强级 响度(Loudness), 1Sone等于1kHz纯音t听 阈之上40dB的响度 P=33.33lgS+40 3~5kHz频段最为灵敏
频域特征-samples
0.865 8 0
- 0.670 8 0 T im e (s ) 1.54 821
40
20
20
0
0 0 F re q u e n c y ( H z ) 11 025
-2 0 0 F r e q u e n cy ( H z ) 110 25
40
40 20
20 0
0 0 F re q u e n c y ( H z ) 11 025 0 F r e q u e n cy ( H z ) 110 25
- 0 .670 8
0 T im e (s )
0 .3 0 1 3 1 3
0 .766 3
0
语音信号处理-第02章 语音信号的产生、特征与人耳的听觉特性
![语音信号处理-第02章 语音信号的产生、特征与人耳的听觉特性](https://img.taocdn.com/s3/m/87862e1bc281e53a5802ffdb.png)
语音信号处理Speech Signal Processing长春工业大学图像工程研究所 史东承教授dcshi@ 2010.8第二章 语音信号的产生、特征 与人耳的听觉特性§2.1 语音信号的产生鼻腔 软腭 口腔 鼻子嘴巴气管 声带人类发音器官示意图发音器官:产生语音的器官1)肺和气管:能源与能量传输; 2)咽喉:振动源,包括声带和声门; 3)声道(声门到嘴唇的呼气通道):谐振腔 (包括口腔、鼻腔等); 4)其他发音器官:包括嘴唇、齿、舌、面颊 等,使谐振腔改变形状。
1发音机理• 喉位于气管的上端,实际 上是气管末端一圈软骨构 成的一个框架,前方稍高 处的软骨称为甲状软骨, 前后方环成一圈的称为喉 部环形软骨,喉中两片肌 肉称为声带,声带之间的 空隙为声门。
• 当声带张开时,声门打 开,空气可自由呼出,正 常呼吸就处于这种情况; 当声带闭合,声门关闭。
当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝,当气 流通过窄缝时压力减小,外界压力大,从而 两片声带完全闭合使得气流不能通过,当气 声带靠拢 流阻断时压力恢复正常,推开两片声带,声 门再次打开,气流再次流过。
声带的开启和闭合称 为振动。
这一振动过程周 而复始,形成了一串周期 性脉冲气流送入声道。
这 个过程发出的音称为浊音。
如汉语发音的[a]、[i]、 [u]和[o]等。
Tp 基音周期男声发音“我的语音”的时域波形和语谱图2第二章 语音信号的产生、特征 与人耳的听觉特性§2.2 语音信号的分类 声学语音学,根据激励方式划分:(1)浊音(Voiced Speech),又称为有声语音基音(pitch): 声道打开,声带在先打开后关闭,气流经过使声带要发生张 驰振动,变为准周期振动气流。
浊音的激励源被等效为准周 期的脉冲信号。
(2)清音(Unvoiced Speech),又称为无声语音:声带不振 动,而在某处保持收缩,气流在声道里收缩后高速通过产生 湍流,再经过主声道(咽、口腔)的调整最终形成清音。
第二章语音信号处理基础
![第二章语音信号处理基础](https://img.taocdn.com/s3/m/6b9b29714b35eefdc8d3339b.png)
V(z)=A E(z) H(z)
在浊音情况下, E(z) 是一个周期冲激序列,且A=Av, H(z)= G(z) V(z) R(z)
在清音情况下, E(z) 是一个随机噪声,且A=Au,H(z)= V(z) R(z)
语音信号产生的数字模型
在这个模型中,除了G(z)和R(z)保持不变以外,基 音频率、Av 、 Au 、清/浊开关的位置以及声道模型中的 参数都是随时间变化而变化的。由于发声器官的惯性使 这些参数的变化速度受到限制。对于声道参数而言,在 10~30ms的时间间隔内可以认为它们保持不变,因此语 音的短时分析帧长一般取为10~30ms。
语音信号产生的数字模型
语音信号产生的数字模型
语音信号产生的数字模型 激励模型 声道模型 辐射模型
语音信号产生的数字模型
激励模型一般分为浊音激励和清音激励来讨论。 浊音:浊音时,激励信号由一个周期脉冲发生器产
生,产生的序列是一个频率等于基音频率的冲激 序列。为了使浊音的激励信号具有声门脉冲的实 际波形,还需要使冲激序列通过一个声门脉冲模 型滤波器G(z) 。对声门波形的频谱分析表明,其 幅度谱按12dB/倍频程的速度衰减。
这就是语音激励模型和识别清音和浊音的理论基 础。
语音信号的特性
语音波形
语音:人的发声器官发出的一种声波,语音一定具有音色、 音高、音强和音长四要素;音色,就是声音的个性、特色。 它是一个音区别于另一个音的基本特征;音高指声音的高 低,取决于频率;音强(音量,又称响度)决定声音的强 弱,由声波的振动决定;音长指发音时间的长短。
元音:声带振动发音时,气流从喉腔、咽腔进入 口腔从唇腔出去时,声腔完全开发,气流顺利通 过。
第二章 语音信号处理基础知识
![第二章 语音信号处理基础知识](https://img.taocdn.com/s3/m/227e312baf45b307e8719725.png)
第二章语音信号处理基础知识1、语音信号处理?语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。
2、语音信号处理的目的?1)如何有效地,精确地表示、存储、传递语音信号及其特征信息;2)如何用机器来模仿人类,通过处理某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话人、识别出说话内容等。
因此,在研究各种语音信号处理技术之前,需要了解语音信号的基本特性,同时,要根据语音的产生过程建立实用及便于分析的语音信号模型。
本章主要包括三方面内容:语音的产生过程、语音信号的特性分析以及语音信号生成的数学模型。
第一部分内容语音的产生过程,我们要弄清两个问题:1)什么是语音?2)语音的产生过程?3、什么是语音?语音是带有语言的声音。
人们讲话时发出的话语叫语音,它是一种声音,由人的发音器官发出且具有一定的语法和意义。
语音是声音和语言的组合体,所以对于语音的研究包括:1)语音中各个音的排列由一些规则控制,对这些规则及其含义的研究成为语言学;2)对语音中各个音的物理特征和分类的研究称为语音学。
4、语音的产生语音的产生依赖于人类的发声器官。
人的发音器官包括:肺、气管、喉、咽、鼻、口等。
◆喉以上的部分称为声道,其形状随发出声音的不同而变化;◆喉的部分称为声门。
◆喉部的声带是对发音影响很大的器官。
声带振动产生声音。
◆声带开启和闭合使气流形成一系列脉冲。
每开启和闭合一次的时间即振动周期称为基音周期,其倒数为基音频率,简称基频。
基频决定了声音频率的高低,频率快则音调高,频率慢则音调低。
基音的范围约为70 -- 350Hz,与说话人的性别、年龄等情况有关。
人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。
人的说话的过程:1)想说阶段:人的说话首先是客观事实在大脑中的反映,经大脑的决策产生了说话的动机;接着说话神经中枢选择适当的单词、短语以及按照语法规则的组合,以表达想说的内容和情感。
语音信号处理课件 第02章基础知识
![语音信号处理课件 第02章基础知识](https://img.taocdn.com/s3/m/a66393e8e009581b6bd9eb22.png)
n 1,2,
我们们计算一下前三个 振峰:
F1 F2 c
1
c
c 340 500Hz 2 4 L 4 17 10 3c c 5c 1500Hz , F3 2500Hz 4L 3 4 L
2
谐振频率发生在500Hz的奇数倍
Speech Signal Processing
Speech Signal Processing
第02章基础知识—11
2、语音信号产生过程
口腔对声源频谱的调制——共振峰
Speech Signal Processing
第02章基础知识—12
共振峰是声道的重要声学特性。声道对于一个激励信号的响应, 可以用一个含有多对极点的线性系统来近似描述。每对极点都 对应一个共振峰频率。这个线性系统的频率响应特性称为共振 峰特性,它决定信号频谱的总轮廓,或称谱包络。 语音的频率特性主要是由共振峰决定的。而声道的共振峰特性 决定所发声音的频谱特性,即音色。 元音的音色和区别特征主要取决于声道的共振峰特性。共振峰 特性可以从语音信号频谱分析得到的幅频特性观察到。 在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要 考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为 现实的。 声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数, 称为声道截面积函数,它决定共振峰的特性。
注:喉部以上的部分统称为声道;气管和肺在声门以下
Speech Signal Processing
第02章基础知识—5
1、人类的语言器官
1. 人类的语言器官
图2-2 最重要的发音器官之一:声带
(a)闭合状态 (b)张开状态 甲状软骨 杓状软骨 环状软骨 声门 声带
第2章 语音信号处理的基础知识
![第2章 语音信号处理的基础知识](https://img.taocdn.com/s3/m/e5ea7dd5c1c708a1284a448b.png)
短时掩蔽
强信号和弱信号不同时出现时也存在掩蔽作用,称为短时掩蔽。 强信号和弱信号不同时出现时也存在掩蔽作用,称为短时掩蔽。 不同时出现时也存在掩蔽作用 后向掩蔽 人耳的储能效应 前向掩蔽 被掩蔽声尚未被人所反映接收而掩蔽声已来临 被掩蔽声尚未被人所反映接收而掩蔽声已来临 尚未被人所反映接收而掩蔽声
第2章 语音信号处理的基础知识
第2章 语音信号处理的基础知识
2.3.1 语音发音系统
声道 从声门到嘴唇的呼气通道,由咽、口腔和鼻腔组成。 从声门到嘴唇的呼气通道,由咽、口腔和鼻腔组成。 共振峰 声道是一个横截面非均匀的通道, 声道是一个横截面非均匀的通道,各处的固有频率也 就不一样,声音是含有多种频率的复合声波, 就不一样,声音是含有多种频率的复合声波,当含有 的频率与声道的固有频率相同时,就会产生共振,则 的频率与声道的固有频率相同时,就会产生共振, 这时声波以最大的振幅振动( 这时声波以最大的振幅振动(幅度谱上表现为幅度高 于附近的幅度),此时的频率称为共振峰频率, ),此时的频率称为共振峰频率 于附近的幅度),此时的频率称为共振峰频率,简称 共振峰。 共振峰。
第2章 语音信号处理的基础知识
2.1 语音和语言
2. 语音的音节和音素
2第二章 语音信号处理的基础知识 语音信号处理 课件
![2第二章 语音信号处理的基础知识 语音信号处理 课件](https://img.taocdn.com/s3/m/f852b8e0168884868762d6e0.png)
6/17/2020
35
声道 气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向
外辐射,期间的传输通道称为声道。气流流过声道 时犹如通过了一个具有某种谐振特性的腔体,放大 某些频率,在频谱上形成相应位置的峰起,称为共 振峰。
语音(Speech)=声音(Acoustic)+语言 (Language) 语音是由一连串的音组成语言的声音。
6/17/2020
10
6/17/2020
11
6/17/2020
12
6/17/2020
13
6/17/2020
14
6/17/2020
15
6/17/2020
16
6/17/2020
17
6/17/2020
22
3. 人类的说话过程分五个阶段
想说 说出 传送 接收 理解
人类的说话交流是通过联结说话人和听话人 的一连串心理、生理和物理的转换过程实现的。
ห้องสมุดไป่ตู้
6/17/2020
23
4. 语言(Language)
人与人之间的沟通工具,是从人们的话语中
概括总结出来的规律性的符号系统。包括构成语
言的语素、词、短语和句子等的不同层次的单位,
6/17/2020
29
6/17/2020
30
语音的产生
6/17/2020
31
发音机理
人的前方
甲状软骨
声门
声带
环形软骨
喉的生理结构
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
前三个共振峰的频率范围
2、语音信号产生过程
频率范围/Hz
成年男子
成年女子
带宽
F1
200~800
250~1 000 40~70
F2
600~2 800 700~3 300 50~90
F3
1 300~3 400 1 500~4 000 60~180
2、语音信号产生过程
2. 语音产生过程
理想状态下共振峰的计算:假设声道截面是均匀的(此
激励模型 根据发浊音和发清音的机理 又分为:(a)浊音激励 (b)清音激励
(1)激励模型
(a)浊音激励 由前面所讲发音过程可知, 发浊音时声带不断地张开和 闭合将产生间歇的准周期性 脉冲波,其周期为基音周期, 单个脉冲的波形类似于斜三 角波,故数字模型中可用周 期为T0单位取样序列串作为 声门脉冲模型g(n)的输入, 其输出就是浊音激励。 由于人类语音的频率范围主 要集中在300Hz~3400Hz, 数字模型中的信号取样率一 般为8KHz。
2. 语音产生过程
语音的两个重要声学特性: 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力
决定,其值等于声带张开和闭合一次的时间的倒数。人类 基音频率的范围在80~500 Hz左右。 共振峰(Fn , n=1,2,...):声道是一个谐振腔,它放大声音气 流的某些频率分量而衰减其他频率分量,被放大的频率我 们称之为共振峰或共振峰频率。 声道具有的一组共振峰,声道的频谱特性主要反映出这些共 振峰的不同位置以及各个峰的频带宽度 。共振峰及其带 宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对 应于一组不同的共振峰参数。实际应用中,头三个共振峰 最重要,越多越精确。
声音是一种波,能被人耳听到,它的振 动频率在20~20 000 Hz之间。
1. 人类的语言器官
1、人类的语言器官
人体发音器官—肺、气管、喉(包括声带) 和声道,肺是语音产生的能源所在;声带 为产生语音提供主要的激励源;声道是指 声门至嘴唇的所有器官:咽、鼻腔 、口 腔等,它们具有非均匀截面,且随时间变 化,起共鸣器(或谐振器)的作用。
语音产生模型(Speech Production/Generation Model)
4、语音信号的特性
语音信号(Speech Signal)
4、语音信号的特性
数字语音信号表示(Representations of Speech Signals)
(1)激励模型
3、语音信号产生的数字模型
由此模型框图,我们可将语音信号看成准周 期序列或随机噪声序列作为激励的线性非 移变系统的输出,此模型可分为三个部分: 激励模型、声道模型、辐射模型
时可把声道看作一个粗细均匀的圆筒),从喉到唇的距
离L=17 cm,音速c=340 m/s,则共振峰将发生在:
c (2n 1)c
Fn
n
Байду номын сангаас
4L
n 1,2,
(n为第n个共振峰的波长)
我们们计算一下前三个振峰:
F1
c
1
c 4L
340 4 17 102
500Hz
F2
c
2
3c 1500Hz 4L
,
F3
c
3
1. 人类的语言器官
1、人类的语言器官
图2-1 人类的发音器官
鼻腔(nasal cavity) 口腔(oral cavity)
唇(lips)
齿龈(alveolar ridge) 硬颚(hard palate) 软颚(velum) 小舌头(uvula) 声门(glottis)
齿(teeth)
舌(tongue) 咽(pharynx)
5c 2500Hz 4L
谐振频率发生在500Hz的奇数倍
3、语音信号产生的数字模型
3. 语音信号产生的数字模型
在研究了发声器官和语音的产生过程以后,便可以建立 一个离散时域的语音信号产生的数字模型,它将是我们 将数字信号处理技术应用于语音信号的基础。下图是一 个完整的语音信号产生的数字模型:
4、语音信号的特性
激励源
谐振源
辐射源
声门气流和嘴部声压
2、语音信号产生过程
物理模型
2、语音信号产生过程
2、语音信号产生过程
2.语音产生过程
语音的形成过程—空气由肺部排入喉部,经过声带 进入声道,最后由嘴辐射出声波,形成语音。
浊音(Voiced sounds) :声带绷紧,气流通过时会使 得开口变成一开一闭的周期性动作,这时候就造成 周期性的激发气流,如a,o;
2、语音信号产生过程
口腔对声源频谱的调制——共振峰
共振峰是声道的重要声学特性。声道对于一个激励信号的响应, 可以用一个含有多对极点的线性系统来近似描述。每对极点都 对应一个共振峰频率。这个线性系统的频率响应特性称为共振 峰特性,它决定信号频谱的总轮廓,或称谱包络。
语音的频率特性主要是由共振峰决定的。而声道的共振峰特性 决定所发声音的频谱特性,即音色。
第2章 语音信号基础知识
1. 人类的语言器官 2. 语音产生过程 3. 语音信号产生的数字模型 4. 语音信号的特性 5. 人类的听觉功能
1. 人类的语言器官
1、人类的语言器官
人类能以语言沟通,进而累积知识,形 成文化,其中一个主要的原因,就是人类具 有较其它生物优越的发音器官。
人类的发音器官能够产生多样性的声音, 构成丰富的词汇,无疑是最关键的因素。
清音(Unvoiced or Fricative sounds) :声带完全 舒展,声道某部位收缩形成一个狭窄的通道,产生 空气湍流,如t,d;
爆破音:声带完全舒展,声道的某部位完全闭合,一旦 闭合点突然开启,空气压力快速释放 ,如b,p。
能被人耳听到,它的振动频率在20~20 000 Hz之间
2、语音信号产生过程
元音的音色和区别特征主要取决于声道的共振峰特性。共振峰 特性可以从语音信号频谱分析得到的幅频特性观察到。
在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要 考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为 现实的。
声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数, 称为声道截面积函数,它决定共振峰的特性。
喉(larynx)
注:喉部以上的部分统称为声道;气管和肺在声门以下
1. 人类的语言器官
图2-2 最重要的发音器官之一:声带
1、人类的语言器官
(a)闭合状态
(b)张开状态
甲状软骨 杓状软骨 环状软骨 声门 声带
2.语音产生过程
2、语音信号产生过程
直流气流 交流气流
速度波
声压波
肺
声带
声道
嘴唇
声音
能源