第2讲 语音信号处理基础知识
语音信号处理PPT_第二章 语音信号处理基础知识
把从肺部呼出的直流气流变为音源,即变为交流的断续 流或乱流; 喉对音源起共振和反共振的作用,使它带有音色; 从嘴唇或鼻孔去空间辐射的作用;
肺把气流送入喉;喉将来自肺的气流调制为周期性脉冲或类 似随机噪声的激励声源,并送入声道;声道对频谱进行润色 后在嘴唇处的气压变化形成可以传播的声波。 肺相当于动力源,喉相当于调制器,声道相当于滤波器和扩 音器。
3.
韵母
38个韵母:8个单韵母,14个复韵母,16个鼻韵母。 单韵母是由单元音构成的,如:a、o、e、i、u、u。 复韵母是由复合元音构成的韵母,如:ai、ei、ao、ou等。 鼻韵母是由鼻辅音“n”或“ng”收尾的韵母,如:an、en、 uan、ang、eng、iang等。 韵母发音时声带是振动的,音强也较大,波形上可以看到大 的振幅,而且呈现周期性。 注意:元音不等同于韵母,元音、辅音是按音素的发音特征 来分的;而声母、韵母则是按音节结构来分的。
2.5.2 语音信号的语谱图
声纹:语谱图上其不同的黑白程度, 形成的不同的纹路。不同的人有不同的 声纹,利用声纹进行说话人识别。 横杆:与时间轴平行的几条深黑色 条纹,对应共振峰。语谱图中有无横杆 是判断是否是浊音的标志。 竖直条:与时间轴垂直的窄黑条, 每个竖直条相当于一个基音,条纹间隔 表示基音周期。 元音在语谱图上对应横杆(共振峰的存在) 噪声和清擦音表现为乱纹。
2.1 语音和语言 一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面: 语言学:各个音的排列规则及其含义的研究。 语音学:各个音的物理特性和分类的研究。考虑的是语 音的产生、感知等过程。三个主要的分支:发音语音学、 声学语音学、听觉语音学。
第02讲 语音信号的数字化和预处理+时域分析
频谱泄露 较严重
矩形窗与汉明窗的比较
频谱分辨率高
窗类型
矩形窗
旁瓣峰值
• 假设语音信号的幅度符合Laplacian分布,此时信号幅度超过 4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则 • 上式表明量化器中的每bit字长对SNR的贡献为6dB。
SNR(dB) 6.02 B 7.2
对重构的语音波形的高次谐波起平滑作用,去掉高次谐波失真。
• 汉明窗: (n) 0.54 0.46 cos[2n /( N 1)], 0 n ( N 1) 0, n else
矩 形 窗 2 1.8 1.6 1.4 1.2 1 0.9 0.8 0.7 0.6
hanming窗
w(n)
1 0.8 0.6 0.4 0.2 0
如下:
En x ( m)
m 0 2 n
N 1
• En是一个度量语音信号幅度值变化的函数,但它有一个缺陷, 即它对高电平非常敏感(因为它计算时用的是信号的平方)。
• 为此,可采用另一个度量语音信号幅度值变化的函数,即短
时平均幅度函数Mn,它定义为:
M n xn ( m)
m 0
N 1
0.7
0.8
0.9
1
0
幅度 /dB
-50
-100
0
0.1
0.2
0.3
0.4 0.5 0.6 归 一 化 频 率 (f/fs)
2第二章 语音信号处理的基础知识 语音信号处理 课件
9/17/2020
32
当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝,当气 流通过窄缝时压力减小,外界压力大,从而 两片声带完全闭合使得气流不能通过,当气 声带靠拢 流阻断时压力恢复正常,推开两片声带,声 门再次打开,气流再次流过。
●音色: 又称为音质,是一种声音区别于另一种 声音的基本特性。
●音调:声音的高低,取决于声波的频率 ●音强:声音的强弱,它由声波的振动幅度所决 定 ●音长:发音时间的长短
9/17/2020
27
三、音节与音素
句子的最小单位为单词,单词的最小单位为音节。
音节:发音时,被明显感觉到的语音片段为音节。
音素:是发音的最小单位,一个音节由一个音素或几 个音素构成。分为元音和辅音。元音是构成音节的主 干,从长度和能量来看,在音节中占主要位置;辅音 只是出现在音节的前端或后端或前后两端,它们的时 长和能量较小。
9/17/2020
1
9/17/2020
2
9/17/2020
3
9/17/2020
6
第二章 语音信号处理的基础知识
§2.2 语音和语言 §2.3 汉语语音学 §2.4 语音生成系统和语音感知系统 §2.5 语音信号生成的数学模型 §2.6 语音信号的特性分析
http://www.fon.hum.uva.nl/praat/
L=17cm,声道的长度
n=1,2,3 … 称为第一共振峰F1=500Hz 、第二 共振峰F2=1500Hz 、第三共振峰 F3=2500Hz ,…
语音(Speech)=声音(Acoustic)+语言 (Language) 语音是由一连串的音组成语言的声音。
第二章 语音信号处理基础知识
下面我们再看一下语音的时域波形和频谱特性:
10、语音信号的时域波形和频谱特性
时间域中,语音信号可以直接用时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。
观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。
下图为汉语拼音“sou ke”的时间波形。表示这段语音波形时采用的采样频率为8kHz,量化精度为16bit。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。
本章第二部分是语音信号的特性分析,包括语音的声学特性,时域波形,频谱特性和统计特性。首先来了解一下语音的声学特性。
7、语音信号的声学特性
语音是人的发声器官发出的一种声波,具有一定的音色、音调、音强和音长。音色也叫音质,是一种声音区别于另一种声音的基本特征;音调是指声音的高低,取决于声音的频率;音强是指声音的强弱,由声波的振幅决定;音长即声音的长短,取决于发音时间的长短。
6、语音学
Phonetics是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。现代语音学发展成为三个分支:发音语音学、声学语音学以及听觉语音学。发音语音学研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法;声学语音学研究语音传递阶段的声学特性,与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象;听觉语音学研究语音感知的生理和心理特性,即研究耳朵怎么听音的,大脑怎么理解语音的,语音信息在大脑中存储的部位和形式。
语音信号处理_2_基础知识
声调
声调(5个)
孤立音节中有四个声调,调型称之为阴平、 阳平、上声、去声,简称1、2、3、4声 连续语音中由音节弱化、致使原有调型丢失, 形成轻声 上声连读变调:上声变阳平 主要由韵母音段的音高所负载
第二章 语音信号的声学基础 及产生模型
语音学 语音产生过程 语音信号的特性分析 语音感知 语音产生数学模型
语音感知
听觉器官(声学特征)
音质、音强、音高、音长
感知效应
感知效应
听阈 主观响度 主观音高 言语的选择性感知
感知效应
听阈
频率范围20~20kHz 声强0~120dB(0dB eq. 20uPa)
主观响度 主观音高 言语的选择性感知
主观响度
响度级(Loudness Level), Phon数值上等 于1kHz纯音的声强级 响度(Loudness), 1Sone等于1kHz纯音t听 阈之上40dB的响度 P=33.33lgS+40 3~5kHz频段最为灵敏
频域特征-samples
0.865 8 0
- 0.670 8 0 T im e (s ) 1.54 821
40
20
20
0
0 0 F re q u e n c y ( H z ) 11 025
-2 0 0 F r e q u e n cy ( H z ) 110 25
40
40 20
20 0
0 0 F re q u e n c y ( H z ) 11 025 0 F r e q u e n cy ( H z ) 110 25
- 0 .670 8
0 T im e (s )
0 .3 0 1 3 1 3
0 .766 3
0
语音信号处理2
式中, Lr = 3πc 传播速度。
8a
Rr =
128 , 9π 2
a 是口唇张开时的开口半径,c 是声波
辐射模型是一阶类高通滤波器。
27
2.5.4 语音信号的数学模型
综上所述,完整的语音信号的数字模型可以用三个子模型: 激励模型、声道模型和辐射模型的串联来表示。
2
2.2 语音和语言
一、语音的定义
语音是人类发音器官发出的、具有一定意义的、 能起信息交流作用的声音;由一连串的音所组 成,是组成语言的声音。 语音(Speech) 声音 (Acoustic) 语言 (Language) 语言学: 对各个音的排列规则及其含义的研究 语音学:研究言语过程的一门科学。它考虑的 是语音产生、语音感知等过程以及对语音中各 个音的物理特征和分类问题。 分支: 发音语音学、声学语音学、听觉语音学
10
2.3 汉语语言特点
音节 字 声母:21 韵母:39 声调:音节在念法上的高低升降的变化。 音素少(约60),音节少(约400),考 虑声调,有调音节(约1330)。
11
2.4 语音生成系统和语音感知系统
2.4.1 语音生成系统
人的发音器官包括: 肺、气管、喉(包括声带)、 咽、鼻和口,形成一条形状 复杂的管道 声门:喉的部分 声道:从声门到嘴唇的呼吸通道, 不断改变发出不同的声音。 声带:声带是一对唇形的韧带。 基音周期:声带开启和闭合一次 基音频率:倒数 60-450Hz
元音:
舌头在口腔中的位置和口型 共振峰: 声道可以看成是一根具有非均匀截面的声管, 当元音激励进入声道时会引起共振,共振的频 率称共振峰频率。包括位置和频带宽度。 区别不同元音的重要参数。 F1:与舌位高低有关,舌位高, F1 低 F2:与舌位前后有关,舌位靠前, F2 高 F3:受舌尖活动的影响
第二章语音信号处理基础
语音感知
语音感知-声音三要素 任何声音可用声强(或声压)的三个物理量表示: 即幅度、频率、相位。 对应人的感知,可用另外三要素描述:即响度、 音调和音色。
音色:亦称音质,反映声音属性。每个人声音具有 特殊的音色,人根据音色在主观感觉上区别具有 相同响度和音调的两个声音。 响度:测量声音强弱的物理量为声强,单位为W/m2 (瓦/米2);主观感受声音强弱的单位是宋: sone。
5)理解阶段:神经中枢→脉冲信息→辨认信息 (如何辨认,尚未知)。
5个阶段有心理、生理、物理以及人和社会的因 素。
语音的产生
发音器官模型
语音的产生
人类的发音器官
语音的产生
语音信号的产生过程
语音的产生
语音:由若干个音节(syllable)组成。 音节:可以由一个或若干个音素(phoneme)组成; 音素:是发音的最小单位,有两种音素,即辅音 和元音。
语音感知
临界带宽表
语音感知
上述的掩蔽效应可从听觉生理上找到依据,人耳 的基底膜具有与频谱分析仪相似的作用,频率群 的划分相应地将基底膜分成许多小部分,每一小 部分对应一个频率群。 掩蔽效应就在频率群内发生。
语音信号的特性
浊音的特性:基音频率 浊音的声带振动频率称为基本频率又称基音频率, 用F0表示,发音时,各个元音段的F0都随时间而 变,F0的变化产生了音调,F0随的变化轨迹称为 声调轨迹,声调反映了语音的韵律。 基音频率(简称基频)的范围为: 男性偏低一般为50Hz≤F0≤200Hz; 女性、小孩偏高一般为200Hz≤F0≤450Hz ; 基音频率的倒数称为基音周期(pitch period)。
汉语语音知识 汉语音节:一个音节(syllable)就是一个字的音, 字是独立的发音单位,由声母和韵母构成。 词:由音节构成。 句子:由词构成。 音素:声母是一个音素,而韵母则较复杂。 声调:音调在发一个音节中的变化。 汉语特点:音素少、音节少,64个音素、400多 个音节
语音信号处理课件 第02章基础知识
n 1,2,
我们们计算一下前三个 振峰:
F1 F2 c
1
c
c 340 500Hz 2 4 L 4 17 10 3c c 5c 1500Hz , F3 2500Hz 4L 3 4 L
2
谐振频率发生在500Hz的奇数倍
Speech Signal Processing
Speech Signal Processing
第02章基础知识—11
2、语音信号产生过程
口腔对声源频谱的调制——共振峰
Speech Signal Processing
第02章基础知识—12
共振峰是声道的重要声学特性。声道对于一个激励信号的响应, 可以用一个含有多对极点的线性系统来近似描述。每对极点都 对应一个共振峰频率。这个线性系统的频率响应特性称为共振 峰特性,它决定信号频谱的总轮廓,或称谱包络。 语音的频率特性主要是由共振峰决定的。而声道的共振峰特性 决定所发声音的频谱特性,即音色。 元音的音色和区别特征主要取决于声道的共振峰特性。共振峰 特性可以从语音信号频谱分析得到的幅频特性观察到。 在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要 考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为 现实的。 声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数, 称为声道截面积函数,它决定共振峰的特性。
注:喉部以上的部分统称为声道;气管和肺在声门以下
Speech Signal Processing
第02章基础知识—5
1、人类的语言器官
1. 人类的语言器官
图2-2 最重要的发音器官之一:声带
(a)闭合状态 (b)张开状态 甲状软骨 杓状软骨 环状软骨 声门 声带
第2章 语音信号处理的基础知识
短时掩蔽
强信号和弱信号不同时出现时也存在掩蔽作用,称为短时掩蔽。 强信号和弱信号不同时出现时也存在掩蔽作用,称为短时掩蔽。 不同时出现时也存在掩蔽作用 后向掩蔽 人耳的储能效应 前向掩蔽 被掩蔽声尚未被人所反映接收而掩蔽声已来临 被掩蔽声尚未被人所反映接收而掩蔽声已来临 尚未被人所反映接收而掩蔽声
第2章 语音信号处理的基础知识
第2章 语音信号处理的基础知识
2.3.1 语音发音系统
声道 从声门到嘴唇的呼气通道,由咽、口腔和鼻腔组成。 从声门到嘴唇的呼气通道,由咽、口腔和鼻腔组成。 共振峰 声道是一个横截面非均匀的通道, 声道是一个横截面非均匀的通道,各处的固有频率也 就不一样,声音是含有多种频率的复合声波, 就不一样,声音是含有多种频率的复合声波,当含有 的频率与声道的固有频率相同时,就会产生共振,则 的频率与声道的固有频率相同时,就会产生共振, 这时声波以最大的振幅振动( 这时声波以最大的振幅振动(幅度谱上表现为幅度高 于附近的幅度),此时的频率称为共振峰频率, ),此时的频率称为共振峰频率 于附近的幅度),此时的频率称为共振峰频率,简称 共振峰。 共振峰。
第2章 语音信号处理的基础知识
2.1 语音和语言
2. 语音的音节和音素
2第二章 语音信号处理的基础知识 语音信号处理 课件
6/17/2020
35
声道 气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向
外辐射,期间的传输通道称为声道。气流流过声道 时犹如通过了一个具有某种谐振特性的腔体,放大 某些频率,在频谱上形成相应位置的峰起,称为共 振峰。
语音(Speech)=声音(Acoustic)+语言 (Language) 语音是由一连串的音组成语言的声音。
6/17/2020
10
6/17/2020
11
6/17/2020
12
6/17/2020
13
6/17/2020
14
6/17/2020
15
6/17/2020
16
6/17/2020
17
6/17/2020
22
3. 人类的说话过程分五个阶段
想说 说出 传送 接收 理解
人类的说话交流是通过联结说话人和听话人 的一连串心理、生理和物理的转换过程实现的。
ห้องสมุดไป่ตู้
6/17/2020
23
4. 语言(Language)
人与人之间的沟通工具,是从人们的话语中
概括总结出来的规律性的符号系统。包括构成语
言的语素、词、短语和句子等的不同层次的单位,
6/17/2020
29
6/17/2020
30
语音的产生
6/17/2020
31
发音机理
人的前方
甲状软骨
声门
声带
环形软骨
喉的生理结构
语音信号处理入门系列(2)——信号处理中的几个关键概念
语⾳信号处理⼊门系列(2)——信号处理中的⼏个关键概念数字信号 信号是信息的物理载体,信息是信号的具体内容。
连续时间信号:在连续时间范围内定义的信号,信号的幅度可以是连续的(模拟信号),也可以是离散的离散时间信号:时间为离散变量的信号,即独⽴变量时间被量化了,⽽幅度仍是连续变化的数字信号:时间离散⽽幅度量化的信号从模拟信号到数字信号我们经常处理语⾳的时候会发现两个常⽤的格式:“pcm”和“wav”,这两种格式其实本质上是⼀样的,pam是脉冲编码调制(p ulse c odem odulation)的⼀个缩写,pcm的实质就是这三个步骤:采样量化编码。
数字信号基本运算移位:设某⼀序列x(n),当m>0 时,x(n-m) 表⽰序列x(n) 逐项依次延时(右移)m 位。
(左加右减)翻褶:设某⼀序列x(n),则x(-n) 是以n=0 的纵轴为对称轴将x(n) 加以翻褶。
和:z(n)=x(n)+y(n)积:z(n)=x(n)·y(n)累加:y(n)=\sum_{k=-\infty}^{n}x(k)差分 (⼀阶):y(n)=x(n)-x(n-1)尺度变换:对于序列x(n), 形如x(mn)或者x(\frac{n}{m})(m为正整数)的序列为x(n)的尺度变换序列。
以x(2n)为例,是以低⼀倍的抽样频率从x(n)中每隔两点取⼀点,这种运算称为抽取,常⽤于语⾳信号的下采样,通常在抽取之前要加⼊⼀个防混叠的滤波器。
类似的,x(\frac{n}{2})称为插值,在语⾳信号每两个点之间插⼊⼀个值,因为我们不知道这个插⼊的值是多少,⼀般插0,本⾝信息并没有增加,通常在插值之后我们还需要⼀个平滑,也就是在插⼊这些零点之后,后接⼀个平滑滤波器,利⽤相邻采样点之间的取值,把插⼊的值算出来,常⽤于语⾳升采样。
线性卷积 (linear convolution) : y(n)=\sum_{m=-\infty}^{\infty} x(m) h(n-m)=x(n) * h(n)由卷积的定义可知,卷积在图形表⽰上可分为四步:翻褶、移位、相乘、相加。
第二章语音信号处理的基础知识
音素:是发音的最小单位,一个音节由一个音素或几 个音素构成。分为元音和辅音。元音是构成音节的主 干,从长度和能量来看,在音节中占主要位置;辅音 只是出现在音节的前端或后端或前后两端,它们的时 长和能量较小。
1.元音 元音的一个重要的声学特性
基频和共振峰
人在说话时,空气由肺部压入,由嘴唇呼出,声
i表示3个韵母,即韵母、舌尖前韵母和舌尖后韵母。
区别不同韵母的重要参数
韵母是由单、双元音、元音带上辅音等几种不 同的形式组成。不同的元音有不同的基音频率和 共振峰模式,它们是区别不同韵母的重要参数。来自三、汉语音节的一般结构
声母、韵母和声调是汉语语音的三要素。 汉语语音的1个不同于其他语言的是它具有声调 (音调)。声调是1个音节在念法上的高低升降 的变化,汉语中有4个声调,即阴平(-)、阳 平( ′)、上声( )、和去声(‵)。
音节
声母
韵母
无声段 声母辅音段 送气段 前过渡段 元音段 后过渡段 鼻音段
§2.4 语音生成系统和语音感知系统
一、语音发音系统 二、语音听觉系统
一、语音发音系统(发音器官及其作用)
●肺:能源; ●喉:振动源,包括声带和声门; ●声道(声门到嘴唇的呼气通道):谐振腔; ●其他发音器官:包括唇、齿、舌、面颊等, 使谐振腔改变形状。
正常人的听觉系统是极为灵敏的,可听声的范围 为0.02Hz-20kHz。
可听声的最小声压级(dB)称为听阈。-5 130dB, 对低频和高频是不敏感的,听阈为60dB,在1kHz 附近最敏感。
声源 飞机附近 织布车间 地铁 繁华街道 普通谈话 安静房间 耳语 树叶沙沙声 农村静夜
声压/Pa 200 20 0.63 0.063 0.02 0.002 0.00063 0.0002 0.000063
语音信号处理复习华南理工.
语音信号处理复习第二章语音信号处理基础知识1,定义:(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。
而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。
因此语音是语言和声音的组合体。
(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。
①音色:是一种声音区别于另一种声音的基本特征②音调:指声音的高低,取决于声波的频率③音强:指声音的强弱,取决于声波的振幅④音长:指声音的长短,取决于发音时间的长短(3)任何语言都有语言的元音和辅音两种音素:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。
一个重要的声学特性是共振峰。
辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。
包括清音和浊音。
①浊音:声带振动②清音:声带不振动(4)人的听觉系统有两个重要的特性:①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。
②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。
掩蔽效应分为同时掩蔽和短时掩蔽。
2,语言信号生成的数学模型:①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统3,语音信号的特性分析:(1)语音信号的时域波形和频谱特性:①时域波形:周期性,周期对应声带振动的频率,即基音频率。
②频谱特性:共振峰特性。
元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。
清辅音频谱峰点之间的间隔是随机的,没有周期分量。
(2)语谱图:语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
语音信号处理基础知识讲课文档
其他
N1为斜三角波上升部分的时间,N2为其下降部
分的时间。
第三十五页,共59页。
声门及声门波
喉内窥镜图像
声门波曲线
第三十六页,共59页。
激励模型
❖ 单个斜三角波波形的频谱的图形如图2-18所示。 由图可见,它是一个低通滤波器。它的变换的 全极模型的形式是:
G(z)(1e1cTz1)2
vc是一个常数。显然,上式表示斜三角波形可描述为一 个二极点的模型。因此,斜三角波形串可视为加权了单
第三十八页,共59页。
声道模型
❖ 目前最常用的有两种: 声管模型、共振峰模型 ❖ 声管模型:把声道视为由多个等长的不同截面积的管子串联而
成的系统。 ❖ 共振峰模型:把声道视为一个谐振腔。共振峰就是这个腔体
的谐振频率。 ❖ 由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列
其位置的,所以这种共振峰的声道模型方法是非常有效的。 ❖ 一般来说,一个元音用前三个共振峰来表示就足够了;而对于
第三十四页,共59页。
激励模型
❖ 激励模型一般分成浊音激励和清音激励来讨论。发浊音 时,由于声带不断张开和关闭,将产生间歇的脉冲波。 这个脉冲波的波形类似于斜三角形的脉冲,它的数学表 达式如下:
(1/2)1[con s/(N1)],0nN1
g(n) cos(n[N1)/2N2], N1nN1N2
0,
第二十七页,共59页。
2.4 语音生成系统和语音感知系统
语音发音系统
❖ 人的发音器官包括:肺、气管、喉(包括声带)、咽、 鼻和口。这些器官共同形成一条形状复杂的管道。喉的 部分称为声门。
❖ 从声门到嘴唇的呼气通道叫做声道(Vocal Tract)。声 道的形状主要由嘴唇、颚和舌头的位置来决定。由声 道形状的不断改变,而发出不同的语音。
第二讲 语音信号处理基础知识.
共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体 的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按 频率感受而排列其位置的,所以这种共振峰的声道模型方法 是非常有效的。一般来说,一个元音用前三个共振峰来表示 就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个 以上的共振峰才行。基于物理声学的共振峰理论,可以建立 起三种实用的共振峰模型:级联型、并联型和混合型。
语言是从人们的话语中概括总结出来的规律性 的符号系统。
不同层次的单位:
语素、词、短语和句子 语法和语义内容:
词法、句法、文脉
2.2 语音和语言
人的说话的过程:
语音学(Phonetics)是研究言语过程的一门 科学。 它考虑的是语音产生、语音感知等的过 程以及语音 支: 发音语音学 声学语音学 听觉语音学
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.1 概述
语音信号处理 目的:
研究用数字信号处理技 术对语音信号进行处理 的一门学科
一是要通过处理得到一些反映语音信号重要特征 的语音参数以便高效的传输或储存语音信号信息;
语音听觉系统
人耳由内耳、中耳和外耳三部分组成。 外耳由耳翼、外耳道和鼓膜构成。外耳在对声音 的感知中起着声源定位和声音放大的作用。 中耳包括由锤骨、砧骨和镫骨这三块听小骨构成 的听骨链以及咽鼓管等组成。中耳的作用是进行声 阻抗的变换,即将中耳两端的声阻抗匹配起来,同 时对内耳起着保护的作用 。 内耳的主要构成器官是耳蜗(Cochlea)。它是听觉 的受纳器,把声音通过机械变换产生神经发放信号。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.2 语音和语言
2.2 语音和语言
当声带振动发出的声音气流从喉腔、咽腔进 入口腔从唇腔出去时,这些声腔完全开放, 气流顺利通过,这种音称为元音。
2.2 语音和语言
呼出的声流,由于通路的某一部分封闭起 来或受到阻碍,气流被阻不能畅通,而克服 发音器官的这种阻碍而产生的音素称为辅音。 发辅音时由声带是否振动引起浊音和清音的 区别,声带振动的是浊音,声带不振动的是 清音。 (b/p)
语音听觉系统
人的听觉系统
语音听觉系统
人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时 频分析特性;另一个是人耳听觉掩蔽效应。 如果信号是一个多频率信号,则产生的行波将沿着基底膜在 不同的位置产生最大幅度。从这个意义上讲,耳蜗就象一个 频谱分析仪,将复杂的信号分解成各种频率分量。 并非所有的声音都能被人耳听到,这取决于声音的强度和其 频率范围。心理声学中的听觉掩蔽效应是指,在一个强信号 附近,弱信号将变得不可闻,被掩蔽掉了。 时间掩蔽:同时掩蔽和短时掩蔽 频率掩蔽
语音听觉系统
人耳由内耳、中耳和外耳三部分组成。 外耳由耳翼、外耳道和鼓膜构成。外耳在对声音 的感知中起着声源定位和声音放大的作用。 中耳包括由锤骨、砧骨和镫骨这三块听小骨构成 的听骨链以及咽鼓管等组成。中耳的作用是进行声 阻抗的变换,即将中耳两端的声阻抗匹配起来,同 时对内耳起着保护的作用 。 内耳的主要构成器官是耳蜗(Cochlea)。它是听觉 的受纳器,把声音通过机械变换产生神经发放信号。
2.2 语音和语言
发音器官产生元音的三条件
①声道受到声带振动的激励引起共振; ②在语音流的持续过程中,声道不发生极端的狭窄,并
维持较稳定的形状; ③和鼻腔不发生偶合,声音只从口腔辐射出去。
这三个条件中,只要缺少其中之一,则该语音 就是辅音。 辅音没有明确的共振峰结构。辅音发音时的阻 碍的位置叫调音点(Place of Articulation )、 阻碍的方法叫调音方式(Manner of Articulation )
汉语的声调
汉语普通话四种声调的典型曲线:
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.4 语音生成系统和语音感知系统
语音发音系统
人的发音器官包括:肺、气管、喉(包括声带)、 咽、鼻和口。这些器官共同形成一条形状复杂的管 道。喉的部分称为声门。 从声门到嘴唇的呼气通道叫做声道(Vocal Tract)。声道的形状主要由嘴唇、颚和舌头的位 置来决定。由声道形状的不断改变,而发出不同的 语音。
汉语由音素构成声母或韵母。有时,将含有声调 (汉语通常认为有五个声调)的韵母称为调母。由 单个调母或由声母与调母拼音成为音节。 汉语的一个音节就是汉语一个字的音,即音节字。 由音节字构成词(其中主要是两音节字构成的两字 词,约占74%),最后再由词构成句子。 国际上,都是用音标来描述拼音过程的。汉语也不 例外。汉语拼音的音标包括:声母表、韵母表和声 调符号等。
汉语的声调
汉语是一种声调语言,相同声母和韵母构成
的音节随声调的不同而具有完全不同的意义, 对应着不同的汉字。汉语普通话的声调只有 阴平、阳平、上声、去声以及“轻声”等五 种声调。 声调的变化就是浊音基音周期(或基音频率) 的变化,各个韵母段中基音周期随时间的变 化产生了声调,变化的轨迹称为声调曲线。
汉语音节的一般结构
汉语声母的结构
普通话中的22个声母可分为六大类:
擦音 塞音 塞擦音 边音 鼻音 零声母 除零声母之外,其他所有的声母全部都是单辅音 。
汉语韵母的结构
普通话的38个韵母大致可以分为三类
8个单韵母,如[a]、[i]、[u]等 14个复韵母,如[ai]、[ao]等
激励模型
激励模型一般分成浊音激励和清音激励来讨论。发 浊音时,由于声带不断张开和关闭,将产生间歇的 脉冲波。这个脉冲波的波形类似于斜三角形的脉冲, 它的数学表达式如下:
(1 / 2)[1 cos(n / N 1 )], 0 n N 1 g (n) cos[ (n N 1 ) / 2 N 2 ], N 1 n N 1 N 2 0, 其他
二是要通过处理的某种运算以达到某种用途的要求, 例如人工合成出语音、辨识出讲话者、识别出讲话 的内容等等。
语音中包含的信息
语言(文字) 说话人信息:身份、性别、年龄 方言:认老乡的主要依据 情感(情绪) 语种:国外找“亲人”的主要信息来源 说话方式(快、慢、耳语) 语音品质(口语、朗诵、流畅性、动听度) 健康状况:特别是发音器官病变
2.2 语音和语言
决定元音音色的主要因素是舌头的形状及其在口腔中的位置 (简称舌位)、嘴唇的形状(简称口形)等。 元音的另一个重要声学特性是共振峰(Formant)。共振峰 参数是区别不同元音的重要参数,它一般包括共振峰频率 (Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 一般地说,女声和童声的基频高于男声,但是实验表明:区 分语音是男声还是女声、是成人声音还是儿童声音,更重要 的因素是共振峰频率的高低。
16个鼻韵母如[an]、[uang]等
在这38个韵母中有三个(-i、er、ê)是特殊韵母。
应该注意,元音并不等于韵母。元音、辅音是按音 素的发音特征分类的;而声母、韵母则是按音节结 构分类的。这是两种不同的概念,尽管它们之间有 一定的联系。
声母和韵母的相互作用——音征互载
在普通话里,声母和韵母的音征并不总是在各自的音段之内, 而且又可能跨越两者的边界,即声母里可能会带有韵母的信 息,韵母里也可能带有声母的信息,如辅音音渡。如果把韵 母从元音起始就开始算起的话,那么音渡就是韵母中载带的 辅音音征,对于某些辅音来说,如不送气塞音[b]、[d],元 音里的音渡正是它们之间相互区别的主要音征。 而韵母中的某些音征有声带载带的现象,最典型的就是介音 的实现方式。
声道模型 级联型
这时认为声道是一组串联的二阶谐振器。从共振峰理论来看, 整个声道具有多个谐振频率和多个反谐振频率,所以它可被 模拟为一个零极点的数学模型;但对于一般元音,则用全极 点模型就可以了。 传输函数可分解表示为多个二阶极点的网络的串联:
1 2e BkT cos(2 FkT ) e2 BkT V ( z) Bk T cos(2 FkT ) z 1 e2 BkT z 2 k 1 1 2e
2.2 语音和语言
调音方式等的不同可以把辅音分成如下几类
:塞音、摩擦音、塞擦音、鼻音、边音、颤 音、通音。 根据发辅音时声带有无振动,可以把辅音分 类成浊辅音和清辅音。 根据辅音除阻后是否紧跟着送出一股气来, 可以把辅音分类成送气辅音和不送气辅音。
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.5 语音信号生成的数学模型
理想的模型是线性的和时不变的。 语音信号是非平稳随机过程,其特性是随着时间变 化的,所以模型中的参数应该是随时间而变化的。 但语音信号特性随着时间变化是很缓慢的。所以可 以作出一些合理的假设,将语音信号分为一些相继 的短段进行处理,在这些短段中可以认为语音信号 特性是不随着时间变化的平稳随机过程。这样在这 些短段时间内表示语音信号时,可以采用线性时不 变模型。
汉语音节的一般结构
汉语音节一般由声母、韵母和声调三部分组成。汉语普通话 中有6000多个常用字 每个汉字是一个音节,如将同音字合一处理,则汉语中共有 1332个有调音节,其中可以单念的有1268个。 汉语中一般有五个声调,即阴平、阳平、上声、去声以及轻 声。如果不考虑声调,则汉语中无调音节共有407个。 汉语音节的一般结构,由9个部分组成。其中1~4段属于声 母(辅音),6~9段属于韵母(元音),第5段是二者的过 渡段。一个音节可能只包含里面的某几段,但是第7段(主 要元音段)是每个音节是具有的。
一个二极点的模型。因此,斜三角波形串可视为加权 了单位脉冲串激励上述单个斜三角波模型的结果。
激励模型
单位脉冲串及幅值因子则可表示成下面的z变
换形式:
Av E( z) 1 z 1
所以,整个浊音激励模型可表示为:
Av 1 U ( z ) G( z ) E ( z ) 1 z 1 (1 e cT z 1 ) 2
N1为斜三角波上升部分的时间,N2为其下降 部分的时间。
声门及声门波
喉内窥镜图像
声门波曲线
激励模型
单个斜三角波波形的频谱的图形如图2-18所
示。由图可见,它是一个低通滤波器。它的 变换的全极模型的形式是:
G( z)
1 (1 e
cT
z )
1 2
c是一个常数。显然,上式表示斜三角波形可描述为
重要概念
语音
音节 元音、辅音 清音、浊音 声母、韵母 共振峰、音色 语谱图、声纹
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.2 语音和语言
语音是人的发声器官发出的 一种声波,它具有一定的音色, 音调,音强和音长。
一种声音区别 声音的长短叫音长, 于另一种声音 声音的高低,它取决 声音的强弱,声波 它取决于发音时间 的基本特征 于声波的频率 的振动幅度决定 的长短
语音
语音(Speech)=声音(Acoustic)+
语言(Language),是二者的组合体 语音是由一连串的音组成语言的声音