第二章 语音信号处理基础知识

合集下载

语音信号处理PPT_第二章 语音信号处理基础知识

语音信号处理PPT_第二章 语音信号处理基础知识
• • •
把从肺部呼出的直流气流变为音源,即变为交流的断续 流或乱流; 喉对音源起共振和反共振的作用,使它带有音色; 从嘴唇或鼻孔去空间辐射的作用;
肺把气流送入喉;喉将来自肺的气流调制为周期性脉冲或类 似随机噪声的激励声源,并送入声道;声道对频谱进行润色 后在嘴唇处的气压变化形成可以传播的声波。 肺相当于动力源,喉相当于调制器,声道相当于滤波器和扩 音器。
3.
韵母
38个韵母:8个单韵母,14个复韵母,16个鼻韵母。 单韵母是由单元音构成的,如:a、o、e、i、u、u。 复韵母是由复合元音构成的韵母,如:ai、ei、ao、ou等。 鼻韵母是由鼻辅音“n”或“ng”收尾的韵母,如:an、en、 uan、ang、eng、iang等。 韵母发音时声带是振动的,音强也较大,波形上可以看到大 的振幅,而且呈现周期性。 注意:元音不等同于韵母,元音、辅音是按音素的发音特征 来分的;而声母、韵母则是按音节结构来分的。

2.5.2 语音信号的语谱图
声纹:语谱图上其不同的黑白程度, 形成的不同的纹路。不同的人有不同的 声纹,利用声纹进行说话人识别。 横杆:与时间轴平行的几条深黑色 条纹,对应共振峰。语谱图中有无横杆 是判断是否是浊音的标志。 竖直条:与时间轴垂直的窄黑条, 每个竖直条相当于一个基音,条纹间隔 表示基音周期。 元音在语谱图上对应横杆(共振峰的存在) 噪声和清擦音表现为乱纹。
2.1 语音和语言 一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面: 语言学:各个音的排列规则及其含义的研究。 语音学:各个音的物理特性和分类的研究。考虑的是语 音的产生、感知等过程。三个主要的分支:发音语音学、 声学语音学、听觉语音学。

语音信号处理第2章-语音信号基础

语音信号处理第2章-语音信号基础
音的感知中起着声源定位和声音放大的作用。
中耳包括由锤骨、砧骨和镫骨这三块听小骨构 成的听骨链以及咽鼓管等组成。中耳的作用是 进行声阻抗的变换,即将中耳两端的声阻抗匹 配起来,同时对内耳起着保护的作用 。
内耳的主要构成器官是耳蜗(Cochlea)。它是听 觉的受纳器,把声音通过机械变换产生神经发 放信号。
二是要通过运算,实现语音信号的应用,如语 音合成、辨识讲话者、识别讲话内容等等。
信息科学与工程学院 东南大学
2.2语音和语言
人们讲话时发出的话语叫语音,语音 (Speech)是声音(Acoustic)和语言 (Language)的组合体。
语音:是由一连串的音组成语言的声音。
信息科学与工程学院 东南大学
音调:声波的频率。 音高:声波的强度或者振动幅度决定。 音长:发音的持续时间。
信息科学与工程学院 东南大学
2.2 语音和语言
音节:说话时发出的响亮中心,并被明显 感觉到的语音片段叫音节(Syllable)。
英语单词发音时,是几个字母几个字母地拼起 来发音的,几个拼起来发音的字母叫一个音节 如单词China,划分成chi-na两个音节,单词 international分成in-ter-na-tio-nal五个音节,单 词English划分成Eng-lish两个音节。
系统模型
对于二阶的全极点传递函数 1
H (z) 1 az1 bz2
其对应的幅度响应? 由于传递函数中,a、b均为实数,且要求极点
在单位圆内,因此传递函数的极点应该是共轭 对称的。
信息科学与工程学院 东南大学
系统模型
极点位置在[0 π/2]内时
信息科学与工程学院 东南大学
更为细致的将一个音节划分为9个部分,其中1 ~4段属于声母(辅音),6~9段属于韵母( 元音)。第5段是二者的过渡段。

语音信号处理第2章

语音信号处理第2章

声母和韵母的相互作用——音征互载
❖ 在普通话里,声母和韵母的音征并不总是在各自的 音段之内,而且又可能跨越两者的边界,即声母里 可能会带有韵母的信息,韵母里也可能带有声母的 信息,如辅音音渡。如果把韵母从元音起始就开始 算起的话,那么音渡就是韵母中载带的辅音音征, 对于某些辅音来说,如不送气塞音[b]、[d],元音 里的音渡正是它们之间相互区别的主要音征。
生神经发放信号。
语音听觉系统 人的听觉系统
语音听觉系统
❖ 人的听觉系统有两个重要特性,一个是耳蜗对于声 信号的时频分析特性;另一个是人耳听觉掩蔽效应 。
❖ 如果信号是一个多频率信号,则产生的行波将沿着 基底膜在不同的位置产生最大幅度。从这个意义上 讲,耳蜗就象一个频谱分析仪,将复杂的信号分解 成各种频率分量。
元音频谱:
30
20
幅 度 10
/dB
0
-10
-20
-30
-40
-50
0
1
2
3
4
频率/kHz
声道模型 级联型
❖ 这时认为声道是一组串联的二阶谐振器。从共振峰 理论来看,整个声道具有多个谐振频率和多个反谐 振频率,所以它可被模拟为一个零极点的数学模型 ;但对于一般元音,则用全极点模型就可以了。它 的传输函数可分解表示为多个二阶极点的网络的串 联:
声道视为一个谐振腔,按此推导出的叫“共振峰模型” 。
❖ 共振峰模型,把声道视为一个谐振腔。共振 峰就是这个腔体的谐振频率。由于人耳听觉 的柯替氏器官的纤毛细胞就是按频率感受而 排列其位置的,所以这种共振峰的声道模型 方法是非常有效的。一般来说,一个元音用 前三个共振峰来表示就足够了;而对于较复 杂的辅音或鼻音,大概要用到前五个以上的 共振峰才行。基于物理声学的共振峰理论, 可以建立起三种实用的共振峰模型:级联型 、并联型和混合型。

第二章语音信号处理的基础知识

第二章语音信号处理的基础知识
音节:发音时,被明显感觉到的语音片段为音节。
音素:是发音的最小单位,一个音节由一个音素或几 个音素构成。分为元音和辅音。元音是构成音节的主 干,从长度和能量来看,在音节中占主要位置;辅音 只是出现在音节的前端或后端或前后两端,它们的时 长和能量较小。
1.元音 元音的一个重要的声学特性
基频和共振峰
人在说话时,空气由肺部压入,由嘴唇呼出,声
i表示3个韵母,即韵母、舌尖前韵母和舌尖后韵母。
区别不同韵母的重要参数
韵母是由单、双元音、元音带上辅音等几种不 同的形式组成。不同的元音有不同的基音频率和 共振峰模式,它们是区别不同韵母的重要参数。来自三、汉语音节的一般结构
声母、韵母和声调是汉语语音的三要素。 汉语语音的1个不同于其他语言的是它具有声调 (音调)。声调是1个音节在念法上的高低升降 的变化,汉语中有4个声调,即阴平(-)、阳 平( ′)、上声( )、和去声(‵)。
音节
声母
韵母
无声段 声母辅音段 送气段 前过渡段 元音段 后过渡段 鼻音段
§2.4 语音生成系统和语音感知系统
一、语音发音系统 二、语音听觉系统
一、语音发音系统(发音器官及其作用)
●肺:能源; ●喉:振动源,包括声带和声门; ●声道(声门到嘴唇的呼气通道):谐振腔; ●其他发音器官:包括唇、齿、舌、面颊等, 使谐振腔改变形状。
正常人的听觉系统是极为灵敏的,可听声的范围 为0.02Hz-20kHz。
可听声的最小声压级(dB)称为听阈。-5 130dB, 对低频和高频是不敏感的,听阈为60dB,在1kHz 附近最敏感。
声源 飞机附近 织布车间 地铁 繁华街道 普通谈话 安静房间 耳语 树叶沙沙声 农村静夜
声压/Pa 200 20 0.63 0.063 0.02 0.002 0.00063 0.0002 0.000063

2第二章 语音信号处理的基础知识 语音信号处理 课件

2第二章 语音信号处理的基础知识 语音信号处理 课件
当声带张开时,声门打 开,空气可自由呼出,正 常呼吸就处于这种情况; 当声带闭合,声门关闭。
9/17/2020
32
当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝,当气 流通过窄缝时压力减小,外界压力大,从而 两片声带完全闭合使得气流不能通过,当气 声带靠拢 流阻断时压力恢复正常,推开两片声带,声 门再次打开,气流再次流过。
●音色: 又称为音质,是一种声音区别于另一种 声音的基本特性。
●音调:声音的高低,取决于声波的频率 ●音强:声音的强弱,它由声波的振动幅度所决 定 ●音长:发音时间的长短
9/17/2020
27
三、音节与音素
句子的最小单位为单词,单词的最小单位为音节。
音节:发音时,被明显感觉到的语音片段为音节。
音素:是发音的最小单位,一个音节由一个音素或几 个音素构成。分为元音和辅音。元音是构成音节的主 干,从长度和能量来看,在音节中占主要位置;辅音 只是出现在音节的前端或后端或前后两端,它们的时 长和能量较小。
9/17/2020
1
9/17/2020
2
9/17/2020
3
9/17/2020
6
第二章 语音信号处理的基础知识
§2.2 语音和语言 §2.3 汉语语音学 §2.4 语音生成系统和语音感知系统 §2.5 语音信号生成的数学模型 §2.6 语音信号的特性分析
http://www.fon.hum.uva.nl/praat/
L=17cm,声道的长度
n=1,2,3 … 称为第一共振峰F1=500Hz 、第二 共振峰F2=1500Hz 、第三共振峰 F3=2500Hz ,…
语音(Speech)=声音(Acoustic)+语言 (Language) 语音是由一连串的音组成语言的声音。

第二章 语音信号处理基础知识

第二章 语音信号处理基础知识
语谱图是一种三维频谱,它表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。记录这种谱图的仪器就是语谱仪。
下面我们再看一下语音的时域波形和频谱特性:
10、语音信号的时域波形和频谱特性
时间域中,语音信号可以直接用时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。
观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。
下图为汉语拼音“sou ke”的时间波形。表示这段语音波形时采用的采样频率为8kHz,量化精度为16bit。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。
本章第二部分是语音信号的特性分析,包括语音的声学特性,时域波形,频谱特性和统计特性。首先来了解一下语音的声学特性。
7、语音信号的声学特性
语音是人的发声器官发出的一种声波,具有一定的音色、音调、音强和音长。音色也叫音质,是一种声音区别于另一种声音的基本特征;音调是指声音的高低,取决于声音的频率;音强是指声音的强弱,由声波的振幅决定;音长即声音的长短,取决于发音时间的长短。
6、语音学
Phonetics是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。现代语音学发展成为三个分支:发音语音学、声学语音学以及听觉语音学。发音语音学研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法;声学语音学研究语音传递阶段的声学特性,与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象;听觉语音学研究语音感知的生理和心理特性,即研究耳朵怎么听音的,大脑怎么理解语音的,语音信息在大脑中存储的部位和形式。

语音信号处理_2_基础知识

语音信号处理_2_基础知识

声调
声调(5个)
孤立音节中有四个声调,调型称之为阴平、 阳平、上声、去声,简称1、2、3、4声 连续语音中由音节弱化、致使原有调型丢失, 形成轻声 上声连读变调:上声变阳平 主要由韵母音段的音高所负载
第二章 语音信号的声学基础 及产生模型
语音学 语音产生过程 语音信号的特性分析 语音感知 语音产生数学模型
语音感知
听觉器官(声学特征)
音质、音强、音高、音长
感知效应
感知效应
听阈 主观响度 主观音高 言语的选择性感知
感知效应
听阈
频率范围20~20kHz 声强0~120dB(0dB eq. 20uPa)
主观响度 主观音高 言语的选择性感知
主观响度
响度级(Loudness Level), Phon数值上等 于1kHz纯音的声强级 响度(Loudness), 1Sone等于1kHz纯音t听 阈之上40dB的响度 P=33.33lgS+40 3~5kHz频段最为灵敏
频域特征-samples
0.865 8 0
- 0.670 8 0 T im e (s ) 1.54 821
40
20
20
0
0 0 F re q u e n c y ( H z ) 11 025
-2 0 0 F r e q u e n cy ( H z ) 110 25
40
40 20
20 0
0 0 F re q u e n c y ( H z ) 11 025 0 F r e q u e n cy ( H z ) 110 25
- 0 .670 8
0 T im e (s )
0 .3 0 1 3 1 3
0 .766 3
0

《语音信号处理》课程笔记

《语音信号处理》课程笔记

《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。

在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。

随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。

到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。

近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。

1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。

(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。

(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。

(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。

1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。

声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。

听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。

1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。

语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。

这些模型为语音信号处理提供了理论基础和工具。

第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。

语音信号处理的基础知识

语音信号处理的基础知识

语音信号处理的基础知识语音信号处理是一门涉及到声音录制、分析、编码、识别等多个学科的交叉领域,其在现代通信技术、人机交互等领域中发挥着重要作用。

本文将介绍语音信号处理的基础知识,包括语音的参数表示、语音的数字化、语音的编码和解码等方面。

一、语音的参数表示语音信号的参数表示是指将语音信号表示为具有物理意义的、易于处理的数学参数。

在语音信号的参数表示中,常用的方法包括时域参数和频域参数两种。

时域参数是指将语音信号分段,然后对每一段信号进行时域特征分析,将其表示为均值、方差、能量、过零率等参数。

时域参数的优点是对信号的采样率没有要求,因此对于不同采样率的语音信号都可以进行处理。

但是,时域参数的缺点是对于语音信号中的高频成分无法处理,因此无法反映语音信号的高频特性。

频域参数是指将语音信号进行傅里叶变换,将信号变换到频域后,对于每个频率分量进行幅度、相位等特征参数提取。

频域参数的优点在于可以反映语音信号的高频特性,因此在语音识别、声码器设计等方面有重要应用。

但是频域参数的缺点在于对于信号的采样率有一定要求,因此需要进行抽样和重构处理,这样会引入一定的误差。

二、语音的数字化语音的数字化是指将模拟语音信号转换为数字信号的过程,其目的在于便于存储和处理。

在数字化语音信号中,一般采用脉冲编码调制(PCM)技术进行采样和量化。

脉冲编码调制是一种通过改变脉冲宽度、位置和幅度等参数来表示信号的方法。

在语音数字化中,采用的是线性脉冲编码调制,即将模拟语音信号进行采样、量化后转换为数字信号。

采样是指将模拟信号在时间轴上离散化,量化是指将采样信号的振幅幅度量化为离散的数值。

采样和量化的具体实现可以采用多种算法,如最近邻量化、线性量化、对数量化和均衡限制量化等。

三、语音的编码和解码语音信号编码是指将语音信号转换为适合传输和存储的码流。

在语音信号编码中,常用的方法包括线性预测编码(LPC)、自适应差分编码(ADPCM)、快速傅里叶变换编码(FFT)、线性预测离散余弦变换编码(LPDCT)等。

语音信号处理2

语音信号处理2
z L (Ω) = jΩLr Rr Rr + jΩLr
式中, Lr = 3πc 传播速度。
8a
Rr =
128 , 9π 2
a 是口唇张开时的开口半径,c 是声波
辐射模型是一阶类高通滤波器。
27
2.5.4 语音信号的数学模型
综上所述,完整的语音信号的数字模型可以用三个子模型: 激励模型、声道模型和辐射模型的串联来表示。
2
2.2 语音和语言
一、语音的定义
语音是人类发音器官发出的、具有一定意义的、 能起信息交流作用的声音;由一连串的音所组 成,是组成语言的声音。 语音(Speech) 声音 (Acoustic) 语言 (Language) 语言学: 对各个音的排列规则及其含义的研究 语音学:研究言语过程的一门科学。它考虑的 是语音产生、语音感知等过程以及对语音中各 个音的物理特征和分类问题。 分支: 发音语音学、声学语音学、听觉语音学
10
2.3 汉语语言特点
音节 字 声母:21 韵母:39 声调:音节在念法上的高低升降的变化。 音素少(约60),音节少(约400),考 虑声调,有调音节(约1330)。
11
2.4 语音生成系统和语音感知系统
2.4.1 语音生成系统
人的发音器官包括: 肺、气管、喉(包括声带)、 咽、鼻和口,形成一条形状 复杂的管道 声门:喉的部分 声道:从声门到嘴唇的呼吸通道, 不断改变发出不同的声音。 声带:声带是一对唇形的韧带。 基音周期:声带开启和闭合一次 基音频率:倒数 60-450Hz
元音:
舌头在口腔中的位置和口型 共振峰: 声道可以看成是一根具有非均匀截面的声管, 当元音激励进入声道时会引起共振,共振的频 率称共振峰频率。包括位置和频带宽度。 区别不同元音的重要参数。 F1:与舌位高低有关,舌位高, F1 低 F2:与舌位前后有关,舌位靠前, F2 高 F3:受舌尖活动的影响

语音信号处理课件 第02章基础知识

语音信号处理课件 第02章基础知识

n 1,2,
我们们计算一下前三个 振峰:
F1 F2 c
1
c

c 340 500Hz 2 4 L 4 17 10 3c c 5c 1500Hz , F3 2500Hz 4L 3 4 L
2
谐振频率发生在500Hz的奇数倍
Speech Signal Processing
Speech Signal Processing
第02章基础知识—11
2、语音信号产生过程
口腔对声源频谱的调制——共振峰
Speech Signal Processing
第02章基础知识—12
共振峰是声道的重要声学特性。声道对于一个激励信号的响应, 可以用一个含有多对极点的线性系统来近似描述。每对极点都 对应一个共振峰频率。这个线性系统的频率响应特性称为共振 峰特性,它决定信号频谱的总轮廓,或称谱包络。 语音的频率特性主要是由共振峰决定的。而声道的共振峰特性 决定所发声音的频谱特性,即音色。 元音的音色和区别特征主要取决于声道的共振峰特性。共振峰 特性可以从语音信号频谱分析得到的幅频特性观察到。 在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要 考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为 现实的。 声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数, 称为声道截面积函数,它决定共振峰的特性。
注:喉部以上的部分统称为声道;气管和肺在声门以下
Speech Signal Processing
第02章基础知识—5
1、人类的语言器官
1. 人类的语言器官
图2-2 最重要的发音器官之一:声带
(a)闭合状态 (b)张开状态 甲状软骨 杓状软骨 环状软骨 声门 声带

第2章 语音信号处理的基础知识

第2章 语音信号处理的基础知识
元音:当声带振动发出的声音气流从喉腔、咽腔进入口 元音: 声带振动发出的声音气流从喉腔、 发出的声音气流从喉腔 腔从唇出去时,这些声道完全开放,气流顺利 腔从唇出去时,这些声道完全开放 声道完全开放, 通过,这种音称为元音。 通过,这种音称为元音。 辅音:呼出的气流由于通路的某部分封闭起来或受到阻 辅音:呼出的气流由于通路的某部分封闭起来或受到阻 碍,气流被阻不能畅通,而克服发音器官的这种 气流被阻不能畅通, 阻碍而产生的音素称为辅音。 阻碍而产生的音素称为辅音。
短时掩蔽
强信号和弱信号不同时出现时也存在掩蔽作用,称为短时掩蔽。 强信号和弱信号不同时出现时也存在掩蔽作用,称为短时掩蔽。 不同时出现时也存在掩蔽作用 后向掩蔽 人耳的储能效应 前向掩蔽 被掩蔽声尚未被人所反映接收而掩蔽声已来临 被掩蔽声尚未被人所反映接收而掩蔽声已来临 尚未被人所反映接收而掩蔽声
第2章 语音信号处理的基础知识
第2章 语音信号处理的基础知识
2.3.1 语音发音系统
声道 从声门到嘴唇的呼气通道,由咽、口腔和鼻腔组成。 从声门到嘴唇的呼气通道,由咽、口腔和鼻腔组成。 共振峰 声道是一个横截面非均匀的通道, 声道是一个横截面非均匀的通道,各处的固有频率也 就不一样,声音是含有多种频率的复合声波, 就不一样,声音是含有多种频率的复合声波,当含有 的频率与声道的固有频率相同时,就会产生共振,则 的频率与声道的固有频率相同时,就会产生共振, 这时声波以最大的振幅振动( 这时声波以最大的振幅振动(幅度谱上表现为幅度高 于附近的幅度),此时的频率称为共振峰频率, ),此时的频率称为共振峰频率 于附近的幅度),此时的频率称为共振峰频率,简称 共振峰。 共振峰。
第2章 语音信号处理的基础知识
2.1 语音和语言
2. 语音的音节和音素

2第二章 语音信号处理的基础知识 语音信号处理 课件

2第二章 语音信号处理的基础知识 语音信号处理 课件
☆ F0 =1/Tp,基音频率,由声带的质量来决定。 ☆ F0的大小决定了声音的高低,称为音高。 ☆ 男性的F0大致分布在: 60~200Hz ☆ 女性和儿童的F0大致分布在:200~450Hz
6/17/2020
35
声道 气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向
外辐射,期间的传输通道称为声道。气流流过声道 时犹如通过了一个具有某种谐振特性的腔体,放大 某些频率,在频谱上形成相应位置的峰起,称为共 振峰。
语音(Speech)=声音(Acoustic)+语言 (Language) 语音是由一连串的音组成语言的声音。
6/17/2020
10
6/17/2020
11
6/17/2020
12
6/17/2020
13
6/17/2020
14
6/17/2020
15
6/17/2020
16
6/17/2020
17
6/17/2020
22
3. 人类的说话过程分五个阶段
想说 说出 传送 接收 理解
人类的说话交流是通过联结说话人和听话人 的一连串心理、生理和物理的转换过程实现的。
ห้องสมุดไป่ตู้
6/17/2020
23
4. 语言(Language)
人与人之间的沟通工具,是从人们的话语中
概括总结出来的规律性的符号系统。包括构成语
言的语素、词、短语和句子等的不同层次的单位,
6/17/2020
29
6/17/2020
30
语音的产生
6/17/2020
31
发音机理
人的前方
甲状软骨
声门
声带
环形软骨
喉的生理结构

语音信号处理

语音信号处理
式中:sgn(x)为符号函数,取值+/-1 x(m)、x(m-1)是相邻取样值 w(n)为窗口函数
33
3、短时平均过零数的应用
(1) 清音/浊音判断
(2)
清音-随机噪声,高频,浊音-周期信号,低频
清 浊
34
(2) 单词分割与有无声 确定单词的起止点,对语音识别很重要
实验室得到的语音
35
3.5 短时相关分析 用来求基音周期!
– 线性模型 激励 + 声道 + 辐射
18
2.4.1 激励模型 根据前节分析,激励源在清、浊音时不同,分别讨论 • 浊音
有人测量知,声带振动产生斜三角型脉冲波
Tp为冲激脉冲的周期,声门波模型产生单个声门脉冲
将其表示为Z变换,有:
• 清音 随机白噪声
19
冲激序列:E(z) 浊音激励模型:
U(z) = AVG(z)E(z)
2.4.2 声道模型
– 声音在声道的传播涉及到许多物理定律(能量守恒、 流体力学),需简化。有不同的模型。
1、声管模型
“短时”间声道是一个形状稳定的级联管道
声音在不同截面积 间传输会有反射,
反射系数:
A1 A2 A3 ….
km=(Am+1 - Am)
/(Am+1 + Am)
Am,Am+1是第m、m+1段的截面积
本章用短时分析技术,在时域提取基频、清浊、增益
25
3.2 语音信号的数字化和预处理
3.2.1 取样率与量化字长的选择
反混叠滤波器
模拟信号x(t)
抽样
量化
抽样信号
离散信号x(n)
1、抽样定理 抽样频率 8K、16K等 2、量化误差 e(n)-平稳、均匀分布,大小与量化

第二章语音信号处理基础

第二章语音信号处理基础
完整模型:可用三个模型的级联表示
V(z)=A E(z) H(z)
在浊音情况下, E(z) 是一个周期冲激序列,且A=Av, H(z)= G(z) V(z) R(z)
在清音情况下, E(z) 是一个随机噪声,且A=Au,H(z)= V(z) R(z)
语音信号产生的数字模型
在这个模型中,除了G(z)和R(z)保持不变以外,基 音频率、Av 、 Au 、清/浊开关的位置以及声道模型中的 参数都是随时间变化而变化的。由于发声器官的惯性使 这些参数的变化速度受到限制。对于声道参数而言,在 10~30ms的时间间隔内可以认为它们保持不变,因此语 音的短时分析帧长一般取为10~30ms。
语音信号产生的数字模型
语音信号产生的数字模型
语音信号产生的数字模型 激励模型 声道模型 辐射模型
语音信号产生的数字模型
激励模型一般分为浊音激励和清音激励来讨论。 浊音:浊音时,激励信号由一个周期脉冲发生器产
生,产生的序列是一个频率等于基音频率的冲激 序列。为了使浊音的激励信号具有声门脉冲的实 际波形,还需要使冲激序列通过一个声门脉冲模 型滤波器G(z) 。对声门波形的频谱分析表明,其 幅度谱按12dB/倍频程的速度衰减。
这就是语音激励模型和识别清音和浊音的理论基 础。
语音信号的特性
语音波形
语音:人的发声器官发出的一种声波,语音一定具有音色、 音高、音强和音长四要素;音色,就是声音的个性、特色。 它是一个音区别于另一个音的基本特征;音高指声音的高 低,取决于频率;音强(音量,又称响度)决定声音的强 弱,由声波的振动决定;音长指发音时间的长短。
元音:声带振动发音时,气流从喉腔、咽腔进入 口腔从唇腔出去时,声腔完全开发,气流顺利通 过。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章语音信号处理基础知识1、语音信号处理?语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。

2、语音信号处理的目的?1)如何有效地,精确地表示、存储、传递语音信号及其特征信息;2)如何用机器来模仿人类,通过处理某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话人、识别出说话内容等。

因此,在研究各种语音信号处理技术之前,需要了解语音信号的基本特性,同时,要根据语音的产生过程建立实用及便于分析的语音信号模型。

本章主要包括三方面内容:语音的产生过程、语音信号的特性分析以及语音信号生成的数学模型。

第一部分内容语音的产生过程,我们要弄清两个问题:1)什么是语音?2)语音的产生过程?3、什么是语音?语音是带有语言的声音。

人们讲话时发出的话语叫语音,它是一种声音,由人的发音器官发出且具有一定的语法和意义。

语音是声音和语言的组合体,所以对于语音的研究包括:1)语音中各个音的排列由一些规则控制,对这些规则及其含义的研究成为语言学;2)对语音中各个音的物理特征和分类的研究称为语音学。

4、语音的产生语音的产生依赖于人类的发声器官。

人的发音器官包括:肺、气管、喉、咽、鼻、口等。

◆喉以上的部分称为声道,其形状随发出声音的不同而变化;◆喉的部分称为声门。

◆喉部的声带是对发音影响很大的器官。

声带振动产生声音。

◆声带开启和闭合使气流形成一系列脉冲。

每开启和闭合一次的时间即振动周期称为基音周期,其倒数为基音频率,简称基频。

基频决定了声音频率的高低,频率快则音调高,频率慢则音调低。

基音的范围约为70 -- 350Hz,与说话人的性别、年龄等情况有关。

人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。

人的说话的过程:1)想说阶段:人的说话首先是客观事实在大脑中的反映,经大脑的决策产生了说话的动机;接着说话神经中枢选择适当的单词、短语以及按照语法规则的组合,以表达想说的内容和情感。

2)说出阶段:由想说阶段大脑中枢的决策,以脉冲形式向发音器官发出指令,使得舌、唇、鄂、声带、肺等部分的肌肉协调地动作,发出声音。

与此同时,大脑也发出一些指令给其他有关器官,使之产生各种动作来配合言语的效果,如表情、手势、身体姿态等。

经常有些人说话时会手舞足蹈。

另外,还会开动“反馈”系统来帮助修正语音。

3)传送阶段:说出的话语是一连串声波,凭借空气为媒介传送到听者的耳朵。

有时遇到某种阻碍或其他声响的干扰,使声音产生损耗或失真。

4)接收阶段:从外耳收集的声波信息,经过中耳的放大作用,达到内耳。

经过内耳基底膜的振动,激发器官内的神经元使之产生脉冲,将信息以脉冲形式传送给大脑。

5)理解阶段:听觉神经中枢收到脉冲信息后,经过一种至今尚未完全了解的方式,辨认说话人及听到的信息,从而听懂说话人的话。

再开始介绍语音信号的特性之前,我们先了解一下语音和语言的定义。

5、语言是从人们的话语中概括总结出来的规律性的符号系统。

包括构成语言的语素、词、短语和句子等不同层次的单位,以及词法、句法、文脉等语法和语义内容。

语言学是语音信号处理的基础。

例如,可以利用句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率。

6、语音学Phonetics是研究言语过程的一门科学。

它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。

现代语音学发展成为三个分支:发音语音学、声学语音学以及听觉语音学。

发音语音学研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法;声学语音学研究语音传递阶段的声学特性,与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象;听觉语音学研究语音感知的生理和心理特性,即研究耳朵怎么听音的,大脑怎么理解语音的,语音信息在大脑中存储的部位和形式。

本章第二部分是语音信号的特性分析,包括语音的声学特性,时域波形,频谱特性和统计特性。

首先来了解一下语音的声学特性。

7、语音信号的声学特性语音是人的发声器官发出的一种声波,具有一定的音色、音调、音强和音长。

音色也叫音质,是一种声音区别于另一种声音的基本特征;音调是指声音的高低,取决于声音的频率;音强是指声音的强弱,由声波的振幅决定;音长即声音的长短,取决于发音时间的长短。

说话时一次发出,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。

一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。

音素是语音发音的最小单位。

任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。

元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔,从唇腔出去时,这些声腔完全开放,气流顺利通过产生音素。

-它构成一个音节的主干,长度和能量看,元音在音节中都占主要部分。

辅音:呼出的声流,由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通,而克服这些发音器官的这种阻碍产生的音素。

-通常只出现在音节的前端、后端或前后两端。

发辅音时由声带是否振动引起浊音和清音的区别:-声带振动的是浊音;-声带不振动的是清音。

8、基音频率发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期称为基音周期,其倒数为基音频率。

所以浊音声带振动的基本频率称为基音频率,一般用F表示。

无论一个音节或是一段连都是随时间变化的,该变化产生了声调,其变化轨迹为声调续语音,各个音节的元音段的F轨迹。

基音频率与个人声带的长短、厚薄、韧性和发音习惯等有关,在很大程度上反映了个人的特征。

一般来说,男性说话者的基音频率大致分布在50-200Hz,女性和小孩的基音频率在200-450Hz之间。

9、共振峰共振峰是一组谐振频率:声道可以看成一根具有非均匀截面的声管,在发音时起到共鸣器的作用,当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率(简称共振峰)。

元音的一个重要的声学特性就是共振峰(Formant)。

共振峰参数是区别不同元音的重要参数,一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。

元音的共振峰与发音机制(舌位高低、前后,舌尖的状态等)有关。

不同元音对应于一组不同的共振峰参数,为精确描述语音,应尽可能使用多个共振峰,但实际应用时,只用前3个就够了,分别称为F1,F2,F3。

表给出了前3个共振峰成年男子和成年女子的分布范围。

所以虽然一般地说,虽然就语音的基音频率而言是女声和童声高于男声,但是实验表明:区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。

下面我们再看一下语音的时域波形和频谱特性:10、语音信号的时域波形和频谱特性时间域中,语音信号可以直接用时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。

观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。

下图为汉语拼音“sou ke”的时间波形。

表示这段语音波形时采用的采样频率为8kHz,量化精度为16bit。

图上标明了时间及各个音节的起始位置。

由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。

从上图可以看出,清辅音[s][k]和元音[ou] [e]这两类音的时间波形有很大区别。

例如,从A点开始的音节[s],以及从C点开始的[k]都是清辅音,它们的波形类似于白噪声,振幅很小,没有明显的周期性;而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性,且振幅较大。

它们的周期对应的就是声带振动的频率,即基音频率,它是声门脉冲的间隔。

如果考察其中一小段元音语音波形,从它的频谱特性大致可以看出它们的共振峰特性。

语音信号具有很强的时变特性,有些波形具有很强的周期性,有些波形具有很强的噪声特性,且周期性和噪声性语音的特征也在不断变换中。

但在较短的时间内,语音信号的特征可以认为基本不变,所以,语音信号属于短时平稳信号,一般认为在10~30ms内语音信号特性基本上是不变的,或者变化很缓慢。

-因此可以截取一段进行傅里叶变换(具体的频谱分析方法将在第三章中介绍),求其短时谱。

于是,从中截取一小段进行频谱分析。

下图给出“sou”中音素“ou”的傅里叶变换:时间大约为时间波形180ms处开始,取时间波形宽度为256个样本,因采样频率为8kHz,故语音段持续时间为32ms(256/8)。

从该频谱图上可以直接看出浊音的基音频率及谐波频率。

在0~1.83kHz之间几乎有6个峰值,因此,基音频率为301Hz(1.83kHz/6)。

观察时间波形“ou”波形周期之间的距离也可证明,其中在225~250ms之间大约有7.5个周期,因此可以估计周期为300Hz(7.5/25)。

在频谱图中可以看出明显的具有几个凸起点,它们出现的频率就是共振峰频率,从而表明元音具有明显的共振峰特性。

清辅音“k”的傅里叶变换如下图所示:可以看出,频谱峰点之间间隔是随机的,表明该清辅音没有周期分量。

11、语音信号的语谱图语音的时域分析和频域分析是语音分析的两种重要方法。

显然这两种单独分析的方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系。

由于语音信号随时间变化是很缓慢的,因而在一段短时间内(如10ms~30ms之间,即所谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又称为短时谱。

短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。

因此,人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形称为语谱图(Sonogram,或者Spectrogram)。

语谱图是一种三维频谱,它表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。

语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。

记录这种谱图的仪器就是语谱仪。

语谱仪实际上是一个带通滤波器组的输出随时间连续变化,连续重复进行语音信号频率分析的仪器。

带通滤波器有两种带宽选择:窄带为45Hz,宽带为300Hz。

窄带语谱图具有较好的频率分辨率,有利于显示基音频率及其各次谐波,但时间分辨率较差,不利于观察共振峰的变化;宽带语谱图则具有良好的时间分辨率及较差的频率分辨率。

它能给出语音的共振峰频率及清辅音的能量汇集区,在语谱图中共振峰呈现为黑色条纹。

语谱图上因其不同的黑白程度,形成不同的纹路,称为“声纹”,其因人而异,即不同说话人语谱图的声纹是不同的。

因而可以利用声纹鉴别不同说话人。

相关文档
最新文档