语音信号处理第2章-语音信号基础

合集下载

语音信号处理PPT_第二章 语音信号处理基础知识

语音信号处理PPT_第二章 语音信号处理基础知识
• • •
把从肺部呼出的直流气流变为音源,即变为交流的断续 流或乱流; 喉对音源起共振和反共振的作用,使它带有音色; 从嘴唇或鼻孔去空间辐射的作用;
肺把气流送入喉;喉将来自肺的气流调制为周期性脉冲或类 似随机噪声的激励声源,并送入声道;声道对频谱进行润色 后在嘴唇处的气压变化形成可以传播的声波。 肺相当于动力源,喉相当于调制器,声道相当于滤波器和扩 音器。
3.
韵母
38个韵母:8个单韵母,14个复韵母,16个鼻韵母。 单韵母是由单元音构成的,如:a、o、e、i、u、u。 复韵母是由复合元音构成的韵母,如:ai、ei、ao、ou等。 鼻韵母是由鼻辅音“n”或“ng”收尾的韵母,如:an、en、 uan、ang、eng、iang等。 韵母发音时声带是振动的,音强也较大,波形上可以看到大 的振幅,而且呈现周期性。 注意:元音不等同于韵母,元音、辅音是按音素的发音特征 来分的;而声母、韵母则是按音节结构来分的。

2.5.2 语音信号的语谱图
声纹:语谱图上其不同的黑白程度, 形成的不同的纹路。不同的人有不同的 声纹,利用声纹进行说话人识别。 横杆:与时间轴平行的几条深黑色 条纹,对应共振峰。语谱图中有无横杆 是判断是否是浊音的标志。 竖直条:与时间轴垂直的窄黑条, 每个竖直条相当于一个基音,条纹间隔 表示基音周期。 元音在语谱图上对应横杆(共振峰的存在) 噪声和清擦音表现为乱纹。
2.1 语音和语言 一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面: 语言学:各个音的排列规则及其含义的研究。 语音学:各个音的物理特性和分类的研究。考虑的是语 音的产生、感知等过程。三个主要的分支:发音语音学、 声学语音学、听觉语音学。

语音信号处理

语音信号处理

第一部分语音信号处理第一章·绪论一···考核知识点1·语音信号处理的基本概念2·语音信号处理的发展概况二···考核要点一·语音信号处理的基本概念1.识记:(1)语音信号对人类的重要性。

(2)数字语音的优点。

(3)语音学的基本概念。

(4)语音信号处理的应用领域。

二·语音信号处理的发展概况1.识记:(1)语音信号处理的发展历史。

(2)语音编码、语音合成、语音识别的基本概念。

语音编码技术是伴随着语音的数字化而产生的,目前主要应用在数字语音通信领域。

语音合成的目的是使计算机能象人一样说话说话,而语音识别使能够听懂人说的话。

第二章·基础知识一···考核知识点一·语音产生的过程二·语音信号的特性三·语音信号产生的数字模型四·人耳的听觉特性二···考核要求一·语音产生的过程1.识记:声音是一种波,能被人耳听到,振动频率在20Hz~20kHz之间。

自然界中包含各种各样的声音,而语音是声音的一种,它是由人的发音器官发出的,具有一定语法和意义的声音。

2.领会:(1)语音产生的过程与人类发声的基本原理。

(2)清音、浊音、共振峰的基本概念。

语音由声带震动或不经声带震动产生,其中由声带震动产生的音统称为浊音,而不由声带震动而产生的音统称为清音。

声道是一个分布参数系统,它是一个谐振腔,有许多谐振频率,称为共振峰,它是声道的重要声学特征。

二·语音信号的特性1.识记:(1)语音的物理性质,包括音质、音调、音强、音长等特性。

语音是人的发音器官发出的一种声波,具有声音的物理属性。

其中音质是一种声音区别于其它声音的基本特征。

音调就是声音的高低,取决于声波的频率:频率高则音调高,频率低则音调低。

响度就是声音的强弱,又称音量。

语音信号处理实用教程-PPT课件第02章 基础知识

语音信号处理实用教程-PPT课件第02章 基础知识

注:喉部以上的部分统称为声道;气管和肺在声门以下
第02章基础知识—5
1、人类的语言器官
1. 人类的语言器官
图2-2 最重要的发音器官之一:声带
(a)闭合状态 (b)张开状态 甲状软骨 杓状软骨 环状软骨 声门 声带
第02章基础知识—6
2、语音信号产生过程
2.语音产生过程
直流气流
交流气流
速度波
声压波
第02章基础知识—3
1、人类的语言器官
1. 人类的语言器官
人体发音器官—肺、气管、喉(包括声带) 和声道,肺是语音产生的能源所在;声带 为产生语音提供主要的激励源;声道是指 声门至嘴唇的所有器官:咽、鼻腔 、口 腔等,它们具有非均匀截面,且随时间变 化,起共鸣器(或谐振器)的作用。
第02章基础知识—4
第02章基础知识—1
第2章 语音信号处理的基础知识
1. 2. 3. 4. 5. 人类的语言器官 语音产生过程 语音信号产生的数字模型 语音信号的特性 人类的听觉功能
第02章基础知识—2
1、人类的语言器官
1. 人类的语言器官
人类能以语言沟通,进而累积知识,形 成文化,其中一个主要的原因,就是人类具 有较其它生物优越的发音器官。 人类的发音器官能够产生多样性的声音, 构成丰富的词汇,无疑是最关键的因素。 声音是一种波,能被人耳听到,它的振 动频率在20~20 000 Hz之间。
第02章基础知识—17
4、语音信号的特性
语音信号(Speech Signal)
第02章基础知识—18
4、语音信号的特性
数字语音信号表示(Representations of Speech Signals)
第02章基础知识—11

语音信号处理期末考试复习题

语音信号处理期末考试复习题

《语音信号处理》期末考试复习资料(涉及考点的教材课后复习题)授课教师:薛雅娟老师整理人:通信161班梁雨(第2-5章)通信161班左自睿(第6-10章)根据成都信息工程大学通信工程学院选修课《语音信号处理》期末考试范围,整理成期末考试的复习资料以供学弟学妹们参考。

所有权归属成都信息工程大学。

在此衷心感谢薛老师平时悉心地教育指导。

整理人均系在读本科学生,水平有限,错误与不足之处在所难免,敬请大家见谅,欢迎批评、斧正。

第二章:语音信号处理的基础知识人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么启示?答:分为同时掩蔽和短时掩蔽。

同时掩蔽是指同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈被升高到一定程度时就会导致这个弱信号变得不可闻。

当A声和B声不同时出现时也存在掩蔽作用,称为短时掩蔽。

短时掩蔽分为前向掩蔽和后向掩蔽。

语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的?辐射模型又是怎样推导出来的?它们各属于什么性质的滤波器?答:①激励模型②声道模型③辐射模型④完整的语音信号的数学模型激励模型一般分成浊音激励和清音激励。

浊音激励:发浊音时,声激励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的激励信号具有声门振动气流脉冲的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三角波形)G(z)。

最后形成一个以基音周期为周期的斜三角波形。

清音激励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声。

辐射模型:从声道模型射出的是速度波ul(n),而语音信号是声压波pl(n),二者之倒比称为辐射阻抗Zl。

在语音信号参数分析前为什么要进行预处理,有哪些预处理过程?答:预滤波的目的有两个:一是抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。

预处理过程:预加重、加窗和分帧。

《语音信号处理基础》课件

《语音信号处理基础》课件

语音信号数学模型
1
时域数学模型
2
深入探讨语音信号在时域上的数学模型
和相关概念。
3
信号形式与信号空间
学习语音信号的形式,以及在不同信号 空间中的数学模型。
频域数学模型
了解语音信号在频域上的数学模型和相 关理论。
语音声学基础
语音产生与传播
探索语音是如何产生和传播 的,以及对声音的基本理解。
语音的基本参数
2
声学模型
研究声学模型在语音信号识别中的应用和算法。
3
语言模型
探索语言模型的作用,以及如何优化语音信号识别性能。
语音信号合成
1
声道模型
研究如何通过声道模型来合成自然的语音声音。
2
声波合成
了解声波合成方法和相关算法,用于生成高质量的语音信号。
3
波形拼接
探索波形拼接技术的应用,用于产生自然流畅的语音音频。
《语音信号处理基础ห้องสมุดไป่ตู้ PPT课件
欢迎来到《语音信号处理基础》的PPT课件。通过本课程,我们将带您了解 语音信号处理的基本概念和应用,探索这一领域的奇妙世界。
介绍语音信号处理
定义与分类
深入研究语音信号处理的定义,学习不同类型的语音信号和它们的特征。
应用领域
了解语音信号处理在语音合成、语音识别和语音增强等领域中的重要性和应用。
语音信号的应用
语音合成
了解语音合成技术的应用场景和实际应用。
语音唤醒
探索语音唤醒技术在智能设备和语音控制中的使 用。
语音识别
研究语音识别在智能交互和语音助手中的重要性 和应用。
语音增强
了解语音增强算法和技术,用于提升语音质量和 减少噪音。

《语音信号处理》课程笔记

《语音信号处理》课程笔记

《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。

在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。

随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。

到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。

近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。

1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。

(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。

(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。

(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。

1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。

声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。

听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。

1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。

语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。

这些模型为语音信号处理提供了理论基础和工具。

第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。

语音信号处理的基础知识

语音信号处理的基础知识

语音信号处理的基础知识语音信号处理是一门涉及到声音录制、分析、编码、识别等多个学科的交叉领域,其在现代通信技术、人机交互等领域中发挥着重要作用。

本文将介绍语音信号处理的基础知识,包括语音的参数表示、语音的数字化、语音的编码和解码等方面。

一、语音的参数表示语音信号的参数表示是指将语音信号表示为具有物理意义的、易于处理的数学参数。

在语音信号的参数表示中,常用的方法包括时域参数和频域参数两种。

时域参数是指将语音信号分段,然后对每一段信号进行时域特征分析,将其表示为均值、方差、能量、过零率等参数。

时域参数的优点是对信号的采样率没有要求,因此对于不同采样率的语音信号都可以进行处理。

但是,时域参数的缺点是对于语音信号中的高频成分无法处理,因此无法反映语音信号的高频特性。

频域参数是指将语音信号进行傅里叶变换,将信号变换到频域后,对于每个频率分量进行幅度、相位等特征参数提取。

频域参数的优点在于可以反映语音信号的高频特性,因此在语音识别、声码器设计等方面有重要应用。

但是频域参数的缺点在于对于信号的采样率有一定要求,因此需要进行抽样和重构处理,这样会引入一定的误差。

二、语音的数字化语音的数字化是指将模拟语音信号转换为数字信号的过程,其目的在于便于存储和处理。

在数字化语音信号中,一般采用脉冲编码调制(PCM)技术进行采样和量化。

脉冲编码调制是一种通过改变脉冲宽度、位置和幅度等参数来表示信号的方法。

在语音数字化中,采用的是线性脉冲编码调制,即将模拟语音信号进行采样、量化后转换为数字信号。

采样是指将模拟信号在时间轴上离散化,量化是指将采样信号的振幅幅度量化为离散的数值。

采样和量化的具体实现可以采用多种算法,如最近邻量化、线性量化、对数量化和均衡限制量化等。

三、语音的编码和解码语音信号编码是指将语音信号转换为适合传输和存储的码流。

在语音信号编码中,常用的方法包括线性预测编码(LPC)、自适应差分编码(ADPCM)、快速傅里叶变换编码(FFT)、线性预测离散余弦变换编码(LPDCT)等。

第二章语音信号的基础知识

第二章语音信号的基础知识
第二章 语音信号处理的基础知识
语音信号的基本概念 语音:人们讲话时发出的话语叫语音。是一种人
们进行信息交流的声音,是组成语言的声音/带有 语言信息的声音。
语音(Speech)=声音(Acoustic)+语言 (Language)
语音是由一连串的音素组成语言的声音。
第二章 语音信号处理的基础知识
对语音的研究包括两个方面
➢声道
人在说话时,空气由肺部压入,由嘴唇呼出,声门由此开 启和闭合,构成声带振动,然后通过声道(喉腔、咽腔和口腔) 响应(引起共振特性)变成语音,气流从喉向上经过口腔或鼻 腔后从嘴或鼻孔向外辐射,期间的传输通道称为声道。气流流 过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些 频率,在频谱上形成相应位置的峰起,称为共振峰。
✓(元音一定是浊音。辅音包括浊音和清音。 ✓英语中:由元音和辅音(这些都是音素)构成音节, 由几个音节构成一个词。 ✓汉语中:汉语中由元音和辅音构成声母和韵母,结 合声调构成一个音节,一个音节就是一个字。
一 语音信号的产生
4)汉语音节的一般结构
声母、韵母和声调是汉语语音的三要素。 汉语语音的1个不同于其他语言的是它具有声调 (音调)。声调是1个音节在念法上的高低升降 的变化,汉语中有4个声调,即阴平(-)、阳 平( ′)、上声( )、和去声(‵)。
一 语音信号的产生
声调的变化就是浊音基音周期的变化,为了将
调值描写地具体一些,一般采用“五度标记法”,
用一条竖线表示声音的高低,从下而上用1、2、3、
4、5依次表示低、半低、中、半高、高。
阴平
5高
阳平 上声
去声
4 半高 3中 2 半低 1低
调类 阴平 阳平 上声 去声

语音信号处理第2章

语音信号处理第2章
❖ 喉的部分称为声门。 ❖ 从声门到嘴唇的呼气通道叫做声道(Vocal Tract)。 ❖ 声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形
状的不断改变,而发出不同的语音。
语音听觉系统
❖ 人耳由内耳、中耳和外耳三部分组成。
语音听觉系统
❖ 人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时 频分析特性;另一个是人耳听觉掩蔽效应。
❖ 语音信号属于短时平稳信号,一般认为在10~30ms内语音 信号特性基本上是不变的,或者变化很缓慢。于是,可以从 中截取一小段进行频谱分析。下图给出“sou”中音素“ou” 的傅里叶变换 :
30
20
幅 度 10 /dB
0
-10
-20
-30
-40
-500
1
2
3
4
频率/kHz
语音信号的语谱图
❖ 语音的时域分析和频域分析是语音分析的两种重要方法。显然这两种单
❖ 语音学(Phonetics)是研究言语过程的一门科学。 它考虑的是语音产生、语音感知等的过程以及语音 中各个音的特征和分类等问题。现代语音学发展成 为三个主要分支:发音语音学、声学语音学、听觉 语音学。
2.2 语音和语言
❖ 语音是人的发声器官发出的一种声波,它具有一定的音色, 音调,音强和音长。其中,音色也叫音质,是一种声音区别 于另一种声音的基本特征。音调是指声音的高低,它取决于 声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。 声音的长短叫音长,它取决于发音时间的长短。
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.1 概述
❖ 语音信号处理 是研究用数字信号处理技术对语音信号进行 处理的一门学科。

第2章 语音信号处理的基础知识

第2章 语音信号处理的基础知识
元音:当声带振动发出的声音气流从喉腔、咽腔进入口 元音: 声带振动发出的声音气流从喉腔、 发出的声音气流从喉腔 腔从唇出去时,这些声道完全开放,气流顺利 腔从唇出去时,这些声道完全开放 声道完全开放, 通过,这种音称为元音。 通过,这种音称为元音。 辅音:呼出的气流由于通路的某部分封闭起来或受到阻 辅音:呼出的气流由于通路的某部分封闭起来或受到阻 碍,气流被阻不能畅通,而克服发音器官的这种 气流被阻不能畅通, 阻碍而产生的音素称为辅音。 阻碍而产生的音素称为辅音。
短时掩蔽
强信号和弱信号不同时出现时也存在掩蔽作用,称为短时掩蔽。 强信号和弱信号不同时出现时也存在掩蔽作用,称为短时掩蔽。 不同时出现时也存在掩蔽作用 后向掩蔽 人耳的储能效应 前向掩蔽 被掩蔽声尚未被人所反映接收而掩蔽声已来临 被掩蔽声尚未被人所反映接收而掩蔽声已来临 尚未被人所反映接收而掩蔽声
第2章 语音信号处理的基础知识
第2章 语音信号处理的基础知识
2.3.1 语音发音系统
声道 从声门到嘴唇的呼气通道,由咽、口腔和鼻腔组成。 从声门到嘴唇的呼气通道,由咽、口腔和鼻腔组成。 共振峰 声道是一个横截面非均匀的通道, 声道是一个横截面非均匀的通道,各处的固有频率也 就不一样,声音是含有多种频率的复合声波, 就不一样,声音是含有多种频率的复合声波,当含有 的频率与声道的固有频率相同时,就会产生共振,则 的频率与声道的固有频率相同时,就会产生共振, 这时声波以最大的振幅振动( 这时声波以最大的振幅振动(幅度谱上表现为幅度高 于附近的幅度),此时的频率称为共振峰频率, ),此时的频率称为共振峰频率 于附近的幅度),此时的频率称为共振峰频率,简称 共振峰。 共振峰。
第2章 语音信号处理的基础知识
2.1 语音和语言
2. 语音的音节和音素

基于RNN的语音识别技术研究

基于RNN的语音识别技术研究

基于RNN的语音识别技术研究第一章:引言语音识别技术是指通过计算机技术将语音信号转化为计算机能够识别的文字或指令。

自20世纪50年代提出以来,语音识别技术一直是计算机领域的一个研究热点,其应用领域逐渐扩大,例如电话语音自动问答、语音助手、智能家居等。

其中,基于RNN的语音识别技术在语音识别领域有着重要的应用,成为当前语音识别技术的研究方向之一。

第二章:基础理论2.1 语音信号处理语音信号处理是语音识别技术的核心之一,它主要涉及到语音分析和语音合成两个方面。

语音信号处理需要通过数字信号处理技术,将语音信号转化为计算机可以处理的数字信号。

语音信号处理的关键在于对语音的时域和频域特征的提取。

时域特征主要包括语音信号的短时能量、过零率等;频域特征主要包括语音信号的频率、功率谱等。

2.2 循环神经网络(RNN)的基本原理循环神经网络(RNN)是目前语音识别领域中普遍采用的一种深度学习网络,它通过将前一时刻的隐含状态作为当前时刻的输入,来建立当前时刻的输出和隐含状态之间的联系。

RNN中最经典的网络结构是基本循环神经网络(Basic RNN),它包含了输入层、隐含层和输出层三层结构。

其中,隐含层被设计成一个循环神经元的序列,每个神经元与前一个神经元形成全连接,形成了“时序”结构。

RNN在序列预测、序列生成、语音识别等方面具有重要应用。

第三章:基于RNN的语音识别技术3.1 RNN在语音信号处理中的应用在传统的语音信号处理中,通常使用Mel频率倒谱系数(MFCCs)作为语音信号的特征提取方法,该方法难以处理时间序列问题,无法利用时间序列信息。

而RNN的结构可以利用时间序列信息,因此RNN非常适合语音信号处理。

RNN在语音信号处理中的应用主要包括声学建模和语音识别。

3.2 RNN在声学建模中的应用声学建模是语音识别技术的关键环节之一。

传统的声学建模常常采用高斯混合模型(GMM)或隐马尔可夫模型(HMM)。

而RNN 作为一种新兴的深度学习模型,具有更强的泛化能力和更强的鲁棒性。

2第二章 语音信号处理的基础知识 语音信号处理 课件

2第二章 语音信号处理的基础知识 语音信号处理 课件
☆ F0 =1/Tp,基音频率,由声带的质量来决定。 ☆ F0的大小决定了声音的高低,称为音高。 ☆ 男性的F0大致分布在: 60~200Hz ☆ 女性和儿童的F0大致分布在:200~450Hz
6/17/2020
35
声道 气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向
外辐射,期间的传输通道称为声道。气流流过声道 时犹如通过了一个具有某种谐振特性的腔体,放大 某些频率,在频谱上形成相应位置的峰起,称为共 振峰。
语音(Speech)=声音(Acoustic)+语言 (Language) 语音是由一连串的音组成语言的声音。
6/17/2020
10
6/17/2020
11
6/17/2020
12
6/17/2020
13
6/17/2020
14
6/17/2020
15
6/17/2020
16
6/17/2020
17
6/17/2020
22
3. 人类的说话过程分五个阶段
想说 说出 传送 接收 理解
人类的说话交流是通过联结说话人和听话人 的一连串心理、生理和物理的转换过程实现的。
ห้องสมุดไป่ตู้
6/17/2020
23
4. 语言(Language)
人与人之间的沟通工具,是从人们的话语中
概括总结出来的规律性的符号系统。包括构成语
言的语素、词、短语和句子等的不同层次的单位,
6/17/2020
29
6/17/2020
30
语音的产生
6/17/2020
31
发音机理
人的前方
甲状软骨
声门
声带
环形软骨
喉的生理结构
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息科学与工程学院
东南大学
2.2 语音和语言
语音研究分为两类:
语言学:包括构成语言的语素、词、短语和句 子等的不同层次的单位,以及词法、句法、文 脉等语法和语义内容等。语言学是语音信号处 理的基础。 语音学:考虑的是语音产生、语音感知等的过 程以及语音中各个音的特征和分类等问题。语 音学发展成为三个主要分支:发音语音学、声 学语音学、听觉语音学。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
同时掩蔽
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
短时掩蔽
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
语音信号是非平稳随机过程 短时分析:短段时间内表示语音信号时, 采用线性时不变模型。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
汉语的每个汉字是一个音节,音节一般由声母 、韵母和声调三部分组成。 更为细致的将一个音节划分为9个部分,其中1 ~4段属于声母(辅音),6~9段属于韵母( 元音)。第5段是二者的过渡段。 第7段(主要元音段)是每个音节是具有的。 汉语中一般有五个声调,即阴平、阳平、上声 、去声以及轻声。
0.4
-0.2 -0.3
20 40 60 80 100 120 140 160
0
20
40
60
80
100
120
140
160
0.3
50
50
0
0
0.2
-50
-50
-100
0
0.5
1
1.5
2
2.5
3
3.5
-100
0
0.5
1
1.5
2
2.5
3
3.5
0.1
0
0.4 0.2
-0.1
0 -0.2
-0.2
-0.4 0 20 40 60 80 100 120 140
40
-0.3
20 0
-0.4
-20
0
1000
2000
3000
4000
-40 -60
5000
6000
7000
信息科学与工程学院
0 0.5 1 1.5 2
东南大学
2.5 3
2.3 汉语语音学
汉语语音的特点:
音系简单。这是指音素少、音节少。音节的结 构也比较简单。 由于清辅音多,而且多是弱清音,而且开口呼 的音节占全部音节的一半以上,所以汉语语音 听感上有清亮、高扬和舒服、柔和的感觉。 有鲜明的轻重音和儿化韵,所以字词分隔清楚 ,语言表达准确而丰富。
信息科学与工程学院
东南大学
2.2 语音和语言
元音和辅音的区别
元音另一个重要声学特征就是共振峰:共振峰 参数是区别不同元音的重要参数,它一般包括 共振峰频率(Formant Frequency)的位置和 频带宽度(Formant Bandwidth)。
一般地说:区分语音是男声还是女声、是成人 声音还是儿童声音,共振峰频率的高低是重要 因素。
信息科学与工程学院 东南大学
2.3 汉语语音学
声母和韵母的相互作用——音征互载
声母和韵母的音征并不总是在各自的音段之内 ,而且又可能跨越两者的边界,即声母里可能 会带有韵母的信息,韵母里也可能带有声母的 信息,如辅音音渡。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话的声调只有阴平、阳平、上声、去 声以及‚轻声‛等五种声调。 声调的变化就是浊音基音周期(或基音频率) 的变化,各个韵母段中基音周期随时间的变化 产生了声调,变化的轨迹称为声调曲线。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
听觉系统
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统:时频分析和掩蔽
时频分析:如果信号是一个多频率信号,则产 生的行波将沿着基底膜在不同的位置产生最大 幅度。耳蜗就象一个频谱分析仪,将复杂的信 号分解成各种频率分量。 掩蔽效应:并非所有的声音都能被人耳听到, 这取决于声音的强度和其频率范围。心理声学 中的听觉掩蔽效应是指,在一个强信号附近, 弱信号将变得不可闻,被掩蔽掉了。掩蔽效应 分为同时掩蔽和短时掩蔽。
信息科学与工程学院
东南大学
2.2 语音和语言
根据发音时声带是否振动,分为浊音和清 音的区别。 通常元音为浊音,辅音为清音,但也有一 部分辅音发声时,声带振动,因此辅音中 有一部分是浊音。
信息科学与工程学院
东南大学
0.1
0.02 0.01
0 -0.1
0 -0.01 -0.02 -0.03 0
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话四种声调的典型曲线:
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音发音系统
人的发音器官包括:肺、气管、喉(包括声带 )、咽、鼻和口。这些器官共同形成一条形状 复杂的管道。 喉的部分称为声门。从声门到嘴唇的呼气通道 叫做声道(Vocal Tract)。声道的形状主要由 嘴唇、颚和舌头的位置来决定。由声道形状的 不断改变,而发出不同的语音。
信息科学与工程学院
东南大学
系统模型
极点位置在[0 π/2]内时
信息科学与工程学院
东南大学
信息科学与工程学院
东南大学
系统模型
极点位置在[π/2 π]内时
信息科学与工程学院
东南大学
信息科学与工程学院
东南大学
系统模型
在采样率fs=4000Hz,如果假设共振峰频率 为fc=500Hz,则一个二阶的全极点传递函 数应该如何设计? 则极点为共轭的,因此极点的角频率为:
信息科学与工程学院
东南大学
当a>0
信息科学与工程学院
东南大学
当a<0
信息科学与工程学院
东南大学
系统模型
对于二阶的全极点传递函数
H ( z)
1 1 az 1 bz 2
其对应的幅度响应? 由于传递函数中,a、b均为实数,且要求极点 在单位圆内,因此传递函数的极点应该是共轭 对称的。
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统
人耳由内耳、中耳和外耳三部分组成。 外耳由耳翼、外耳道和鼓膜构成。外耳在对声 音的感知中起着声源定位和声音放大的作用。 中耳包括由锤骨、砧骨和镫骨这三块听小骨构 成的听骨链以及咽鼓管等组成。中耳的作用是 进行声阻抗的变换,即将中耳两端的声阻抗匹 配起来,同时对内耳起着保护的作用 。 内耳的主要构成器官是耳蜗(Cochlea)。它是听 觉的受纳器,把声音通过机械变换产生神经发 放信号。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
激励模型 • 语音信号 的产生模型 声道模型
声管模型
级联型
共振峰模型 并联型
辐射模型
混合型
信息科学与工程学院
东南大学
系统模型
对于一阶全极点传递函数 1 H ( z) 1 1 az
传递函数所对应的幅度响应实际上是:
|z| 1 | H ( z ) | | z a | | z a |
fc 2 fs 则极点位置为:
[ p cos , p sin j ],[ p cos , p sin j ]
信息科学与工程学院 东南大学
p=0.98
信息科学与工程学院
东南大学
P=0.5
信息科学与工程学院
东南大学
系统模型
一阶全零点系统
H ( z ) 1 az
其频谱响应?
1
信息科学与工程学院
东南大学
系统模型
当a>0
信息科学与工程学院
东南大学
系统模型
当a<0时
信息科学与工程学院
东南大学
系统模型
对于二阶的全零点系统
H ( z ) 1 az bz
1
2
零点的位置没有限定要求,那么其幅度响应
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
信息科学与工程学院
东南大学
2.3 汉语语音学
汉字‘天’
0.4 0.3
声母
韵母
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
0
500
1000
1500
2000
2500
3000
3500
4000
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语声母的结构
声母共有21个,[b]、[p]、[m]、[f]、[d]、[t]、 [n]、[l]、[g]、[k]、[h]、[j]、[q]、[x]、[zh]、 [ch]、[sh]、[r]、[z]、[c]、[s],可分为六大类 :擦音、塞音、塞擦音、边音、鼻音、零声母 声母除了零声母外,其它都是单辅音
信息科学与工程学院
东南大学
2.2语音和语言
人们讲话时发出的话语叫语音,语音 (Speech)是声音(Acoustic)和语言 (Language)的组合体。 语音:是由一连串的音组成语言的声音。
信息科学与工程学院
东南大学
2.2 语音和语言
人的说话过程可以分为五个阶段:(1)想 说阶段(2)说出阶段(3)传送阶段(4) 接收阶段(5)理解阶段
相关文档
最新文档