语音信号处理第2章-语音信号基础

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Magnitude
10
-1
0
1
2
3 Frequence
4
5
6
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
级联型
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
并联型
对于非一般元音以及大部分辅音，必须考虑采用零极点模型。此时，模型的传输函数如下：
V ( z)
R
信息科学与工程学院
东南大学
2.2 语音和语言
语音是一种声波，声波的特征属性：
音色：也叫音质，指包含的谐波成分，声音区别的基本特征。音调：声波的频率。音高：声波的强度或者振动幅度决定。音长：发音的持续时间。
信息科学与工程学院
东南大学
2.2 语音和语言
音节：说话时发出的响亮中心，并被明显感觉到的语音片段叫音节（Syllable）。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
汉语的每个汉字是一个音节，音节一般由声母、韵母和声调三部分组成。汉语音节的一般结构，由9个部分组成。其中1 ～4段属于声母（辅音），6～9段属于韵母（元音），第5段是二者的过渡段。一个音节可能只包含里面的某几段，但是第7段（主要元音段）是每个音节是具有的。汉语中一般有五个声调，即阴平、阳平、上声、去声以及轻声。
信息科学与工程学院东南大学
2.4 语音生成系统和语音感知系统
听觉系统
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统：时频分析和掩蔽
时频分析：如果信号是一个多频率信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度。耳蜗就象一个频谱分析仪，将复杂的信号分解成各种频率分量。掩蔽效应：并非所有的声音都能被人耳听到，这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指，在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。掩蔽效应分为同时掩蔽和短时掩蔽。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
激励模型浊音激励
浊音:由于声带不断张开和关闭，将产生间歇的脉冲波，因此浊音激励波是一个以基音周期为周期的斜三角脉冲串，其数学表达式如下：
(1 / 2)[1 cos(n / N 1 )], 0 n N 1 g (n) cos[ (n N 1 ) / 2 N 2 ], N 1 n N 1 N 2 0, 其他
英语单词发音时，是几个字母几个字母地拼起来发音的，几个拼起来发音的字母叫一个音节如单词China，划分成chi-na两个音节，单词 international分成in-ter-na-tio-nal五个音节，单词English划分成Eng-lish两个音节。而汉语则是一个字一个音节
信息科学与工程学院
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
级联型
声道是一组串联的二阶谐振器：从共振峰理论来看，整个声道具有多个谐振频率和多个反谐振频率，所以它可被模拟为一个零极点的数学模型；对于一般元音，则用全极点模型，传输函数可分解表示为多个二阶极点的网络的串联：
V ( z)
b
r 0 N k 1
r
z r
1 ak z k
通常，N>R，则上式可分解为如下部分分式之和的形式：
Ai V ( z) 1 2 1 B z C z i 1 i i
M
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
并联型
M=5时的并联型共振峰模型
信息科学与工程学院
东南大学
2.2 语音和语言
元音
信息科学与工程学院
东南大学
2.2 语音和语言
辅音（清音）
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语语音的特点：
音系简单。这是指音素少、音节少。音节的结构也比较简单。由于清辅音多，而且多是弱清音，而且开口呼的音节占全部音节的一半以上，所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。
东南大学
2.2 语音和语言
信息科学与工程学院
东南大学Байду номын сангаас
2.2 语音和语言
一个音节可以由一个音素（Phoneme）构成，也可以由几个音素构成。音素：是语音发音的最小单位。分为元音（Vowel）和辅音（Consonant）两类。
信息科学与工程学院
东南大学
2.2 语音和语言
元音：元音是在发音过程中由气流通过口腔而不受阻碍发出的音。发音时从肺部呼出的气流通过起共振作用的口腔，阻力极小并无摩擦声音的语音。辅音：呼出的声流，由于通路的某一部分封闭起来或受到阻碍，气流被阻不能畅通，而克服发音器官的这种阻碍而产生的音素称为辅音。
信息科学与工程学院东南大学
2.4 语音生成系统和语音感知系统
同时掩蔽
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
短时掩蔽
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
语音信号是非平稳随机过程短时分析：短段时间内表示语音信号时，采用线性时不变模型。
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统
人耳由内耳、中耳和外耳三部分组成。外耳由耳翼、外耳道和鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗的变换，即将中耳两端的声阻抗匹配起来，同时对内耳起着保护的作用。内耳的主要构成器官是耳蜗(Cochlea)。它是听觉的受纳器，把声音通过机械变换产生神经发放信号。
信息科学与工程学院东南大学
2.3 汉语语音学
声母和韵母的相互作用——音征互载
声母和韵母的音征并不总是在各自的音段之内，而且又可能跨越两者的边界，即声母里可能会带有韵母的信息，韵母里也可能带有声母的信息，如辅音音渡。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话的声调只有阴平、阳平、上声、去声以及“轻声”等五种声调。声调的变化就是浊音基音周期（或基音频率）的变化，各个韵母段中基音周期随时间的变化产生了声调，变化的轨迹称为声调曲线。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话四种声调的典型曲线：
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音发音系统
人的发音器官包括：肺、气管、喉（包括声带）、咽、鼻和口。这些器官共同形成一条形状复杂的管道。喉的部分称为声门。从声门到嘴唇的呼气通道叫做声道（Vocal Tract）。声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的不断改变，而发出不同的语音。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
混合型
对于鼻化元音、阻塞音或摩擦音，腔体具有反谐振特性，必须考虑零点，使之成为零极点模型。将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
混合型
信息科学与工程学院
东南大学
2.2语音和语言
人们讲话时发出的话语叫语音，语音（Speech）是声音（Acoustic）和语言（Language）的组合体。语音：是由一连串的音组成语言的声音。
信息科学与工程学院
东南大学
2.2 语音和语言
人的说话过程可以分为五个阶段：（1）想说阶段（2）说出阶段（3）传送阶段（4）接收阶段（5）理解阶段
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语韵母的结构
8个单韵母，如[a]、[i]、[u]等； 14个复韵母，如[ai]、[ao]等； 16个鼻韵母如[an]、[uang]等。
应该注意，元音并不等于韵母。元音、辅音是按音素的发音特征分类的；而声母、韵母则是按音节结构分类的。这是两种不同的概念，尽管它们之间有一定的联系。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
由于单个斜三角波的z变换形式为：
G( z ) 1 (1 e cT z 1 )2
而斜三角波的脉冲串可以看成单位脉冲串通过斜三角波的滤波器，因此斜三角波脉冲串的模型是单位脉冲和斜三角波的乘积
Av 1 U ( z ) G( z ) E ( z ) 1 1 z (1 e cT z 1 ) 2
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
辐射模型辐射阻抗的公式如下：
z L () jLr Rr Rr jLr
r
128 8a , ，L 式中，R 9 (a是口唇张开时的开口 3c 半径)，c是声波传播速度辐射模型是一阶类高通滤波器，其等价的z变换
信息科学与工程学院
东南大学
2.2 语音和语言
根据发音时声带是否振动，分为浊音和清音的区别。通常元音为浊音，辅音为清音，但也有一部分辅音发声是，声带振动，因此辅音中有一部分是浊音。
信息科学与工程学院
东南大学
2.2 语音和语言
共振峰：共振峰参数是区别不同元音的重要参数，它一般包括共振峰频率（Formant Frequency）的位置和频带宽度（Formant Bandwidth）。一般地说：区分语音是男声还是女声、是成人声音还是儿童声音，共振峰频率的高低是重要因素。
M
ai
1 2 1 b z c z k 1 i i
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
级联型
如二阶全极点传递函数
H ( z) 1 5 2 z 1 1
其极点和频谱响应为：
1 0.8 0.6 0.4
Imaginary Part
0.2 0 -0.2 -0.4 -0.6 -0.8 -1 -1 -0.5 0 Real Part 0.5 1 2
第2章语音信号处理的基础知识
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
信息科学与工程学院
东南大学
2.1 概述
语音信号处理是用数字信号处理技术对语音信号进行分析和研究的学科，其目的：
一是要得到反映语音信号重要特征的语音参数，以便高效的传输或储存语音信号；二是要通过运算，实现语音信号的应用，如语音合成、辨识讲话者、识别讲话内容等等。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
清音激励
随机白噪声
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
声道模型共振峰模型
一个元音用前三个共振峰来表示，而对于较复杂的辅音或鼻音，用前五个以上的共振峰。可以建立起三种实用的共振峰模型：级联型、并联型和混合型。
r 2
R( z ) R0 (1 z 1 )
信息科学与工程学院东南大学
2.5 语音信号生成的数学模型
语音信号的数学模型完整的语音信号数字模型是：激励模型、声道模型和辐射模型的串联。
基音频率F0
Av
声道参数声门脉冲模型G(z) 声道模型 v(z) 随机噪声发生器浊音/清音开关辐射模型 R(z) 输出语音
信息科学与工程学院
东南大学
2.2 语音和语言
语音研究分为两类：
语言学：包括构成语言的语素、词、短语和句子等的不同层次的单位，以及词法、句法、文脉等语法和语义内容等。语言学是语音信号处理的基础。语音学：考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。语音学发展成为三个主要分支：发音语音学、声学语音学、听觉语音学。
信息科学与工程学院东南大学
2.3 汉语语音学
汉语音节的一般结构
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语声母的结构
声母共有21个，[b]、[p]、[m]、[f]、[d]、[t]、 [n]、[l]、[g]、[k]、[h]、[j]、[q]、[x]、[zh]、 [ch]、[sh]、[r]、[z]、[c]、[s]，可分为六大类：擦音、塞音、塞擦音、边音、鼻音、零声母