语音信号处理第2章-语音信号基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息科学与工程学院
东南大学
当a>0
信息科学与工程学院
东南大学
当a<0
信息科学与工程学院
东南大学
系统模型
对于二阶的全极点传递函数
H ( z)
1 1 az 1 bz 2
其对应的幅度响应? 由于传递函数中,a、b均为实数,且要求极点 在单位圆内,因此传递函数的极点应该是共轭 对称的。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
同时掩蔽
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
短时掩蔽
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
语音信号是非平稳随机过程 短时分析:短段时间内表示语音信号时, 采用线性时不变模型。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
汉语的每个汉字是一个音节,音节一般由声母 、韵母和声调三部分组成。 更为细致的将一个音节划分为9个部分,其中1 ~4段属于声母(辅音),6~9段属于韵母( 元音)。第5段是二者的过渡段。 第7段(主要元音段)是每个音节是具有的。 汉语中一般有五个声调,即阴平、阳平、上声 、去声以及轻声。
东南大学
2.2 语音和语言
Yogurt有两个音节yo-gurt
1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1
yo0 2000 4000 6000
-gurt
8000 10000 12000
信息科学与工程学院
东南大学
2.2 语音和语言
Companions有3个音节, Com-pa-nions
0.8
com0.6 0.4 0.2 0 -0.2 -0.4 0
-pa-
-nions
5000
10000
15000
信息科学与工程学院
东南大学
2.2 语音和语言
‘但我也爱星天’
1
但
0.8
我
也
爱
星
天
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
0
2000
4000
6000
8000
10000
12000
14000
16000
信息科学与工程学院
东南大学
2.2 语音和语言
一个音节可以由一个音素(Phoneme)构 成,也可以由几个音素构成。 音素:是语音发音的最小单位。分为元音 (Vowel)和辅音(Consonant)两类。
信息科学与工程学院
东南大学
2.2 语音和语言
中文‘星天’
1 0.8
一个音素 一个音素 一个音素
第2章 语音信号处理的基础知识
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
信息科学与工程学院
东南大学
2.1 概述
语音信号处理是用数字信号处理技术对语 音信号进行分析和研究的学科,其目的:
一是要得到反映语音信号重要特征的语音参数, 以便高效的传输或储存语音信号; 二是要通过运算,实现语音信号的应用,如语 音合成、辨识讲话者、识别讲话内容等等。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
信息科学与工程学院
东南大学
2.3 汉语语音学
汉字‘天’
0.4 0.3
声母
韵母
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
0
500
1000
1500
2000
2500
3000
3500
4000
信息科学与工程学院
东南大学
2.3 汉语语音学
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语韵母的结构
8个单韵母,如[a]、[i]、[u]等; 14个复韵母,如[ai]、[ao]等; 16个鼻韵母如[an]、[uang]等。
应该注意,元音并不等于韵母。元音、辅 音是按音素的发音特征分类的;而声母、 韵母则是按音节结构分类的。这是两种不 同的概念,尽管它们之间有一定的联系。
0.4
-0.2 -0.3
20 40 60 80 100 120 140 160
0
20
40
60
80
100
120
140
160
0.3
50
50
0
0
0.2
-50
-50
-100
0
0.5
1
1.5
2
2.5
3
3.5
-100
0
0.5
1
1.5
2
2.5
3
3.5
0.1
0
0.4 0.2
-0.1
0 -0.2
-0.2
-0.4 0 20 40 60 80 100 120 140
信息科学与工程学院
东南大学
2.2语音和语言
人们讲话时发出的话语叫语音,语音 (Speech)是声音(Acoustic)和语言 (Language)的组合体。 语音:是由一连串的音组成语言的声音。
信息科学与工程学院
东南大学
2.2 语音和语言
人的说话过程可以分为五个阶段:(1)想 说阶段(2)说出阶段(3)传送阶段(4) 接收阶段(5)理解阶段
信息科学与工程学院
东南大学
2.2 语音和语言
语音研究分为两类:
语言学:包括构成语言的语素、词、短语和句 子等的不同层次的单位,以及词法、句法、文 脉等语法和语义内容等。语言学是语音信号处 理的基础。 语音学:考虑的是语音产生、语音感知等的过 程以及语音中各个音的特征和分类等问题。语 音学发展成为三个主要分支:发音语音学、声 学语音学、听觉语音学。
信息科学与工程学院
东南大学
2.2 语音和语言
根据发音时声带是否振动,分为浊音和清 音的区别。 通常元音为浊音,辅音为清音,但也有一 部分辅音发声时,声带振动,因此辅音中 有一部分是浊音。
信息科学与工程学院
东南大学
0.1
0.02 0.01
0 -0.1
0 -0.01 -0.02 -0.03 0
信息科学与工程学院 东南大学
2.3 汉语语音学
声母和韵母的相互作用——音征互载
声母和韵母的音征并不总是在各自的音段之内 ,而且又可能跨越两者的边界,即声母里可能 会带有韵母的信息,韵母里也可能带有声母的 信息,如辅音音渡。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话的声调只有阴平、阳平、上声、去 声以及‚轻声‛等五种声调。 声调的变化就是浊音基音周期(或基音频率) 的变化,各个韵母段中基音周期随时间的变化 产生了声调,变化的轨迹称为声调曲线。
汉语声母的结构
声母共有21个,[b]、[p]、[m]、[f]、[d]、[t]、 [n]、[l]、[g]、[k]、[h]、[j]、[q]、[x]、[zh]、 [ch]、[sh]、[r]、[z]、[c]、[s],可分为六大类 :擦音、塞音、塞擦音、边音、鼻音、零声母 声母除了零声母外,其它都是单辅音
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
听觉系统
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统:时频分析和掩蔽
时频分析:如果信号是一个多频率信号,则产 生的行波将沿着基底膜在不同的位置产生最大 幅度。耳蜗就象一个频谱分析仪,将复杂的信 号分解成各种频率分量。 掩蔽效应:并非所有的声音都能被人耳听到, 这取决于声音的强度和其频率范围。心理声学 中的听觉掩蔽效应是指,在一个强信号附近, 弱信号将变得不可闻,被掩蔽掉了。掩蔽效应 分为同时掩蔽和短时掩蔽。
一个音素
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
‘星 ’:一个音节
‘天 ’:一个音节
-1
0
1000
2000
3000
4000
5000
6000
7000
信息科学与工程学院
东南大学
2.2 语音和语言
元音和辅音的区别:
元音:元音是在发音过程中由气流通过口腔而 不受阻碍发出的音。发音时从肺部呼出的气流 通过起共振作用的口腔,阻力极小并无摩擦声 音的语音。 辅音:呼出的声流,由于通路的某一部分封闭 起来或受到阻碍,气流被阻不能畅通,而克服 发音器官的这种阻碍而产生的音素称为辅音。
英语单词发音时,是几个字母几个字母地拼起 来发音的,几个拼起来发音的字母叫一个音节 如单词China,划分成chi-na两个音节,单词 international分成in-ter-na-tio-nal五个音节,单 词English划分成Eng-lish两个音节。 而汉语则是一个字一个音节
信息科学与工程学院
fc 2 fs 则极点位置为:
[ p cos , p sin j ],[ p cos , p sin j ]
信息科学与工程学院 东南大学
p=0.98
信息科学与工程学院
东南大学
P=0.5
信息科学与工程学院
东南大学
系统模型
一阶全零点系统
H ( z ) 1 az
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
激励模型 • 语音信号 的产生模型 声道模型
声管模型
级联型
共振峰模型 并联型
辐射模型
混合型
信息科学与工程学院
东南大学
系统模型
对于一阶全极点传递函数 1 H ( z) 1 1 az
传递函数所对应的幅度响应实际上是:
|z| 1 | H ( z ) | | z a | | z a |
40
-0.3
20 0
来自百度文库
-0.4
-20
0
1000
2000
3000
4000
-40 -60
5000
6000
7000
信息科学与工程学院
0 0.5 1 1.5 2
东南大学
2.5 3
2.3 汉语语音学
汉语语音的特点:
音系简单。这是指音素少、音节少。音节的结 构也比较简单。 由于清辅音多,而且多是弱清音,而且开口呼 的音节占全部音节的一半以上,所以汉语语音 听感上有清亮、高扬和舒服、柔和的感觉。 有鲜明的轻重音和儿化韵,所以字词分隔清楚 ,语言表达准确而丰富。
信息科学与工程学院
东南大学
2.2 语音和语言
语音是一种声波,声波的特征属性:
音色:也叫音质,指包含的谐波成分,是不同 声音相互区别的基本特征。 音调:声波的频率。 音高:声波的强度或者振动幅度决定。 音长:发音的持续时间。
信息科学与工程学院
东南大学
2.2 语音和语言
音节:说话时发出的响亮中心,并被明显 感觉到的语音片段叫音节(Syllable)。
信息科学与工程学院
东南大学
系统模型
极点位置在[0 π/2]内时
信息科学与工程学院
东南大学
信息科学与工程学院
东南大学
系统模型
极点位置在[π/2 π]内时
信息科学与工程学院
东南大学
信息科学与工程学院
东南大学
系统模型
在采样率fs=4000Hz,如果假设共振峰频率 为fc=500Hz,则一个二阶的全极点传递函 数应该如何设计? 则极点为共轭的,因此极点的角频率为:
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统
人耳由内耳、中耳和外耳三部分组成。 外耳由耳翼、外耳道和鼓膜构成。外耳在对声 音的感知中起着声源定位和声音放大的作用。 中耳包括由锤骨、砧骨和镫骨这三块听小骨构 成的听骨链以及咽鼓管等组成。中耳的作用是 进行声阻抗的变换,即将中耳两端的声阻抗匹 配起来,同时对内耳起着保护的作用 。 内耳的主要构成器官是耳蜗(Cochlea)。它是听 觉的受纳器,把声音通过机械变换产生神经发 放信号。
信息科学与工程学院
东南大学
2.2 语音和语言
元音和辅音的区别
元音另一个重要声学特征就是共振峰:共振峰 参数是区别不同元音的重要参数,它一般包括 共振峰频率(Formant Frequency)的位置和 频带宽度(Formant Bandwidth)。
一般地说:区分语音是男声还是女声、是成人 声音还是儿童声音,共振峰频率的高低是重要 因素。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话四种声调的典型曲线:
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音发音系统
人的发音器官包括:肺、气管、喉(包括声带 )、咽、鼻和口。这些器官共同形成一条形状 复杂的管道。 喉的部分称为声门。从声门到嘴唇的呼气通道 叫做声道(Vocal Tract)。声道的形状主要由 嘴唇、颚和舌头的位置来决定。由声道形状的 不断改变,而发出不同的语音。
其频谱响应?
1
信息科学与工程学院
东南大学
系统模型
当a>0
信息科学与工程学院
东南大学
系统模型
当a<0时
信息科学与工程学院
东南大学
系统模型
对于二阶的全零点系统
H ( z ) 1 az bz
1
2
零点的位置没有限定要求,那么其幅度响应