语音信号处理第2章-语音信号基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息科学与工程学院
东南大学
2.2 语音和语言
语音研究分为两类:
语言学:包括构成语言的语素、词、短语和句 子等的不同层次的单位,以及词法、句法、文 脉等语法和语义内容等。语言学是语音信号处 理的基础。 语音学:考虑的是语音产生、语音感知等的过 程以及语音中各个音的特征和分类等问题。语 音学发展成为三个主要分支:发音语音学、声 学语音学、听觉语音学。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
同时掩蔽
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
短时掩蔽
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
语音信号是非平稳随机过程 短时分析:短段时间内表示语音信号时, 采用线性时不变模型。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
汉语的每个汉字是一个音节,音节一般由声母 、韵母和声调三部分组成。 更为细致的将一个音节划分为9个部分,其中1 ~4段属于声母(辅音),6~9段属于韵母( 元音)。第5段是二者的过渡段。 第7段(主要元音段)是每个音节是具有的。 汉语中一般有五个声调,即阴平、阳平、上声 、去声以及轻声。
0.4
-0.2 -0.3
20 40 60 80 100 120 140 160
0
20
40
60
80
100
120
140
160
0.3
50
50
0
0
0.2
-50
-50
-100
0
0.5
1
1.5
2
2.5
3
3.5
-100
0
0.5
1
1.5
2
2.5
3
3.5
0.1
0
0.4 0.2
-0.1
0 -0.2
-0.2
-0.4 0 20 40 60 80 100 120 140
40
-0.3
20 0
-0.4
-20
0
1000
2000
3000
4000
-40 -60
5000
6000
7000
信息科学与工程学院
0 0.5 1 1.5 2
东南大学
2.5 3
2.3 汉语语音学
汉语语音的特点:
音系简单。这是指音素少、音节少。音节的结 构也比较简单。 由于清辅音多,而且多是弱清音,而且开口呼 的音节占全部音节的一半以上,所以汉语语音 听感上有清亮、高扬和舒服、柔和的感觉。 有鲜明的轻重音和儿化韵,所以字词分隔清楚 ,语言表达准确而丰富。
信息科学与工程学院
东南大学
2.2 语音和语言
元音和辅音的区别
元音另一个重要声学特征就是共振峰:共振峰 参数是区别不同元音的重要参数,它一般包括 共振峰频率(Formant Frequency)的位置和 频带宽度(Formant Bandwidth)。
一般地说:区分语音是男声还是女声、是成人 声音还是儿童声音,共振峰频率的高低是重要 因素。
信息科学与工程学院 东南大学
2.3 汉语语音学
声母和韵母的相互作用——音征互载
声母和韵母的音征并不总是在各自的音段之内 ,而且又可能跨越两者的边界,即声母里可能 会带有韵母的信息,韵母里也可能带有声母的 信息,如辅音音渡。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话的声调只有阴平、阳平、上声、去 声以及‚轻声‛等五种声调。 声调的变化就是浊音基音周期(或基音频率) 的变化,各个韵母段中基音周期随时间的变化 产生了声调,变化的轨迹称为声调曲线。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
听觉系统
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统:时频分析和掩蔽
时频分析:如果信号是一个多频率信号,则产 生的行波将沿着基底膜在不同的位置产生最大 幅度。耳蜗就象一个频谱分析仪,将复杂的信 号分解成各种频率分量。 掩蔽效应:并非所有的声音都能被人耳听到, 这取决于声音的强度和其频率范围。心理声学 中的听觉掩蔽效应是指,在一个强信号附近, 弱信号将变得不可闻,被掩蔽掉了。掩蔽效应 分为同时掩蔽和短时掩蔽。
信息科学与工程学院
东南大学
2.2 语音和语言
根据发音时声带是否振动,分为浊音和清 音的区别。 通常元音为浊音,辅音为清音,但也有一 部分辅音发声时,声带振动,因此辅音中 有一部分是浊音。
信息科学与工程学院
东南大学
0.1
0.02 0.01
0 -0.1
0 -0.01 -0.02 -0.03 0
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话四种声调的典型曲线:
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音发音系统
人的发音器官包括:肺、气管、喉(包括声带 )、咽、鼻和口。这些器官共同形成一条形状 复杂的管道。 喉的部分称为声门。从声门到嘴唇的呼气通道 叫做声道(Vocal Tract)。声道的形状主要由 嘴唇、颚和舌头的位置来决定。由声道形状的 不断改变,而发出不同的语音。
信息科学与工程学院
东南大学
系统模型
极点位置在[0 π/2]内时
信息科学与工程学院
东南大学
信息科学与工程学院
东南大学
系统模型
极点位置在[π/2 π]内时
信息科学与工程学院
东南大学
信息科学与工程学院
东南大学
系统模型
在采样率fs=4000Hz,如果假设共振峰频率 为fc=500Hz,则一个二阶的全极点传递函 数应该如何设计? 则极点为共轭的,因此极点的角频率为:
信息科学与工程学院
东南大学
当a>0
信息科学与工程学院
东南大学
当a<0
信息科学与工程学院
东南大学
系统模型
对于二阶的全极点传递函数
H ( z)
1 1 az 1 bz 2
其对应的幅度响应? 由于传递函数中,a、b均为实数,且要求极点 在单位圆内,因此传递函数的极点应该是共轭 对称的。
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统
人耳由内耳、中耳和外耳三部分组成。 外耳由耳翼、外耳道和鼓膜构成。外耳在对声 音的感知中起着声源定位和声音放大的作用。 中耳包括由锤骨、砧骨和镫骨这三块听小骨构 成的听骨链以及咽鼓管等组成。中耳的作用是 进行声阻抗的变换,即将中耳两端的声阻抗匹 配起来,同时对内耳起着保护的作用 。 内耳的主要构成器官是耳蜗(Cochlea)。它是听 觉的受纳器,把声音通过机械变换产生神经发 放信号。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
激励模型 • 语音信号 的产生模型 声道模型
声管模型
级联型
共振峰模型 并联型
辐射模型
混合型
信息科学与工程学院
东南大学
系统模型
对于一阶全极点传递函数 1 H ( z) 1 1 az
传递函数所对应的幅度响应实际上是:
|z| 1 | H ( z ) | | z a | | z a |
fc 2 fs 则极点位置为:
[ p cos , p sin j ],[ p cos , p sin j ]
信息科学与工程学院 东南大学
p=0.98
信息科学与工程学院
东南大学
P=0.5
信息科学与工程学院
东南大学
系统模型
一阶全零点系统
H ( z ) 1 az
其频谱响应?
1
信息科学与工程学院
东南大学
系统模型
当a>0
信息科学与工程学院
东南大学
系统模型
当a<0时
信息科学与工程学院
东南大学
系统模型
对于二阶的全零点系统
H ( z ) 1 az bz
1
2
零点的位置没有限定要求,那么其幅度响应
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
信息科学与工程学院
东南大学
2.3 汉语语音学
汉字‘天’
0.4 0.3
声母
韵母
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
0
500
1000
1500
2000
2500
3000
3500
4000
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语声母的结构
声母共有21个,[b]、[p]、[m]、[f]、[d]、[t]、 [n]、[l]、[g]、[k]、[h]、[j]、[q]、[x]、[zh]、 [ch]、[sh]、[r]、[z]、[c]、[s],可分为六大类 :擦音、塞音、塞擦音、边音、鼻音、零声母 声母除了零声母外,其它都是单辅音
信息科学与工程学院
东南大学
2.2语音和语言
人们讲话时发出的话语叫语音,语音 (Speech)是声音(Acoustic)和语言 (Language)的组合体。 语音:是由一连串的音组成语言的声音。
信息科学与工程学院
东南大学
2.2 语音和语言
人的说话过程可以分为五个阶段:(1)想 说阶段(2)说出阶段(3)传送阶段(4) 接收阶段(5)理解阶段
信息科学与工程学院
东南大学
2.2 语音和语言
语音是一种声波,声波的特征属性:
音色:也叫音质,指包含的谐波成分,是不同 声音相互区别的基本特征。 音调:声波的频率。 音高:声波的强度或者振动幅度决定。 音长:发音的持续时间。
信息科学与工程学院
东南大学
2.2 语音和语言
音节:说话时发出的响亮中心,并被明显 感觉到的语音片段叫音节(Syllable)。
一个音素
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
‘星 ’:一个音节
‘天 ’:一个音节
-1
0
ቤተ መጻሕፍቲ ባይዱ
1000
2000
3000
4000
5000
6000
7000
信息科学与工程学院
东南大学
2.2 语音和语言
元音和辅音的区别:
元音:元音是在发音过程中由气流通过口腔而 不受阻碍发出的音。发音时从肺部呼出的气流 通过起共振作用的口腔,阻力极小并无摩擦声 音的语音。 辅音:呼出的声流,由于通路的某一部分封闭 起来或受到阻碍,气流被阻不能畅通,而克服 发音器官的这种阻碍而产生的音素称为辅音。
东南大学
2.2 语音和语言
Yogurt有两个音节yo-gurt
1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1
yo0 2000 4000 6000
-gurt
8000 10000 12000
信息科学与工程学院
东南大学
2.2 语音和语言
Companions有3个音节, Com-pa-nions
英语单词发音时,是几个字母几个字母地拼起 来发音的,几个拼起来发音的字母叫一个音节 如单词China,划分成chi-na两个音节,单词 international分成in-ter-na-tio-nal五个音节,单 词English划分成Eng-lish两个音节。 而汉语则是一个字一个音节
信息科学与工程学院
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语韵母的结构
8个单韵母,如[a]、[i]、[u]等; 14个复韵母,如[ai]、[ao]等; 16个鼻韵母如[an]、[uang]等。
应该注意,元音并不等于韵母。元音、辅 音是按音素的发音特征分类的;而声母、 韵母则是按音节结构分类的。这是两种不 同的概念,尽管它们之间有一定的联系。
第2章 语音信号处理的基础知识
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
信息科学与工程学院
东南大学
2.1 概述
语音信号处理是用数字信号处理技术对语 音信号进行分析和研究的学科,其目的:
一是要得到反映语音信号重要特征的语音参数, 以便高效的传输或储存语音信号; 二是要通过运算,实现语音信号的应用,如语 音合成、辨识讲话者、识别讲话内容等等。
0.8
com0.6 0.4 0.2 0 -0.2 -0.4 0
-pa-
-nions
5000
10000
15000
信息科学与工程学院
东南大学
2.2 语音和语言
‘但我也爱星天’
1
但
0.8
我
也
爱
星
天
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
0
2000
4000
6000
8000
10000
12000
14000
16000
信息科学与工程学院
东南大学
2.2 语音和语言
一个音节可以由一个音素(Phoneme)构 成,也可以由几个音素构成。 音素:是语音发音的最小单位。分为元音 (Vowel)和辅音(Consonant)两类。
信息科学与工程学院
东南大学
2.2 语音和语言
中文‘星天’
1 0.8
一个音素 一个音素 一个音素