语音信号处理第2章-语音信号基础

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Magnitude
10
-1
0
1
2
3 Frequence
4
5
6
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
级联型
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
并联型
对于非一般元音以及大部分辅音,必须考虑采 用零极点模型。此时,模型的传输函数如下:
V ( z)
R
信息科学与工程学院
东南大学
2.2 语音和语言
语音是一种声波,声波的特征属性:
音色:也叫音质,指包含的谐波成分,声音区 别的基本特征。 音调:声波的频率。 音高:声波的强度或者振动幅度决定。 音长:发音的持续时间。
信息科学与工程学院
东南大学
2.2 语音和语言
音节:说话时发出的响亮中心,并被明显 感觉到的语音片段叫音节(Syllable)。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
汉语的每个汉字是一个音节,音节一般由声母 、韵母和声调三部分组成。 汉语音节的一般结构,由9个部分组成。其中1 ~4段属于声母(辅音),6~9段属于韵母( 元音),第5段是二者的过渡段。一个音节可 能只包含里面的某几段,但是第7段(主要元 音段)是每个音节是具有的。 汉语中一般有五个声调,即阴平、阳平、上声 、去声以及轻声。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
听觉系统
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统:时频分析和掩蔽
时频分析:如果信号是一个多频率信号,则产 生的行波将沿着基底膜在不同的位置产生最大 幅度。耳蜗就象一个频谱分析仪,将复杂的信 号分解成各种频率分量。 掩蔽效应:并非所有的声音都能被人耳听到, 这取决于声音的强度和其频率范围。心理声学 中的听觉掩蔽效应是指,在一个强信号附近, 弱信号将变得不可闻,被掩蔽掉了。掩蔽效应 分为同时掩蔽和短时掩蔽。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
激励模型 浊音激励
浊音:由于声带不断张开和关闭,将产生间歇的 脉冲波,因此浊音激励波是一个以基音周期为 周期的斜三角脉冲串,其数学表达式如下:
(1 / 2)[1 cos(n / N 1 )], 0 n N 1 g (n) cos[ (n N 1 ) / 2 N 2 ], N 1 n N 1 N 2 0, 其他
英语单词发音时,是几个字母几个字母地拼起 来发音的,几个拼起来发音的字母叫一个音节 如单词China,划分成chi-na两个音节,单词 international分成in-ter-na-tio-nal五个音节,单 词English划分成Eng-lish两个音节。 而汉语则是一个字一个音节
信息科学与工程学院
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
级联型
声道是一组串联的二阶谐振器:从共振峰理论 来看,整个声道具有多个谐振频率和多个反谐 振频率,所以它可被模拟为一个零极点的数学 模型; 对于一般元音,则用全极点模型,传输函数可 分解表示为多个二阶极点的网络的串联:
V ( z)
b
r 0 N k 1
r
z r
1 ak z k
通常,N>R,则上式可分解为如下部分分式之 和的形式:
Ai V ( z) 1 2 1 B z C z i 1 i i
M
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
并联型
M=5时的并联型共振峰模型
信息科学与工程学院
东南大学
2.2 语音和语言
元音
信息科学与工程学院
东南大学
2.2 语音和语言
辅音(清音)
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语语音的特点:
音系简单。这是指音素少、音节少。音节的结 构也比较简单。 由于清辅音多,而且多是弱清音,而且开口呼 的音节占全部音节的一半以上,所以汉语语音 听感上有清亮、高扬和舒服、柔和的感觉。 有鲜明的轻重音和儿化韵,所以字词分隔清楚 ,语言表达准确而丰富。
东南大学
2.2 语音和语言
信息科学与工程学院
东南大学Байду номын сангаас
2.2 语音和语言
一个音节可以由一个音素(Phoneme)构 成,也可以由几个音素构成。 音素:是语音发音的最小单位。分为元音 (Vowel)和辅音(Consonant)两类。
信息科学与工程学院
东南大学
2.2 语音和语言
元音:元音是在发音过程中由气流通过口 腔而不受阻碍发出的音。发音时从肺部呼 出的气流通过起共振作用的口腔,阻力极 小并无摩擦声音的语音。 辅音:呼出的声流,由于通路的某一部分 封闭起来或受到阻碍,气流被阻不能畅通, 而克服发音器官的这种阻碍而产生的音素 称为辅音。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
同时掩蔽
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
短时掩蔽
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
语音信号是非平稳随机过程 短时分析:短段时间内表示语音信号时, 采用线性时不变模型。
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统
人耳由内耳、中耳和外耳三部分组成。 外耳由耳翼、外耳道和鼓膜构成。外耳在对声 音的感知中起着声源定位和声音放大的作用。 中耳包括由锤骨、砧骨和镫骨这三块听小骨构 成的听骨链以及咽鼓管等组成。中耳的作用是 进行声阻抗的变换,即将中耳两端的声阻抗匹 配起来,同时对内耳起着保护的作用 。 内耳的主要构成器官是耳蜗(Cochlea)。它是听 觉的受纳器,把声音通过机械变换产生神经发 放信号。
信息科学与工程学院 东南大学
2.3 汉语语音学
声母和韵母的相互作用——音征互载
声母和韵母的音征并不总是在各自的音段之内 ,而且又可能跨越两者的边界,即声母里可能 会带有韵母的信息,韵母里也可能带有声母的 信息,如辅音音渡。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话的声调只有阴平、阳平、上声、去 声以及“轻声”等五种声调。 声调的变化就是浊音基音周期(或基音频率) 的变化,各个韵母段中基音周期随时间的变化 产生了声调,变化的轨迹称为声调曲线。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话四种声调的典型曲线:
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音发音系统
人的发音器官包括:肺、气管、喉(包括声带 )、咽、鼻和口。这些器官共同形成一条形状 复杂的管道。 喉的部分称为声门。从声门到嘴唇的呼气通道 叫做声道(Vocal Tract)。声道的形状主要由 嘴唇、颚和舌头的位置来决定。由声道形状的 不断改变,而发出不同的语音。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
混合型
对于鼻化元音、阻塞音或摩擦音,腔体具有反 谐振特性,必须考虑零点,使之成为零极点模 型。 将级联模型和并联模型结合起来的混合模型也 许是比较完备的一种共振峰模型。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
混合型
信息科学与工程学院
东南大学
2.2语音和语言
人们讲话时发出的话语叫语音,语音 (Speech)是声音(Acoustic)和语言 (Language)的组合体。 语音:是由一连串的音组成语言的声音。
信息科学与工程学院
东南大学
2.2 语音和语言
人的说话过程可以分为五个阶段:(1)想 说阶段(2)说出阶段(3)传送阶段(4) 接收阶段(5)理解阶段
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语韵母的结构
8个单韵母,如[a]、[i]、[u]等; 14个复韵母,如[ai]、[ao]等; 16个鼻韵母如[an]、[uang]等。
应该注意,元音并不等于韵母。元音、辅 音是按音素的发音特征分类的;而声母、 韵母则是按音节结构分类的。这是两种不 同的概念,尽管它们之间有一定的联系。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
由于单个斜三角波的z变换形式为:
G( z ) 1 (1 e cT z 1 )2
而斜三角波的脉冲串可以看成单位脉冲串通过 斜三角波的滤波器,因此斜三角波脉冲串的模 型是单位脉冲和斜三角波的乘积
Av 1 U ( z ) G( z ) E ( z ) 1 1 z (1 e cT z 1 ) 2
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
辐射模型 辐射阻抗的公式如下:
z L () jLr Rr Rr jLr
r
128 8a , ,L 式中,R 9 (a是口唇张开时的开口 3c 半径),c是声波传播速度 辐射模型是一阶类高通滤波器,其等价的z变换
信息科学与工程学院
东南大学
2.2 语音和语言
根据发音时声带是否振动,分为浊音和清 音的区别。 通常元音为浊音,辅音为清音,但也有一 部分辅音发声是,声带振动,因此辅音中 有一部分是浊音。
信息科学与工程学院
东南大学
2.2 语音和语言
共振峰:共振峰参数是区别不同元音的重 要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 一般地说:区分语音是男声还是女声、是 成人声音还是儿童声音,共振峰频率的高 低是重要因素。
M
ai
1 2 1 b z c z k 1 i i
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
级联型
如二阶全极点传递函数
H ( z) 1 5 2 z 1 1
其极点和频谱响应为:
1 0.8 0.6 0.4
Imaginary Part
0.2 0 -0.2 -0.4 -0.6 -0.8 -1 -1 -0.5 0 Real Part 0.5 1 2
第2章 语音信号处理的基础知识
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
信息科学与工程学院
东南大学
2.1 概述
语音信号处理是用数字信号处理技术对语 音信号进行分析和研究的学科,其目的:
一是要得到反映语音信号重要特征的语音参数, 以便高效的传输或储存语音信号; 二是要通过运算,实现语音信号的应用,如语 音合成、辨识讲话者、识别讲话内容等等。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
清音激励
随机白噪声
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
声道模型 共振峰模型
一个元音用前三个共振峰来表示,而对于较复 杂的辅音或鼻音,用前五个以上的共振峰。 可以建立起三种实用的共振峰模型:级联型、 并联型和混合型。
r 2
R( z ) R0 (1 z 1 )
信息科学与工程学院 东南大学
2.5 语音信号生成的数学模型
语音信号的数学模型 完整的语音信号数字模型是:激励模型、 声道模型和辐射模型的串联。
基音频率F0
Av
声道参数 声门脉冲 模型G(z) 声道模型 v(z) 随机噪声 发生器 浊音/清音开关 辐射模型 R(z) 输出语音
信息科学与工程学院
东南大学
2.2 语音和语言
语音研究分为两类:
语言学:包括构成语言的语素、词、短语和句 子等的不同层次的单位,以及词法、句法、文 脉等语法和语义内容等。语言学是语音信号处 理的基础。 语音学:考虑的是语音产生、语音感知等的过 程以及语音中各个音的特征和分类等问题。语 音学发展成为三个主要分支:发音语音学、声 学语音学、听觉语音学。
信息科学与工程学院 东南大学
2.3 汉语语音学
汉语音节的一般结构
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语声母的结构
声母共有21个,[b]、[p]、[m]、[f]、[d]、[t]、 [n]、[l]、[g]、[k]、[h]、[j]、[q]、[x]、[zh]、 [ch]、[sh]、[r]、[z]、[c]、[s],可分为六大类 :擦音、塞音、塞擦音、边音、鼻音、零声母
相关文档
最新文档