2、语音信号处理(一)_语音常见参数分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
37
•两个问题: •1)窗函数:选择矩形窗,且窗长大于两个基音周期。 •2)去除声道的影响。
解决方法:
1)减小共振峰影响,使用一个60~900Hz的带通滤波器。
2)进行非线性变换,如中心削波。
38
中心削波即是一种非线性处理,用以削除语音信号的低幅度 部分,即y(n)=C[x(n)],其削波特性及工作过程如下图所示。
2 [ s ( m )]
4
短时能量分析
决定短时能量特性有两个条件:不同的窗口的形状和长度。 窗长越长,频率分辨率越高,而时间分辨率越低
E n M
N n M 1 m n M
2 [ s ( m ) w ( m n M )]
2 2 s ( m ) h ( n m ) s (n ) h(n )
X (e ) X (e ) e
j j
j arg[ X ( e j )]
ˆ (e j ) F [ y Y ˆ (n)] j j ˆ Y (e ) exp[Y (e )] y (n) F 1[Y (e j )]
ˆ (e j ) ln[ X (e j )] ln X (e j ) j arg[ X (e j )] X
海明窗:
0.54 0.46 cos(2n /(M 1)) w(n ) 0 其它
6
典型的窗函数的频谱
矩形窗谱平滑性能好,但损失高频成分,波形细节丢失, 海明窗与之相反。 7
窗口的长度: 这里窗长的选择对于反映语音信号的幅度变化起着决定的作 用。如果很大,它等效于很窄的低通滤波器,此时随时间的 变化很小,不能反映语音信号的幅度变化,信号的变化细节 就看不出来;反之,窗长太小时,滤波器的通带变宽,随时 间有急剧的变化,不能得到平滑的能量函数。 标准:一帧内含有1~7个基音周期,10kHz取样下,M 取100~200点。
• 在背景噪声较小时用平均能量识别较为有效,而在背景 噪声较大时用平均过零数识别较为有效。
13
无声:S 清音:U
浊音:V
浊音的短时平均幅度最大,过零率 最低 清音短时平均幅度居中,过零率最 高 无声的短时平均幅度最低,过零率 居中
14
短时相关分析
• 自相关用于研究信号本身,如信号波形的同步 性、周期性等 。
15
自相关函数 确定性离散信号
R(k )
m
s(m)s(m k )
16
短时自相关函数:
Rn (k )
m
x(m)w(n m) x(m k )w(n (m k ))
mn
n N k 1
x
w
( m) x w ( m k )
C[x]
-CL
+CL
x
x ( n) C L y (n) C[ x(n)] 0 x ( n) C L
x ( n) C L | x(n) | CL x(n) CL
39
为了减少运算量,可以采用三电平中心削波
C[x]
+1 -1
-CL
+CL
x
x ( n) C L 1 y (n) C[ x(n)] 0 | x(n) | CL 1 x(n) C L
m
[ x(m) x(m k )]h (n m)
[ x(n) x(n k )] hk (n)
所以,短时自相关函数可看作序列 [ x(n) x(n k )] 通过单位 样值响应为 hk (n) 的数字滤波器的输出。
18
短时自相关分析在语音识别中可有下面两个方面的应用:
sgn[ xw (m)] sgn[ xw (m 1)] w(n)
其中:
x ( n) 0 1 sgn[ x(n)] 1 x(n) 0
•框图:
1 / 2 N w(n) 0
0 n N 1 其它
11
12
短时过零分析的意义:
• 可以区分清音与浊音:浊音时具有较低的平均过零数, 而清音时具有较高的平均过零数。 • 利用它可以从背景噪声中找出语音信号,可用于判断寂 静无语音和有语音的起点和终点位置。
用来区分清音和浊音,因为浊音信号是准周期性的,对浊 音语音可以用自相关函数求出语音波形序列的基音周期;
另外在进行语音信号的线性预测分析时,也要用到短时自 相关函数。
19
加矩形 窗
修正的自相关函数
20
短时平均幅度差函数
如果信号是周期的,周期为N,则相距为周期的整数倍的样点上的幅 值是相等的。
d (n) x(n) x(n k ), k 0, N , 2 N
x(n) x1 (n) * x2 (n)
H []
y (n) y1 (n) * y2 (n)
29
卷积同态系统:
x(n) D* x ˆ(n) L(.) y ˆ(n) D*
-1
y(n)
特征系统 D*
x(n) Z(.) X(z) log(.)
ˆ(z) X
Z (.)
-1
x ˆ(n)
反特征系统 D*-1:它是特征系统的反运算
第二节课 语音信号常见特征提取
1
语音的强度
设语音信号为:
������(������)
则语音的强度为: [������ ������ ]������������������ -[������ ������ ]������������������
2
短时能量分析
0 N-1
设语音信号为:
������(������)
(a)
(b)
(c)
(d)
浊语音的倒谱和复倒谱实例
32
先用窗w(n)选择一个语音段,再计算复倒谱,然后将欲得到 l ( n) 的复倒谱分量用一个“复倒谱窗”分离出来。所得到的窗选 复倒谱用逆特征系统进行处理以恢复所需的卷积分量。
33
(a)
(b)
浊音语音用同态滤波分离出声门激励和声道响应的示例
上图给出了经过滤波和逆特征系统处理后的结果。图(a)为经 过低复倒谱窗l(n)和 之后的输出波形即声道冲击响应,图(b) 给出了声门激励信号。可以看出声门激励波形近视于一个冲击串, 其幅度随时间变化保持了用来加权输入信号所用的海明窗形状。
短时自相关函数和短时平均幅度差函数的关系:
2 Fn (k ) (k )[ Rn (0) Rn (k )]1 / 2 R
短时平均幅度差计算加、减法和和取绝对值的运算,与自 相关函数的相加与相乘的运算相比,其运算量大大减小, 尤其在硬件实现语音信号分析时有很大好处。为此, AMDF已被用在许多实时语音处理系统中。
23
短时傅里叶变换
1. 短时傅里叶变换的定义:
X n (e )
jw
m
x(m)w(n m)e
jwm
短时傅里叶变换有两个自变量:n 和 ;所以 它既是关于时间 n 的离散函数,又是关于角频 率的连续函数。
24
根据功率谱的定义,短时功率谱和短时傅里叶变换之间的 关系为:
y ˆ(n) Z(.)
ˆ(z) Y
exp(.)
Y(z)
Z (.)
-1
y(n)
30
特征系统 D*
反特征系统D*-1
F [ x(n)] X (e j ) ˆ j j X ( e ) ln[ X ( e )] 1 ˆ j ˆ x ( n ) F [ X ( e )]
是一个完全周期的序列 。
要从语音信号中去除声道的影响,直接取出仅
与声带振动有关的声源信息并非易事 。
在浊音段很难精确地确定每个基音周期的开始
和结束位置 。
基音周期变化范围较大,从低音男声的 80Hz 直
到女孩的500Hz。
36
自相关法
浊音信号的自相关函数在基音周期的整数倍位
置上出现峰值,而清音的自相关函数没有明显 的峰值出现 。 峰—峰值之间对应的就是基音周期 。 基音的周期性和共振峰的周期性混在一起时, 被检测出来的峰值就可能会偏离原来峰值的真 实位置。
40
语音信号经过中心削波后自关函数具有更尖锐峰起的示例
41
倒谱法
上图(a)为 ln X (e ) 的示意图,它包括两个分量:相应于频谱 包络的慢变分量(如虚线所示),以及相应于基音谐波峰值的快 变分量(如实线所示)。通过滤波或再取一次傅里叶反变换,即 可将慢变分量与快变分量分离开。图(b)为倒谱c(n)的示意图, 其中靠近原点的低倒频部分是频谱包络的变换,而位于t0处的 窄峰为谐波峰值的变换,表示基音。基音峰值的变换与频谱包 络变换之间的间隔总是足够大,从而前者很容易加以识别。
34
(a)
(b) 清语音的同态分析
上图给出了相同条件下一段加窗语音的时域波形及其倒谱。图(a)是一 个海明窗乘过的清音语音段,图(b)为相应的倒谱。可见倒谱中没有出现 在浊音情况下的那种尖峰,然而倒谱的低时域部分包含了关于声道冲击响 应的信息。
35
基音周期的提取
基音周期检测难点
语音信号变化十分复杂,声门激励的波形并不
En
m
2 [ s ( m ) w ( n m )]
m
h(n ) w 2(n )
5
典型的窗函数
矩形窗:
1 w(n )
0 n M 1 0 其它
汉宁窗:
0.5 0.5 cos(2n /(M 1)) w(n ) 0 其它
ˆ (e j )的实部:c(n) F 1[ln X (e j ) ] 只考虑X
c(n) 是序列 x(n) 对数幅度谱的傅里叶逆变换, c(n) 称为“倒 频谱”或简称为“倒谱”,有时也称“对数倒频谱”。
31
实例分析
窗 长 为 15ms , fs=10kHz , 因此共包 括 150个语 音样点。 这段语音 用海明窗 加权,基 音周期为 Np=45。
N 1 m 0
2 [ s ( m )]
正确的语音的强度为: E 0
3
短时能量分析
M
N+M-1
EM
N M 1
[s(m )] m M
N n M 1 m n M
2
N称为语音短时分析的帧长 Frame Length M称为语音短时分析的歩长 Step
E n M
Sn (e j ) X n (e j ) X *n (e j ) X n (e j ) 2
短时功率谱是短时自相关函数的傅里叶变换:
Rn (k )
m
w(n m) x(m)w(n k m) x(m k )
25
N=500时海明窗与直角窗的浊音谱分析
26
N=50时海明窗与直角窗的浊音谱分析
8
Example
Speech x(n): /What she said/
9
短时平均幅度分析
• 定义:
Mn
m
x(m) w(n m)
• 框图:
• 优点:计算方法简单。 • 缺点:浊音和清音的区分不如能量明显。
10
语音短时过零分析
• 定义: Z n
m
sgn[ x(m)] sgn[ x(m 1)] w(n m)
k是最大延时点数。
由于自相关函数是偶函数,所以上式可写成:
Rn (k ) Rn (k )
m
x(m) x(m k )[w(n m)w(n m k )]
17
百度文库 如果定义:
hk (n) w(n)w(n k )
则上式可写为:
Rn (k )
k
意义:可用自相关函数求 基音周期;在进行语音信 号的线性预测分析时,也 要用到自相关函数。
27
语音信号的倒谱分析
求语音倒谱特征参数,通过同态处理来实现。 同态处理(同态滤波):解卷,将卷积关系变为求和处理。 将语音信号的声门激励和声道响应分离开。
28
同态信号处理的基本原理
• 信号分类:加性信号、乘积性信号、卷积性信号等。 • 同态信号处理目的:将非线性问题转化为线性问题来 处理。 • 同态信号处理分类:乘积同态处理和卷积同态处理两 种。
实际语音信号d (n) 不为零,但值很小,这些极小置出现在 整数倍周期位置上。
定义如下:
Fn (k )
N 1 k m0
s(n+ m)w1(m) s(n m k )w2(m k )
21
63/8000=7.78m s
51/8000=6.38ms
N=401时对8kHz取 样的语音计算得到 的图,计算滞后 k 大于0而小于250时 的短时平均幅度差 值。前两种情况是 对浊音语音段,第 三种情况是对清音 22 语音段。