第2章 语音信号常见特征的提取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
修正的自相关函数
26
2.4 短时平均幅度差函数
如果信号是周期的,周期为N,则相距为周期的整数倍的样点上的幅 值是相等的。
d ( n ) x ( n ) x ( n k ), k 0, N , 2 N
实际语音信号d ( n ) 不为零,但值很小,这些极小置出现在 整数倍周期位置上。 定义如下:
N 1 k
Fn ( k )
m 0
s(n + m )w 1( m ) s ( n m k ) w 2 ( m k )
27
63/8000=7.78m s
51/8000=6.38ms
N=401时对8kHz取 样的语音计算得到 的图,计算滞后k 大于0而小于250时 的短时平均幅度差 值。前两种情况是 对浊音语音段,第 三种情况是对清音 28 语音段。
第2章 语音信号常见特征提取
1
2.1 短时能量和平均幅度分析
1、短时能量分析
• 原理:语音信号能量随时间有相当大的变化,特别是清音段
的能量一般比浊音段的小得多。 • 定义:
En
m
[ x ( m ) w ( n m )]
2
m
x (m )h(n m ) x (n) h(n)
短时自相关分析在语音识别中可有下面两个方面的应用: 用来区分清音和浊音,因为浊音信号是准周期性的,对浊 音语音可以用自相关函数求出语音波形序列的基音周期; 另外在进行语音信号的线性预测分析时,也要用到短时自 相关函数。
22
63/8000=7.78m s
51/8000=6.38ms
N=401时对8kHz取 样的语音计算得到 的图,计算滞后k 大于0而小于250时 的自相关值。前两 种情况是对浊音语 音段,第三种情况 是对清音语音段。 23
2 2
h(n) w (n)
2
2
窗长对分辨率的影响
窗长越长,频率分辨率越高,而时间分辨率越低 决定短时能量特性有两个条件:不同的窗口的形状 和长度。
窗口形状:
矩形窗:
j T
1 w( n ) = 0
0 n N 1 其它
W (e
)
N 1
e
j n T
sin ( N T 2 ) sin ( T 2 )
14
短时过零分析的意义:
• 可以区分清音与浊音:浊音时具有较低的平均过零数,
而清音时具有较高的平均过零数。
• 利用它可以从背景噪声中找出语音信号,可用于判断寂
静无语音和有语音的起点和终点位置。
• 在背景噪声较小时用平均能量识别较为有效,而在背景
噪声较大时用平均过零数识别较为有效。
15
无声:S 清音:U 浊音:V
19
短时自相关函数:
Rn (k )
m
x ( m ) w ( n m ) x ( m k ) w ( n ( m k ))
mn
n N k 1
x
w
(m ) xw (m k )
k是最大延时点数。 由于自相关函数是偶函数,所以上式可写成:
Rn (k ) Rn ( k )
短时自相关函数和短时平均幅度差函数的关系:
Fn (k ) 2 R 1/ 2 ( k )[ R n ( 0 ) R n ( k )]
短时平均幅度差计算加、减法和和取绝对值的运算,与自 相关函数的相加与相乘的运算相比,其运算量大大减小, 尤其在硬件实现语音信号分析时有很大好处。为此, AMDF已被用在许多实时语音处理系统中。
m
sgn[ x ( m )] sgn[ x ( m 1)] w ( n m )
sgn[ x w ( m )] sgn[ x w ( m 1)] w ( n )
其中:
1 sgn[ x ( n )] 1 x(n) 0 x(n) 0 1 / 2 N w(n) 0 0 n N 1 其它
m
x ( m ) x ( m k )[ w ( n m ) w ( n m k )]
20
如果定义:
hk ( n ) w ( n ) w ( n k )
则上式可写为:
Rn (k )
意义:可用自相关函数求 基音周期;在进行语音信 号的线性预测分析时,也 要用到自相关函数。
m
[ x ( m ) x ( m k )] h k ( n m )
[ x ( n ) x ( n k )] h k ( n )
所以,短时自相关函数可看作序列 [ x ( n ) x ( n k )] 通过单位 样值响应为 h ( n ) 的数字滤波器的输出。
k
21
浊音的短时平均幅度最大,过零率 最低 清音短时平均幅度居中,过零率最 高 无声的短时平均幅度最低,过零率 居中
16
2.3 短时相关分析
• 互相关可测定两个信号间的时间滞后或从杂音
中检测信号;
• 自相关用于研究信号本身,如信号波形的同步
性、周期性等 。
17
自相关函数 确定性离散信号
R (k )
R n (k )
m
x ( m ) w1 ( n m ) x ( m k ) w 2 ( n m k )
或
R n (k ) x ( n m ) w1 ( m ) x ( n m k ) w 2 ( m k )
24
m
矩形窗时:
• 作为一种超音段信息,用于语音识别中。
10
2.2 短时过零分析
• 定义:过零就是信号通过零值。
• 连续语音信号,考察其时域波形通过时间轴的情况; • 离散时间信号,相邻的取样值改变符号则称为过零。
• 语音信号序列是宽带信号, 则不能简单用上面的 公式。
11
语音信号短时过零分析
• 定义: Z n
矩形窗谱平滑性能好,但损失高频成分,波形细节 丢失,海明窗与之相反。
4
N=51的直角窗 和海明窗的对 数幅频特性。 海明窗的第一 个零值频率位 置比直角窗要 大1倍左右,同 时其带外衰减 也比直角窗大 得多。
5
窗口的长度:
这里窗长的选择对于反映语音信号的幅度变化起着决定的作 用。如果很大,它等效于很窄的低通滤波器,此时随时间的 变化很小,不能反映语音信号的幅度变化,信号的变化细节 就看不出来;反之,窗长太小时,滤波器的通带变宽,随时 间有急剧的变化,不能得到平滑的能量函数。 标准:一帧内含有1~7个基音周期,10kHz取样下,N 取100~200点。
m
s(m )s(m k )
随机信号或周期性信号
R ( k ) lim 1 2N 1
N
x(m ) x(m k )
mN
N
18
自相关函数的性质 1偶函数:
R (k ) R ( k )
2 k=0时函数取最大值,对于确定性信号其值 为能量。对于随机信号,其值为该信号的平均 功率。 3 如果原序列是周期为T的周期信号,那么自相 关函数也是周期为T的周期函数。 4 R (0)等于确定性信号的能量或随机性信号的 平均功率。
36
N=500时海明窗与直角窗的浊音谱分析
37
N=50时海明窗与直角窗的浊音谱分析
38
短时傅里叶变换的滤波器解释:
X n (e
j
)
m
[ x (m )e
j m
]w ( n m ) X n (e
e
j T ( N 1) 2
n0
第一个零点:
f 01 f s N 1 N T s
3
海明窗:
0 .5 4 0 .4 6 co s( 2 n ( N 1)) w (n) 0 其 它 0 n N 1
第一个零点: f 01
2 f s N 2 N Ts
Rn (k )
m
w(n m ) x(m )w(n k m ) x(m k )
33
短时傅里叶变换为另一种形式:
可得到
34
窗口序列的作用
窗函数应具有如下特性: ①频率分辨率高,即主瓣狭窄、尖锐; ②通过卷积,在其他频率成分产生的频谱泄漏少, 即旁瓣衰减大。 这两个要求实际上相互矛盾,不能同时满足。
j 2 k N
X n (e
) X n (k )
m
x ( m ) w (n m )e
j
2 km N
(0 k N 1)
两个公式都有两种解释:①当n固定不变时,它们 是序列w(n-m)x(m)的标准傅里叶变换或标准的离散 傅里叶变换。此时 X n (e jw ) 与标准傅里叶变换具有相 同的性质,而 X n (k ) 与标准的离散傅里叶变换具 有相同的特性。②当w或k固定时, n (e jw ) 和 X n (k ) 看 X 作是时间n的函数。它们是信号序列和窗口函数序列 的卷积,此时窗口的作用相当于一个滤波器。
29
2.5 短时傅里叶变换
1. 短时傅里叶变换的定义:
X n (e
jw
)
m
x(m) w(n m)e
jwm
短时傅里叶变换有两个自变量:n 和 ;所以 它既是关于时间 n 的离散函数,又是关于角频 率的连续函数。
30
令 w 2k N ,则得离散的短时傅里叶变换 :
31
2. 标准傅里叶的解释
此时,短时傅里叶变换为:
X n (e
jw
)
m
x(m) w(n m)e
jwm
32
根据功率谱的定义,短时功率谱和短时傅里叶变换之间的 关系为:
S n (e
j
) X n (e
j
)X
*
ቤተ መጻሕፍቲ ባይዱ
(e n
j
) X n (e
j
)
2
短时功率谱是短时自相关函数的傅里叶变换:
j
W (e
)主瓣宽度与窗口宽度成反比。
35
采 样 周 期 Ts 1 f s 、 窗 口 长 度 N 和 频 率 分 辨 率 f 之 间 存 在 如 下 关 系 :
f 1 N Ts
可见,采样周期一定时, f 随窗口宽度 N 的增加而减小,即 频率分辨率相应得到提高,但同时时间分辨率降低;如果窗 口取短,频率分辨率下降,而时间分辨率提高,因而二者是 矛盾的。
修正的短时自相关函数:
由于基音周期的范围很宽,所以应使窗宽匹配于预期的基音 周期。长基音周期用窄的窗,将得不到预期的基音周期;而 短基音周期用宽的窗,自相关函数将对许多个基音周期作平 均计算,这是不必要的。为此可采用自适应于基音周期的窗 口长度法,可用“修正的短时自相关函数”来代替短时自相 关函数。
6
Example
Speech x(n):
/What she said/
7
5 4.5 4 3.5 3 2.5 2 1.5 1
x 10
-3
• Short time
0.5 0.2 0
1
2
Waveform of wav file 3
4
5 x 10
6
4
energy of words “Do you like it Do you like it”
0.15
0.1
Amplititude
0.05
0
-0.05
-0.1
-0.15
8
0 500 1000 Time :ms 1500 2000 2500
2、短时平均幅度分析
• 定义: • 框图:
M
n
m
x(m ) w(n m )
• 优点:
1、对高电平信号不如En敏感; 2、计算方法简单。
1, (m ) w1 0,
1, (m ) w2 0,
N 1
0 m N 1 其他
0 m N 1 k 其他
R n (k )
m 0
x(n m ) x(n m k )
(0 k K )
这里K 是最大的延迟点数。
25
加矩形 窗
•
缺点:浊音和清音的区分不如En明显。
9
短时平均能量和短时平均幅度的主要用途:
• 可以区分清音段与浊音段:En 值大的对应于浊 音段,而En 值小的对应于清音段。En 值的变化,
可大致判定浊音变为清音或清音变为浊音的时刻。
• 可以用来区分声母与韵母的分界,无声与有声的
分界,连字(指字之间无间隙)的分界等。
•框图:
12
13
短时门限过零率
门限 3 门限 2 门限 1 门限 1 门限 2 门限 3 时间
Zn
m
{ sgn[
x ( m ) T ] sgn[ x ( m 1) T ]
sgn[ x ( m ) T ] sgn[ x ( m 1) T ] } w ( n m )