语音信号的时域及频域特征
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
h [ n r ] x[m]w[r m]e jm e jn d m rS
1 x[m] 2 m
j ( nm ) d h[n r ] w[r m] e rS
rS
jn
d
(9)
公式(8)中的 短时谱。
h[n r ] X (r , ) 项可以理解为利用插值滤波器 h[r ] 得到在 n 时刻的
rS
9
证明:
右边
1 2
e h[n r ] X (r, )
rS
jn
d
1 2
5
2.1.2. 语音的短时能量、短时平均幅度和短时过零率
(1)短时能量:
E s 2 ( n)
n0
N 1
( 1)
(2)短时平均幅度: M (3)短时过零率:
s ( n)
n 0
N 1
( 2)
N 1 Z1 2 sgn[ s ( n)] sgn[ s ( n 1)] n0 1 x0 其中sgn[ n] 1 x 0
16
图 3. 浊音信号的傅立叶分析谱
17
3.4.3. 元音三角形图
所谓的元音三角形图就是指不同元音的 F1、F2 共振峰频率在平面图上的关系。
18
3.5. 清音谱特征
清音的频谱无明显的规律, 比较平坦。 在语音识别中使用统计模型的方法加以解决。
4. 基音与四声
4.1. 基音周期与基音频率
1)基音的周期就是声带振动的周期。基音周期的倒数就是基音频率。 2)基音是与人的声带长度、质量等物理量有关。因此与人的年龄、性别、情绪等 生理状态有关。
( 6)
所以有
f (t ) e
w(t t ) dt
ˆ dt f ( )
ˆ ( ) | 所精确地分解。这正是我们所希望的性 ˆ 这说明 f ( ) 可以被加窗后的短时谱 f w t0
8
质。 更一般地,若 X ( r , ) 是语音序列 x[ n] 的在时刻 r 的短时傅利叶变换
r 取值为周期时刻采样分析短时谱,间隔为
h(n)
w( n)
T N 2。
N
h( n )
w(n)
h ( n ) w( n )
k
w [ kT n ] 1
h ( n T ) w (T n )
h(n 2T )w(2T n)
N
N
N
T
T
N
11
3.2. 窗函数性质
汉语的声调起着辨字、辨义的作用。
4.4.1. 汉语孤立字的四声
阴平-------一声 阳平--------二声 上声--------三声 去声--------四声
22
图 5. 语音(浊音)的自相关函数和 AMDF 曲线
23
(3)中心削波法 在计算语音信号的自关函数时,为了提高效率,减少干扰,可以先对语音信号进行 中心削波,然后再计算自相关函数。 根据实验观察,自相关函数 R (l ) 的局部峰值点位置与语音幅度的峰值点位置重合。 根据这个特点, 在自关法中只需要计算这些峰值点位置的自关函数 R (l ) , 然后再搜索比 较即可得到信号的基音周期。
e
,这个窗函数有如下
性质:
w(t t 0 ) dt 0
w(t ) dt 1
fˆ w ( ) |t 0 dt 0
jt
f (t ) w(t t ) e
0 0 0
jt
dt dt0
7
傅立叶短时谱分析与窗的形状和位置有关(与时刻有关) 。假设窗函数为 w(t ) ,那 么信号 f (t ) 的短时傅立叶变换为
ˆ ( ) | f w t0
f (t ) w(t t
0
) e jt dt 1 2 a
t2 4a
( 5)
例如,如果选择窗的形式为一个高斯函数 w(t )
24
25
4.2.2. 频域上的基音检测方法
在频域中,常常是用谐波分析法,即对浊音信号的谱线结构进行分析来计算得到基 音周期。
[注意] 在频域上可能不存在与基频对应的谱线。
4.3. 基音的平滑
由于在基音的提取过程中不可避免地要产生误差, 主要是基音周期减半或加倍的现 象(根据方法的不同,误差的现象会有所不同) 。一般情况下 90%左右的基音周期都会 被准确提取,但是总有少部分的基音是提取不准确的。因此需要采取平滑的方法去掉这 些奇异点。 在语音编码和汉语四声识别中,基音平滑直接影响到系统的性能。
在这里 S w(n) 是加窗截取的一段语音信号。 假设 T 为语音信号的基音周期,当 l n T , n 1,2 , 时, (l ) 函数接近局部极 小值。 AMDF 算法特点:只用到简单的加减法运算,没有使用乘法运算。适合于早期普通 的 CPU,因为这种 CPU 的乘法操作要比加减法操作费时。
(10)
1 x[m] h[n r ] w[r m] m rS 2
e
j ( n m )
d
1 由于 2
1 , m n j ( n m ) e d 0 , m n
(11)
右边 x[n] h[n r ] w[r n] x[n] r
第一章 语音信号的时域及频域特征
1. 语音信号的主要特点
1.1. 语音信号带宽
语音信号的带宽约为 5KHz , 主要能量集中在低频段。 上图为一段语音信号语谱图。
1
1.2. 语音信号是典型的随机信号
1)人的每次发音过程都是一个随机过程。很难得到两次完全相同的发音样本。 2)在信号处理中,通常假设语音信号是短时平稳的。例如,可以认为在语音的浊 音段部分,语音的二阶矩统计量是平稳的(在 5~10mS 内),即二阶矩平稳,或称为宽平 稳。
布莱克曼(Blackman)窗:
w(n) 0.42 0.5 cos(
0 n N 1
2n 4n ) 0.08 cos( ) N 1 N 1
13
Time domain 1 0.9 0.8 0.7
Amplitude
Frequency domain 40 20 0 -20
Magnitude (dB)
X (r , )
若满足条件
m
x[m]w[r m]e
jm
(7)
h[n r ]w[r n] 1 , n Z ,S 为短时谱取样时刻值的集合
rS
(8)
则语音序列 x[ n] 可以由短时谱精确重构:
x[n]
1 2
e h[n r ] X (r, )
对于时域离散信号 x (n) ,短时傅立叶变换定义:
X n (e j )
m
x(m) w(n m) e
1, 0 n N 1 n 其它 0,
jm
这里 w( n) 为窗函数。例如,常用的窗函数有 矩形窗: w( n)
汉明窗: w( n)
21
(2)自相关法 定义语音的自相关函数为:
R (l )
N l 1 n 0
S
w
( n l ) S w ( n)
当 l n T , n 1,2 , 时, R(l) 函数接近局部极大值。 自相关法特点:在这个算法中使用了乘-累加操作。在数字信号处理器中有专门的 硬件指令来快速完成(只要一个周期)这种乘-累加运算。因此这种算法在 DSP 中得到 了普遍的应用。 无论是使用 AMDF 法或是自关法求语音信号的基音周期,都要在基音周期 T 的范 围内 [Tmin , Tmax ] 搜索 (l ) 或 R(l) 的极值点位置。一般取 0.5 Tmin l 1.5 Tmax ,先计 算所有的 (l ) 或 R(l) 值,然后再搜索得到基音。
10
(12)
当短时谱为使用 DFT 计算时,可以证明窗函数和插值函数需要满足一下条件:
r
h(n r ) w(r n pN ) ( p)
(13)
例如,我们可以特别地选择 W ( n) 为窗长为 N 的三角窗,而 h[ n] 为矩形窗,
1 n [0, N 1] h[ n] 0 其它
26
几种常用基音平滑方法: (1)非线性平滑 例如:采用中值平滑。
5点 中值平滑 3点 中值平滑
(2)线性平滑 例如:采用 FIR 滤波器进行低通滤波平滑
FIR 滤波平滑
(3)组合平滑 例如: (1)和(2)方法的组合
中值平滑
线性平滑
27
中值平滑
线性平滑
延迟
Βιβλιοθήκη Baidu
延迟
中值平滑
线性平滑
4.4. 汉语孤立字的基音调式
n/(N-1 ), 0 n N 1 0.54-0.46 cos2π n 其它 0,
汉宁窗(Hann) :
12
w(n)
1 2n 1 cos( ) , 0 n N 1 2 N 1
巴特利特窗(Bartlett) (三角形窗) :
N 1 2n ,0 n N 1 2 w(n) 2n N 1 2 , n N -1 2 N 1
( 3)
6
3. 语音信号的短时谱特征
3.1. 短时傅立叶谱分析
对于能量受限的时域信号 f (t ) ,它的傅立叶变换可以写成
ˆ f ( )
f (t ) e
j t
dt
( 4)
以上这个傅立叶变换, 在 “宏观上” 给出信号 f (t ) 的频谱信息, 但是却无法确定某个 “局 部”时间段频谱的确切信息。在语音信号中,信息是按照特定的时间序列方式出现的。 如果谱分析不能确定这种时间序列的次序(即位置) ,那么这种信号分析的手段在应用 上就会受到限制。同时我们也希望能够通过观测到的局部时域信号的频谱信息来了解 (构造)整个 f (t ) 的频谱信息。为此我们引入了所谓的短时傅立叶谱分析技术。 有许多技术都可以用来完成信号的短时谱分析。 最典型的就是小波变换和我们现在 常采用的傅立叶短时谱分析技术。
2
2. 语音信号的时域波形
图 1.
语音信号的波形(shi4)
3
图 2. 语音信号波形(shi4)的局部细节
4
2.1. 语音时域信号特征
2.1.1. 语音时域信号的特点
1)清音段:能量低,过零率高,波形特点有点像随机的噪声。这部分信号常与语 音的辅音段对应。 2)浊音段:能量高,过零率低,波形具有周期性特点。所谓的短时平稳性质就是 处于这个语音浊音(元音)段中。 3)过渡段:一般是指从辅音段向元音段信号变化之间的部分。信号变化快,是语 音信号处理中最复杂、困难的部分。
0.6 0.5 0.4 0.3 0.2 0.1 0 10 20 30 Samples 40 50
-40 -60 -80 -100 -120 -140 Rectangle Hamming Hann Blackman 0 0.2 0.4 0.6 0.8 Normalized Frequency ( rad/sample)
图 3 各种窗函数时域频域特性比较
14
3.3. 语谱图:
横轴表示时间,纵轴表示频率,用灰度表示对应频谱分量的信号强度。
15
3.4. 浊音谱特征
3.4.1. 浊音谱的谱线结构
谱线结构是与浊音信号中的周期信号密切相关的。 具有与基音及其谐波相对应的谱 线。
3.4.2. 浊音谱的共振峰结构
频谱包络中有几个凸起点,与声道的谐振频率相对应。这些凸起点称为共振峰 ( Formant) 。其频率称为共振峰频率。按频率由低到高依次为第一共振峰、第二共振 峰… 。相应频率用 F1、F2、F3… 来表示。
[注意]:音高(Pitch)与基音的关系。音高是听觉量,基音是物理量。正如冷热与温度的 关系一样。
19
图 4.
基音周期示意图
20
4.2. 基音的检测
4.2.1. 时域上的基音检测方法
(1)AMDF 法: 定义平均幅度差函数
(l )
N l 1 n0
S
w
( n l ) S w ( n)