3第三章 语音信号分析---时域分析 语音信号处理 课件
合集下载
语音信号处理PPT_第三章_语音信号分析
En
xn (m )
2
m 0
T[x]=x2
短时能量及短时平均幅度分析
En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即 它对高电平非常敏感(因为它计算时用的是信号的平方)。为此, 可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度 N 1 函数Mn,它定义为:
M
n
xn (m )
它与12位线性转换器等效。
预处理
由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端 大约在800Hz以上按6dB /倍频程跌落,要在预处理中进行预加重 (Preemphasis)处理。 预加重目的: 提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整 个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参 数分析。 预加重可在语音信号数字化时在反混叠滤波器之前进行,不仅可 以进行预加重,而且可以压缩吸纳后的动态范围,有效提高信噪 比。 预加重一般在语音信号数字化之后,利用数字滤波器实现: 1 H (z) 1 z 值接近1。
S N R ( d B ) 6 .0 2 B 7 .2
x2 X S N R ( d B ) 1 0 lg 2 6 .0 2 B 4 .7 7 2 0 lg m a x e x
A/D转换器分为线性和非线性转换器两类。 目前的线性A/D转换器绝大部分是12bits的(即每一个采样 脉冲转换为12位二进制数)。非线性A/D转换器则是8位的,
n n
短时相关分析
右图中:N=401,Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。
语音信号的基础知识课件
虚拟助手是一种能够协助用户完成日 常任务的应用。通过语音合成与识别 技术,虚拟助手能够理解用户的意图 ,提供相应的服务。例如,日程提醒 、天气查询、音乐播放等。
有声读物是一种将书籍转换为音频形 式的产品。通过语音合成技术,可以 将文字转换为自然语音朗读;通过语 音识别技术,可以方便地实现音频文 件的文字转录。有声读物的出现为那 些不方便阅读或视力不好的人群提供 了方便的阅读方式。
05 语音信号的未来发展
语音信号处理技术的发展趋势
01
深度学习算法的广泛应用
随着深度学习技术的不断发展,语音信号处理将更加依赖于深度学习算
法,如卷积神经网络、循环神经网络等,以提高语音识别的准确率和语
音合成的自然度。
02
端到端语音处理
端到端语音处理技术将逐步成为主流,这种技术能够直接将输入的语音
语音合成技术的原理
语音合成技术主要基于波形编码、统 计建模和深度学习等技术实现。其中 ,波形编码通过模仿人类发音器官的 动作,生成与人类语音相似的波形; 统计建模则通过建立声学模型和语言 模型,预测语音的波形;深度学习则 通过训练神经网络,学习语音的生成 过程。
语音合成技术的应用
语音合成技术的应用非常广泛,包括 智能客服、虚拟助手、有声读物等领 域。通过语音合成技术,这些应用能 够以自然的方式与用户进行交互,提 供更加智能化的服务。
语音识别
将语音信号转换为文本信息, 实现人机交互。
情感分析
通过分析语音信号中的情感特 征,实现情感识别和分类。
语音通信
利用语音信号进行远程通信, 是最常见的应用之一。
语音合成
将文本信息转换为语音信号, 用于自动播报、虚拟人物等领 域。
说话人识别
利用语音信号中的个性特征, 识别出说话人的身份。
3第三章 语音信号分析---时域分析 语音信号处理 课件
4/25/2021
32/66
存在的问题
短时能量函数一个主要的问题是En对信号电平值 过于敏感。由于需要计算信号样值的平方和,在实 际应用中(如定点设备)很容易溢出。因此,一般 用平均幅度函数Mn来代替En。但这时,清音和浊 音、有声和无声的幅度差不如短时能量明显。
4/25/2021
33/66
二、短时过零率分析
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
4/25/2021
xa(t) t
xa(nT) n
5/66
• Ideal sampling and real sampling
4/25/2021
6/66
3. A/D转换
对离散时间信号进行量化,在每一时刻对xa(nT) 独立进行量化,把给定的幅度连续的信号变成为有限 多个幅度的集合中某个幅度值的过程。
4/25/2021
37/66
1 0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
-1 0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号(在采样频 率为22050Hz的情况下,取20ms作为一 帧),短时过零率为46。
4/25/2021
第三章语音信号的数字分析
Pe
(e)
=
1 ∆
, − ∆ ≤ e(n) ≤ ∆
2
2
0 , 其它
在上述假设的统计模型下,量化噪声的均值和方差分别为:
∫ me
=
∆ 2
e( 1
)de
=
0
−∆2 ∆
∫ σ
2 e
=
∆ 2
−∆2
e2
(1 ∆
)de
=
∆2 12
信噪比:
∑∑ SNR
=
σ x2 σ e2
=
E[x 2 (n)] E[e 2 (n)]
(输入间距) (输出间距)
∆:量化阶距(间距)
例:3bit 均匀量化器
xˆ (输出)
7∆/2
011
5∆/2
010
3∆/2
001
∆/2 000
-4∆ -3∆ -2∆ -∆
∆ 2∆ 3∆ 4∆
100 101 110 111
-∆/2 -3∆/ 2 -5∆/ 2 -7∆/ 2
x (输入)
峰— 峰值范围 (a) “上升中点”型量化器
-120 0
(b)
0.1
0.2
0.3
0.4
0.5
归一化频率
图. 矩形窗(a)和哈明窗(b)的幅频特性
•哈明窗的带宽大约是同样宽度矩形窗带宽的两倍, •哈明窗通带外的衰减也比矩形窗大一倍多 •这两种窗的衰减基本上与窗的持续时间无关 •矩形窗的谱平滑较好,但波形细节丢失,而哈明窗则反之
2、窗口的长度
•无论窗口形状如何,窗口长度N将起决定性的作用
时域波形展开:
语音信号具有很强的“ 时变特性”,在有些段 落中它具有很强的周期 性,有些段落中又具有 噪声特性,而且周期性 语音和噪声语音的特征 也在不断变化之中,只 有在较短的时间间隔( 20~200ms)语音信号 的特征才基本保持不变
语音信号处理PPT课件
F2 F3
a 10
频率范围(Hz)
成年男子
成年女子
带宽
F1
200~800
250~1000
40~70
F2
600~2800
700~3300
50~90
F3
1300~3400
1500~4000
60~180
一般地:语音识别,取前3个共振峰,而对 语音合成,需取5个
a
11
2.3 语音信号的特性
2.3.1 语言和语音的基本特性
[x(n)x(n-k)]*h (n) 计算自m 相 关 ,先乘后加,运算hk量(n)大=w!(n)w(n+k)
R n ( k ) R n ( k ) m x ( m ) x ( am kk ) [ w hk( (n n -mm )) w ( n m k ) ]
36
3.5.2 修正的短时自相关函数 1、存在的问题 随kk=的0变化,参加运算的项减少。极限k=N-1时无运算k项=!250 2、修正的短时自相关函数
当w1,w2为直角窗时
(0≤k≤K)
^
N1
Rn(k)x(nm )xa(nmk)
m0
37
3.5.3 短时平均幅度差函数
问题的提出:自相关计算量大,大在乘法! 短时平均幅度差函数(AMDF)定义:
F n (k ) R 1 m |x (n m )w 1 (m ) x (n m k )w 2 (m k )|
式中R为x(n)的平均值 w1、w2同修正的自相关函数中的定义 对于浊音信号,在周期倍数点上,幅值相等,Fn=0
a 38
第三章小结
• 采样与反混叠 • 短时分析方法、窗口与长度选择 • 短时能量定义 • 短时过零分析 • 短时相关分析与修正 • 短时平均幅度分析(AMDF)
语音信号处理课件__第03章时域分析
SNRdB 6.02B 4.77 20log10 (
x
xmax
)
(3-11)
3.1 语音信号的短时处理方法 脉冲编码调制
若是xmax取为4倍方差(δx)
SNRdB 6.02B 7.27
取样之位数 8 16 24
(3-12)
数字信号的信噪比 41 dB 89 dB 137 dB
3.1 语音信号的短时处理方法 脉冲编码调制
一个数字信号取样之后,变成离散时间信号,接下来就是要用数字 方式来表示这个离散时间信号上的每个取样值。 一个电位波形会有固定的电压范围,一个取样值可以是在此电压范 围内的任何电位。如果只能用固定数目的位来表示这些取样值,那 么这些二进数字就只能代表固定的几个电位值,这个转换就是量化 (quantization),而转换之后只允许存在的几个电位值就是量化阶 数(quantization level)。 执行量化转换的硬件电路,就是量化器(quantizer)。以二进数字 表示的信号就是数字信号(digital signal),而这种将信号波形转 变成二进数字的方法,就叫脉冲编码调制(pulse code modulation, PCM)。
3.1 语音信号的短时处理方法
预处理 平滑滤波器:D/A后面的低通滤波器是平滑滤 波器,对重构的语音波形的高次谐波起平滑 作用,以去除高次谐波失真。 预加重:
现象:由于语音信号的平均功率谱受声门激励和口 鼻辐射的影响,高频端大约在800 Hz以上按6dB/ 倍频程跌落,为此要在预处理中进行预加重。 目的:提升高频部分,使信号的频谱变得平坦,以 便于进行频谱分析或声道参数分析。 位置:预加重可在A/D变换前的反混叠滤波之前进行, 这样不仅能够进行预加重,而且可以压缩信号的动 态范围,有效地提高信噪比。
x
xmax
)
(3-11)
3.1 语音信号的短时处理方法 脉冲编码调制
若是xmax取为4倍方差(δx)
SNRdB 6.02B 7.27
取样之位数 8 16 24
(3-12)
数字信号的信噪比 41 dB 89 dB 137 dB
3.1 语音信号的短时处理方法 脉冲编码调制
一个数字信号取样之后,变成离散时间信号,接下来就是要用数字 方式来表示这个离散时间信号上的每个取样值。 一个电位波形会有固定的电压范围,一个取样值可以是在此电压范 围内的任何电位。如果只能用固定数目的位来表示这些取样值,那 么这些二进数字就只能代表固定的几个电位值,这个转换就是量化 (quantization),而转换之后只允许存在的几个电位值就是量化阶 数(quantization level)。 执行量化转换的硬件电路,就是量化器(quantizer)。以二进数字 表示的信号就是数字信号(digital signal),而这种将信号波形转 变成二进数字的方法,就叫脉冲编码调制(pulse code modulation, PCM)。
3.1 语音信号的短时处理方法
预处理 平滑滤波器:D/A后面的低通滤波器是平滑滤 波器,对重构的语音波形的高次谐波起平滑 作用,以去除高次谐波失真。 预加重:
现象:由于语音信号的平均功率谱受声门激励和口 鼻辐射的影响,高频端大约在800 Hz以上按6dB/ 倍频程跌落,为此要在预处理中进行预加重。 目的:提升高频部分,使信号的频谱变得平坦,以 便于进行频谱分析或声道参数分析。 位置:预加重可在A/D变换前的反混叠滤波之前进行, 这样不仅能够进行预加重,而且可以压缩信号的动 态范围,有效地提高信噪比。
4第三章 语音信号分析---频域、倒谱、线性预测 语音信号处理 课件
D*1[ ] :
X
(e
jw
)
exp[Xˆ
(e
jw
)]
逆特征系统
x(n) IDTFT[ X (e jw )]
33
☆复倒谱的离散傅立叶变换定义
xˆ(n) IDFT [ln DFT (x(n))] IDFT [ Xˆ (k)]
N 1
X (k) DFT(x(n)) x(n)WNnk n0
x(n)
fˆl fˆk fˆl1
如果采样频率为8kHz,在0.1~4kHz范围内需要 安排16个临界带。将每个临界带内中的|Xn(k)|2取 和即可得到相应的临界带特征矢量。记为: G=[g1,g2,….gL]。
18/160
第1临界带
第2临界带
fˆ1 118 .6Hz fˆ2 188 .7Hz
fˆ3 297.2Hz
越逼X n近(e j于w)
。
但窗长X (Ne j太w) 大,窗选信号不满足语音的短时平稳
特性,
不能正X n确(e反jw映) 短时语音的频谱了。
为此,必须要合理选择窗长N。
4
3.短时功率谱和短时谱的关系
Sn (e
jw )
X n (e
jw )
X
* n
(e
jw )
|
X n (e
jw )
|2
4.短时功率谱和短时自相关函数的关系
D*1[D*[x(n)]] x(n)
(1)Z[x(n)] X (z), (2) ln X (z), (3)Z 1[ln X (z)] (4)Z{Z 1[ln X (z)]} ln X (z), (5) exp{ln X (z)} X (z) (6)Z 1[ X (z)] x(n)
语音信号处理PPT_第三章_语音信号分析
3.2 数字化和预处理
➢ 语音信号的数字化一般包括放大及增益控制、反混叠滤波、
采样、A/D变换及编码(一般就是PCM码);如下图:
语音信号
带通滤 波器
自动增益控制 (AGC)
模/数转换 (A/D)
脉冲编码 调 制 ( PCM )
存入计算机
➢ 预处理一般包括预加重、加窗和分帧等。 ➢ 分析和处理之前必须把要分析的要分析的语音信号部分从输
② R n (是k )偶函数 ,即 Rn(k)Rn(k)
③ 当k=0时,自相关函数有最大值,即 Rn(0)Rn(k)
并且 等R于n (确0 ) 定性信号序列的能量或随机序列的平均功率。
短时相关分析
右图中:N=401, Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。
但是在一个短时间范围内(一般认为在10-30ms的短时间内), 其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳 态过程,即语音信号具有短时平稳性。
不论是分析怎么样的参数以及采用什么分析方法,在按帧进 行语音分析,提取语音参数之前,有一些经常使用的、共同的短 时分析技术必须预先进行,如语音信号的数字化、语音信号的端 点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号 析的关键技术。
语音信号分析在语音信号处理中具有举足轻重的地位。
分类:
参数性质
时域分析 频域分析 倒谱域分析
分析方法
模型分析方法 非模型分析方法
简单、计算量小、 物理意义明确
感知特性 较好,更 为重要
依据语音信号 产生的数学模 型来分析和提 取表征这些模 型的特征参数
不进行模型化 分析
第三章_语音信号的特征分析
浊音时能量集中于较低频率段内,具有较低的过 零率,而清音时能量集中于较高频率段内,具有 较高的过零率。
浊音和清音情况下典型的平均过零率的直方图
直方图的分布形状与高斯分布很吻合,而且浊音时 的短时平均过零率的均值为14过零/10ms,清音时 短时过零率的均值为47过零/10ms。注意到浊音和 清音有一个交叠区域,此时很难分清是浊音还是清 音,尽管如此,平均过零率仍可以粗略的判断清音 和浊音。
35语音信号的短时自相关函数假设一段加窗语音信号非零区间为n0n1的自相关函数称为语音信号的短时自相关函数自相关函数是偶函数在l0处取得最大值且值为短时能量如果sn是周期的则rl也是周期的且周期等于sn的周期36浊音和清音的自相关函数图浊音浊音清音37半周期错误2倍周期错误由自相关函数图判断浊音的周期38为了减少这种错误可以先将语音信号进行中心削波处理再求自相关函数39中心削波处理前后的语音信号及其自相关函数40短时自相关函数的特点浊音是周期信号浊音的短时自相关函数也呈现明显的周期性自相关函数的周期就是浊音信号的周清音接近于随机噪声请音的短时自相关函数不具有周期性且随着l的增大迅速减小
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
0
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择,将决定短时语音分析结果的好坏
数据率(kB/s) (未压缩)
频率范围
8
300~3400 Hz
浊音和清音情况下典型的平均过零率的直方图
直方图的分布形状与高斯分布很吻合,而且浊音时 的短时平均过零率的均值为14过零/10ms,清音时 短时过零率的均值为47过零/10ms。注意到浊音和 清音有一个交叠区域,此时很难分清是浊音还是清 音,尽管如此,平均过零率仍可以粗略的判断清音 和浊音。
35语音信号的短时自相关函数假设一段加窗语音信号非零区间为n0n1的自相关函数称为语音信号的短时自相关函数自相关函数是偶函数在l0处取得最大值且值为短时能量如果sn是周期的则rl也是周期的且周期等于sn的周期36浊音和清音的自相关函数图浊音浊音清音37半周期错误2倍周期错误由自相关函数图判断浊音的周期38为了减少这种错误可以先将语音信号进行中心削波处理再求自相关函数39中心削波处理前后的语音信号及其自相关函数40短时自相关函数的特点浊音是周期信号浊音的短时自相关函数也呈现明显的周期性自相关函数的周期就是浊音信号的周清音接近于随机噪声请音的短时自相关函数不具有周期性且随着l的增大迅速减小
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
0
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择,将决定短时语音分析结果的好坏
数据率(kB/s) (未压缩)
频率范围
8
300~3400 Hz
第3章 语音信号分析(全)
x1 (n) x2 (n)
D
L
D
ˆ y ( n)
1
ˆ ˆ x1 (n) x2 (n)
ˆ ˆ y1 (n) y2 (n)
x(n)
ˆ x ( n)
y1 (n) y2 (n)
y(n)
b)同态系统的组成
D1
D 是特征子系统 L
是线性子系统
振 幅
· ·· · · · · ·· · ·· ·· ·
x(n)= x(nT):取样值 时间 采样周期(T)
第3章 语音信号分析
量化: 幅值方向的离散化
量化信噪比
SNR(dB) 6.02 B 7.2
其中,B表示量化字长 B=7bit时,SNR=35dB,可以满足一般通信系统 的要求。
Fn (k )
N k 1 m 0
x ( m) x ( m k )
n n
(0 k K )
第3章 语音信号分析
极小值
图3-9 与图3-5有相同语音段的AMDF函数的例子
第3章 语音信号分析
短时平均幅度差函数的作用 求语音序列的基音周期 用于区分语音中的清音段和浊音段
0 m N 1 K
m 0 ~ ( N 1 K ) m 其他值
第3章 语音信号分析
图3-6 修正短时自相关函数计算中窗口长度的说明
第3章 语音信号分析
3.3.4 短时平均幅度差函数
平均幅度差函数( AMDF) Average Magnitude Difference Function 短时平均幅度差函数的定义
语音信号处理第3章-语音信号分析讲解
信息科学与工程学院
东南大学
预处理:加窗
2.窗口的长度
采样周期Ts=1/fs,窗口长度N和频率分辨率Δf 之间存在下列关系:
采样率一定时,Δf 随窗口宽度N的增加而减小 ,即频率分辨率相应得到提高
• 窗口长,频率分辨率高,时域分辨率降低 • 窗口短,频率分辨率低,时间分辨率提高
1 Vf NTs
其中σx2表示语音方差,2Xmax表示信号的峰值,B 表示量化字长, σe2表示噪声方差。 通常语音信号的幅度符合Laplacian分布,则 SNR(dB) 6.02B 7.2 表明量化器中的每bit字长对SNR的贡献为6dB。
信息科学与工程学院
东南大学
预处理:预加重
语音信号的平均功率谱受声门激励和口鼻 辐射影响,预处理中要进行预加重 (Preemphasis)处理。其目的是提升高频部 分,使信号频谱变得平坦,以便于频谱分 析或声道参数分析。
信息科学与工程学院
东南大学
预处理:加窗
窗口长度的选择,更重要的是要考虑语音 信号的基音周期。通常认为在一个语音帧 内应包含1~7个基音周期。 不同人的基音周期变化很大,从女性和儿 童的2ms到老年男子的14ms(即基音频率的 变化范围为500~70Hz),所以N的选择比较 困难。 通常在10kHz取样频率下,N折中选择为 100~200点为宜(即10~20ms持续时间)。
信息科学与工程学院 东南大学
预处理:加窗
矩形窗与汉明窗的比较
窗类型 旁瓣峰值 主瓣宽度 最小阻带衰减
矩形窗 汉明窗 -13 -41 4π/N 8π/N -21 -53
汉明窗的主瓣宽度比矩形窗大一倍,即带 宽约增加一倍,同时其带外衰减也比矩形 窗大一倍多,汉明窗比矩形窗更为合适。 因此,对语音信号的短时分析来说,窗口 的形状是至关重要的。
语音信号处理——课件
物联网环境下的新型 语音信号处理技术
为了满足物联网环境下的需求,研究 者们正在探索新型的语音信号处理技 术,如基于深度学习的低延迟语音编 码、基于人工智能的噪声抑制和基于 硬件优化的低功耗语音识别等。
物联网环境下语音信 号处理的挑战与机遇
虽然物联网环境为语音信号处理带来 了新的机遇,但也面临着许多挑战, 如数据安全和隐私保护、设备间的协 同交互以及跨领域的应用推广等。随 着技术的不断进步和应用需求的不断 增长,相信这些挑战将逐步得到解决 ,并推动语音信号处理在物联网领域 的应用和发展。
语音情感识别的挑战
语音情感识别是一个具有挑战性的任务,因为人类的情感表达非常复杂,且受到多种因素 的影响,如说话人的情感状态、语言背景和文化背景等。
新型语音情感识别方法
为了提高语音情感识别的准确率,研究者们不断探索新型的语音情感识别方法,如基于深 度学习的情感识别方法、基于迁移学习的情感识别方法和基于集成学习的情感识别方法等 。
04
语音识别与合成
语音识别的基本原理
语音识别技术
语音信号预处理
利用计算机自动识别和解析人类语音的技 术。
对原始语音信号进行降噪、滤波、压缩等 处理,以提高语音识别的准确率。
特征提取
模式匹配与分类
从语音信号中提取出具有代表性的特征参 数,如梅尔频率倒谱系数(MFCC)。
将提取出的特征参数与预先训练好的模型 进行匹配和分类,以实现语音识别。
02
语音信号的采集与预处理
语音信号的采集
01
02
03
采集设备
使用专业的麦克风、录音 设备等采集语音信号,确 保信号质量。
环境噪声控制
在采集过程中,应尽量减 少环境噪声的干扰,如关 闭门窗、使用隔音材料等 。
语音信号处理-第03章 语音信号的时域分析方法
t n
过零情况
3
1
短时平均过零的作用
• 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 • 2.从背景噪声中找出是否有语音,以及语 音的起点。
0 .8
0 .6
0 .4
0 .2
0
-0 . 2
-0 . 4
-0 . 6
-0 . 8
-1
0
50
100
150
200
250
∞
Z
0
1 ⎧ N −1 ⎫ = ⎨∑ sgn ⎡ s w ( n ) ⎤ − sgn ⎡ s w ( n − 1) ⎤ ⎬ ⎣ ⎦ ⎣ ⎦ 2 ⎩ n =1 ⎭
1
(4)短时自相关函数 Rw
R (l ) = ∑ s (l + n ) s (n ) = ∑ s (n ) s (n + l )
w n = −∞ w w n =0 w w
男声汉语拼音s的一帧信号(在采样频率为22050Hz 的情况下,取20ms作为一帧),清音的短时能量为 3.88。
二.短时过零率分析
• 过零率定义:信号跨越横轴的次数情况。 • 对于连续信号,观察语音时域波形通过 横轴的情况; • 对于离散信号,相邻的采样值具有不同 的代数符号,也就是样点改变符号的次 数。
10
采用中心削波法
⎧ x ( n) − T ⎪ y ( n) = c ( n) = ⎨ x ( n) + T ⎪ ⎩ 0
⎧ x( n) − T ⎪ y ( n) = c( n) = ⎨ x ( n) + T ⎪ 0 ⎩
x ( n) > T x(n) < −T | x(n) |≤ T
短时平均幅度差函数
过零情况
3
1
短时平均过零的作用
• 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 • 2.从背景噪声中找出是否有语音,以及语 音的起点。
0 .8
0 .6
0 .4
0 .2
0
-0 . 2
-0 . 4
-0 . 6
-0 . 8
-1
0
50
100
150
200
250
∞
Z
0
1 ⎧ N −1 ⎫ = ⎨∑ sgn ⎡ s w ( n ) ⎤ − sgn ⎡ s w ( n − 1) ⎤ ⎬ ⎣ ⎦ ⎣ ⎦ 2 ⎩ n =1 ⎭
1
(4)短时自相关函数 Rw
R (l ) = ∑ s (l + n ) s (n ) = ∑ s (n ) s (n + l )
w n = −∞ w w n =0 w w
男声汉语拼音s的一帧信号(在采样频率为22050Hz 的情况下,取20ms作为一帧),清音的短时能量为 3.88。
二.短时过零率分析
• 过零率定义:信号跨越横轴的次数情况。 • 对于连续信号,观察语音时域波形通过 横轴的情况; • 对于离散信号,相邻的采样值具有不同 的代数符号,也就是样点改变符号的次 数。
10
采用中心削波法
⎧ x ( n) − T ⎪ y ( n) = c ( n) = ⎨ x ( n) + T ⎪ ⎩ 0
⎧ x( n) − T ⎪ y ( n) = c( n) = ⎨ x ( n) + T ⎪ 0 ⎩
x ( n) > T x(n) < −T | x(n) |≤ T
短时平均幅度差函数
语音信号处理第3章分解PPT课件
14
预处理
2.窗口的长度 ❖ 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf
之间存在下列关系: Δf=1/NTs
语音信号
带通滤 波器
自动增益控 制(AGC)
模/数转换 (A/D)
脉冲编码
存入计算机
调制(PCM)
❖ 预处理一般包括预加重、加窗和分帧等。
5
预滤波、采样、A/D变换
预滤波的目的有两个: ❖ 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs)
为采样频率,以防止混叠干扰。 ❖ 抑制50Hz的电源工频干扰。
0n(N1) nelse
(n ) 0 .5 4 0 .4c6 0 ,o 2 n s /N ([ 1 )]0 , n n e (N l1 s ) e
12
预处理
1.窗口的形状 ❖ 好的窗函数的标准是:在时域因为是语音波形乘以
窗函数,所以要减小时间窗两端的坡度,使窗口边 缘两端不引起急剧变化而平滑过渡到零,这样可以 使截取出的语音波形缓慢降为零,减小语音帧的截 断效应;在频域要有较宽的3dB带宽以及较小的边 带最大值。这里只以典型的矩形窗和汉明窗为例进 行比较,其他窗口可参阅FIR数字滤波器或谱分析 的有关书籍。
但是在一个短时间范围内(一般认为在10-30ms的短时间
内),其特性基本保持不变即相对稳定,因而可以将其看作
是一个准稳态过程,即语音信号具有短时平稳性。
3
1 概述
❖ 根据所分析出的参数的性质的不同可以分为: 时域分析、频域分析、倒频域分析,线性预测分析等;
❖ 分析方法的不同: 模型分析方法 和 非模型分析方法
原信号值之间的差值称为量化误差,又称为量化噪声。 ❖ 若量化间隔Δ足够小,可以证明量化噪声符合具有下列特征
语音信号处理课件-语音信号的特性分析_10
t
n
ZCR
对于语音信号,是宽带非平稳信号,应考察其短 时平均过零率。
Z n
1 2
N 1 m0
s
gn[xn
(m)]
s
gn[x
n
(m
1)]
sgn[.]为符号函数
sgn(x(n))=1 x(n)0 sgn(x(n))= -1 x(n)<0
3、短时平均过零的作用
1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。
T
-T
三、短时相关分析
1.相关分析的依据:
用于确定两个信号在时域内的相似性。常用的 物理量为自相关函数和互相关函数。当两个信号 的互相关函数大时,则说明一个信号可能是另一 个信号的时间滞后或提前;当互相关函数为0时, 则两个信号完全不同。
自相关函数用于研究信号本身,如波形的同步性 和周期性。
利用信号的相关性达到消除噪声的目的 主信号s+n0,为有用信号s(来自信号源)和一
减少这些干扰可以有两种方法:一种是采用带通滤 波器消除信号中的直流和50Hz低频分量;
x(n)
Hb(ejw) w
Bandpass filte Hb
y(n)
另一种是用过门限率来修改过零率,减少随机噪声 的影响。
过门限率反映了穿过正负门限的次数,如果存在随 机噪声,只要信号没有超过[-T,T]的范围,就没有有 过零率产生。
xn (m) w(m)x(n m) 0 m N 1 N为帧长
1 w(m) 0
0 m N 1 others
n 0,1T,2T,....,
T为帧移长度
N 1
En xn2 (m)
m0
N 1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6/17/2020
7
011 010 001
/2 000 111
110 101 100
6/17/2020
8
量化误差(噪声) e(n)=x(n)- xa(nT) -/2 e(n) /2
(1)假设量化噪声是平稳的白噪声过程,有
E[e(n)e(n+m)]=
2 m0 =其0他
(2)假设量化噪声与输入信号不相关,有
预滤波器是一个带通滤波器,一般情况下,上、 下截止频率为: fH=3400Hz, fL=60~100Hz。
6/17/2020
4
2.采样: 将时间连续信号
变成时间离散信号。 采样频率通常为
fs=8kHz。
6/17/2020
xa(t) t
xa(nT) n
5
• Ideal sampling and real sampling
• A/D of some common audio signals
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
帧移T 帧长N
6/17/2020
15
1 0 n N 1 w(n) 0 otherwise 矩形窗(rectangular)
w(n)
0.5 0
0.5
cos(2 n ) 0 n N
N 1 otherwise
汉宁窗 hanning
1
w(n)
0.54
0.46
co s (2
n) N 1
0
E[e(n)x(n+m)]=0 m为任意值
(3)在每个量化间隔上,量化噪声均匀分布,有
Pe(e(n))=
1 |e(n)| /2
0 其他
6/17/2020
9
量化信噪比
量化噪声的信噪比:SNR=x2/e2 x2语音信号序列的方差, e2噪声序列的方差, 用
分贝表示,SNR=10log(x2/e2) SNR = signal’s energy / noise’s energy
6/17/2020
21
Long window: frequency resolution time resolution
Short window: frequency resolution time resolution
基音频率为200Hz,采样频率为8kHz, 窗长: 8000{(1/200)7}=256
6/17/2020
10
SNR=6.02B+4.77-20log(Xmax/x)=6.02B- 7.27
Xmax表示其峰值 B为量化的比特数 当语音信号的幅度服从拉普拉斯分布时,Xmax=B=8,SNR=40dB,满足一般通信系统的要求。当 量化噪声的信噪比达到 60-70dB,才能保障有高 水平通话质量,这时要求量化为 11-13bits。一 6般/17/2的020 音频A/D、D/A转换芯片,量化为12bits。 11
x(n)
H(z)=1-z-1 x'(n)
6/17/2020
14
2. 加窗分帧处理:
加矩形窗
第n帧 第n+1帧 第n+2帧 第n+3帧 第n+4帧
加汉宁窗 hanning
第n帧 第n+1帧 第n+2帧
t
各帧之间有0~1/2的重叠, 由窗函数的定义决定的。
w(n)=0.5*[1-cos(2n/(N-1))]
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
16 bits 16 bits
二、预处理
1.存储方式:
已量化好的语音信号序列按 先入先出的顺序存入数据区。 以便一个有限容量的数据区来 应付数量极大的语音数据。
6/17/2020
13
2.预加重:
在求语音信号频谱时,频率越高,相应的成 分越小。预加重的目的是提升高频部分,使信号 的频谱变得平坦。以便于频谱分析和声道参数分 析。 一般在语音信号数字化后,通过一个一阶 数字滤波器:H(z)=1-z-1, 接近1。
第三章 语音信号分析
§3.2 §3.3 §3.4 §3.5 §3.6
语音信号的数字化和预处理 语音信号的时域分析 语音信号的频域分析 语音信号的倒谱分析 语音信号的线性预测分析
6/17/2020
1
一、预滤波、采样和A/D转换
1.预滤波的作用:抑制输入信号中频率超出fs/2的 所有分量,防止混叠;抑制50Hz的电源工频干扰。
6/17/2020
20
由于在 10-30ms,语音信号近似平稳。每秒的 帧数约为:33~100帧。
窗口的长度N:频率分辨率f=fs/N。f随N的增加 而减少,频率分辨率得到提高,但时间分辨率降低(与 窗长成反比)。应根据不同的应用场合来选择窗口的长 度N,应包含7个基音周期,因此可选择100~300点 为宜。
加矩形窗(帧移长度为N) x0(m)
第1帧
x1(m) 第2帧
0
N-1 N
2N-1
帧重叠 T=0
加汉宁窗(帧移长度为N/2)
第1帧
0 x0(m)
N-1
第2帧
帧重叠T= N/2
N/2
x1(m) N+(N/2)1
6/17/2020
19
512点的汉宁窗 当采用汉宁窗 ,原有数据的幅度发生变化, 为了保持数据的原始幅度,必须采取各帧数据之 间有1/2的重叠。
6/17/2020
22
Windowing (frame)
– In short-term, non-stationary->stationary – Non-linear->linear (10ms-25ms)
海明窗 hamming
0 n N 1 otherwise
6/17/2020
16
Window shapes
xn(m)w(m)x(nm) 0mN1 N为帧长
1 w(m)0
0mN1 n0,1T,2T,...T.为, 帧
others
移
长度
x0(m)
0
N-1
x1(m)
T
T+N-1
6/17/2020
18
6/17/2020
6
3. A/D转换
对离散时间信号进行量化,在每一时刻对xa(nT) 独立进行量化,把给定的幅度连续的信号变成为有限 多个幅度的集合中某个幅度值的过程。
xa(t)
采样 xa(nT) 量化
x(n) x(n)=Q[xa(nT)]
x1
xk
xk+1
xL
xa1
xak
xak+1
xaL
xaL+1