语音信号处理第3章-语音信号分析讲解

合集下载

第三章-语音信号的特征分析讲解讲解学习

Magnitude (dB)
40 20
0 -20 -40 -60 -80 -100
0 50
Frequency domain
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
1 0.8 0.6 0.4 0.2
0 0
rectangular hamming hanning bartlett
50
100
150
200
250
❖ 几种不同的窗函数波形与频谱的比较
1
Hamming 0.8 哈明窗 0.6
Amplitude
0.4
0.2
0
1
Hanning 0.8
汉宁窗
0.6
Amplitude
0.4
0.2
0
1
矩形窗
0.8
Amplitude
0.6
0.4
0.2
0
Time domain
10
20 Tim3e0domain40
50
60
Samples
10
20 Tim3e0domain40
50
60
Samples
10
20
30
40
50
பைடு நூலகம்
60
Samples
Magnitude (dB)
Magnitude (dB)
帧和加窗的概念
❖ 短时分析将语音流分为一段一段来处理，每一段称为一“帧”；

语音信号处理第3章-语音信号分析

0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
信息科学与工程学院东南大学
预处理
窗函数的形状和长度对短时参数特征影响很大 1.窗口形状
时域：要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的语音波形缓慢降为零，减小语音帧的截断效应；频域：要有较窄的3dB带宽以及较大的旁瓣衰减(较小的边带最大值)。这里只以典型的矩形窗和汉明窗为例进行比较。
0
20
40
60
80
100
120
140
160
0.1 0.05 0 -0.05 -0.1
0
20
40
60
80 k = -21
100
120
140
160
信息科学与工程学院
东南大学
0.1 0.05 0 -0.05 -0.1
0
20
40
60
80
100
120
140
160
0.1 0.05 0 -0.05 -0.1
0
20
信息科学与工程学院东南大学
矩形窗与汉明窗的比较
窗类型
矩形窗汉明窗
旁瓣峰值
-13 -41
主瓣宽度
4π/N 8π/N
最小阻带衰减
-21 -53
汉明窗的主瓣宽度比矩形窗大一倍，即带宽约增加一倍，同时其带外衰减也比矩形窗大一倍多，汉明窗比矩形窗更为合适。因此，对语音信号的短时分析来说，窗口的形状是至关重要的。
信息科学与工程学院东南大学
数字化和预处理
经过数字化和预处理过程，语音信号就已经被分割成一帧一帧的加过窗函数的短时平稳信号对每一个短时语音帧，利用数字信号处理技术来提取语音特征参数。

3第三章语音信号分析---时域分析语音信号处理课件

4/25/2021
32/66
存在的问题
短时能量函数一个主要的问题是En对信号电平值过于敏感。由于需要计算信号样值的平方和，在实际应用中（如定点设备）很容易溢出。因此，一般用平均幅度函数Mn来代替En。但这时，清音和浊音、有声和无声的幅度差不如短时能量明显。
4/25/2021
33/66
二、短时过零率分析
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
4/25/2021
xa(t) t
xa(nT) n
5/66
• Ideal sampling and real sampling
4/25/2021
6/66
3. A/D转换
对离散时间信号进行量化，在每一时刻对xa(nT) 独立进行量化，把给定的幅度连续的信号变成为有限多个幅度的集合中某个幅度值的过程。
4/25/2021
37/66
1 0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
-1 0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号（在采样频率为22050Hz的情况下，取20ms作为一帧），短时过零率为46。
4/25/2021

第三章语音信号的数字分析

Pe
(e)
=
1 ∆
, − ∆ ≤ e(n) ≤ ∆
2
2
0 , 其它
在上述假设的统计模型下，量化噪声的均值和方差分别为：
∫ me
=
∆ 2
e( 1
)de
=
0
−∆2 ∆
∫ σ
2 e
=
∆ 2
−∆2
e2
(1 ∆
)de
=
∆2 12
信噪比：
∑∑ SNR
=
σ x2 σ e2
=
E[x 2 (n)] E[e 2 (n)]
（输入间距）（输出间距）
∆：量化阶距（间距）
例：3bit 均匀量化器
xˆ (输出)
7∆/2
011
5∆/2
010
3∆/2
001
∆/2 000
-4∆ -3∆ -2∆ -∆
∆ 2∆ 3∆ 4∆
100 101 110 111
-∆/2 -3∆/ 2 -5∆/ 2 -7∆/ 2
x (输入)
峰— 峰值范围（a） “上升中点”型量化器
-120 0
(b)
0.1
0.2
0.3
0.4
0.5
归一化频率
图. 矩形窗（ａ）和哈明窗（ｂ）的幅频特性
•哈明窗的带宽大约是同样宽度矩形窗带宽的两倍， •哈明窗通带外的衰减也比矩形窗大一倍多 •这两种窗的衰减基本上与窗的持续时间无关 •矩形窗的谱平滑较好，但波形细节丢失，而哈明窗则反之
2、窗口的长度
•无论窗口形状如何，窗口长度N将起决定性的作用
时域波形展开：
语音信号具有很强的“ 时变特性”，在有些段落中它具有很强的周期性，有些段落中又具有噪声特性，而且周期性语音和噪声语音的特征也在不断变化之中，只有在较短的时间间隔（ 20～200ms）语音信号的特征才基本保持不变

语音信号处理课件__第03章时域分析

SNRdB 6.02B 4.77 20log10 (
x
xmax
)
(3-11)
3.1 语音信号的短时处理方法脉冲编码调制
若是xmax取为4倍方差(δx)
SNRdB 6.02B 7.27
取样之位数 8 16 24
(3-12)
数字信号的信噪比 41 dB 89 dB 137 dB
3.1 语音信号的短时处理方法脉冲编码调制
一个数字信号取样之后，变成离散时间信号，接下来就是要用数字方式来表示这个离散时间信号上的每个取样值。一个电位波形会有固定的电压范围，一个取样值可以是在此电压范围内的任何电位。如果只能用固定数目的位来表示这些取样值，那么这些二进数字就只能代表固定的几个电位值，这个转换就是量化 (quantization)，而转换之后只允许存在的几个电位值就是量化阶数(quantization level)。执行量化转换的硬件电路，就是量化器（quantizer)。以二进数字表示的信号就是数字信号(digital signal)，而这种将信号波形转变成二进数字的方法，就叫脉冲编码调制(pulse code modulation, PCM)。
3.1 语音信号的短时处理方法
预处理平滑滤波器：D/A后面的低通滤波器是平滑滤波器，对重构的语音波形的高次谐波起平滑作用，以去除高次谐波失真。预加重：

现象:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800 Hz以上按6dB/ 倍频程跌落，为此要在预处理中进行预加重。目的:提升高频部分，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析。位置:预加重可在A/D变换前的反混叠滤波之前进行，这样不仅能够进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。

第3讲语音信号处理第3

其中，
xn (m) (m)x(n m), (0 k K )
(m)
1, 0,
m 0 ~ (N 1) m 其它值
x'n (m) '(m)x(n m), (0 k N 1 K)
'
(m)
1, 0,
m 0 ~ (N 1 K) m 其它值
2．修正的短时自相关函数
图3-7 修正短时自相关函数计算中窗口长度的说明
N 1
M n xn (m) m0
❖ Mn也是一帧语音信号能量大小的表征，它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异，在某些应用领域中会带来一些好处。
短时过零率分析
❖ 短时过零率表示一帧语音中语音信号波形穿过横轴(零电平) 的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号，过零即意味着时域波形通过时间轴；而对于离散信号，如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。
3.1 概述
❖ 语音信号分析分析出可表示语音信号特征参数
进行高效的语音通信、语音合成和语音识别的基础时域特征频率特征
❖ 短时分析技术：贯穿于语音分析全过程语音信号从整体来看其特征及表征其本质特征的参数均是
随时间而变化的，所以它是一个非平衡态过程，不能用处理平衡信号的数字信号处理技术对其进行分析处理。
(m)
1, 0,
m 0 ~ (N 1) m 其它值
❖ 其中，n=0,1T,2T,…,并且N为帧长，T为帧移长度。
❖ 设第n帧语音信号xn(m)的短时能量用En表示，则其计算公式如下：
N 1
En xn2 (m) m0
短时能量及短时平均幅度分析
❖ En是一个度量语音信号幅度值变化的函数，但它有一个缺陷，即它对高电平非常敏感（因为它计算时用的是信号的平方)。为此，可采用另一个度量语音信号幅度值变化的函数，即短时平均幅度函数Mn，它定义为：

第三章语音信号的特征分析讲解

电话语音（固网电话通信频带为300-3400Hz) 可以基本保持语义，不影响人对语音的感知质量不是很好，有时候会有变音

宽带语音信号：fs =16000Hz
一般对语音质量要求较高的场合再提高采样频率也不会对语音质量有太多贡献
量化精度
量化所用比特越大，声音质量越好声音质量也跟量化算法有关，比如同样用8bit量化，非均匀量化（µ-律或A-律）就比均匀量化好很多
对于语音识别系统而言，用于电话用户时要求技术指标与语音编码器相同，如果对于更高的要求场合，则fH=4500Hz或8000Hz, fL=60Hz，
fs=10KHz或20KHz
帧和加窗的概念
短时分析将语音流分为一段一段来处理，每一段称为一“帧”；帧长：10～30；帧移：0～1倍帧长，帧与帧之间的平滑过渡；语音识别中常用的帧长为20~30ms,帧移为10ms
几种常见的窗函数的波形
Matlab中，可以通过help window命令来查看怎么产生不同的窗
1
0.8
rectangular hamming hanning bartlett
0.6
0.4
0.2
0
0
50
100
150
200
250

几种不同的窗函数波形与频谱的比较
Time domain 40 Frequency domain 1 20 0.8 0
1
Hanning
Amplitude
0.8
0
汉宁窗
0.6
Magnitude (dB)
Time domain 30 40 Samples
-50
0.4
-100 0.2

《语音信号处理》讲稿第3章

对性的改进。
03 语音信号的特征提取
时域特征提取
过零率
表示语音信号通过零点的次数，反映了语音信号的频率特性。
能量和振幅
计算语音信号的短时能量和振幅，用于区分清音和浊音。
自相关函数
描述语音信号在不同时间点的相似程度，常用于语音信号的周期性分析。
频域特征提取
傅里叶变换
将时域语音信号转换为频域表示，便于分析语音信号的频谱特性。
滤波器组
将语音信号划分为多个频带，提取每个频带的能量或振幅作为特征。
功率谱密度
描述语音信号在各个频率上的功率分布，反映了语音信号的频谱包络。
倒谱特征提取
1 2
倒谱系数
通过对语音信号的频谱进行对数运算和逆变换，得到倒谱系数，用于描述语音信号的共振峰特性。
梅尔频率倒谱系数（MFCC）基于人耳听觉特性，将频谱转换为梅尔频率尺度，再计算倒谱系数，是语音识别中常用的特征参数。
《语音信号处理》讲稿第3章
目录
• 语音信号处理基础 • 语音信号的预处理 • 语音信号的特征提取 • 语音信号的模型分析 • 语音信号的编码技术 • 语音信号的增强与降噪 • 语音信号的识别技术
01 语音信号处理基础
语音信号的特点
非平稳性
语音信号是一个时变的信号，其特性随时间变
化。
周期性
浊音信号表现出明显的周期性，清音信号则不
（HMM）、深度神经网络（DNN）等，通过统计模型对
语音进行建模和识别。
混合方法
结合基于规则和统计模型的方法，充分利用两者的优点，提高识别性能。
语音识别的实际应用及挑战
实际应用
语音识别技术已广泛应用于智能家居、智能客服、语音输入、语音翻译等领域，为人们的日常生活和工作带来便利。

语音信号处理剖析课件

HMM通过状态转移概率和观测概率来描述语音信号的动态变化，能够有效地处理语音信号的时间序列信息。
HMM的参数通常通过Baum-Welch算法进行估计，这是一种迭代算法，用于计算最大期望值。
支持向量机
支持向量机（SVM）是一种监督学习算法，用于分类和回归分析。在语音识别中，SVM用于分类不同的语音信号特征。
语音合成技术的挑战与解决方案
挑战
语音合成技术面临的主要挑战是生成自然度较高的语音，以及模拟不同说话人的声音特征。
解决方案
采用基于深度学习的语音合成方法，如自回归神经网络（AR-RNN）和生成对抗网络（GAN），以生成更自然、更具有情感表现力的语音。同时，利用声学模型和声码器技术，模拟不同说话人的声音特征。
参数合成技术
特征提取
从原始语音中提取出各种参数，如线性预测编码（LPC）、倒谱系数（cepstral coefficients）等，这些参数可以反映语音的音调、音强、音色等特征。
参数合成
利用提取出的参数，通过声码器生成合成语音。
参数调整
在合成过程中，可以对提取出的参数进行调整，以改变合成语音的音调、音强、音色等特征，实现更加自然的语音合成效果。
人工智能在语音信号处理中的应用前景
• 应用前景：人工智能技术在语音信号处理中具有广泛的应用前景，包括智能语音助手、智能客服、智能家居、虚拟现实和增强现实等领域。随着人工智能技术的不断发展，语音信号处理将更加智能化、高效化，为人们的生活和工作带来更多便利。
THANKS
感谢观看
改善语音信号的音质，提高语音可懂度，对于嘈杂环境下的
语音通信具有重要意义。
情感分析
识别和分析语音中的情感信息，用于人机交互、心理健康监

语音信号处理_3_特征分析

窗函数对频率分析的影响
窗函数带宽or主瓣宽度为B，不同窗函数相对于矩形窗
具有不同的等效窗长。
fs
B
N 2 fs
N
矩形窗海明窗
时域取样率
Xn(e j )为低通w(n)的输出，带宽为B Xn(e j ) 分析窗的采样率（时域取样率）大于等于2B
矩形窗，帧移为N/2 海明窗，帧移为N/4
短时傅里叶变换
标准傅里叶变换的解释
短时功率谱是短时自相关函数的傅里叶变换信号谱与窗函数傅里叶变换的卷积测不准原理：信号的等效时长与其等效频率
带宽之积大于二分之一。
(x) (X ) 1 2
短时傅里叶变换
标准傅里叶变换的解释
短时功率谱是短时自相关函数的傅里叶变换信号谱与窗函数傅里叶变换的卷积窗函数的作用
理论完善计算方便概念易于理解
短时傅里叶变换
滑动的窗口w(n)选取一帧数据进行傅里叶变换
短时傅里叶变换
定义：短时傅里叶变换是窗选语音信号的傅里叶变换
X n (e j ) x(m)w(n m)e jm
理解：
m
一帧时间序列在以复变函数e j 为基函数的正交分解
一帧时间序列在各个频段的分解
数量级为10ms时段，将语波形分段进行分析客观现实：时变过程，短时基本稳定
特点
直观计算量，一般较小重要参数：能量energy, 音长duration, 音强pitch等
0.7663
0
-0.6245 0
Time (s)
0.0530159
短时能量
作用
0.7663
区分浊音和清音 0
短时傅里叶变换
滤波器的解释，用滤波器组实现频谱分析
低通滤波器，输入端将x(n)的频谱从w 移到零

语音信号处理PPT_第三章_语音信号分析

① ②
③
应用：区分清音和浊音；从背景噪声中找出语音信号，判断寂静无声段和有声段的起点和终点位置；当语音以某些音位开始或结尾时（弱摩擦音、弱爆破音、鼻音等），过零率和短时平均能量一起结合使用，更为有效。
短时过零率分析
实际问题：如果输入信号中包含有50Hz的工频干扰或者A/D转换器的工作点有偏移（等效于输入信号有直流偏移），计算的过零率参数很不精确。解决方法： ① A/D转换器前的防混叠带通滤波器低端截止频率应高于50Hz，有效抑制电源干扰。 ② 采用低直流漂移器件，也可以算出每一帧的直流分量并加以滤除。
3.2 数字化和预处理

语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码（一般就是PCM码）；如下图：
语音信号带通滤波器自动增益控制（AGC）存入计算机模/数转换（A/D）脉冲编码调制（ PCM ）

预处理一般包括预加重、加窗和分帧等。分析和处理之前必须把要分析的要分析的语音信号部分从输入信号中找出来，叫做语音信号的端点检测。
有时窗口长度的选择，更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1～7个基音周期。然而不同人的基音周期变化很大，所以N的选择比较困难。通常在10kHz取样频率下，N折中选择为100～200点为宜(即10～20ms持续时间)。

3.3 语音信号的时域分析

语音信号的时域分析就是分析和提取语音信号的时域参数。应用范围：常用于最基本的参数分析及应用，如语音的分割、预处理、大分类等。特点： ①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④只使用示波器等通用设备，使用较为简单等。

《语音信号处理》课程笔记

《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代，最初的研究主要集中在语音合成和语音识别上。

在早期，由于计算机技术和数字信号处理技术的限制，语音信号处理的研究进展缓慢。

随着技术的不断发展，尤其是快速傅里叶变换（FFT）的出现，使得语音信号的频域分析成为可能，从而推动了语音信号处理的发展。

到了20世纪80年代，随着全球通信技术的发展，语音信号处理在语音编码和传输等领域也得到了广泛应用。

近年来，随着人工智能技术的快速发展，语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。

1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分：（1）语音信号的采集和预处理：包括语音信号的采样、量化、预加重等操作，目的是提高语音信号的质量，便于后续处理。

（2）特征参数提取：从预处理后的语音信号中提取出能够反映语音特性的参数，如基频、共振峰、倒谱等。

（3）模型训练和识别：利用提取出的特征参数，通过机器学习算法训练出相应的模型，并进行语音识别、说话人识别等任务。

（4）后处理：对识别结果进行进一步的处理，如语法分析、语义理解等，以提高识别的准确性。

1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。

声带振动产生的声波通过声道时，会受到声道形状的影响，从而产生不同的音调和音质。

听觉机理是指人类听觉系统对声波的感知和处理过程，包括外耳、中耳、内耳和听觉中枢等部分。

1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。

语音信号模型是用来描述语音信号特点和变化规律的数学模型，包括时域模型、频域模型和倒谱模型等。

这些模型为语音信号处理提供了理论基础和工具。

第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作，目的是提高语音信号的质量，便于后续处理。

《语音信号处理》讲稿共23页文档

1.语音过程的早期研究
讨论三方面问题：
（1）人类发音器官（2）双亥姆霍兹谐振器发声模型（3）电发声系统（EVT）的电模型
2.语音发送过程的声学模型
讨论两方面问题：
（1）语音发送过程的声学理论（2）语音发送过程的声学模型
2.语音发送过程的声学模型
（1）语音发送过程的声学理论 ①语音的发送过程。语音发送过程包括两部分：语音的产生和
3.语音发送过程的数字模型
（1）声激励数字模型
大部分的语音可以分成浊音和清音，因而要求激励源应能产生准周期的脉冲波形(浊音)或随机噪声的波形(清音)。
声激励的数字模型
3.语音发送过程的数字模型
（2）声道传送数字模型
无损声管模型的方块图表示及其终端模拟的数字模型。
声道的数字模型
3.语音发送过程的数字模型
传播。 ②声波在声道中的传播过程。
简化声道示意图
2.语音发送过程的声学模型
（2）语音发送过程的声学模型
求以上方程组的完全解很复杂。因此，常采用近似和简化方法，得到语音发送过程的简化声学模型。
①语音发送过程的均匀无损声管模型
五节无损声管级联的声道模型
2.语音发送过程的声学模型
③鼻腔声管模型
声道的四端网络模型
开关
喉腔
Z
U
G
G
A
鼻腔
Z
C
n
口腔 B
Z
L
返回
4.语音发送过程的电模型
数字模型与电模型的性能比较： ①用数字滤波器模拟语音发送过程的数字
模型，虽然不太精确，便却比较直观，它也是研究中常用的一种模型。
②用四端网络模型（电模型），可以比较精确地计算在声道中的语音发送过程，但这种方法，因不能直接确定共振峰在频段中的位置，所以不太直观。

语音信号处理-第03章语音信号的时域分析方法

PG ( x ) = [ 3 8πσ x x ] e
1 2 − 3x 2σ x
PL ( x) =
− 1 e 2σ x 2σ x
2x
二、零均值三、非平稳时变信号；短时平稳：10～30ms
§3.2语音信号短时分析方法
语音信号的开窗分析技术：（1）均匀窗：（2）非均匀窗：各种国际标准（3）重叠窗（Overlap）设：语音信号为S(n)，加窗语音记为 Sw(n) = W[S(n)] = S(n) w(n-m)，n=0~(N-1) 则语音处理系统可表示为
5
基于能量和过零率的双门限法检测法
首先用短时能量做第一次判断，然后在此基础上用短时平均过零率做第二次判断。这种方法端点的确定与以后的判决无关，因此称为显式法。
三、短时相关分析
短时自相关函数性质 • 1. R w( −l ) = R w(l ) 为偶函数； • 2. 在-N+1~N-1之间有值； • 3. R ( 0 ) = ∑ s ( n ) ≥ R ( k ) 为最大值。 • 4.当时域信号为周期信号时，自相关函数也是周期性函数，两者周期相同。浊音：呈现‘准’周期性、逐渐衰减
300
350
400
450
女声汉语拼音a的一帧信号（在采样频率为 22050Hz的情况下，取20ms作为一帧），短时过零率为46。
0 .3
0 .2
0 .1
0
-0 . 1
-0 . 2
-0 . 3
-0 . 4
0
50
100
150
200
250
300
350
400
450
男声汉语拼音s的一帧信号（在采样频率为 22050Hz的情况下，取20ms作为一帧），短时过零率为183。

语音信号处理第3章分解PPT课件

14
预处理
2.窗口的长度 ❖ 采样周期Ts=1/fs，窗口长度N和频率分辨率Δf
之间存在下列关系： Δf=1/NTs
语音信号
带通滤波器
自动增益控制（AGC）
模/数转换（A/D）
脉冲编码
存入计算机
调制（PCM）
❖ 预处理一般包括预加重、加窗和分帧等。
5
预滤波、采样、A/D变换
预滤波的目的有两个： ❖ 抑制输入信号各频域分量中频率超出fs/2的所有分量（fs）
为采样频率，以防止混叠干扰。 ❖ 抑制50Hz的电源工频干扰。
0n(N1) nelse
(n ) 0 .5 4 0 .4c6 0 ,o 2 n s /N ([ 1 )]0 , n n e (N l1 s ) e
12
预处理
1.窗口的形状 ❖ 好的窗函数的标准是：在时域因为是语音波形乘以
窗函数，所以要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的语音波形缓慢降为零，减小语音帧的截断效应；在频域要有较宽的3dB带宽以及较小的边带最大值。这里只以典型的矩形窗和汉明窗为例进行比较，其他窗口可参阅FIR数字滤波器或谱分析的有关书籍。
但是在一个短时间范围内（一般认为在10-30ms的短时间
内），其特性基本保持不变即相对稳定，因而可以将其看作
是一个准稳态过程，即语音信号具有短时平稳性。
3
1 概述
❖ 根据所分析出的参数的性质的不同可以分为：时域分析、频域分析、倒频域分析,线性预测分析等;
❖ 分析方法的不同：模型分析方法和非模型分析方法
原信号值之间的差值称为量化误差，又称为量化噪声。 ❖ 若量化间隔Δ足够小，可以证明量化噪声符合具有下列特征

语音信号的特征分析讲解课件

语音信号的频谱特征
语音信号的动态特性
语音信号具有时变特性，即语音信号的特性随时间而变化。这种动态特性使得语音信号具有丰富的信息，如语调、语速等。
语音信号具有特定的频谱特征，包括基频、共振峰和噪声等。这些特征决定了语音信号的音质、音调和音色。
语音信号的传播
01
语音信号的传播方式
语音信号可以通过空气传播、固体传播和液体传播等多种方式进行传播
。在日常生活中，我们主要通过空气传播的方式接收到语音信号。
02
语音信号的传播速度
在标准大气条件下，语音信号的传播速度约为343米/秒。这意味着在开
放空间中，声音可以在一秒钟内传播约343米。
03
语音信号的衰减
随着距离的增加，语音信号的强度会逐渐减弱。此外，障碍物、温度梯
度等因素也会影响语音信号的传播，导致信号衰减或失真。
HTK语音识别工具包
01
HTK (Hidden Markov Model Toolkit)
用于语音识别的开源工具包，基于隐马尔可夫模型和声学模型，支持连续语音识别和语音合成。
02 03
特征提取
HTK支持多种特征提取方法，如MFCC（Mel-frequency cepstral coefficients）、PLP（Perceptual Linear Prediction）等。
人机交互
语音识别
通过特征分析，将输入的语音信号转化为机器可识别的语言，实现人机交互。例如，语音助手、智能客服等。
语音合成
将文本信息转化为人类可识别的语音信号，实现人机交互。例如，语音导航、语音播报等。
语音识别
声纹识别
通过特征分析，提取出说话人的声音特征，进行身份识别。例如，手机解锁、门禁系统等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

信息科学与工程学院
东南大学
预处理：加窗
2.窗口的长度
采样周期Ts=1/fs，窗口长度N和频率分辨率Δf 之间存在下列关系：
采样率一定时，Δf 随窗口宽度N的增加而减小，即频率分辨率相应得到提高
• 窗口长，频率分辨率高，时域分辨率降低 • 窗口短，频率分辨率低，时间分辨率提高
1 Vf NTs
其中σx2表示语音方差，2Xmax表示信号的峰值，B 表示量化字长, σe2表示噪声方差。通常语音信号的幅度符合Laplacian分布，则 SNR(dB) 6.02B 7.2 表明量化器中的每bit字长对SNR的贡献为6dB。
信息科学与工程学院
东南大学
预处理：预加重
语音信号的平均功率谱受声门激励和口鼻辐射影响，预处理中要进行预加重 (Preemphasis)处理。其目的是提升高频部分，使信号频谱变得平坦，以便于频谱分析或声道参数分析。
信息科学与工程学院
东南大学
预处理：加窗
窗口长度的选择，更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1～7个基音周期。不同人的基音周期变化很大，从女性和儿童的2ms到老年男子的14ms(即基音频率的变化范围为500～70Hz)，所以N的选择比较困难。通常在10kHz取样频率下，N折中选择为 100～200点为宜(即10～20ms持续时间)。
信息科学与工程学院东南大学
预处理：加窗
矩形窗与汉明窗的比较
窗类型旁瓣峰值主瓣宽度最小阻带衰减
矩形窗汉明窗 -13 -41 4π/N 8π/N -21 -53
汉明窗的主瓣宽度比矩形窗大一倍，即带宽约增加一倍，同时其带外衰减也比矩形窗大一倍多，汉明窗比矩形窗更为合适。因此，对语音信号的短时分析来说，窗口的形状是至关重要的。
信息科学与工程学院东南大学
fH =3400Hz， fL=60-100Hz， fS=8kHz
信息科学与工程学院
东南大学
数字化：采样、A/D变换
信息科学与工程学院
东南大学
数字化：采样、A/D变换
语音信号经过预滤波和采样后，由A/D变换器变换为二进制数字码。 A/D要对信号进行量化，不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。若信号波形的变化足够大，或量化间隔Δ足够小时，量化噪声符合具有下列特征：
①是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布，即具有等概率密度分布
信息科学与工程学院
东南大学
数字化：采样、A/D变换
量化信噪比SNR（信号与量化噪声的功率比）：
2 x X max SNR(dB) 10lg 2 6.02B 4.77 20lg e x
汉明窗：
0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
信息科学与工程学院东南大学
预处理：加窗
窗函数的形状和长度对短时参数特征影响很大 1.窗口形状
时域：要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的语音波形缓慢降为零，减小语音帧的截断效应；频域：要有较窄的3dB带宽以及较大的旁瓣衰减(较小的边带最大值)。这里只以典型的矩形窗和汉明窗为例进行比较。
H ( z) 1 z
1
信息科学与工程学院
东南大学
预处理：分帧
语音信号预加重后，进行加窗分帧处理。一般33-100s/帧。分帧可以采用连续分段，但一般要采用如交叠分段，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0-1/2。
语音信号存入计算机带通滤波器自动增益控制（AGC）模/数转换（A/D）脉冲编码调与工程学院
东南大学
数字化：预滤波
抑制语音信号中频率超出fs/2的频谱分量(fs 为采样频率)，防止混叠干扰。抑制50Hz的电源工频干扰。预滤波器必须是一个带通滤波器，设其上、下截止频率分别是fH和fL：
信息科学与工程学院东南大学
预处理：加窗
信息科学与工程学院
东南大学
预处理：加窗
矩形窗、Hamming窗下信号功率谱的比较 x(n) 5sin(nw1 ) 5sin(nw2 ) v(n)
信息科学与工程学院
东南大学
预处理：加窗
x(n) 0.2sin(nw1 ) 5sin(nw2 ) v(n)
信息科学与工程学院
东南大学
预处理：分帧

信息科学与工程学院
东南大学
预处理：加窗
分帧加窗的过程：在时域用窗函数ω(n)对语音信号s(n)进行截断，从而形成加窗信号 sω(n)=s(n)* ω(n) 常用的窗函数是矩形窗和汉明窗(其中N为帧长)：
1, 0 n ( N 1) 矩形窗： (n) 0, n else
3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5基间周期估计 3.6共振峰估计
信息科学与工程学院
东南大学
3.1 概述
语音信号分析（提取表示语音信号特征的参数）：短时分析技术
特征参数均是随时间而变化的-非平衡态过程在短时间范围内（10-30ms），其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。
信息科学与工程学院
东南大学
3.1 概述
参数性质的不同：
时域分析频域分析(倒频域分析、线性预测分析)
分析方法的不同：
模型分析方法非模型分析方法
信息科学与工程学院
东南大学
3.2 语音信号的数字化和预处理
语音信号分析的两个步骤
语音信号数字化：反混叠滤波、增益控制、采样、A/D变换及编码（PCM码）