语音信号的特征分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


为了减小语音帧的截断效应,需要加窗处理;
sw (n) s(n)w(n)
矩形窗
w(n) 1, 0 n N 1
w(n) 0.54 0.46 cos( 2 n ), 0 n N 1 N 1
哈明窗 (Hamming)
汉宁窗 (Hanning)
n w(n) 0.5(1 cos( 2 )), 0 n N 1 N 1
声音信号的数字化
模拟语音信号在时间与幅度上的二重连续性

时间上离散化:每秒钟需要采集多少个声音样本, 也就是采样频率(fs)是多少, 幅度上离散化:每个声音样本的位数(bit per sample,bps) 应该是多少,也就是量化精度。
语音信号的采样频率
奈奎斯特采样定理:fs> 2 fmax 窄带语音信号: fs =8000Hz

旁瓣:
旁瓣的高度决定了对临近频率成分的干扰抑制能力,高
度越低,抑制干扰能力越强
矩形窗: 主瓣高度 - 第一个旁瓣高度 ≈ 13dB hamming窗: 主瓣高度 - 第一个旁瓣高度 > 40dB
旁瓣高度跟窗长N
无关
wk.baidu.com
窗函数及其比较
三种窗函数都有低通特性,通过分析三种窗的 频率响应幅度特性可以发现: 矩形窗的主瓣宽度最小分辨率最高,旁瓣高度 最高,会导致泄漏现象,哈明窗的主瓣最宽, 分辨率低(可以通过适当提高窗长解决),旁 瓣高度最低,可以有效的克服泄漏现象,具有 更平滑的低通特性,应用更广泛。

其次是窗口的形状,不同的窗,其频率特性是不一样的,这 在短时频域分析时尤为重要。
窗口的形状和长度对分析影响很大,不同的分析方法对窗函数 的要求不尽一样。
窗函数频谱的主瓣与旁瓣 主瓣:
主瓣宽度控制频谱分析的频率分辨率,主瓣越窄,频率
分辨率越高
矩形窗的主瓣宽度 = fs/N hamming窗的主瓣宽度 约为 2fs/N
第三章 语音信号的特征分析
语音信号的数字化 语音信号的短时分析与短时处理的概念 语音信号的时域特征分析 语音信号的频率特征分析 语音信号的同态解卷与倒谱分析

端点检测、语音分割与基频估计
3.1 语音信号的数字化
通过电脑或者其它数字录音设备采集的语音信号都已 经经过数字化了,一般不需要用户再进行数字化处理。 尽管如此,有必要简单了解一下语音信号的数字化过 程与原理。
语音信号的短时过零率
过零就是指信号通过零值。过零率(zero-crossing rate)就是每秒内信号值通过零值的次数。 对于离散时间序列,过零则是指序列取样值改变符 号,过零率则是每秒内信号样本改变符号的次数。 对于语音信号,则是指在一帧语音中语音信号波形 穿过横轴(零电平)的次数。可以用相邻两个取样 改变符号的次数来计算。
对于语音识别系统而言,用于电话用户时要求技术指标与语音编码器相 同,如果对于更高的要求场合,则fH=4500Hz或8000Hz, fL=60Hz,
fs=10KHz或20KHz
帧和加窗的概念
短时分析将语音流分为一段一段来处理,每一段称 为一“帧”; 帧长:10~30; 帧移:0~1倍帧长,帧与帧之间的平滑过渡; 语音识别中常用的帧长为20~30ms,帧移为10ms
语音有声和无声
在许多语音处理技术中需要判断一段输入信号中哪 些是语音段,哪些是无声段(只有背景噪声) 在语音识别中正确的决定所要识别语音的起点、终 点对于提高识别率往往是重要的。 对于数字移动通信的手持机编译码器,在较长的无 声段应降低发射功率以节约其电池的消耗。 对于已经判定为语音段的部分,尚需决定其清音或 浊音,无论对于语音识别还是低速语音编译码器这 都是很重要的。这些问题可以概括为无声/有声判决 以及更细致的S/U/V判决。 能够实现这些判决的依据在于不同性质的语音的各 种短时参数具有不同的概率密度函数以及相邻的若 干帧语音应具有一致的语音特性,它们不会在 S、 U、V之间跳来跳去。


短时过零率
1 Z 0 {| sgn[s w (n)] sgn[s w (n 1)] |} 2
x0 1, sgn(x) 1, x 0

波形穿过横轴(零电平)的次数
短时过零可以看作信号频率的简单度量
短时过零率在语音信号分析中的应用
发浊音时,声带振动,因而声门激励是以此音调频 率为基频来使声道共振;尽管有若干个共振峰,但 其能量的分布集中于低于3KHz的频率范围内。 发清音时声带不振动,声道某部分阻塞产生类白噪 声激励,通过声道后其能量集中在比浊音时更高的 频率范围内。 浊音时能量集中于较低频率段内,具有较低的过零 率,而清音时能量集中于较高频率段内,具有较高 的过零率。
1
矩形窗
Amplitude
0.8
0.6
Magnitude (dB)
10 20 30 40 Samples 50 60
20 10 0 -10 -20
0.4
0.2
0
0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择,将决定短时语音分析结果的好坏

固网电话语音量化就是用的非均匀量化
声音的质量与数据率(采样频率和量化精度)的关系
质量 电话 采样频率 (kHz) 8 样本精度 (bit/s) 8 单道声/ 立体声 单道声 数据率(kB/s) (未压缩) 8 频率范围 300~3400 Hz
AM
FM CD DAT
11.025
22.050 44.1 48

浊音和清音情况下典型的平均过零率的直方图
直方图的分布形状与高斯分布很吻合,而且浊音时 的短时平均过零率的均值为14过零/10ms,清音时 短时过零率的均值为47过零/10ms。注意到浊音和 清音有一个交叠区域,此时很难分清是浊音还是清 音,尽管如此,平均过零率仍可以粗略的判断清音 和浊音。

作为短时过零率的一个改进参数,语音分析时更常 用的是短时过电平率(level-crossing rate)。
1
Hanning
Amplitude
0.8
0
汉宁窗
0.6
Magnitude (dB)
Time domain 30 40 Samples
-50
0.4
-100 0.2
0
10
20
50
60
-150
40 30
0
0.2
Frequency domain 0.4 0.6
0.8
Normalized Frequency ( rad/sample)
几种常见的窗函数的波形
Matlab中,可以通过help window命令来查看怎么产生不同的窗
1
0.8
rectangular hamming hanning bartlett
0.6
0.4
0.2
0
0
50
100
150
200
250

几种不同的窗函数波形与频谱的比较
Time domain 40 Frequency domain 1 20 0.8 0

电话语音(固网电话通信频带为300-3400Hz) 可以基本保持语义,不影响人对语音的感知 质量不是很好,有时候会有变音

宽带语音信号:fs =16000Hz
一般对语音质量要求较高的场合 再提高采样频率也不会对语音质量有太多贡献
量化精度
量化所用比特越大,声音质量越好 声音质量也跟量化算法有关,比如同样用8bit量化, 非均匀量化(µ-律或A-律)就比均匀量化好很多
判断语音信号的起点和终点的一种算法(续)

根据MH可判定输入语音中 ~ ~ 的前后两个点 N 和 N 1 2 , 它 们之间肯定是语音段,但是 语音的精确起点、终点还要 ~ ~ 在 N 之前和 之后仔细 N 1 2 查找。为此在设置一个低阈 ~ 值参数ML ,由 N 向前找, 1 当短时平均幅度M由大到小 减至ML时可以确定点 N1 。 ~ N2 类似由 向后找,可以确 定N2 。在N1和N2之间仍能 肯定是语音段。
8
16 16 16
单道声
立体声 立体声 立体声
11.0
88.2 176.4 192.0
20~5000 Hz
50~7000 Hz 20~20000 Hz 20~20000 Hz
3.2 语音信号的短时分析

语音分析是语音信号处理的前提和基础; 分析的目的是提取需要的信息,获取特征表示参数; 短时分析

首先是窗的长度,无论什么形状的窗,长度N将起决定 性的作用。
N选得太大,不能保证每一帧的语音的平稳特性 N太小,不能保证信号的统计特性,容易产生统计噪声 对于频域分析而言,窗长N还直接决定了信号频谱的分辨率
对于语音信号,通常帧长应选择为一个语音帧包含有至少2个基音
周期为好。人的语音的基音周期值是变化的,从女性小孩的2ms到 老年男子的14ms(即基音频率为500Hz至70Hz),所以N的选择 是比较困难的。通常折衷的选择N为20~30ms。若采用频率为 10KHz,则相当于每帧的长度(即窗口序列的长度)约为200~300 点为宜。若采样频率为8KHz,相当于160~240点
短时过电平率在区分清音和静音时很有用
利用过零率与过电平率区分清、浊音和静音
短时过零率
短时过电平率
清(U)、浊(V)、无声(S)的平均幅度(M)和过零率(Z) 的条件概率密度函数
浊音、清音、无声的短时特性
S(无声)U(清音)V(浊音)三种情况下短时 平均幅度的条件概率密度的示意图。可以看出, 浊音的短时平均幅度最大,无声的短时平均幅度 最小。 清音的短时过零率最大,无声居中,浊音的短时 过零率最小
Hamming
Amplitude
Magnitude (dB)
10 20 30 40 Time domain Samples 50 60
哈明窗
0.6
-20 -40 -60
0.4
0.2
-80 -100
0
0
50
0.2 0.4 0.6 0.8 Frequency domain Normalized Frequency ( rad/sample)
判断语音信号的起点和终点的一种算法(续)

由N1向前和N2向后继续用短时过零 率Z进行搜索。根据无声情况下短时 过零率Z的均值,设置一个参数Z0, 如果由N1向前搜索时Z始终大于Z0的 3倍,则认为这些信号仍属于语音段, 直至Z突然下降到低于3Z0值时,这时 可以确定语音的精确起点。对终点做 同样的处理。采取这一算法的原因在 于, N1以前可能是一段清辅音段 (如f,s),它的能量相当弱,依靠能 量不可能把他们与无声段区别开,而 他们的过零率明显高于无声,因而能 用这个参数来精确的判断二者的分割 点,也就是语音真正的起点。
语音是一个时变信号 语音的短时平稳特性,在10~30ms时间段内相对平稳
预滤波
预滤波的目的
防止混叠干扰 抑制50Hz的电源干扰
预滤波实际上是一个带通滤波器,其上下截止频 率分别为fH和fL 。 对于电话语音编码器而言,要求fH=3400Hz, fL=60~100Hz, fs=8KHz.
En

若加的是矩形窗
n N 1 m n
m
[ x(m)w(n m)]
2 [ x ( m )] w
2

m N n 1

n
[ x(m) w(n
1, 0 n N 1 w(n) 0, others

En
2 [ x ( m )]
语音信号及其取不同窗长时的短时能量
短时平均能量的主要用途
可以从语音中区别出浊音来,因为浊音时短时平均 能量的值要比清音时短时平均能量的值大很多; 可以用来区别声母和韵母的分界、无声和有声的分 界等
语音信号的短时平均幅度
语音信号x(n)的短时平均幅度(假定加长度为
N的矩形窗)可以表示为
En
n N 1 m n
| x ( m) |

判断语音信号的起点和终点的一种算法


在孤立词(字)语音识别 系统中需正确判定每一个 输入语音的起点和终点, 利用短时平均幅度和短时 过零率可以做到这一点。 首先,可根据浊语音情况 下短时平均幅度M的概率 密度函数P(M/V)确定一个 阈值参数MH, MH的值定得 比较高。当一帧输入信号 的M值超过MH时,就可以 十分肯定该帧语音信号不 是无声,而有相当大的可 能性是浊音。
3.3 语音信号的时域特征分析
短时能量 短时平均幅度 短时过零率
短时自相关函数
短时平均幅度差函数
语音信号的短时能量(语音信号强度 的度量参数)

语音信号x(n)的短时能量(假定加长度为N的窗) 可以表示为
En
n N 1 m n 2 [ x ( m ) w ( m n )] n N 1 m n
相关文档
最新文档