语音信号处理第4讲讲义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N 1
M n xn (m) m0
Mn也是一帧语音信号能量大小的表征,它与En的区别在于 计算时小取样值和大取样值不会因取平方而造成较大差异。
(1)区分清/浊音: En , M n 大,对应浊音,En , M n 小,对应清音。
(2)在SNR高的情况下,能进行有声/无声判决 无声时,背景噪声的En , Mn 小 有声时, En , Mn 显著增大。判决时可设置一个门限
(3)大致能定出浊音变为清音的时刻,或反之。 存在的问题:
短时能量函数对信号电平值过于敏感,在实际应用中(如定点设备)很 容易溢出。此时可以用平均幅度函数代替,单对清/浊音,有/无声 的 幅度差不如短时能量明显。
短时过零率(ZCR)分析
短时过零率:一帧语音中语音信号波形穿过横轴(零电平)的 次数。
进行过预加重数字滤波处理后,接下来就要进行加窗分帧处 理。一般每秒的帧数约为33-100帧,视实际情况而定。分帧 虽然可以采用连续分段的方法,但一般要采用如图3-1所示 的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持 其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧 长的比值一般取为0-1/2。
关系: Δf=1/NTs
可见,采样周期一定时,Δf随窗口宽度N的增加而减小,即 频率分辨率相应得到提高,但同时时间分辨率降低;如果窗 口取短,频率分辨率下降,而时间分辨率提高,因而二者是 矛盾的。应该根据不同的需要选择合适的窗口长度。
语音分帧
有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。 通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的 基音周期变化很大,从女性和儿童的2ms到老年男子的14ms(即基 音频率的变化范围为500~70Hz),所以N的选择比较困难。通常在 10kHz取样频率下,N折中选择为100~200点为宜(即10~20ms持续 时间)。
分帧是用可移动的有限长度窗口进行加权的方法来实现的, 这就是用窗函数ω(n)来乘s(n),从而形成加窗语音信号 sω(n)=s(n) ω(n)。
语音分帧
帧长与帧移:
取的点数为帧长,乘以采样周期得帧长时间
两帧间隔为帧移
两帧一定要有重叠,否则有参数突变
在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等, 它们的表达式如下(其中N为帧长):
分析方法的不同: 模型分析方法和非模型分析方法
不论是分析怎么样的参数以及彩什么分析方法,在按帧进行 语音分析,提取语音参数之前,有一些经常使用的、共同的 短时分析技术必须预先进行,如语音信号的数字化、语音信 号的端点检测、预加重、加窗和分帧等,这些也是不可忽视 的语音信号分析的关键技术。
4.2 语音分帧
4.1概述 4.2语音分帧 4.3语音信号的时域分析 4.4语音信号的频域分析
语音信号分析 语音信号处理的前提和基础,只有分析出可表示语音信号 特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和 语音识别等处理。
贯穿于语音分析全过程的是“短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变
时域分析是最早使用,也是应用最广泛的一种分析方法,这 种方法直接利用语音信号的时域波形。时域分析通常用于最 基本的参数分析及应用,如语音的分割、预处理、大分类等。 特点是:
①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④只使用示波器等通用设备,使用较为简单等。
1, (x 0) sgn[x] 1, (x 0)
短时过零率分析
(1)区分清/浊音: 清音平均过零率高,集中在高频端 浊音平均过零率低,集中在低频端
矩形窗: 汉明窗:
(n)
1, 0,
0 n (N 1) n else
(n)
0.54
0.46
cos[2n
0,
/(N
1)],
0 n (N 1) n else
语音分帧
1.窗口的形状
虽然,不同的短时分析方法(时域、频域、倒频域分析)以及 求取不同的语音特征参数可能对窗函数的要求不尽一样,
对于连续语音信号,过零即意味着时域波形通过时间轴; 对于离散信号,如果相邻的取样值改变符号则称为过零。过
零率就是样本改变符号的次数。
短时过零率分析
定义语音信号xn(m)的短时过零率Zn为:
Zn
来自百度文库
1 2
N 1 m0
sgn[xn (m)] sgn[xn (m
1)]
式中,sgn[]是符号函数,即
化的,所以它是一个非平衡态过程,不能用处理平衡信号的数字信号处 理技术对其进行分析处理。
但是在一个短时间范围内(一般认为在10-30ms的短时间内),其特 性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即 语音信号具有短时平稳性。
根据所分析出的参数的性质的不同可以分为: 时域分析、频域分析、倒频域分析,线性预测分析等;
一般来讲,一个好的窗函数的标准是:在时域因为是语音波 形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘 两端不引起急剧变化而平滑过渡到零,这样可以使截取出的 语音波形缓慢降为零,减小语音帧的截断效应;在频域要有 较宽的3dB带宽以及较小的边带最大值。
语音分帧
2.窗口的长度 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列
这样,经过上面介绍的处理过程,语音信号就已经被分割成一帧 一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成 平稳的随机信号,利用数字信号处理技术来提取语音特征参数。 在进行处理时,按帧从数据区中取出数据,处理完成后再取下一 帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序 列。
语音信号的时域分析就是分析和提取语音信号的时域参数。 进行语音分析时,最先接触到并且也是最直观的是它的时域 波形。语音信号本身就是时域信号,
短时平均能量及含义
N 1
N 1
短时平均能量:En xn2 (m) (m)x(n m)2
m0
m0
每区一个n,得到一个 En
短时能量及短时平均幅度分析
En是一个度量语音信号幅度值变化的函数,但它有一个缺陷, 即它对高电平非常敏感(因为它计算时用的是信号的平方)。
短时平均幅度函数Mn,它定义为:
相关文档
最新文档