语音信号处理第3章语音信号分析方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

如果aN~=0，则IIR滤波器的阶数为N。
IIR滤波器的差分方程表示为：
y ( n)
m 0
bm x(n m) am y(n m)
m 1
M
N
设计经典数字滤波器的步骤：
（1）将设计指标归一化处理，即通带截止频率Wp 和阻带截止频率Ws。
（2）根据归一化频率，确定最小阶数N 和频率参数 Wn。可供选用的阶数选择函数有:buttord， cheb1ord，cheb2ord，ellipord 等。
（3）运用最小阶数N 设计模拟低通滤波器原型，用到的函数有：butter, chebyl,cheby2, ellip 。
（4）用freqz(b,a,N,fs) 函数验证设计结果。
（5）用filter(b,a,x)函数实现滤波功能。
直接设计数字滤波器的MATLAB函数： [N,wn]=buttord(wp,ws,Rp,Rs) %数字频率采用标准化频率，取值范围为0~1之间，标准化频率1对应的数字频率为π，对应的模拟频率为采样频率的一半。设计带通滤波器时，wp=[wp1,wp2]; ws=[ws1,ws2] [b,a]=butter(N,wn,’ftype’) %N为滤波器的阶数， wn为滤波器的截止频率（0~1），“ftype”为滤波器的类型：‘high’为高通，‘stop’为带阻，截止频率为wn=[w1,w2];缺省时为低通和带通滤波器
[N,Wn]=buttord(wp1,ws1,Rp,Rs);
[b,a] = butter(N,Wn);%确定传递函数的分子、分母系数
[h,f]=freqz(b,a,Nn,Fs);
plot(f,20*log(abs(h)))
%生成频率响应参数
%画幅频响应图
巴特沃斯低通滤波器幅频曲线 0 -100 -200
*窗口的长度
1 f NTs
频率分辨率和时间分辨率是矛盾的，应该根据不同的需要选择合适的窗口长度。
对于时域分析来讲，如果N很大，则它等效于很窄的低通滤波器，语音信号通过时，反映波形细节的高频部分被阻碍，短时能量随时间变化很小，不能真实的反映语音信号的幅度变化；反之，N太小时，滤波器的通带变宽，短时能量随时间有急剧的变化，不能得到平滑的能量函数。
j 0 m
令函数与离散数据的误差二次方和为最小，即
ˆ k xk ) 2 ( a j k j x k ) 2 E ( x
k 1 k 1 j 0 n n m
依次对 ai求偏导，可得 m+1 元线性方程组
a j k
k 1 j 0
n
m
j i
xk k i 0
幅度/dB
-300 -400 -500 -600
0
2000
4000
6000 8000 频率/Hz
10000 12000
3.2.4 预加重与去加重
对于语言和音乐来说，其功率谱随频率的增加而减小，其大部分能量集中在低频范围内，这就造成语音信号高频端的信噪比可能降到不能容许的程度。此外，由于语音信号中较高频率分量的能量小，很少有足以产生最大频偏的幅度，因此产生最大频偏的信号幅度多数是由信号的低频分量引起。而调频系统的传输带宽是由需要传送的消息信号的最高有效频率和最大频偏决定的，所以调频信号并没有充分占用给予它的带宽。但是，接收端输入的噪声频谱却占据了整个调频带宽，即鉴频器输出端的噪声功率谱在较高频率上已被加重了。为了抵消这种不希望有的现象，在调频系统中普遍采用一种叫做预加重和去加重措施。
p Байду номын сангаас | s 过渡带
IIR滤波器结构

IIR滤波器的系统函数为
B( z ) H ( z) A( z )
n 0
n a z n
n 0 N
n b z n
M
b0 b1 z 1 bM z M ; a0 1 1 N 1 a1 z aN z
0.4 0.2
幅值
0 -0.2 -0.4 0
0.5
1 时间/s
1.5
2
2.5
产生原因：由于测试系统的某些原因在时间序列中会产生的一个线性的或者慢变的趋势误差，例如放大器随温度变化产生的零漂移，传声器低频性能的不稳定或传声器周围的环境干扰，总之使语音信号的零线偏离基线，甚至偏离基线的大小还会随时间变化。零线随时间偏离基线被称为信号的趋势项。
由此可知，当时的趋势项为信号采样数据的算术平均值，即是直流分量。消除常数趋势项的计算公式为
ˆ k xk a 0 y k xk x
n n 当 m=1时为线性趋势项，有 n 0 0 a k a k x k 0 1 k 0 k 1 k 1 k 1 n n n 2 a k ak x k 0 0 1 k k 1 k 1 k 1
| | p
| H ( e j ) | 1 1p
通带
p 通带截止频率 p 通带容限
1 | H (e j ) | 1 p
s | |
s
通带过渡带阻带
阻带

s 阻带截止频率 s 阻带容限
| H (e j ) | s
p
s
低通滤波器幅频特性
xn ( m ) w( m ) x ( n m )
常用加窗函数： 1）矩形窗： 2）海宁窗： 3）汉明窗：
1, w(n ) 0,
0 n N 1 n else 0 n N 1 n else
0.5(1 cos(2 n / ( N 1))) w(n ) 0
切比雪夫I型滤波器、切比雪夫II型滤波器和椭圆滤
波器四类。
低通
| H ( j) |
带通
| H ( j) |
0
| H ( j) |

0
| H ( j) |

0
高通

0
带阻

各种理想滤波器的幅频特性
理想滤波器对应的时域响应为非因果的，因而实际的滤波器频率特性是用一个具有因果冲激响应的系统函数对理想滤波器频率特性的逼近。
k 1
n
i [0,m]
通过解方程组求出m+1 个待定系数 ai 。
在实际语音信号数据处理中，通常取m=1~3来对采样数据进行多项式趋势项消除的处理。
当m=0 时求得的趋势项为常数，有
0 a k x k 0 k 0 0 k 1 k 1 n n
解方程得
1 n a0 xk n k 1
8 4 / N
窗函数的频率响应： 1）矩形窗： 2）海宁窗：
WR ( w) e jwnT
n 0
N 1
sin( NwT / 2) jwT ( N 1)/2 e sin( wT / 2)
2 2 ) WR ( w )] N 1 N 1
WHan ( w) 0.5 WR ( w) 0.25 [WR ( w
3.2
3.2.1 分帧与加窗
语音信号预处理
分帧虽然可以采用连续分段的方法，但一般采用交叠分段的方法。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0～1/2。分帧是用可移动的有限长度窗口进行加权的方法来实现的，即用一定的窗函数来乘以语音信号。
3.2.1 分帧与加窗
加窗信号的表示形式：
预加重的中心思想是利用信号特性和噪声特性的差别来有效地对信号进行处理。在噪声引入之前采用预加重网络，人为地加重输入调制信号的高频分量。然后在接收机鉴频器的输出端，再进行相反的处理，即采用去加重网络把高频分量去加重，恢复原来的信号功率分布。在去加重过程中，同时也减小了噪声的高频分量，但是预加重对噪声并没有影响，因此有效地提高了输出信噪比。常用所谓“预加重技术”是在取样之后，插入一个一阶的高通滤波器。常用的预加重因子为 : R(1) 1 1 E 1 Pz 1 z R(0) 对于浊音来说，通常 P=1；而对于清音，则该值可取得很小。在语音播放时再进行“去加重”处理，即预加重的反处理，对应的去加重因子为1/E 。
窗口长度的选择更重要地是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1~7个基音周期。
3.2.2 消除趋势项和直流分量
(a)带趋势项的语音信号 1 0.5
幅值
0 -0.5 带趋势项的语音信号 -1 -1.5 0 0.5 1 1.5 时间/s (b)消除趋势项的语音信号趋势项信号 2 2.5
0.54 0.46cos[2 n / ( N 1)], 0 n N 1 w(n ) 0, n else
不同窗函数的形状差别比较大，因此对于短时分析参数的特性影响很大。选择合适的窗口可使短时参数更好地反映语音信号的特性变化。此外，窗函数的长度也是一个关键参数。
第3章
语音信号分析方法
概述
语音信号预处理时域分析
频域分析
倒谱分析
线性预测分析
3.1
概述
贯穿于语音分析全过程的是“短时分析技术”。语音信号
从整体来看其特性及表征其本质特征的参数均是随时间而变化的，所以它是一个非平稳态过程。但是，由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应，而这种口腔肌肉运动相对于语音频率来说是非常缓慢的。因此，语音信号具有短时平稳性。任何语音信号的分析和处理必须建立在“短时”基础上，将语音信号分为一段一段来分析其特征参数。通常，每一段被称为一“帧”，帧长一般取10~30ms。此时，对于整体的语音信号来讲，分析出得到的参数应该是由每一帧特征参数组成的特征参数时间序列。
设计实例：设计巴特沃斯低通滤波器，采样频率Fs=22050Hz，通带截止频率3400Hz，阻带截止频率5000Hz，通带和阻带区的波纹系数分为为2dB和20dB。 %设计指标 Fs=22050;Fp1=3400;Fs1=5000;Rp=3;Rs=20;Nn=128; wp1=2*Fp1 /Fs;ws1=2*Fs1 /Fs;%求归一化频率 % 确定butterworth 的最小阶数N 和频率参数Wn
解方程组得
n n 2(2n 1) xk 6 xk k k 1 k 1 a0 n( n 1) n n 12 xk k 6( n 1) xk k 1 k 1 a 1 n( n 1)( n 1)
消除线性趋势项的计算公式为
3）汉明窗： 2 2 WHam ( w) 0.54 WR ( w) 0.23 [WR ( w ) WR ( w )] N 1 N 1 性能对比
窗类型旁瓣峰值主瓣宽度最小阻带衰减 -13 4π/N -21 矩形窗 -31 8π/N -44 汉宁窗 -41 8π/N -53 汉明窗
消除方法：直流分量的消除比较简单，即减去语音信号的平均项即可。而对于线性趋势项或多项式趋势项，常用的消除趋势项的方法是用多项式最小二乘法。在MATLAB里自带有消除线性趋势项的函数detrend。
用一个多项式函数表示语音信号中的趋势项：
ˆk a0 a1k a2 k 2 am k m a j k j (k [1, n ]) x
ˆk xk ( a0 a1k ) y k xk x
3.2.3 数字滤波器
采集语音信号时，交流隔离不好会将工频50Hz的交
流声混入到语音信号中，可采用高通滤波器滤除工
频干扰；此外，由于基音的频率较低，通常位于60450Hz之间。因此，在基音提取算法中，为了抗干扰，常设计低通滤波器来提取低频段信号。常用的经典IIR数字滤波器包含巴特沃斯滤波器、
(a)矩形窗 1
幅度
0.5 0 0 1 5 10 15 (b)汉宁窗 20 25 30
幅度
0.5 0 0 1 5 10 15 (c)汉明窗 20 25 30
幅度
0.5 0 0 5 10 15 点数 20 25 30
*窗口的形状虽然不同的短时分析方法以及求取不同的语音特征参数可能对窗函数的要求不尽一样，但一般来讲，一个好的窗函数的标准是：在时域，由于是语音波形乘以窗函数，所以要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，从而以使截取出的语音波形缓慢降为零，减小语音帧的截断效应；在频域，窗函数要有较宽的3dB带宽以及较小的边带最大值。

语音信号处理第3章 语音信号分析方法

语音信号处理第3章语音信号分析方法