抗噪声语音识别及语音增强算法的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
|
S^K
|
=
[|
yk
|5
-
βλλ n
(
k)
]1 /5
(1)
其中 5,β为参数 。一般的谱减方法中 λ = 2,β = 1。适当的调
整两参数可以获得更好增强效果 。
掩蔽 ,它描述的是在信号发生的整个时间内产生的掩蔽 , 当 两个音同时作用于人耳时 ,强度大的纯音会影响人耳对强度 小的纯音的感知 ,人耳听不到强度小的纯音 。人耳是一个有 限频率分辨率的声学系统 , 分辨率与当前的频率有关 。掩蔽 曲线如图 2[3 ] 。
ABSTRACT: Imp roving the robustness of speech recognition system is an important issue in speech recognition tech2 nology. The performance of traditional speech recognition system degrades seriously when the training environments and the testing environments are m ismatched . In order to acquire satisfactory performance of speech recognition sys2 tem under noisy environment, in this essay, a new robust speech feature extraction method based on p roperties of the human auditory system is p resented . This method p rocesses the noisy speech by using masking p roperties before the M FCC extraction and analyses the speech feature w ith the speech enhancement algorithm and gets the robust speech feature finally. The results in four different kinds of experiments show that the performance of speech recognition sys2 tem can be imp roved greatly by using the new method under noisy environment and the p roposed method is highly ap2 p licable. KEYW O RD S: Speech recognition; Noise; Robustness; M asking model; Spectral substraction
5) 用离散余弦变换计算倒谱系数 。
3. 4 模型训练
在本文所建立的语音识别系统中 , 每个识别基元使用自
左往右 5状态的 HMM 模型 。如图 4所示 。
a
表示任意状态
ij
i,
j之间的转移概率 ,转移概率矩阵 A为
— 81 —
图 4 隐马尔可夫模型
一个 5行 5列的矩阵 。每个状态 j的观测概率密度分布函数用
量。
bh i
∑ Ei =
P (ω)
(4)
ω =hli
4) 对临界带的频谱应用扩散函数 ,计算语音信号对临近
临界带信号的掩蔽能力 [4 ] 。
5) 用扩散掩蔽门限求得临界掩蔽门限 。 3. 3. 2 带噪语音的特征提取
训练时的掩蔽门限是在纯净语音中求得的 , 而在识别过 程中求得是带噪语音的门限 ,导致识别和训练时的特征提取 不相匹配 ,为了更好的的解决这个问题 , 本实验在求掩蔽曲 线之前使用谱减方法 , 先估计一段无声段噪声的频谱 , 然后 对所有的语音帧频谱减去估计噪声的频谱 , 用图 1所示的方 法。
图 2 M FCC特征提取框图
M FCC在语音识别的特征中得到广泛的应用 ,通常特征 矢量直接从语音的频谱中提取 ,但是 M FCC特征在噪声环境 下容易受噪声干扰 , 本文利用了基于人耳听觉掩蔽模型的 M FCC特征提取方法 ,将掩蔽特性应用于 M FCC的特征提取 。 3. 2 人耳听觉的掩蔽特性
掩蔽分为同时掩蔽和非同时掩蔽 , 一般我们只考虑同时
图 3 掩蔽曲线图
对于一个语音频谱 ,每个频谱分量都可以看着是一个纯
音 ,每个纯音都有其掩蔽特性 ,由于各个分量的能量不同 , 掩
蔽的幅值就不一样 ,语音频率的最后掩蔽曲线 m ( f) 可以表
示为 :
m ( f) = m axΨ ( i) ( f)
(2)
Ψ ( i) ( f) 表示第 i个频率分量在频率算
使用心理听觉模型来计算掩蔽门限值 :
1) 对语音进行分帧处理 。
2) 对每帧进行 FFT变换 ,计算其能量谱 :
P (ω) = R e2 (ω) + Im 2 (ω)
(3)
3) 对每个语音进行临界带分析 , 计算每个临界带的能
Mj
∑ ∑ bj ( ot ) =
CjkN ( ot;μjk ,
m =1
)
jk
(6)
∑ N (;μ, ) 表示 39维的高斯分布函数 , 加权系数为 C, 均值
向量为 μ,方差矩阵为 ∑。
图 5 白噪声背景下的识别精度
4 试验结果及其分析
本实验中进行的孤立数字语音识别 。100个孤立数字语 音文件作为训练集合 ,测试语音为说话人不在训练集合中的 20个孤立数字语音 。我们在测试集的每语音中加入了信噪 比为 15, 10, 5, 0, - 5dB噪声 。用 12个特征参数以及其差分 和二阶差分 。本实验使用 5状态的隐马尔可夫模型 (HMM ) 进行识别 ,识别中共使用数字 0 - 9 的 10 个孤立数字模型 , 噪声来自 Noisex92数据包 ,采用四种方法进行实验 : ①谱减 法 ( SS) , ②传 统 的 M FCC, ③将 掩 蔽 特 性 用 于 特 征 提 取 (MM ) , ④基于掩蔽效应的语音增强法 ( SE) 。实验给出了系 统在白噪声和汽车噪声下的四种方法的实验结果 。
其算法如下 : 1) 用本文所述的谱减方法 (公式 ( 1) ) 。 2) 计算频谱相减后的掩蔽特性曲线 。 3) 取掩蔽门限 TH ( k) 和功率谱 P ( k) 两者之间的大值 。
Pm ( k) = m ax ( TH ( K) , P ( k) )
(5)
4) 通过 M el尺度的三角滤波器阵列 。
图 1 谱减框图
3 抗噪声语音识别
3. 1 特征提取 特征的选择和提取对识别的效果是致关重要的 ,本文识
别器 采 用 M el 频 率 倒 谱 系 数 (M e l - Frequency Cep stra l Coefficien ts, M FCC) 。语音特征参数是分帧提取的 ,语音信号 通过 16KH z频率采样 ,分帧 ,预加重 ,加窗 ,快速傅立叶变换 ( Fa st Fou rie r Tran sfo rm , FFT) ,使用三角滤波器组求得能量 系数取对数再经过离散余弦变换 (D iscre te Co sine Transfo rm , DCT) 计算 12维的 M el倒谱系数 ,并计算短时能量 ,接着计 算其一阶差分向量和二阶差分向量 , 这样每帧语音得到 39 维特征向量 。过程如下 :
1 引言
语音识别系统往往将安静环境下的训练模型应用于含 噪的真实环境中 ,噪声导致的语音特征和对应模板不匹配 , 由于测试环境和训练环境不一致 ,识别性能明显的下降 。近 年来提高语音识别的抗噪声能力有很多比较成功的技术和 算法 ,语音增强技术就是其中一种 。在语音识别系统的前端 应用的语音增强技术能有效的抑制背景噪声 ,但带来的频谱 失真和音乐噪声却是对识别的不利因素 。现代语音处理研 究了人耳的听觉特性 ,基于人的听觉特性的抗噪声语音识别 得到广泛的研究和应用 。很多的研究将人耳听觉系统具有 的掩蔽特性用于语音增强 、语音识别 。本文研究了一种把人 耳的听觉掩蔽特性结合到特征提取中 ,同时为了更好的将训
第 23卷 第 9期 文章编号 : 1006 - 9348 ( 2006) 09 - 0080 - 03
计 算 机 仿 真
2006年 9月
抗噪声语音识别及语音增强算法的应用
汤玲 ,戴斌
(国防科技大学机电工程与自动化学院 ,湖南 长沙 , 410073)
摘要 :提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题 。语音识别系统往往由于训练环境下的数据和识别 环境下的数据不匹配造成系统的识别性能下降 ,为了让语音识别系统在含噪的环境下获得令人满意的工作性能 ,该文根据 人耳听觉特性提出了一种鲁棒语音特征提取方法 。在 MFCC特征提取之前先对含噪语音特征进行掩蔽特性处理 ,同时结合 语音增强方法对特征进行处理 ,最后得到鲁棒语音特征 。通过 4 种不同试验结果分析表明 ,将这种方法用于抗噪声分析可 以提高系统的抗噪声能力 ;同时这种特征的处理方法对不同噪声在不同信噪比有很好的适应性 。 关键词 :语音识别 ;噪声 ;鲁棒性 ;掩蔽特性 ;谱减 中图分类号 : TP912. 34 文献标识码 : A
2 语音增强 谱减方法 谱减方法 [ spectral subtraction ] [1 ]通过从带噪语音中减 去噪声的估计来得到语音的短时频谱幅度的估计值 。它的 基本图如图 1。 图中 s ( n) 的表示纯净语音 , d ( n) 表示加性噪声 ,λn ( K) 表示噪声功率谱系数 , yk 表示带噪语音 y ( n) 的频谱系数 , Sk 表示纯净语音 s ( n) 的频谱系数 ( k = 0, 1, ……) 。增强后的语 音 s ( n^) 的幅度系数 | ^sk | 由下式得到 :
bJ ( ot ) 表示 ,决定在时刻 t产生观测向量 ot 的概率密度 ,用 4 个高斯分布概率密度函数来拟和每个状态的概率分布 。用三
个参数来描述 HMM模型 : ①状态的转移矩阵 A, ②每个高斯
密度的加权系数 C, ③每个高斯密度函数的均值和方差 。所
以 bj ( ot ) 可以表示如下 :
听觉实验证明 , 人耳对声音的判别能力十分强 , 由比现 有的任何语音识别系统更好的抗噪性能 , 在现有的语音识别 中人们很重视对人耳听觉特性的研究 。在现代的语音处理 中 ,人耳的听觉特性得到了广泛的研究和应用 , 并取得了相 当的成功 ,人耳的掩蔽特性应用于很多语音识别系统的特征 提取中 。人耳的掩蔽特性是指当响度比较大的声音作用于人 耳时 ,人耳会对时间上和频谱上邻近的声音感知下降 , 当完 全掩蔽时 ,对于低于掩蔽门限的声音根本感觉不到 。一般求 得带噪语音的掩蔽门限值 ,得到掩蔽曲线 , 得到掩蔽模型 。本 文提出了一种基于听觉掩蔽效应的语音识别方法 , 在该算法 中为了减轻识别时带噪语音和训练时纯净语音的不匹配 , 在 求取带噪语音的掩蔽特性之前先进行谱减运算 , 得到频谱相 减后的掩蔽曲线 ,然后再计算 M el频率倒谱系数 。 3. 3 掩蔽模型
Speech Recogn ition in No isy Env ironm en ts and the Applica tion of Speech Enhancem en t
TAN G - L ing, DA I B in
( School of M echanics and Automation, National University of Defense Technology, Changsha Hunan, 410073, China)
收稿日期 : 2005 - 08 - 04
— 80 —
练和识别时的特征提取相匹配使用谱减算法对特征进行处 理的抗噪声语音识别系统 ,通过 4种实验结果说明在噪声较 强的情况下 (信噪比在 - 5dB到 15dB之间 )的这种特征提取 并将语音增强中的谱减算法应用于抗噪声语音识别的方法 可得到很好的抗噪效果 。