语音识别中听觉特征的噪声鲁棒性分析_李银国
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1, 1, 2, 2 I Y i n u o U Y A N G X i z i h o m a s F a n Z H E N G L O T g g
( , 1. C h o n i n U n i v e r s i t o f P o s t s a n d T e l e c o mm u n i c a t i o n s g q g y ; C h o n i n 4 0 0 0 6 5, C h i n a g q g , 2. C e n t e r f o r S e e c h a n d L a n u a e T e c h n o l o i e s p g g g , ) T s i n h u a U n i v e r s i t B e i i n 1 0 0 0 8 4, C h i n a j g g y :A A b s t r a c t a r t i c u l a r d i f f i c u l t o f a u t o m a t i c s e e c h r e c o n i t i o n i n p y p g r e a l a l i c a t i o n s i n v o l v e s s i n i f i c a n t e r f o r m a n c e d e r a d a t i o n i n p p g p g a s e d b n o i s e n v i r o n m e n t .B a s e d o n t h e r e s e a r c h o n a mm a t o n e - y g )p ,a a u d i t o r f e a t u r e s ( G F C C s r o o s e d b t h e r r e s e a r c h e r s n y p y o a d d i t i o n a l c o m a r a t i v e s t u d o n t h e G F C C a n d t h e MF C C w a s p y , r e s e n t e d f o r v a r i o u s n o i s e c o n d i t i o n s . P a r t i c u l a r l t h e b e h a v i o r o f p y /MF G F C C C C f e a t u r e s w i t h n o i s e i n d i f f e r e n t f r e u e n c b a n d s w a s q y a n a l z d b m i x i n t h e t e s t s e e c h w i t h s i n e n o i s e s t o s h o w t h a t t h e ye y g p r e u e n c n o i s e s t h a n t h e MF C C f G F C C i s m o r e r o b u s t a a i n s t l o w - q y g
中, 作者提出了时域 G 并对 G F C C 的实现方法 , F C C 和 MF C C 的识别性能做了分析比较 。 本文在上述工作基础上 , 对G F C C 和 MF C C在 各种噪声环境下的 识 别 性 能 进 行 补 充 性 对 比 分 析 , 并对 G F C C 和 MF C C 在不同频率区间内的敏感性 进行了对 比 分 析 。 选 择 5 种 噪 声 进 行 噪 声 对 比 实 验 :白噪声 , 粉红噪声 , 褐色噪声 , 背景说话人噪声 , 汽车噪声 。 通过混 合 不 同 类 型 和 不 同 强 度 的 噪 声 , 分析 G F C C 和 MF C C 在不同噪声环境下的优劣和 对不同噪声的抗 干 扰 能 力 。 同 时 , 基于正弦噪声的 能量在频率域上分 布 的 单 一 性 , 用不同频率的正弦 噪声对纯净的语音 信 号 各 频 段 进 行 混 合 , 从而可以 分析 G F C C 和 MF C C 对不同频率区间的敏感性和 对不同能量分布的噪声的鲁棒性 。
收稿日期 : 0 1 0 1 3 4 9 2 - - ,男 ( ,湖北 ,教授 。 作者简介 :李银国 ( 汉) 9 5 5—) 1 : E-m a i l l i u t . e d u. c n @c y g q p
李银国 ,等 : 语音识别中听觉特征的噪声鲁棒性分析
1 0 8 3
n - ( j f +f c) ( ) . 5 +1 b -n / ] ( / 可以被忽略 。 当f b 足够大时 ,[ b+1 j f+f c c) 令s = 2 G F的 L a l a c e变换表示为 π ቤተ መጻሕፍቲ ባይዱ p f,
当前自动语音识别 系 统 ( u t o m a t i c s e e c h r e c a - p ,A 面临的一个重大挑战是在噪声 环 境 o n i t i o n S R) g 下识别性能的急剧下滑 , 这极大制约了 A S R 技术在 实际应用中的推 广 。 因 此 , 增强识别系统的抗噪性 能一直是语音识别领域的重要研究方向 。 近年来提 出的比较重要的 A S R 鲁棒性的方法包括通道归一 化、 信号增强 、 模型自适应等 。 在特 征 层 , 人们试图通过模拟人类听觉系统的 结构和响应特性以提高语音特征对噪声的抗干扰能 力, 其中最通用的是基于 M e l频率的倒谱系数 ( e l M ,MF 及其衍生 f r e u e n c c e s t r u m c o e f f i c i e n t C C) q y p 特征 , 其他 有 感 知 线 性 预 测 ( r c e t u a l l i n e a r r e e - p p p , 和线性预测倒谱系数( d i c t i o n P L P) i n e a r r e d i c l - p [ 1] ,L 等 。上述几种 t i o n c e s t r u m c o e f f i c i e n t P C C) p 特征中 ,MF C C和P L P 是 基 于 人 类 听 觉 的 特 征, P C C 基于人类的发声机理 。 L 与 MF 本文中研究的基于 G C C 类 似, a mm a - t o n e的 倒 谱 系 数 ( mm a t o n e f r e u e n c c e s t r u m a q y p g , 也是一种模拟人类听觉系统响 c o e f f i c i e n t G F C C) 应特性的语音特征提取方法 。 人类的听觉系统是一 个高度复杂敏感的 系 统 , 对不同频率的信号分量有 不同形式的响应 , 这种响应是非线性的 , 这种非线性
w h i l e m o r e s e n s i t i v e t o n o i s e s a t m i d d l e a n d h i h f r e u e n c i e s .T h i s g q r o e r t i s d e s i r a b l e f o r s e e c h r e c o n i t i o n s i n c e m o s t o f t h e p p y p g i n f o r m a t i o n o f h u m a n s e e c h r e s i d e s i n t h e l o w f r e u e n c b a n d o f p q y 3 0 0—7 0 0H z .E x e r i m e n t a l r e s u l t s d e m o n s t r a t e t h a t t h e G F C C p e x h i b i t s s i n i f i c a n t a d v a n t a e s o v e r t h e MF C C f o r v a r i o u s n o i s e g g , c o n d i t i o n s e s e c i a l l w h e n t h e S N R i s l o w. p y : ;g ;g K e w o r d s s e e c h e c o n i t i o n a mm a t o n e i l t e r s a mm a t o n e - r f p g y ; b a s e d a u d i t o r f e a t u r e( G F C C) o b u s t r y
/ 2 2 3 1 0 8 2 0 8 6 1 -
语音识别中听觉特征的噪声鲁棒性分析
1, 2 2 李银国1 , 欧阳希子 , 郑 方
( ) 1.重庆邮电大学 ,重庆 4 0 0 0 6 5; 2.清华大学 语音和语言技术中心 ,北京 1 0 0 0 8 4
摘 要 :自动语音 识 别 系 统 在 噪 声 环 境 下 的 性 能 通 常 会 显 著下降 , 这成 为 制 约 语 音 识 别 技 术 广 泛 应 用 的 一 个 重 大 障 碍 。 该文在 他 人 的 基 于 G a mm a t o n e的 听 觉 特 征 ( F C C特 G 征) 研究基础上 , 进一步 对 G F C C与基于 M e l频 率 的 倒 谱 系 在 不 同 噪 声 环 境 下 的 性 能 表 现 进 行 分 析 研 究。 数( MF C C) 选择 5 种人 工 和 自 然 噪 声 进 行 比 较 试 验 :白 噪 声 、 粉红噪 声、 褐色噪声 、 背景说话人噪声 、 汽车噪声 。 通过混 合 不 同 类 型和不同强度的噪声 , 系统地研 究 了 基 于 听 觉 特 性 的 G F C C 特征的特性和抗噪能力 ;特别地 , 用不同频段的正弦波噪声 与纯净语音混合 , 分析了 G F C C 和 MF C C 在各个频带上的 噪声鲁棒性 。 研究发现 , 与传统 的 MF C C 相 比 ,G F C C对低 频噪声具有更高的鲁棒性 , 而对中高频噪声相对敏 感 。 由 于 ) ,这 一 特 性 使 得 人类发音 通 常 在 较 低 频 率 ( 3 0 0~7 0 0H z G F C C 在语音识 别 任 务 中 具 有 良 好 的 抗 噪 能 力 。 实 验 结 果 表明 ,G F C C 在 多 种 常 见 噪 声 环 境 下 都 取 得 了 比 MF C C更 特别是在低信噪比的情况下表现出更大的 好的识别效 果 , 优势 。 关键 词 :语 音 识 别 ;G a mm a t o n e 滤 波 器 ;基 于 G a mm a t o n e ;鲁棒性 的听觉特征 ( G F C C) 中图分类号 : 9 1 2. 3 TN ( ) 文章编号 : 1 0 1 0 0 0 0 0 5 4 2 0 1 3 0 8 0 8 2 5 - - - 文献标志码 :A
[] ] 可以通过一组 G a mm a t o n e滤波器实现 2 。 在文 [ 3
n a l s i s o f n o i s e r o b u s t n e s s o f a u d i t o r A y y f e a t u r e s i n s e e c h r e c o n i t i o n p g
清华大学学报 ( 自然科学版 ) 2 I 0 S S N 1 0 0 0 0 5 4 0 1 3年 第5 3卷 第8期 - / ) , 2 2 3 s i n h u a U n i v( S c i &T e c h n o l 0 1 3,V o l . 5 3, N o . 8 2 N J T 2 C N 1 1 - g
( , 1. C h o n i n U n i v e r s i t o f P o s t s a n d T e l e c o mm u n i c a t i o n s g q g y ; C h o n i n 4 0 0 0 6 5, C h i n a g q g , 2. C e n t e r f o r S e e c h a n d L a n u a e T e c h n o l o i e s p g g g , ) T s i n h u a U n i v e r s i t B e i i n 1 0 0 0 8 4, C h i n a j g g y :A A b s t r a c t a r t i c u l a r d i f f i c u l t o f a u t o m a t i c s e e c h r e c o n i t i o n i n p y p g r e a l a l i c a t i o n s i n v o l v e s s i n i f i c a n t e r f o r m a n c e d e r a d a t i o n i n p p g p g a s e d b n o i s e n v i r o n m e n t .B a s e d o n t h e r e s e a r c h o n a mm a t o n e - y g )p ,a a u d i t o r f e a t u r e s ( G F C C s r o o s e d b t h e r r e s e a r c h e r s n y p y o a d d i t i o n a l c o m a r a t i v e s t u d o n t h e G F C C a n d t h e MF C C w a s p y , r e s e n t e d f o r v a r i o u s n o i s e c o n d i t i o n s . P a r t i c u l a r l t h e b e h a v i o r o f p y /MF G F C C C C f e a t u r e s w i t h n o i s e i n d i f f e r e n t f r e u e n c b a n d s w a s q y a n a l z d b m i x i n t h e t e s t s e e c h w i t h s i n e n o i s e s t o s h o w t h a t t h e ye y g p r e u e n c n o i s e s t h a n t h e MF C C f G F C C i s m o r e r o b u s t a a i n s t l o w - q y g
中, 作者提出了时域 G 并对 G F C C 的实现方法 , F C C 和 MF C C 的识别性能做了分析比较 。 本文在上述工作基础上 , 对G F C C 和 MF C C在 各种噪声环境下的 识 别 性 能 进 行 补 充 性 对 比 分 析 , 并对 G F C C 和 MF C C 在不同频率区间内的敏感性 进行了对 比 分 析 。 选 择 5 种 噪 声 进 行 噪 声 对 比 实 验 :白噪声 , 粉红噪声 , 褐色噪声 , 背景说话人噪声 , 汽车噪声 。 通过混 合 不 同 类 型 和 不 同 强 度 的 噪 声 , 分析 G F C C 和 MF C C 在不同噪声环境下的优劣和 对不同噪声的抗 干 扰 能 力 。 同 时 , 基于正弦噪声的 能量在频率域上分 布 的 单 一 性 , 用不同频率的正弦 噪声对纯净的语音 信 号 各 频 段 进 行 混 合 , 从而可以 分析 G F C C 和 MF C C 对不同频率区间的敏感性和 对不同能量分布的噪声的鲁棒性 。
收稿日期 : 0 1 0 1 3 4 9 2 - - ,男 ( ,湖北 ,教授 。 作者简介 :李银国 ( 汉) 9 5 5—) 1 : E-m a i l l i u t . e d u. c n @c y g q p
李银国 ,等 : 语音识别中听觉特征的噪声鲁棒性分析
1 0 8 3
n - ( j f +f c) ( ) . 5 +1 b -n / ] ( / 可以被忽略 。 当f b 足够大时 ,[ b+1 j f+f c c) 令s = 2 G F的 L a l a c e变换表示为 π ቤተ መጻሕፍቲ ባይዱ p f,
当前自动语音识别 系 统 ( u t o m a t i c s e e c h r e c a - p ,A 面临的一个重大挑战是在噪声 环 境 o n i t i o n S R) g 下识别性能的急剧下滑 , 这极大制约了 A S R 技术在 实际应用中的推 广 。 因 此 , 增强识别系统的抗噪性 能一直是语音识别领域的重要研究方向 。 近年来提 出的比较重要的 A S R 鲁棒性的方法包括通道归一 化、 信号增强 、 模型自适应等 。 在特 征 层 , 人们试图通过模拟人类听觉系统的 结构和响应特性以提高语音特征对噪声的抗干扰能 力, 其中最通用的是基于 M e l频率的倒谱系数 ( e l M ,MF 及其衍生 f r e u e n c c e s t r u m c o e f f i c i e n t C C) q y p 特征 , 其他 有 感 知 线 性 预 测 ( r c e t u a l l i n e a r r e e - p p p , 和线性预测倒谱系数( d i c t i o n P L P) i n e a r r e d i c l - p [ 1] ,L 等 。上述几种 t i o n c e s t r u m c o e f f i c i e n t P C C) p 特征中 ,MF C C和P L P 是 基 于 人 类 听 觉 的 特 征, P C C 基于人类的发声机理 。 L 与 MF 本文中研究的基于 G C C 类 似, a mm a - t o n e的 倒 谱 系 数 ( mm a t o n e f r e u e n c c e s t r u m a q y p g , 也是一种模拟人类听觉系统响 c o e f f i c i e n t G F C C) 应特性的语音特征提取方法 。 人类的听觉系统是一 个高度复杂敏感的 系 统 , 对不同频率的信号分量有 不同形式的响应 , 这种响应是非线性的 , 这种非线性
w h i l e m o r e s e n s i t i v e t o n o i s e s a t m i d d l e a n d h i h f r e u e n c i e s .T h i s g q r o e r t i s d e s i r a b l e f o r s e e c h r e c o n i t i o n s i n c e m o s t o f t h e p p y p g i n f o r m a t i o n o f h u m a n s e e c h r e s i d e s i n t h e l o w f r e u e n c b a n d o f p q y 3 0 0—7 0 0H z .E x e r i m e n t a l r e s u l t s d e m o n s t r a t e t h a t t h e G F C C p e x h i b i t s s i n i f i c a n t a d v a n t a e s o v e r t h e MF C C f o r v a r i o u s n o i s e g g , c o n d i t i o n s e s e c i a l l w h e n t h e S N R i s l o w. p y : ;g ;g K e w o r d s s e e c h e c o n i t i o n a mm a t o n e i l t e r s a mm a t o n e - r f p g y ; b a s e d a u d i t o r f e a t u r e( G F C C) o b u s t r y
/ 2 2 3 1 0 8 2 0 8 6 1 -
语音识别中听觉特征的噪声鲁棒性分析
1, 2 2 李银国1 , 欧阳希子 , 郑 方
( ) 1.重庆邮电大学 ,重庆 4 0 0 0 6 5; 2.清华大学 语音和语言技术中心 ,北京 1 0 0 0 8 4
摘 要 :自动语音 识 别 系 统 在 噪 声 环 境 下 的 性 能 通 常 会 显 著下降 , 这成 为 制 约 语 音 识 别 技 术 广 泛 应 用 的 一 个 重 大 障 碍 。 该文在 他 人 的 基 于 G a mm a t o n e的 听 觉 特 征 ( F C C特 G 征) 研究基础上 , 进一步 对 G F C C与基于 M e l频 率 的 倒 谱 系 在 不 同 噪 声 环 境 下 的 性 能 表 现 进 行 分 析 研 究。 数( MF C C) 选择 5 种人 工 和 自 然 噪 声 进 行 比 较 试 验 :白 噪 声 、 粉红噪 声、 褐色噪声 、 背景说话人噪声 、 汽车噪声 。 通过混 合 不 同 类 型和不同强度的噪声 , 系统地研 究 了 基 于 听 觉 特 性 的 G F C C 特征的特性和抗噪能力 ;特别地 , 用不同频段的正弦波噪声 与纯净语音混合 , 分析了 G F C C 和 MF C C 在各个频带上的 噪声鲁棒性 。 研究发现 , 与传统 的 MF C C 相 比 ,G F C C对低 频噪声具有更高的鲁棒性 , 而对中高频噪声相对敏 感 。 由 于 ) ,这 一 特 性 使 得 人类发音 通 常 在 较 低 频 率 ( 3 0 0~7 0 0H z G F C C 在语音识 别 任 务 中 具 有 良 好 的 抗 噪 能 力 。 实 验 结 果 表明 ,G F C C 在 多 种 常 见 噪 声 环 境 下 都 取 得 了 比 MF C C更 特别是在低信噪比的情况下表现出更大的 好的识别效 果 , 优势 。 关键 词 :语 音 识 别 ;G a mm a t o n e 滤 波 器 ;基 于 G a mm a t o n e ;鲁棒性 的听觉特征 ( G F C C) 中图分类号 : 9 1 2. 3 TN ( ) 文章编号 : 1 0 1 0 0 0 0 0 5 4 2 0 1 3 0 8 0 8 2 5 - - - 文献标志码 :A
[] ] 可以通过一组 G a mm a t o n e滤波器实现 2 。 在文 [ 3
n a l s i s o f n o i s e r o b u s t n e s s o f a u d i t o r A y y f e a t u r e s i n s e e c h r e c o n i t i o n p g
清华大学学报 ( 自然科学版 ) 2 I 0 S S N 1 0 0 0 0 5 4 0 1 3年 第5 3卷 第8期 - / ) , 2 2 3 s i n h u a U n i v( S c i &T e c h n o l 0 1 3,V o l . 5 3, N o . 8 2 N J T 2 C N 1 1 - g