噪声环境下语音信号端点检测算法的研究与改进
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关系 "
# 基于 $%& 美尔倒谱特征端点检测方法
12# 倒谱特征 "1$
倒谱系数可用来估计语音信号的倒谱 # 这也 是 语 音 信 号 短 时 倒谱分析中一种特殊的处理方法 " 一般对信号序列进行短时快速 傅里叶变换# 然后求其复对数的傅里叶逆变换便可得信号复倒 谱 " 倒谱特征与复倒谱特征相比 # 前者求出的频谱包 络 能 更 好 的 重 现 谱 的 峰 值 #而 且 运 算 量 仅 是 后 者 的 一 半 #在 实 时 语 音 识 别 中 采用倒谱作为特征向量较好 " 倒谱由于利用了线性预测中声道系 统函数的最小相位特性 # 避免了复杂的相位卷积和复 对 数 计 算 % 且倒谱的运算量仅是用求倒谱时运算量的一半 # 适于实时应用 " 运用倒谱特征来检测语音端点是目前的语音识别系统的比 较典型的方法 " 此算法法类似于基于能量的检测器 # 仍 籍 助 于 门 限判决 # 门限的选择对性能有重要影响 " 当语音信号 存 在 严 重 的 谱失真时会给端点检测带来困难 # 难以选择适当的门限 " 另外 # 当 存在非平稳噪声 # 例如开关门的声音 ! 电话铃声及其它声 音 时 # 倒 谱距离很小以致于难以区分处理语音与非平稳噪声 " 12) 基于 &’( 倒谱系数的端点检测算法 在实时语音识别中一般选用 &’( 倒谱特征较好 #&’( 倒谱系 数是由语音信号的全极点模型导出的 3 其值与语音信号的共振峰 位置有关 3 是说话人识别中基本的语音特征之一 " 并且其运算量 小 3 是用 445 求倒谱时运算量的一半 3 适用于实时应用 " &#’ 线性预测系数估计 语 音 信 号 的 倒 谱 可 用 线 性 预 测 系 数 估 计 &&’( ’ 得 到 3 这 是 语 音信号短时倒谱分析中一种特殊的处理方法 " 在语音信号的线性 预测模型中 3 声道模型系统函数 "6$ 为 $ &7 ’ 式中 #8 为线性预测阶数 #!9.9:7%)%;<<% 80 为 8 阶线性预测系数 " &)’&’( 倒谱系数 对 =.>0 两边取对数 3 然后再对 ?@9 作傅立叶级数展开 % 得到 A &) ’ 式 中 %(&’.B0 称 为 语 音 信 号 的 &’( 倒 谱 系 数 " 把 式 .70 代 入 式 .)0
得!
似基于能量的端点检测 $
! 实ห้องสมุดไป่ตู้结果
!" " 再将上式两边对 #$% 求导后 & 化简得 ! !’ " 令方程两边 #$% 各次幂的系数相等 & 则可以得 ()* 倒谱系数 +(),-. 与线性预测系数 !/,/0%&1&222&3.的关系 # 具体工作过程是 # 本文对提出的方法在计算机上进行了实验 & 用声卡采集各声音信号样本 & 端点检 测 过 程 基 于 9CB;CD 实 现 <4= $ 语音端点检测方法是在白噪声条件下进行测试% 语音信号经 5 @@@E# 采样和 %>D/BF 量化后 % 与不同电平的白噪声混合作为测试 样本 $ 所有测试试验中 % 在所有实验中 & 语音信号被分为 1’@ 采样 的帧 & 相邻帧有 4@ G 重叠 2 每帧采用 %1 阶 ()* 美尔倒谱系数 $ 仿 真实验使用 > 个人的语音作为实验数据 $ 每个 人 分 别 录 %1 段 语 音 % 选取其中 ’ 段语音作为训练数据 %5 段语音作为识别数据 $ 测 试结果如表 % 所示 $ 在下表中可以明显的看出当使用 ()* 美尔倒 谱特征参数时 % 在低信噪比下可以明显提高系统识别的准确率 $ 表 " 仿真实验的测试结果
投稿日期 !!""#$"%$!!
作者简介 ! 唐永锋 "&’(! #$% 男 % 山东德州人 % 通信与信息系统硕士研究生 % 研究方向 ! 语音信号处理与说话人识别 & 霍春宝 "&’#! #$% 男 % 辽宁 锦州人 % 教授 % 北京理工大学博士 % 研究方向 ! 智能信息处理与人工智能 ’
!"#$
" 基于短时能量和短时过零率的端点检测算法
在很长一段时间里 # 语音端点检测算法主要是依 据 语 音 信 号 的时域特性 ")$ " 其采用的主要参数有短时能量 ! 短时平均过零率 等 # 即通常说的基于能量的端点检测方法 " 基于短时能量 和 平 均 过 零 率 的 检 测 方 法 #也 称 为 双 门 限 比 较 法 #它 是 在 短 时 能 量 检 测 方 法 的 基 础 上 #加 上 短 时 平 均 过 零 率 #利 用 能 量 和 过 零 率 作 为 特 征来进行检测 " 在背景噪声较小时 # 用平均能量来识别比较有效 % 在背景噪声较大时 # 用平均过零率来识别较为有效 " 这种算法其最大优点是算法非常简单 # 它在低噪 声 情 况 下 具 有非常好的性能 # 比如在信噪比大于 )*+, 时 # 检测准确性接近 #**-" 但当信噪比较低时 . 小于 /+,0 # 其准确率会有大幅下降 # 出 现大量错检漏检情况 " 不同噪声类型 # 如办公室噪声 ! 汽车噪声的 过 零 率 区 别 很 大 #所 以 很 难 通 过 经 验 值 得 到 合 适 的 门 限 #而 经 研 究发现 # 这种检测算法之所以鲁棒性不好与门限值的确定 有 很 大
噪声环境下语音信号端点检测算法的研究与改进
唐永锋 ! 霍春宝 " 辽宁工业大学 信息科学与工程学院 % 辽宁 锦州 &!&""& $ 摘要 " 端点检测是语音识别中的一项关键技术 % 端点检测的准确性对语音识别的性能有很大影响 ’ 论文对基于短时能量和短时过零 率及基于 )*+ 倒谱特征的端点检测算法进行了研究 % 给出改进的基于 )*+ 美尔倒谱特征的端点检测算法 % 并通过实验证明其在低信噪 比下具有较好的检测性能 ’ 随着语音识别技术的发展 % 这种算法在实际应用中的高效率 ( 实时 ( 准确性会逐渐显现出 ’ 关键词 " 语音信号 & 端点检测 &)*+ &,-++ & 倒谱特征 & 文献标识码 ") 文章编号 "!**+,#*--."**(/!!,"!#01,*" 中图分类号 "’%#(
! 引言
语音信号的端点检测是语音分析 ! 语音合成和语 音 识 别 中 的 一个重要环节 " 在实际运用中 ! 通常要求首先对系统的输入信号进 行判断 !准确地找出语音信号的起始点和终止点 " 有效的端点检测 不仅可以减少数据的存储量和处理时间 # 而且能排除无声 段 的 噪 声干扰 " 尽管语音端点检测技术在安静的环境中已经达到了令人鼓 舞的准确率 # 但是在实际应用时由于噪声的引入和环境的 改 变 通 常会使系统性能显著下降 " 研究表明 "#$% 即使在安静的环境中 ! 语 音识别系统一半以上的识别错误来自端点检测器 " 因此 ! 作为语音 识别系统的第一步 ! 端点检测的关键性不容忽视 ! 尤其是噪声 环 境 下语音的端点检测 ! 它的准确性很大程度上直接影响着后续的工 作能否有效进行 " 近 年 来 出 现 了 很 多 种 端 点 检 测 的 方 法 #如 $基 于 能 频 值 检 测 方 法 ! 应 用 倒 谱 特 征 的 检 测 方 法 ! 基 于 &’( 美 尔 倒 谱 特 征 的 检 测 方法 ! 基于熵函数的语音端点检测方法等 # 这些方法各有千秋 # 如 基于能频值的检测方法在强噪声背景下的汉语语音端点检测中 有良好的结果 # 基于熵函数的语音端点检测方法用来判断 语 音 的 有声与无声段效果非常好 # 又如基于自相关相似距离的语 音 信 号 端点检测方法采用新的判决门限设定方法很好的防止了漏检和 虚检的情况 " 因此 # 可以根据具体的情况选用不同的方法 "
!4 " 式 中 & 3 为 ()* 阶 数 & 一 般 305 !%1 时 & 能 较 好 地 表 征 声 道 特 性 & - 为 ()** 阶数 $ 12" 基于 ()* 美尔倒谱特征的检测算法 这种算法是对传统的倒谱特征检测算法的改进 % 其 运 算 过 程 为 # 首 先 将 经 过 678 转 换 & 采 样 后 的 语 音 信 号 经 适 当 的 数 字 滤 波 器分成高 & 低频带 1 个信号 % 频带间允许重叠 ’ 然后将滤波 形 成 的 1 个信号分别进行预处理 % 包括预加重 & 分帧 & 加窗 ’ 再进行特征参 数的提取 $ ()* 倒谱特征取合适的阶数可较 好 地 表 征 声 道 特 性 % 但 它 是 按实际频率尺度的倒谱系数 $ 可根据人耳听觉特性将上述的倒谱 系数进一步按符合人听觉特性的美尔 !9:; " 尺 度 进 行 非 线 性 变 换 % 从而求出 ()* 美尔倒谱系数 <’= $ 具体算法如下 ! !> " 式中 & *- 表示倒谱系数 &9*?,-. 表示美 尔 倒 谱 系 数 & - 为 迭 代 次数 & ? 为倒谱阶数 & 一般 -0? $ 迭代时 - 从无穷大递减至 @ 取值 $ 12’ 采用改进的判决门限 采用短时能量作门限时 % 当测试信号帧的短时 能 量 超 过 噪 声 能量门限并持续一段时间 & 则第一次超过能量门限的点被判定为 语音段的起点 ’ 而当测试信号帧的能量低于另一个噪声 能 量 门 限 并持续一定时间 % 就可测定语音段的终止点 $ 但在噪声环境下 & 短 时能量与其它特征参数都不能很好地区分语音段与非语音段 $ 采用倒谱距离作为门限时 % 假定前几帧信号是 背 景 噪 声 % 计 算这些帧的倒谱系数矢量 % 利用前几帧倒谱矢量的平均 值 可 估 计 背景噪声的倒谱矢量 % 计算所有测试帧与背景噪声之间 的 倒 谱 距 离可得到倒谱距离轨迹 $ 论文选用 9:; 倒谱距离作为判决门限 & 定义为下式 ! !A " 式 中 & ) 为 倒 谱 阶 数 & +B,/. 为 待 测 倒 谱 向 量 & * 为 参 考 样 本 的 倒谱向量 $ 将倒谱距离作为门限 & 判断语音起止点 & 其判断步骤类
23435678 59: ;<=6>?3<39@ @> @83 )AB>6C@8< D>6 @83 E=3378 ECB95A F9:=>C9@ G3@37@C>9 C9 @83 H>C4I F9?C6>9<39@ ./01 2345$6745 %89: ;<=4$>?3 @A463BC?DE34 F;E74;7 G H45E477BE45 +3II757J )E?34E45 94EK7BLEDM 36 .7;<43I35MJ NE4O<3= &!&""&J +<E4?P )J4@657@K.<7 74QR3E4D Q7D7;DE34 EL ?4 7LL74DE?I D7;<43I35M E4 ? LR77;< B7;354EDE34 LMLD7CJ EDL ?;;=B?;M <?L ? K7BM DB7C74Q3=L E46I=74;7 34 D<7 LR77;< B7;354EDE34 R7B63BC?4;7S .<7 R?R7B C?T7L B7L7?B;<7L ?4Q ECRB3K7C74DL D3 D<7 DB?QEDE34?I ?I53BED<C 63B LR77;< LE54?I 74QR3E4D Q7D7;! DE34J ?4Q D<7 7U7R7BEC74D E4QE;?D7L D<?D 533Q Q7D7;DE34 R7B63BC?4;7 ;?4 >7 3>D?E47Q E4 D<7 I3V F0WS XED< D<7 Q7K7I3RC74D 36 D<7 LR77;< B7;354EDE34 D7;<43I35MJ D<EL ?I53BED<C VEII >7 ;3CRE;E3=L 63B EDL <E5< 766E;E74;MJ LM4;<B34E; ?4Q ?;;=B?;M E4 D<7 ?RRIE;?DE34 =L7S L3I M>6:4KLR77;< LE54?I &74QR3E4D Q7D7;DE34 &IE477B RB7QE;DEK7 ;3QE45 &C7I 6B7Y=74;M ;3QE45 ;3766E;E74D &;7RLDB?I ;<?B?;D7BELDE;