一种语音端点检测的方法及改进

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4 语音端点检测方法
语音端点检测的算法步骤如下: (1)语音信号分成相邻有重叠的语音段, 称为语音帧; (2)每一语音帧, 采取一种特征向量; (3)采用 一 种 判 决 准 则 , 例 如 双 门 限 判 定 , 来 检 测 语 音 帧 与 非语音帧; (4)对上述结果进行后处理, 得到语音的全部区间; 4.1 短时能量和过零率相结合的双门限语音端点检测技术 进行端点检测之前, 首先为短时能量和过零率分别确定两 个门限, 一个是数值比较小的低门限, 对信号的变化比较敏感, 很容易就会被超过。另一个是数值比较大的高门限, 信号必须 达到一定的强度, 该门限才可能被超过。低门限被超过未必就 是语音的开始, 有可能是时间很短的噪声引起的。高门限被超 过则可以基本确信是由于语音信号引起的。 语 音 信 号 的 端 点 检 测 可 以 分 为 四 个 过 程:静 音 、过 渡 段 、语 音段 、结 束 。在静 音 段 , 如果 能 量 或过 零 率 超越 了 低 门限 , 就 应 该开始标记起始点, 进入过渡段。在过渡段中, 由于参数的数值 比较小, 不能确信是否处于真正的语音段, 因此只要两个参数
在 语 音 识 别 中,通 常 是 先 根 据 一 定 的 端 点 检 测 算 法,对 语 音 信号中的有声片段和无声片段进行分割,而后再针对有声片段, 依据语音的某些特征进行识别。研究表明, 即使在安静的环境 中, 语音识别系统一半以上的识别错误来自于端点检测器。因 此,作为语音识别系统的第一步,端点检测的关键性不容忽视,尤 其是噪声环境下语音的端点检测, 它的准确性很大程度上直接 影 响 着 后 续 的 工 作 能 否 有 效 进 行 。可 以 说 ,语 音 信 号 的 端 点 检 测 至今为止仍是有待进一步深入研究的课题。
您的论文得到两院院士关注 文章编号:1008- 0570(2007)08- 3- 0231- 03
软件时空
一种语音端点检测的方法及改进
An En d p o in t De te ctio n m e th o d s fo r S p e e ch S ig n a ls a n d Mo d ifie d
确定权值向量 w 和分界值 Z0 的过程如下:

(1)初始化权向量 w={w1,w2,w3}={1, 1, 1}; (2)重复下列过程, 直到训练完成。

(a)采集一段语音, 并进行分帧和离散化处理; (b)计 算 每 一 帧 的 加 权 和 z, 然 后 根 据 得 到 的 过 零 率 集 合 将
集合分为两类(z 低和 z 高) ;

(c) 循环 次 数为 3N+1 时:w=w+[ 0, 0, x]。 循 环 次 数 为 3N+2
时,w=w+[ 0, , 0]; 循环次数为 3N+3 时:w=w+[x, 0, 0 ]。

(d)重新 计 算 每 一 帧 的 加 权 和 Z, 然 后 根 据 得 到 的 过 零 率 集
4.2 窗长动态改变的语音端点检测技术 语音端点检测首先要进行分帧处理, 然后依次判断每一帧 是否为语音的端点。如果每一帧点数过多, 总的计算量比较小, 而且进行端点检测时速度比较快, 但是这样端点检测的误差容 易增加。端点检测时如果采用较小的窗长, 计算量增加, 语音识 别的速度会降低。 采用一种改进方法, 在静音段使用大窗长; 一旦进入过渡 段, 即短时能量超过较低门限或短时过零率超过较低门限, 为 了精确检测语音端点, 就从这一帧开始对语音数据采用较小窗 长; 一旦进入语音段, 即短时能量超过较高门限, 就从这一帧以 后恢复为常规窗; 本文正是基于这种思想, 将窗长动态改变的 端点检测方法, 使用多门限过零率端点检测算法有机结合起 来, 既提高了语音处理速度, 又可以精确检测语音的端点。
3 短时平均过零率
短时 过 零率 表 示 一帧 语 音 中语 音 信 号穿 过 横 轴(零 电 平)的 次数。对于离散信号, 如果相邻的取样值改变符号则称为过零。
定义语音
为了使语音的过零率和静音、噪音的过零率有明显的区 别, 现实应用中改进了过零率计算。设定一个很小的阈值 zv, Zn 的过零率定义如下:
技 术
1 引言
语音是人类最自然的信息载体, 理应成为未来人机交互的 主 要 方 式。而 语 音 端点 检 测 是语 音 分 析、语 音 合 成、语 音 编 码、 说话人识别中的一个重要环节, 直接影响到后续工作的准确 性。在实际应用中, 首先通常要求对系统的输入信号进行判断, 准确地找出语音信号的起始点和终止点, 这样才能采集真正的 语音数据,减少数据量和运算量,并减少处理时间。
2 短时能量
语音 和 噪声 、语 音 和非 语 音 的区 别 可 以体 现 在 它们 的 能 量 上, 语音段的能量比噪声段能量大, 语音段的能量是噪声段能 量叠加语音声波能量的和。在信噪比很高时, 如果环境噪声和 系统输入噪声比较小, 以至能够保证系统的信噪比相当高, 那 么只要计算输入信号的短时能量或短时平均幅度就能够把语 音段和噪声背景区分开。这是仅基于短时能量的端点检测方 法。但低信噪比情形下, 此算法就将失效。
Abstr act:Endpoint detection is very important step for speech signals processing, which accuracy directly influence the speed and re- sult of speech signals processing, so the research of endpoint detection methods is the hotspot of speech signals processing. The anal- ysis about the endpoint detection methods with energy and Zero- crossing,amend the tradition Zero- crossing measurements and modi- fied by the dynamic length of windows. Research pointed out that the modified methods can detect the endpoint exactly. Key wor ds: endpoint detection,Zer o- cr ossing, speech signals pr ocessing
的数值都回落到低门限以下, 就将当前状态恢复到静音状态。 而如果在过渡段中两个参数中的任一个超过了高门限, 就可以 确信进入语音段了。
一些突发性的噪声也可以引起短时能量或过零率的数值很 高, 如门窗的开关, 物体的碰撞等引起的噪声, 但是往往不能维 持足够长的时间, 都可以通过设定最短时间门限来判别。当前状 态处于语音段时, 如果两个参数的数值降低到低门限以下, 而且 总的记时长度小于最短时间门限, 则认为这是一段噪音, 继续扫 描以后的语音数据。否则就标记好结束端点, 并返回。
当 Z>Z0 时, 判为有话帧;
当 Z<Z0 时, 判为无话帧。
这 样 就 可 以 准 确 而 实 时 地 找 到 语 音 的 起 点 。多 门 限 过 零 率
端点检测算法中需要通过实验找出一个分界值 Z0。这里对权值 向量 W 和分界值的确定提出了一种参数自优化法, 通过训练
的方式获得合适的权值 w1,w2,w3 和分界值。
(1- 4)
然后用加权和来表示总的过零率:
(1- 5)
其中:w1,w2,w3 为 过零 率 权 值; Z 为 过 零 率 加 权 和, 以 下 简 称 加权和。只要门限值 T1,T2,T3 和权值 w1,w2,w3 选择合适,语音开始 后的信号加权和 Z 值将明显大于无话时的加权和 Z 值。定义 Z0 为加权和分界值, 以下简称为分界值。
(1- 3)
同时这种方法对抑制低直流漂移也很有效, 避免了用防混 叠带通滤波器抑制电源以及将直流分量从信号中扣除。
由于浊音时的能量集中于低频段, 而清音的能量集中在高 频段, 而短时平均过零率可以在一定程度上反映频率高低, 这 样可以用短时平均过零率来初步判断清音和浊音。
在实际应用中, 通常是利用过零率来检测清音, 用短时能 量来检测浊音, 两者配合实现可靠的端点检测。用得比较多的 是一种双门限的算法。
过零率可用于判别有话与无话, 但过零率容易受低频干扰,
《P LC 技术应用 200 例》
邮局订阅号: 82-946 360 元 / 年 - 231 -
软件时空
中 文 核 心 期 刊 《 微 计 算 机 信 息 》( 管 控 一 体 化 )2007 年 第 23 卷 第 8-3 期
修改为过正负门限, 采用多门限过零率端点检测算法。多门限 过零率端点检测法是设置多个高低不同的门限, 例如三门限: T1<T2<T3 ,对 每 一 帧(例 如 宽 度 为 10ms 输 入 信 号)用 式(1- 4)分 别 求相应于 T1, T2,T3 的三种门限过零率 Z1,Z2 和 Z3。
语音信号的能量随着时间变化比较明显, 一般清音部分的 能量比浊音能量小得多, 语音信号的实时能量分析给出了反应
覃 溪: 硕士研究生 基 金 项 目 : 广 西 自 然 科 学 基 金 资 助 项 目 (0339037)
这些 幅 度变 化 的 一个 合 适 的 描 述 方 法 。 对 于{x(n)},短 时 能 量 的 定义如下:
(1- 1)
创 新
式中,h(n)=w2(n), En 表示在信号的第 n 个点开始加窗函数时 的短时能量。
短时能量主要有以下几个方面的应用: 首先是利用短时能 量可以区分清音和浊音, 因为浊音的能量要比清音的能量大得
多; 其次, 可以用短时能量对有声段和无声段进行判定, 对声母
和韵母分界, 以及对连字分界。
合将集合分为两类(z 低和 z 高) , 比较两次的分类情况。若有分
类不同, 重复 b 的步骤, 直到分类相同为止; 若分类相同, 则重
复 步 骤 (1);
(e) 若对 于 n 次采 样 上 述过 程 中 过零 率 集 合 分 类 一 次 也 不
变化。则可以确定权向量 w, 分界值:
其 中 , n 为 权 值 稳 定 的 样 本 个 数 , Z′n 为 权 值 稳 定 的 每 个 样 本的分界值。
(广西师范大学)覃 溪 郑 建 华 曹 乃 文 钟 明 辉 黄 汉 明
QIN XI ZHENG J IANHUA CAO NAIWEN ZHONG MINGHUI HUANG HANMING
摘要:端点 检 测 是 语 音 信 号 处 理 过 程 中 非 常 重 要 的 一 步 , 它 的 准 确 性 直 接 影 响 到 语 音 信 号 处 理 的 速 度 和 结 果 , 因 此 端 点 检 测 方 法 的 研 究 一 直 是 语 音 信 号 处 理 中 的 热 点 。本 文 研 究 了 传 统 的 短 时 能 量 和 过 零 率 相 结 合 的 语 音 端 点 检 测 算 法 , 修 正 了 传 统 过 零 率 的 计 算 。同 时 采 用 窗 长 动 态 改 变 的 方 法 对 其 进 行 了 改 进 。实 验 表 明 改 进 后 的 端 点 检 测 方 法 能 够 比 较 准 确 地 检 测 语 音 的端点。 关键词:端点检测; 过零率; 语音信号处理 中图分类号:TN912.3 文献标识码:A
5 实验及结果分析
实验 录 制 了 5 组 0- 9 的 女 生 发 音 , 采 样 频 率 为 8kHz, 分 别 采用双门限端点检测算法和窗长动态改变结合多门限的端点 检测技术进行实验, 给出了实验结果。
实验一: 双门限端点检测实验采用短时能量和过零率相结 合 的 方 法来 判 断 。帧长 取 240 个 点, 在 双 门 限端 点 检 测 算 法 实 验中 窗 长 固定 , 帧 移 80 个点 , 大 概 为 10 毫 秒 , 短 时 能 量 的 两 个 门 限 分别 为 10 和 2, 短时 过 零 率的 的 两 个门 限 分 别 为 10 和 5。 实验中给出了语音的波形图, 并标出了语音开始端点和结束端 点。图 1 给出了一组语音“4”的端点检测。
相关文档
最新文档