实验3 语音信号的端点检测
语音端点检测
对于强干扰非平稳噪声和快速变化的噪声环境,如何找到更好的端点检测方法是进一步研究的主要方向。提取人耳听觉特性可以更加有效地区分语音和噪声,从而更加准确的检测语音端点。预先未知噪声统计信息条件下的语音端点检测算法已经出现,但仍出去萌芽阶段。虽然预先未知噪声统计信息条件下的端点检测是未来语音端点检测技术的发展方向,但在理论方法和技术参数等方面还有待进一步突破[17]。
经过几十年的努力,语音信号处理在语音识别、语音增强、语音编码、说话人识别、说话人情感识别、语音合成等方面取得了巨大的进步,然而,一旦这些技术应用在实际环境中,由于环境噪声、信道、说话人自身因素等方面的影响,性能急剧下降,因为在实际环境中没有完全纯净的语音信号,一般都会伴有噪声或其它干扰[4]。例如,办公室环境下,电脑风扇转动的声音,键盘敲打的声音等都是噪声,而语音信号处理系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段。语音端点检测的任务就是判断待处理信号是语音还是非语音,从输入信号中找到语音部分的起止点。端点检测是语音识别、语音增强以及语音编码等中的一个重要环节。有效的端点检测技术不仅能减少系统的处理时间、提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后续工作的性能得以较大提高[5],[6]。
第1章 绪论
1.1
语音端点检测在语音识别中占有十分重要的地位。语音信号处理中的端点检测技术,是指从包含语音的一段信号中确定出语音信号的起始点及结束点。是进行其它语音信号处理(如语音识别、讲话人识别等)重要且关键的第一步。进行有效的端点检测能够对语音信号更好的进行分析和训练,这样语音识别才能有好的识别率[1]。实际运用中,通常要求首先对系统的输入信号进行判断,准确地找出语音信号的起始点和终止点。这样才能采集真正的语音数据,减少数据量和运算量,并减少处理时间。
语音信号端点检测方法研究
是变时的 ,所以.实际计算的是短时频带方差 ,它
的实质 就是 计算 某一 帧信 号 的各 频带 能量 之 间 的方
测翻 。由于采集声音信号的最初的短时段为无语音 段 ,仅有均匀分布的噪声信号 ,因此可 以用 已知为 “ 静态”的最初几帧 ( 一般为 1 O帧)信号计算过零
i( ) 1, ) , o , )L,( } (
Z = i I , c2 f 】 T mn【 z+  ̄z , F c 其 中, 为经验值 ,一般取 2 ; c 尼 分别为根 5 z和 c 据所取最初 l 0帧样值算得的过零率的 “ 均值”和
其中的分量 ( ) 定义为 中心频率为 的滤波器的 输出能量 。它可以根据一帧信号通过一带通滤波器
摘
要: 介绍 了语音信 号的 3种端点检测方法 ,即能量过零率检 测方法、基 于频 带方差 的检测方法和
语 音 短 时信 息 熵检 测 方 法 ,并 对 3种 方 法 的优 缺 点 进 行 分析 。
关键 词 : 音 识 别 ; 点检 测 ; 音 信 号 处 理 语 端 语 中图 分 类 号 : N923 T 1. 4 文献 标 志 码 : A
来计算 ,也可以计算一帧信号的 F ,然后把某几 兀’
个频率分组组合而得。对于数字信号 ,最低频是 0 ,
最 高 频是 1 7 , 余 各 中心频 率 按 一 定 规 则 从 0到 n 。其
递增 。
收稿 日期 :0 8 0 — 5 修 回 日期 :0 8 0 — 6 20 — 8 1 ; 2 0 — 9 1
作 者简 介 : 志 霞 ( 9 9 , , 张 1 7 一)女 山西 原 平 人 。 20 年 9月就 06
一种语音信号端点检测方法的研究
一种语音信号端点检测方法的研究吴亮春潘世永(西华大学数学与计算机学院,四川成都 610039)摘要在语音识别系统中,端点检测的误差会降低系统的识别率,进行有效准确的端点检测是语音识别的重要步骤。
因此端点检测逐渐成为语音信号处理中的一个热点。
本文提出了一种基于模型的Teager 能量端点检测方法。
实验证明,该算法比传统的能量过零率端点检测算法具有更高的识别率,能够更准确的检测出语音信号的端点。
关键词端点检测;模型;过零率1 引言语音是人类相互交流和通信最方便快捷的手段。
如何高效地实现语音传输、存储或通过语音实现人机交互,是语音信号处理领域中的重要研究课题。
而语音端点检测是语音分析、语音合成、语音编码、说话人识别中的一个重要环节,直接影响到后续工作的准确性。
在实际应用中,首先通常要求对系统的输入信号进行判断,准确地找出语音信号的起始点和终止点,这样才能采集真正的语音数据,减少数据量和运算量,并减少处理时间。
在语音识别中,通常是先根据一定的端点检测算法,对语音信号中的有声片段和无声片段进行分割,而后再针对有声片段,依据语音的某些特征进行识别。
研究表明,即使在安静的环境中,语音识别系统一半以上的识别错误来自端点检测器。
因此,作为语音识别系统的第一步,端点检测的关键不容忽视,尤其是噪声环境下语音的端点检测,它的准确性很大程度上直接影响着后续的工作能否有效进行。
可以说,语音信号的端点检测至今仍是有待进一步深入研究的课题。
2 语音信号的时域特征2.1 短时能量分析语音信号的能量随着时间变化比较明显,一般清音部分的能量比浊音的能量小的多,所以在区分清音和浊音,有声段和无声段的应用中效果比较明显。
对于信号{x(n)},短时能量的定义如下:式中,, E n表示在信号的第n个点开始加窗函数时的短时能量。
通过上式可以看出,短时能量式语音信号的平方经过一个线性低通滤波器的输出,该线性低通滤波器的单位冲激响应为h(n)。
由于短时能量是对信号进行平方运算,因而增加了高低信号之间的差距,在一些应用场合并不合适。
机器语音中的语音端点检测算法研究
机器语音中的语音端点检测算法研究近年来,机器语音技术发展迅猛,已经逐渐渗透到我们日常生活的各个领域中。
例如语音交互、智能家居、语音识别等等领域中,机器语音的应用正在不断增多。
然而在机器语音技术的应用中,一个重要的问题就是语音的端点检测。
本文将围绕机器语音中的语音端点检测算法进行研究,分析其基本原理和现状。
一、语音端点检测的基本原理语音信号是一种时间序列信号,在应用中,我们需要找到有意义的语音部分而忽略掉无意义的部分,从而进行后续的处理。
语音端点检测就是将语音信号分割成有意义的部分和无意义的部分。
在语音信号中,一段连续的语音信号通常由语音信号模板(speech model)和音频背景模板(noise model)混合组成,语音端点检测算法的主要任务就是找到这些分割点。
通常,语音端点检测算法的流程包含以下几个步骤:1、特征提取 - 通过信号处理方法从音频信号中提取有代表性的特征。
特征通常是一些频率特征,用于区分语音信号和非语音信号。
2、特征处理 - 对提取到的特征进行处理,以便更好地区分语音信号和非语音信号。
3、检测算法 - 通过特定算法对特征进行分析和检测,以找出语音信号的起始和终止点。
二、语音端点检测算法的现状语音端点检测算法近年来已经取得了很好的进展,并且应用领域广泛。
在实际应用中,我们经常会面临源自噪音、强唱、机器干扰等各种各样的问题。
为了解决这些问题,研究人员提出了很多不同的语音端点检测算法。
1、基于能量方法的语音端点检测算法最简单的端点检测算法就是能量检测法。
这种检测法通过计算语音信号的平均功率、放大声音强度或计算总体能量等方式来达到分辨语音信号和噪音的效果。
不过,这种算法很容易出现误判。
2、基于短时帧能量的语音端点检测算法为了能够更准确地检测语音端点,研究人员提出了基于短时帧能量的方法。
这种方法分析语音信号中的每一帧并计算每帧的平均功率,根据信号幅值阈值来启动信号检测。
这种方法常用于识别口语较清晰的场景。
语音端点检测方法
评估指标包括准确率、召回率、F1得分等。准确率是指模型正确预测的样本数占总样本数的比例;召回率是指模 型正确预测的正样本数占所有正样本数的比例;F1得分是准确率和召回率的调和平均数。
实验结果展示与分析
实验结果展示
实验结果展示包括混淆矩阵、ROC曲线 、PR曲线等。混淆矩阵可以展示模型对 不同类别的预测结果;ROC曲线可以展 示模型在不同阈值下的敏感度和特异度 ;PR曲线可以展示模型在不同阈值下的 精度和召回率。
双向长短期记忆网络(Bi-LSTM)是一种结合了前向和后向LSTM的神经网络,可以同时从 前向和后向两个方向对语音信号进行建模,从而更全面地考虑到语音信号中的时序变化。
ห้องสมุดไป่ตู้
基于卷积神经网络的语音端点检测
01
卷积神经网络(CNN)是一种适用于图像和序列数据的神 经网络,可以有效地处理局部依赖的数据。在语音端点检 测中,它可以对语音信号的局部特征进行建模,从而识别 出语音的起始和结束点。
重要性
语音端点检测是语音信号处理中 的关键技术之一,对于语音识别 、语音合成、语音增强等应用具 有重要意义。
语音端点检测的应用领域
语音识别
语音端点检测可以用于确定语音识别的 起始和结束位置,提高语音识别的准确
性和效率。
语音增强
语音端点检测可以用于去除背景噪声 、回声等干扰,提高语音信号的质量
。
语音合成
语音端点检测方法
汇报人: 2023-12-21
目录
• 引言 • 语音信号处理基础 • 传统语音端点检测方法 • 基于深度学习的语音端点检测
方法 • 实验设计与结果分析 • 结论与展望
01
引言
语音端点检测的定义与重要性
实验3 语音信号的端点检测 数字语音处理-学生版
x1 = 0; x2 = 0; for n=1:length(zcr) goto = 0; switch status case {0,1} % 0 = 静音, 1 = 可能开始
2020/10/28
if amp(n) > amp1 % 确信进入语音段 x1 = max(n-count-1,1); status = 2; silence = 0; count = count + 1; elseif amp(n) > amp2 | ... % 可能处于语音段 zcr(n) > zcr2 status = 1; count = count + 1; else % 静音状态 status = 0; count = 0; end 2020/10/28
2020/10/28
• 语音结束点N2的检测方法与检测起点相同,从后向前 搜索,找第一个平均幅度低于ITL、且其前向帧的平均 幅度在超出ITU前没有下降到ILT以下的帧的帧号,记 为N2,随后根据过零率向N2+25帧搜索,若有3帧以上 的ZCR≥IZCT,则将结束点N2定为满足ZCR≥IZCT的最 后帧的帧号,否则即以N2作为结束点。
2020/10/28
三、实验要求
• 要求通过所学语音信号处理的知识,独立设计 算法,实现对一段包含背景噪声且前后有一段 空白的语音信号进行端点检测,找出语音的真 实起点和终点。
2020/10/28
四、实现方法
• 可先用麦克风录制一段语音,然后对语音加窗分帧, 并利用语音增强技术最大限度地滤除背景噪声;对加 窗后的语音信号求其短时平均幅度函数和短时平均过 零率,然后设定这两种参数的阈值,最终在整段语音 内通过两种参数与各自的阈值比较找出语音的真实起 点和终点。
语音端点检测方法
卷积神经网络在语音端点检测中的应用
卷积神经网络(CNN)是一种特殊 的神经网络结构,由多个卷积层组成 。在语音端点检测中,CNN可以用 于提取语音信号的局部特征,并通过 卷积操作捕捉局部特征之间的空间关 系。
发展趋势
未来,语音端点检测技术将朝着更准确、更快速、更稳定的方向发展,同时还将结合深度学习等技术,实现更加 智能化的语音识别和处理。此外,随着物联网、智能家居等应用的普及,语音端点检测技术的应用场景也将越来 越广泛。
02
语音端点检测基本原 理
语音信号的组成
语音信号是由声音波 形、振幅、频率等物 理特性组成的。
THANKS
感谢观看
利用硬件加速
利用GPU或FPGA等硬件 加速技术,可以加速语音 处理的速度,提高实时性 。
模型压缩
通过模型压缩技术,如知 识蒸馏、量化等,减少模 型的大小和计算量,提高 实时性。
适应不同场景的方法
多模型融合
针对不同的场景,训练多 个模型,并将它们的输出 进行融合,以提高语音端 点检测的准确性。
数据适应
03
传统语音端点检测方 法
基于能量的语音端点检测方法
原理
方法
利用语音信号的能量特征,通过比较信号 的能量变化来检测语音的起始和结束点。
优点
先对语音信号进行预处理,如预滤波、分 帧等,然后计算每一帧的能量,通过设定 能量阈值来判断语音的起始和结束点。
缺点
简单、易于实现、对安静环境下的语音有 较好的检测效果。
对不同场景的数据进行预 处理和适应,如采用不同 的特征提取方法和声学模 型等。
语音端点检测
1.3 相关工作
随着生活品质的不断提高,对声控产品,在不同的声控产品语音识别系统中,有效准确地确定语音段端点不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的性能。
随着语音识 别应用的发展,越来越多系统将打断功能作为一种方便有效的应用模式,而打断功能又直接依赖端点检测。端点检测对打断功能的影响发生在判断语音/非语音的过 程出现错误时。表现在过于敏感的端点检测产生的语音信号的误警将产生错误的打断。例如,提示音被很强的背景噪音或其它人的讲话打断,是因为端点检测错误的 将这些信号作为有效语音信号造成的。反之,如果端点检测漏过了事实上的语音部分,而没有检测到语音。系统会表现出没有反应,在用户讲话时还在播放提示音。
通过大量的文献调研与实际研究发现,现有的各种语音信号端点检测技术都存在各自的不足。对于语音信号在低信噪比时的端点检测的研究有待进一步深入研究。当前,语音端点检测技术还远滞于通信技术发展的脚步,在此领域还有很多问题需要研究。
对于强干扰非平稳噪声和快速变化的噪声环境,如何找到更好的端点检测方法是进一步研究的主要方向。提取人耳听觉特性可以更加有效地区分语音和噪声,从而更加准确的检测语音端点。预先未知噪声统计信息条件下的语音端点检测算法已经出现,但仍出去萌芽阶段。虽然预先未知噪声统计信息条件下的端点检测是未来语音端点检测技术的发展方向,但在理论方法和技术参数等方面还有待进一步突破[17]。
目前,语音技术正进入一个相对成熟点,很多厂商和研究机构有了语音技术在输入和控制上令人鼓舞的演示,输入的硬件和软件平台环境也日益向理想化迈进,但语音技术比起人类的听觉能力来还相差甚远,其应用也才刚刚开始,进一步规范和建设语音输入的硬件通道、软件基本引擎和平台,使语音技术能集成到需要语音功能的大量软件中去。而且语音产业需要更加开放的环境,使有兴趣和实力的企业都能加入到这方面的研究和开发中,逐步改变。随着声控电子产品的不断研发,语音识别技术在开发和研究上还有大量的工作需要做。
语音识别实验报告
语音识别实验报告篇一:语音识别报告“启动”的时域波形1、语音预加重:由于语音信号在高频部分衰减,在进行频谱分析时,频率越高,所占的成分越小,进行语音预加重,可以提升语音高频部分,使频谱变得平坦,以方便进行频谱的分析和处理。
通常的措施是采用数字滤波器进行预加重,传递函数是:H(z)?1??z?1,其中?一般去0.92-0.98之间,所以在计算的时候取0.9375。
预加重后的波形2、分帧加窗语音信号具有较强的时变特性,其特性是随时间变化的,但是语音的形成过程与发音器官的运动有关,这种物理运动比起声音振动的速度十分缓慢,在较短的时间内,语音信号的特征可以被认为是保持不变的,通常对语音处理是通过截取语音中的一段进行处理的,并且短段之间彼此经常有一些叠加,这一段语音成为一帧语音,语音段的长度称为帧长,对每一帧处理的结果可用一组数来表示。
一般取帧长为10—30ms。
采样频率是8000Hz,所以取的帧长是256,帧移是178。
分帧之后加汉明窗。
3、端点检测端点检测从背景噪声中找出语音的开始和终止点。
短时能量就是每帧语音信号振幅的平方和。
En??[s(m)];m?0N?1短时能量曲线短时过零率是每帧内信号通过零点的次数,是信号采样点符号的变化次数。
1N?1Zn??sgn[x(m)]?sgn[x(m?1)];2m?0“启动”的过零率曲线在实验室的安静的环境下,依靠短时能量和短时过零率就可进行语音信号的起止点判断。
当背景噪声较小时,没有语音信号的噪声能量很小,而语音信号的短时能量增大到了一定数值,可以区分语音信号的开始点和终止点。
当背景噪声较大时,可以用短时平均过零率和短时能量结合来判断。
基于能量一过零率的端点检测一般使用两级判决法,在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限。
整个语音信号的端点检测可以分为四段:静音、过渡音、语音段、结束时的静音段,(1)如果能量或过零率超越了低门限,就应该开始标记起点,进入过渡段。
《语音信号处理》实验1-端点检测
华南理工大学《语音信号处理》实验报告实验名称:端点检测姓名:学号:班级:10级电信5班日期:2013年5 月9日1.实验目的1.语音信号端点检测技术其目的就是从包含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音信号,它是语音处理技术中的一个重要方面。
本实验的目的就是要掌握基于MATLAB编程实现带噪语音信号端点检测,利用MATLAB对信号进行分析和处理,学会利用短时过零率和短时能量,对语音信号的端点进行检测。
2. 实验原理1、短时能量语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音段的能量是噪声段能量叠加语音声波能量的和。
在信噪比很高时,那么只要计算输入信号的短时能量或短时平均幅度就能够把语音段和噪声背景区分开。
这是仅基于短时能量的端点检测方法。
信号{x(n)}的短时能量定义为:语音信号的短时平均幅度定义为:其中w(n)为窗函数。
2、短时平均过零率短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。
过零分析是语音时域分析中最简单的一种。
对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号称为过零。
过零率就是样本改变符号次数。
信号{x(n)}的短时平均过零率定义为:式中,sgn为符号函数,即:过零率有两类重要的应用:第一,用于粗略地描述信号的频谱特性;第二,用于判别清音和浊音、有话和无话。
从上面提到的定义出发计算过零率容易受低频干扰,特别是50Hz交流干扰的影响。
解决这个问题的办法,一个是做高通滤波器或带通滤波,减小随机噪声的影响;另一个有效方法是对上述定义做一点修改,设一个门限T,将过零率的含义修改为跨过正负门限。
于是,有定义:3、检测方法利用过零率检测清音,用短时能量检测浊音,两者配合。
首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。
语音信号处理实验报告
语音信号处理实验报告实验一:语音信号的端点检测学院:电子与信息学院专业:11级信息工程姓名:学号:提交日期:实验一:语音信号的端点检测1、实验内容语音信号端点检测技术其目的就是从包含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音信号,它是语音处理技术中的一个重要方面。
本实验的目的就是要掌握基于MATLAB编程实现带噪语音信号端点检测,利用MATLAB对信号进行分析和处理,学会利用短时过零率和短时能量,对语音信号的端点进行检测。
2、实验方法本实验中,端点检测的方法有两种:短时能量和短时过零率。
语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音段的能量是噪声段能量叠加语音声波能量的和。
在信噪比很高时,那么只要计算输入信号的短时能量或短时平均幅度就能够把语音段和噪声背景区分开。
这是仅基于短时能量的端点检测方法。
信号{x(n)}的短时能量定义为:短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。
过零分析是语音时域分析中最简单的一种。
对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号称为过零。
过零率就是样本改变符号次数。
信号{x(n)}的短时平均过零率定义为:2.2、检测方法利用过零率检测清音,用短时能量检测浊音,两者配合。
首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。
低门限被超过未必是语音的开始,有可能是很短的噪声引起的,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始。
此时整个端点检测可分为四段:静音段、过渡段、语音段、结束。
实验时使用一个变量表示当前状态。
静音段,如果能量或过零率超过低门限,就开始标记起始点,进入过渡段。
过渡段当两个参数值都回落到低门限以下,就将当前状态恢复到静音状态。
而如果过渡段中两个参数中的任一个超过高门限,即被认为进入语音段。
语音信号处理-端点检测
A noise robust endpoint detection algorithm for whispered speech based on EmpiricalMode Decomposition and entropyXue-Dan Tan Dept. of Phys. Sci. and Tech.Soochow UniversitySuzhou, Chinatanxuedan@He-Ming ZhaoDept. of ElectronSoochow UniversitySuzhou, ChinaJi-Hua Gu Dept. of Phys. Sci. and Tech Soochow UniversitySuzhou, ChinaZhi TaoDept. of Phys. Sci. and Tech Soochow UniversitySuzhou, Chinataoz@Abstract—This paper proposes a novel endpoint detection algorithm to improve the speech detection performance in noisy environments. In the proposed algorithm, Empirical Mode Decomposition is introduced to improve the performance of voice activity detector based on spectral entropy. We have evaluated system performance under noisy environments using a whispered database and NOISEX-92 Database. Experimental results indicate that our approach performs well in the degraded environment.Keywords-endpoint detection; whispered speech; Empirical Mode Decomposition; entropyI.I NTRODUCTIONEndpoint detection is used to distinguish speech from other waveforms. In many cases, endpoint detection has very board applications and plays an important part in speech and hearing, such as speech coding, speech recognition and speech enhancement. Many endpoint detectors algorithms have been proposed which are based on features of short-time signal energy, the high band energy and zero-crossing rate. However, these features do not work well under whispered conditions.Whisper is a natural form of speech that one uses for a variety of reasons. For example, individuals often communicate in environments where normal speech is inappropriate, while aphonic individuals may not be able to produce normal speech [1]. The mechanism of whisper production is different from normal speech. In normal speech, voiced sounds are produced by quasi-periodic excitation pulses. However, whispered speech is completely noise excited, with 20dB lower power than its equivalent voiced speech [2]. The spectrum of whispers also rolls off under 500Hz [3] due to an introduced spectral zero [4] and is typically flatter than the voiced spectrum between 500 and 2000 Hz [5].Because of no vocal fold vibration and low energy as well as noise-like, whispered speech is more difficult to detect than normal speech, especially under noisy environments.In [6], a robust VAD method based on spectral entropy was proposed. This method has shown a high detection accuracy compared with the conventional methods. Motivated by the feature in [6], an improved method in [7] was developed to identify whispered speech segments accurately. Both [6] and [7] are well suited for endpoint detection in stationary noise. However, most of noises are non-stationary. Each type of noise has its special distribution on the spectrum, and all of them are quite different from that of speech signal. The two methods above would become less reliable in non-stationary noise like Babble noise.In this paper, we focus on the method in [7] based on the improved spectral entropy, and incorporate Empirical Mode Decomposition (EMD) to improve the robustness of endpoint detection. EMD, introduced by Dr. Norden Huang in 1998 [8], is a powerful analytical method for non-linear and non-stationary signals. We use EMD to decompose whispered speech signal self-adaptively and locally. Some of the resulting IMFs are less noisy than the original signal, so we extract entropy-based feature from these IMFs and the experiments show that the proposed feature is superior to the entropy extracted from original whispered speech directly and the proposed method outperforms [7], especially under non-stationary background noise.The rest of this paper is organized as follows: in section 2, the basics of EMD is considered, then in section 3, the method in [7] is described, in section 4, the proposed method is introduced, and the experiments are shown in section 5 and finally, the conclusions are given in section 6.II.E MPIRICAL M ODE D ECOMPOSITION M ETHOD The EMD decomposes a given signal x(n) into a series of IMFs through an iterative process: each one with a distinct time scale [8]. The decomposition is based on the local time scale of x(n), and yields adaptive basis functions. The EMD can be seen as a type of wavelet decomposition whose sub-bands are built up as needful to separate the different components of x(n). Each IMF replaces the signal details, at a certain scale or frequency band [9]. The EMD picks out the highest frequency oscillation that remains in x(n). By definition, an IMF satisfies two conditions:1)The number of extremes and the number of zerocrossings may differ by no more than one.University Natural Science Research Project of Jiangsu Province (Grant No. 09KJD510005).Third International Symposium on Intelligent Information Technology and Security Informatics2) The average value of the envelope defined by the localmaxima, and the envelope defined by the local minima, is zero. Thus, locally, each IMF contains lower frequency oscillations than the just extracted one. The EMD does not use a pre-determined filter or a wavelet function, and is a fully data-driven method [8].For a given x(n), the algorithm of the EMD can be summarized as follows:1) Find all the points of the local maximum and all thepoints of the local minimum in the signal. 2) Create the upper envelope by a spline interpolation ofthe local maximum and the lower envelope by a spline interpolation of the local minimum of the input signal. 3) Calculate the mean of the upper envelope and thelower envelope. 4) Subtract the envelope’s mean signal from the inputsignal to yield the residual. 5) Iterate on the residual until it satisfies the “stop”criterion, The ‘stop’ criterion functions to check if the residual from Step 4 is an IMF or not. 6) Repeat the sifting process from Step 1 to Step 5 manytimes with the residue as the input signal so that all the IMFs can be extracted from the signal. After the EMD, the original input signal x(n) can be expressed as follows:1()()()nini x n c n r ¦n (1)III. S PECTRAL E NTROPYIn [7], the whispered speech is segmented into frames and pre-filtered by a high-pass filter setting of 500 Hz. Each frame is evenly divided into 4 sub-frames. For each sub-band, assuming X(k) is the wide-band spectrogram of speech frame x(n):12()()exp()Nn j nk X k x n NS ¦, k =1,}, N ; N =128 (2)Define s(k) as its power spectrum2()()s k X k (3)And E f denotes its energy1()Mf k E s k ¦, k =1,}, M ; M =64 (4)p(k) is the probability densities in frequency domain and can be written as()()fs k p k E (5)Thus the entropy for each sub-frame speech signal is defined as1()log ()Mk H p k p k ¦ (6)And the spectral entropy for the frame can then be calculated as the average of four sub-frames.IV. A N ENDPOINT DETECTION ALGORITHM FOR WHISPEREDSPEECH USING EMD AND SPECTRAL ENTROPY A speech signal is first decomposed into often finite IMFs by the EMD, as shown in (1). During the decomposition of EMD, on each little period of time, IMFs with the minimal scale are obtained first, then are IMFs with large scales, in the end is the IMF with the maximal scale. Theoretically, an IMF is a mono-component function, and is generated orderly according to the local time scales of the components. It turns out that EMD acts essentially as a dyadic filter bank resembling those involved in wavelet decompositions [9]. The whispered speech signal and the first six IMFs out of twelveand their spectrums are shown in Fig.1.Figure 1. The EMD of whispered speech “chuai” (the first six IMFs out oftwelve) and spectrumsIt is observed that the resulting IMFs are the different frequency parts of the signal. And compared with the original whispered speech signal, each spectrum of IMFs, especially the smaller-scale IMFs, is less noisy. Besides, speech has the AM-FM characteristics while noise signal does not, and the processing of EMD can meet these characteristics. As a result, whispered parts of IMFs are more stable than the noisy parts, namely, entropy values of whispered part are larger than the ones of noisy parts which is shown in Fig.2.Figure 2. The EMD of whispered speech “chuai” (the first six IMFs outof twelve) and entropy curvesThe larger scales have very low amplitudes, which are very small compared to the other IMFs, and thus it is not necessary to calculate theses posterior IMFs. This helps to reduce the computing time.The algorithm can be summarized as follows:1) Decompose the whispered speech signal with theEMD. 2) Choose the i -th IMF component, where i = 0, 1,}, I . 3) Weight the i -th IMF component by the Hammingwindow.Z (n )=0.54 0.46cos (2*S n /N ), n = 0, 1,} ,N 1 (7) where N is the frame length.4) Compute H(i ,j), which is the spectral entropy of the j -th frame of the i -th IMF component. 5) The final estimate is given by1()(,)Ii E j H i j ¦, j =1, 2,}, J (8)where J is the frame number of each IMF component.V.E XPERIMENT AND RESULTSThe whispered speech database used in the experiments here is Whisper_N Database (the whispered speech database constructed by the researchers of Nanjing University [10]) with a 2~10dB signal-to-noise ratio (SNR) from different male and female speakers. The noise signals used in the simulation include 3 kinds of noise (Babble, Volvo and F16) of NOISEX-92 Database. The whispered speech and various noise signals are mixed at 6 different SNRs (0dB, 5dB, 10dB, 15dB, 20dB and 25dB) to simulate the real noise environments. And we use a method based on energy and zero-crossing rate (method 1)and the method in [7] (method 2) for comparison with the proposed method (method 3). In our experiments, FFT is 512 points and window length is 256 samples with a window shift of 80 samples.A. Feature ComparisonFig.3 shows the features of three endpoint detection methods for clean whispered speech. One can notice that the discriminability of the proposed feature is obviously better than the others.Fig.4, Fig.5 and Fig.6 include the feature curves of the three methods above under Babble, Volvo and F16 noisebackgrounds respectively and SNR=10dB.(a) Clean whispered speech (b) Babble noise(c) Volvo noise (d) F16 noiseFigure 3. Various feature curves for whispered speech “chuai” indifferent types of noise at 10 dB SNRFrom the last figures, it is found that the introduction of EMD in method 3 almost makes the curves of noise become fairly flatter than the entropy in method 2, and the speech distributions in method 3 are more evident than others under the same SNR condition. It is obvious that the thresholds are easy to be tuned consistently for different noise signals. B. Endpoint Detection ExperimentsIn this experiment, we process 205 whispered speech samples from Whisper_N Database by the three methods above. The correct segmentation rates of clean whispered speech are showed in Table ȱ.TABLE I. CORRECT SEGMENTATION RATES OF CLEAN WHISPEREDSPEECH (%)Method 1 Method 2 Method 3Start point90.7317 93.1707 99.0244 End point48.4634 70.2439 83.90241)The accurate rates of both start point detection andend point detection obtained by method 3 are higher than others’. 2) All the accurate rates of start point detection are betterthan that of end point detection. Because the end of whispered speech signal is weaker than the start, the three methods above deteriorate at the detection of end points. The segmentation results obtained by the three methods above with different types and levels of noise are shown in Fig. 4, Fig. 5 and Fig. 6.(a) Start point(b) End pointFigure 4. Segmentation rates in Babble noise(a) Start point(b) End pointFigure 5. Segmentation rates in Volvo noise(a) Start point(b) End pointFigure 6. Segmentation rates in F16 noiseThe figure results prove that method 3 has an overall better performance than others in all SNRs and all the noise types used here. It can be noticed that method outperforms method 1, for example, Fig.5 and Fig.6 (b). Method 2 becomes useless in the presence of the non-stationary noises, which is particularly noticeable in Fig.4 (b) and Fig.6 (b). Thus we can see robustness of our approach under noisy conditions.VI. C ONCLUSIONSIn this paper, we presented a new method based on EMD and spectral entropy for whispered speech detection. The EMD decomposes the signals self-adaptively and locally. The resulting IMFs provide the local information, which is vital to the non-stationary signals. We get the entropy features from smaller scale IMF components. The proposed method benefits from the advantages of the EMD and attractive properties of the entropy and gets rid of the background noise to a certain extent. Our experiments show the proposed method can extract the whispered speech better than the method based on energy and zero-crossing rate and the method in [7], especially in noisy environments. However, the main limitation of EMD-based method is that it is computationally expensive. And the next step is to reduce the computational cost of the proposed method, and to enhance the detection rate of end point of our algorithm to be more effective at very low SNR Environment, for example, at 0 dB.R EFERENCES[1] R.W. Morris, M.A. Clements, “ Reconstruction of speech fromwhispers,” J. Medical Engineering & Physics. vol.24, pp.515-520, 2002. [2] Jovicic S.T, Dordevic M.M, “ Acoustic features of whisperedspeech.,”Acustica-acta acustica. 1996, 82:S228.[3] Jovicic S.T, “Formant feature differences between whispered and voicedsustained vowels,” Acustica-acta acustica. vol.84, pp.739-43, 1998. [4] Stevens K.N, Acoustic phonetics. Cambridge, MA: MIT Press.1998.[5] Schwartz MF, “Power spectral density measurements of oral andwhispered speech,” J .Speech Hearing Res. vol.13, pp.445-446, 1970.[6]Jia-lin Shen, Jeil-weih Hung, Lin-shan Lee, “Robust Entropy-basedEndpoint Detection for Speech Recognition in Noisy Environments,”ICSLP. pp.232-235, 1998.[7]Li X.L., Ding H.,Xu B.L., “Entropy-based initial/final segmentation forChinese whispered speech,” Acta Acustica.2005, 30(1), pp.69-75.[8]Norden E Huang, Shen Zheng, “The empirical mode decomposition andthe Hilbert spectrum for nonlinear and non-stationary time series analysis,” J. Proceedings of the Roya1 Society of London, A454, pp.903-995, 1998.[9]Patrick Flandin, Gabriel Rilling, Paulo Goncalves, “Empirical ModeDecomposition As A Filter Bank,” IEEE Signal Processing Letters.pp.112-114, 2004.[10]Yang L.L., Li Y., Xu B.L., “The establishment of a Chinese whisperdatabase and perceptual experiment,” Journal of Nanjing University (Natural Sciences). pp.311-317, vol.41, 2005.。
端点检测
语音信号处理实验一:端点检测姓名:XXX 学号:XXXX 班级:XX一、实验目的:理解语音信号时域特征和倒谱特征求解方法及其应用。
二、实验原理与步骤:任务一:语音端点检测。
语音端点检测就是指从包含语音的一段信号中确定出语音的起始点和结束点。
正确的端点检测对于语音识别和语音编码系统都有重要的意义。
采用双门限比较法的两级判决法,具体如下第一级判决:1. 先根据语音短时能量的轮廓选取一个较高的门限T1,进行一次粗判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。
2. 根据背景噪声的平均能量(用平均幅度做做看)确定一个较低的门限T2,并从A点往左、从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是用双门限方法根据短时能量所判定的语音段。
第二级判决:以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两点E和F,这便是语音段的起止点。
门限T3是由背景噪声的平均过零率所确定的。
注意:门限T2,T3都是由背景噪声特性确定的,因此,在进行起止点判决前,T1,T2,T3,三个门限值的确定还应当通过多次实验。
任务二:利用倒谱方法求出自己的基音周期。
三、实验仪器:Cooledit、Matlab软件四、实验代码:取端点流程图一:clc,clear[x,fs,nbits]=wavread('fighting.wav'); %x为0~N-1即1~Nx = x / max(abs(x)); %幅度归一化到[-1,1]%参数设置FrameLen = 240; %帧长,每帧的采样点inc = 80; %帧移对应的点数T1 = 10; %短时能量阈值,语音段T2 = 5; %短时能量阈值,过渡段T3 = 1; %过零率阈值,起止点minsilence = 6; %无声的长度来判断语音是否结束silence = 0; %用于无声的长度计数minlen = 15; %判断是语音的最小长度state = 0; %记录语音段状态0 = 静音,1 = 语音段,2 = 结束段count = 0; %语音序列的长度%计算短时能量shot_engery = sum((abs(enframe(x, FrameLen,inc))).^2, 2);%计算过零率tmp1 = enframe(x(1:end-1), FrameLen,inc);%tmp1为二维数组=帧数*每帧的采样点FrameLentmp2 = enframe(x(2:end) , FrameLen,inc);%signs = (tmp1.*tmp2)<0;%signs为一维数组,符合的置1,否则置0zcr = sum(signs,2);%开始端点检测,找出A,B点for n=1:length(zcr)if state == 0 % 0 = 静音,1 = 可能开始if shot_engery(n) > T1 % 确信进入语音段x1 = max(n-count-1,1); % 记录语音段的起始点state = 2; silence = 0;count = count + 1;elseif shot_engery(n) > T2|| zcr(n) > T3 %只要满足一个条件,可能处于过渡段status = 1;count = count + 1;x2 = max(n-count-1,1);else % 静音状态state = 0; count = 0;endendif state = =2 % 1 = 语音段if shot_engery(n) > T2 % 保持在语音段count = count + 1;elseif zcr(n) > T3 %保持在语音段x3 = max(n-count-1,1);else % 语音将结束silence = silence+1;if silence < minsilence %静音还不够长,尚未结束count = count + 1;elseif count < minlen % 语音段长度太短,认为是噪声 state = 0;silence = 0;count = 0;else % 语音结束state = 3;endendendif state = =3 % 2 = 结束段break;endendx1,x2,x3 %A、C、E坐标x11 = x1 + count -1 %B坐标x22 = x2 + count -1 %D坐标x33 = x3 + count -1 %F坐标%画图subplot(3,1,1)plot(x)axis([1 length(x) -1 1])%标定横纵坐标title('原始语音信号','fontsize',17);xlabel('样点数'); ylabel('Speech');line([x3*inc x3*inc], [-1 1], 'Color', 'red'); %画竖线line([x33*inc x33*inc], [-1 1], 'Color', 'red');subplot(3,1,2)plot(shot_engery);axis([1 length(shot_engery) 0 max(shot_engery)])title('短时能量','fontsize',17);xlabel('帧数'); ylabel('Energy');line([x1 x1], [min(shot_engery),T1], 'Color', 'red'); %画竖线line([x11 x11], [min(shot_engery),T1], 'Color', 'red'); % line([x2 x2], [min(shot_engery),T2], 'Color', 'red'); % line([x22 x22], [min(shot_engery),T2], 'Color', 'red'); % line([1 length(zcr)], [T1,T1], 'Color', 'red', 'linestyle', ':'); %画横线line([1 length(zcr)], [T2,T2], 'Color', 'red', 'linestyle', ':'); %text(x1,-5,'A'); %标写A、B、C、Dtext(x11-5,-5,'B');text(x2-10,-5,'C');text(x22-5,-5,'D');subplot(3,1,3)plot(zcr);axis([1 length(zcr) 0 max(zcr)])title('过零率','fontsize',17);xlabel('帧数'); ylabel('ZCR');line([x3 x3], [min(zcr),max(zcr)], 'Color', 'red'); %画竖线line([x33 x33], [min(zcr),max(zcr)], 'Color', 'red'); %line([1 length(zcr)], [T3,T3], 'Color', 'red', 'linestyle', ':'); %画横线text(x3-10,-3,'E起点'); %标写E、Ftext(x33-40,-3,'F终点');运行结果与分析:x1 = 650,x11 = 734,x2 = 646,x22 = 752,x3 = 643,x33 = 763得出的值x3<x2 <x1 <x11< x22< x33 ,基本符合要求放大放大放大1、主要是学习了一些新的函数。
语音信号处理中的端点检测技术研究
语音信号处理中的端点检测技术研究随着语音技术的快速发展,语音信号处理技术也在不断创新和更新。
其中,端点检测技术在语音信号处理中起着重要的作用。
本文将就语音信号处理中的端点检测技术进行深入研究,探讨其在语音识别、语音增强、语音编解码等领域的实际应用。
1. 端点检测技术的基本原理端点检测技术是指在语音信号中自动识别信号的开始和结束点。
其基本原理是在语音信号中识别出信号的活动区(即声音出现的时间段),将其与语音信号中的静音区(即无声区域)区分开来。
在语音信号处理系统中,端点检测技术是一个非常关键的部分,它对后续语音信号处理的结果有着重要的影响。
2. 端点检测技术的分类根据端点检测技术的不同特点和应用领域,可以将其分为以下几种:(1)基于能量的端点检测技术:这种技术是根据语音信号中的能量变化来识别出信号的开始和结束点。
其主要原理是当信号的能量达到一定阈值时,判断此为信号开始点;当信号的能量低于一定阈值时,判断此为信号结束点。
此种方法的不足之处在于无法准确识别信号中存在低能量噪声或者说话人停顿的情况。
(2)基于短时能量和短时平均幅度差(Short-time Energy and Zero Crossing Rate)的端点检测技术:这种方法在能量分析的基础上,通过计算相邻两帧之间的能量变化量和过零率来确定端点。
过零率是信号经过零点的比例。
只有在过零率和能量变化等于阈值时,才被认为是信号的开始或结束点。
(3)基于Mel频率倒谱系数(Mel-frequency Cepstrum Coefficient, MFCC)的端点检测技术:这种技术利用Mel频率倒谱系数提取语音信号的特征,再根据这些特征识别信号的开始与结束点。
这种方法一般用于噪声环境中,能够有效减少环境噪声对语音质量的影响,使信号检测更加准确。
3. 端点检测技术的应用领域端点检测技术在语音处理系统中有着广泛的应用,包括:(1)语音识别:端点检测技术是语音识别中必不可少的一环。
低信噪比下的语音端点检测算法研究
低信噪比下的语音端点检测算法研究随着语音信号处理技术的不断发展和广泛应用,低信噪比下的语音端点检测算法变得尤为重要。
在低信噪比环境中,语音信号通常被噪声所掩盖,导致难以准确地检测语音端点。
因此,研究提高低信噪比下的语音端点检测算法,具有极大的实用价值。
基于能量的方法是一种简单有效的低信噪比语音端点检测算法。
其基本思想是通过对语音信号能量进行分析来判断语音的开始和结束位置。
该方法的一种常见算法是短时能量法。
该方法首先对输入语音信号进行分帧处理,并计算每帧的短时能量值。
然后,通过设置一个合适的能量阈值,将能量超过阈值的帧判定为语音信号的开始和结束。
尽管短时能量法是一种简单有效的方法,但其在低信噪比环境中存在很多问题,如噪声波动引起的能量变化和静默段中的能量突变等。
基于模型的方法是另一种常见的低信噪比语音端点检测算法。
该方法采用语音信号的统计模型来描述语音的特征,然后根据模型参数的变化来判断语音的开始和结束位置。
该方法一般包括两个关键步骤:模型训练和端点检测。
模型训练一般需要使用已知的语音和非语音样本数据集,并采用不同的机器学习算法来训练模型。
常见的模型包括高斯混合模型(Gaussian Mixture Model,GMM)和隐马尔可夫模型(Hidden Markov Model,HMM)。
端点检测阶段则是利用训练好的模型对新的语音信号进行检测,并判断开始和结束位置。
除了上述两种主流方法,还有一些其他的方法被用于低信噪比语音端点检测。
例如,基于频域特征的方法可以通过对语音信号进行频谱分析,提取语音的频域特征,并通过设置合适的阈值进行检测。
此外,一些深度学习算法,如卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆网络(Long Short-Term Memory,LSTM),在低信噪比下也具备较好的语音端点检测性能。
总结起来,低信噪比下的语音端点检测算法是一个复杂而重要的问题。
语音端点检测比例法 -回复
语音端点检测比例法-回复什么是语音端点检测比例法?语音端点检测比例法是一种常用的语音处理技术,旨在识别连续音频中的语音和非语音部分,并确定语音起始和终止点。
在许多语音处理应用中,如语音识别、语音合成和语音增强等,准确确定语音的位置非常重要。
而语音端点检测比例法就是为了完成这项任务而设计的。
语音端点检测比例法的基本原理是通过对连续音频信号的能量变化进行分析,找出能量显著增加的区域,即语音开始的位置。
当信号内的相对能量大于某个阈值时,可以认为该区域为语音。
而当连续一段时间内的相对能量小于阈值时,可以认为语音结束。
一般来说,语音信号的能量变化较为平缓,而非语音信号(如静音、噪声等)的能量变化较小。
因此,通过设置合适的阈值,语音端点检测比例法可以有效地区分语音和非语音部分。
以下是语音端点检测比例法的一般步骤:1. 预处理:首先,对原始音频进行预处理,如去除噪声、滤波、标准化等。
这一步旨在提高语音信号的质量,使后续的分析更加准确。
2. 分帧:将预处理后的音频信号分成多个帧,通常每帧长度为20-30毫秒。
这样可以保证每个帧内的信号基本稳定,便于后续能量计算。
3. 能量计算:对每个帧内的信号进行能量计算,可以采用能量计算公式:E = ∑x(n) ^2,其中x(n)代表第n个样本点的振幅。
通过累加每个样本点的平方值,得到该帧的能量。
4. 确定阈值:根据经验或统计分析,确定能量阈值。
阈值的设置要综合考虑语音信号的特性以及实际应用的要求。
通常可以通过计算整个语音信号的能量平均值和标准差,以及考虑到信号的动态变化,适当设置一个合适的能量阈值。
5. 端点判断:对于每一帧的能量值,与阈值进行比较。
如果能量值大于阈值,可以认为该帧内含有语音;如果能量值小于阈值,可以认为该帧为非语音。
根据相邻帧的语音非语音情况,可以进一步确定语音的起始和终止点。
6. 后处理:对端点进行后处理,如去除短时静音区域、合并相邻的语音段等。
这一步旨在优化端点的准确性和平滑性,以提高后续语音处理算法的性能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
case 3,
break; end end count = count-silence/2; x2 = x1 + count -1;
x1=fix(x1*length(x)/length(amp)); x2=fix(x2*length(x)/length(amp)); y=x(x1:x2);
subplot(311)
silence = 0;
%计算过零率
tmp1 = enframe(x(1:end-1), FrameLen, FrameInc); tmp2 = enframe(x(2:end) , FrameLen, FrameInc);
signs = (tmp1.*tmp2)<0;
diffs = (tmp1 -tmp2)>0.02; zcr = sum(signs.*diffs, 2);
x=x';
%幅度归一化到[-1,1]
x = double(x); x = x / max(abs(x));
%常数设置
FrameLen = 240; FrameInc = 80;
amp1 = 8;
amp2 = 1; zcr1 = 10;
zcr2 = 5;
maxsilence = 8; % 8*10ms = 80ms minlen = 15; % 15*10ms = 150ms status = 0; count = 0;
五、报告要求
1、实验目的及原理说明; 2、详细的算法说明; 3、实验的具体实施方案; 4、实验程序清单及实验结果; 5、实验结果分析。 6、参考文献(3-4本参考资料)
例:对whut.wav声音文件进行端点检测
%声音读取
[x,fs]=wavread('c:\whut.wav');
x=x(20000:length(x));
语音结束点N2的检测方法与检测起点相同,从后向前
搜索,找第一个平均幅度低于ITL、且其前向帧的平均
幅度在超出ITU前没有下降到ILT以下的帧的帧号,记
为N2,随后根据过零率向N2+25帧搜索,若有3帧以上
的ZCR≥IZCT,则将结束点N2定为满足ZCR≥IZCT的最
后帧的帧号,否则即以N2作为结束点。
确起点。这是由于语音的起始段往往存在着能量很弱 的清辅音,仅依靠能量很难把它们和无声区分开。但 研究发现它们的过零率明显高于无声段,因此可以利 用过零率这个参数来精确判断清辅音与无声区二者的 分界点。
当N1确定后,从N1帧向N1-25帧搜索,依次比较各帧的
过零率,若有3帧以上的ZCR≥IZCT,则将起点N1定为 满足ZCR≥IZCT的最前帧的帧号,否则即以N1为起点。
三、实验要求
要求通过所学语音信号处理的知识,独立设计
算法,实现对一段包含背景噪声且前后有一段 空白的语音信号进行端点检测,找出语音的真 实起点和终点。
四、实现方法
可先用麦克风录制一段语音,然后对语音加窗分帧,
并利用语音增强技术最大限度地滤除背景噪声;对加 窗后的语音信号求其短时平均幅度函数和短时平均过 零率,然后设定这两种参数的阈值,最终在整段语音 内通过两种参数与各自的阈值比较找出语音的真实起 点和终点。
实验三
语音信号的端点检测
一、实验目的
1、本次实验是设计性实验,鼓励学生充分发挥 自己的创造性,灵活利用所学的理论知识,
设计出自己的解决方案。
2、熟悉并掌握语音端点检测技术。
二、实验原理
语音端点检测就是检测语音信号的起点和终点,因此
也叫起止点识别。它是语音处理技术中的一个重要方 面,其目标是要在一段输入信号中将语音信号同其它 信号如背景噪声分离开来。在语音识别中,一个关键 问题就是如何将语音信号精确地检测出来,为获得准 确的识别提供前提。
%计算短时能量
amp = sum(abs(enframe(filter([1 -0.9375], 1, x), FrameLen, FrameInc)), 2);
%调整能量门限
amp1 = min(amp1, max(amp)/4); amp2 = min(amp2, max(amp)/20);
%开始端点检测
x1 = 0; x2 = 0; for n=1:length(zcr) goto = 0;
switch status
case {0,1} % 0 = 静音, 1 = 可能开始
if amp(n) > amp1 % 确信进入语音段 x1 = max(n-count-1,1); status = 2; silence = 0; count = count + 1; elseif amp(n) > amp2 | ... % 可能处于语音段
以过零率ZCR和能量E为特征的起止点算法的根据是背
景噪声与语音的短时段ZCR及E特征从统计看都有相当
的区别。这里的E特征指的是能量类特征,用到的是该
类特征中的短时段平均幅度M特征。
过零率的定义为:在统计的短时段中,信号波形穿越
零电平的次数。
该方法的要点为:由于采集声音信号的最初的短时段
为无语音段,仅有均匀分布的背景噪声信号。这样就
可以用已知为静态的最初几帧(一般取帧)信号计算
其过零率阈值IZCT及能量阈值ITL(低能量阈)和ITU
(高能量阈)。
接下来就可以用过零率阈值IZCT及能量阈值ITL(低能
量阈)和ITU(高能量阈)来进行起点及止点的判别。
先根据ITL、ITU算得一初始起点N1。方法为从第帧11
开始,逐次比较每帧的平均幅度,N1为平均幅度超过
的ITL第一帧的帧号。但若后续帧的平均幅度在尚未超
过之前ITU又降到ITL之下,则原N1不作为初始起点,
改记下一个平均幅度超过了的帧的帧号为ITL N1,依
此类推,在找到第一个平均幅度超过ITU的帧时停止比
较。
N1只是根据能量信息找到的起点,还未必是语音的精
plot(x) title('原波形图')
subplot(313)
plot(y) title('新波形图')
if silence < maxsilence % 静音还不够长,尚未结束
count = count + 1; elseif count < minlen % 语音长度太短,认为是噪声
status = 0;
silence = 0; count = 0; else % 语音结束
status = 3; end end
zcr(n) > zcr2
status = 1; count = count + 1;
else % 静音状态
status = 0; count = 0; end
case 2, % 2 = 语音段 if amp(n) > amp2 | ... % 保持在语音段 zcr(n) > zcr2 count = count + 1; else % 语音将结束 silence = silence+1;