基于短时特征双阈值检测的话音信号端点检测算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于短时特征双阈值检测的话音信号端点检测算法
郑璐
【摘要】通过分析话音信号的时域特征,发现其具有短时能量对浊音敏感、短时平均过零率对清音敏感的特点,可以准确判断有声段和静音段.在此基础上提出以静音能量阈值和静音时延阈值作为双门限判定参数的话音信号端点检测算法.实验表明,该方法简单、准确率高、鲁棒性好.
【期刊名称】《陇东学院学报》
【年(卷),期】2018(029)005
【总页数】5页(P4-8)
【关键词】端点检测;短时特征;双阈值
【作者】郑璐
【作者单位】陇东学院信息工程学院,甘肃庆阳 745000
【正文语种】中文
【中图分类】TP391.9
语言是我们获取外界信息的主要方式。话音信号作为语言的声学表现,是由人的发音器官发出的、具有特定语法和含义的声音[1],是人进行信息交换最重要、最有效、最直接、最自然的手段。现代科学和计算机技术的蓬勃发展,使得人类社会越来越显示出信息化的特点,同时数字信号处理技术为话音信号的处理提供了强有力的工具。
由于受录音环境和技术的影响,一段话音信号的起止处总会受到噪声的干扰。话音端点检测(Voice Endpoint Detection,VED)技术就是指在各类环境噪声的存在下,准确地提取一段话音信号的特征参数,找到其中有效话音段或单词的起始点和结束点,确定哪部分包含话音成分,哪部分属于非话音段。
近几十年来,端点检测各类算法层出不穷,常用的有:(1)时域分析法,其中最具
代表性的是短时特征法;(2)频域分析法,包括基音检测、频谱分析、倒谱分析以
及LPC(Linear Prediction Coefficients)预测残差法等;(3)基于人工神经网络的算法,将所有特征参数进行神经网络训练,但数据量太大,且不一定能得到好的分类效果[2-3]。本文的研究根据后续话音识别系统的特点,选定短时能量和过零率来
完成信号端点特征提取,提出了一种基于短时特征双阈值检测的话音信号端点检测算法,实验验证了该算法的检测效率,讨论了算法的适用范围。
1 数字话音信号采集与处理
1.1 话音信号产生模型
声音是通过人的多个发音器官协调共同作用产生的,包括肺部、气管、喉咙、口腔和鼻腔,这些功能器官组成一个复杂多变的通路,进一步产生不同的声音。简单来说,话音的产生就是空气被肺部挤压由气管进入喉咙产生气流,气流经过声带进入声道,声道相当于一个可变谐振腔,再由口腔和鼻腔辐射出声波,即话音信号。这个过程可以用数学模型来模拟,该模型由激励、声道和辐射三个模型串联组成,其中气流对应激励模型,声带对应声道模型,口腔和鼻腔对应辐射模型[4],如图1
所示。则其传输函数可以表示为:
H(z)=A*U(z)V(z)R(z)
图1 话音信号产生模型
1.2 话音信号预处理
由数学模型分析可知,话音信号十分的复杂多变,是一种非线性、时变的复杂信号,
不仅包括高频成分和低频成分,还有清音和浊音。在端点检测之前必须对其进行预处理,提取出可表示话音信号本质的特征参数并进行有效的处理,以便更好地进行后续识别。预处理环节一般包括预加重、分帧和加窗函数[5]等,是端点检测过程
中的关键。
(1)预加重
由话音信号产生模型可知,话音从口腔中出来后,高频部分会有所衰减,预加重主要是为了提升高频分量,滤除低频干扰,特别是电源频率。从某种程度来说,预加重可看作是一种补偿技术,增大高频信噪比,便于对声道参数分析时减少分析误差。其函数如下:
H(z)=1-αz-1,0.9<α<1
上式中,α为预加重系数。
(2)分帧与加窗
虽然从话音信号的整体波形特征来看它是非稳态时变的,但是人在说话过程中口腔肌肉的运动是缓慢变化、有惯性的,不会发生突变。因此,在非常短的时间内可以把话音信号近似为特性平稳的时不变信号。分帧即利用了这一特点,把一段完整的话音信号分成多个小段,每段称为一帧,帧长约10~30ms。一般采用给话音信号加窗的方式进行分段,常用的窗函数有矩形窗、哈明窗和汉宁窗,根据不同种类的话音信号选择不同的窗函数。
为了保证分帧后信号依旧是连续的,相邻两帧间必然会有一定的重合,重合的这部分称为帧移,分帧示意图如图2所示。
图2 分帧示意图
2 话音信号特征参数提取
2.1 短时能量
由于话音信号具有“短时平稳”的特点,定义分帧后每帧信号的平均能量为短时能
量[6]。首先设原始数字话音信号为x(n),xi(n)是x(n)被分帧加窗后的第i帧信号,满足:
xi(n)=w(n)*x((i-1)*inc+n),
1≤n≤L,1≤i≤fn
(2.1)
式(2.1)中,inc指帧移长度,w(n)指窗函数,本文选用汉明窗,L指每帧的帧长,
fn指分帧后的总帧数。由此得到xi(n)信号的短时能量公式为:
,1≤i≤fn
(2.2)
设定一个门限,根据式(2.2)计算出某帧信号的短时能量,超过该门限的即被判定
为有效话音信号。短时能量描述的是话音信号的幅度变化,可以对有声段和无声段以及清音和浊音进行判定,但是仅仅依靠短时能量单一特征的判断不够准确。因为清音和浊音能量分布不同,浊音能量较高,是人说话时由声带振动所发出的话音,在波形上表现出幅度较高、周期性的特点,可以用短时能量特征检测。而清音能量较低,是说话时口腔运动与空气产生的摩擦音,其波形幅度随时间变化比较剧烈,用短时能量容易漏检,需引入其他的特征来完善检测效果。
2.2 短时过零率
时域分析中除了对话音信号的能量进行分析,还可以从信号波形的角度分析。音频信号输入会随时间上下波动,形成其特有的波形,这一特征可以用一帧话音信号的波形穿越零电平的次数来描述,称为短时过零率[7]。其数学定义为:
(2.3)
式(2.3)中,sgn()是符号函数。