低信噪比环境下改进的语音端点检测算法
基于LMS自适应的改进端点检测算法
基于LMS 自适应的改进端点检测算法刁鸿鹄,毛强,章小兵(安徽工业大学电气与信息工程学院,安徽 马鞍山 243032)摘要:语音识别技术早已不再局限于实验室中,但部分关键技术仍需进一步优化与改进,以适应社会和用户不断增加的需求。
从语音识别的技术理论入手,着重研究端点检测技术,拟在此基础上针对现有算法进行改进,提升其在低信噪比环境下的识别准确率。
提出了一种在对语音进行LMS 自适应降噪后,采用倒谱距离熵比的新型端点检测算法,并在MATLAB 平台上进行相应测试。
结果表明该算法相比于传统方法,检测正确率确有提升。
关键词:语音识别;自适应滤噪;倒谱距离;能熵比中图分类号:TN912.3 文献标志码:A 文章编号:1671-0436(2021)01-0031-10收稿日期:2020-09-28作者简介:刁鸿鹄(1996— ),男,安徽马鞍山人,硕士研究生,*****************,主要研究方向为语音识别与测控技术。
第 34 卷第 1 期2021 年 2 月常州工学院学报Journal of Changzhou Institute of TechnologyV ol. 34 No. 1Feb.2021doi:10.3969/j.issn.1671-0436.2021.01.0080 引言语音端点检测技术是对输入语音进行有话段起止端点的标记。
它是语音识别系统中一个关键环节。
端点检测的成功与否直接影响了语音识别系统的准确率。
现实生活中,因无法保证采集环境处于安静状态,故语音输入信号不可避免地带有各种噪声。
因此,研究在低信噪比环境下具有良好识别率的语音端点检测技术有实际意义,对提升系统在恶劣环境下的工作稳定性大有益处。
Improved Endpoint Detection Algorithm Based on LMS AdaptiveDIAO Honghu ,MAO Qiang ,ZHANG Xiaobing(School of Electrical and Information Engineering, Anhui University of Technology, Maanshan 243032)Abstract: Speech recognition technology is no longer limited to the laboratory. However, some key technologies still need to be further optimized and improved to adapt to the increasing demands of society and users. Starting from the technical theory of speech recognition and focusing on the endpoint detection technology, based on which, it is planned to improve the existing algorithm and enhance its recognition accuracy in a low signal-to-noise ratio environment. A new endpoint detection algorithm using cepstral distance-entropy ratio after LMS adaptive noise reduction is proposed, and the corresponding test is performed on the MATLAB platform. The results show that compared with traditional methods, the detection accuracy of this algorithm is indeed improved.Key words: speech recognition ;adaptive noise filtering ;cepstrum distance ;energy-entropy ratio322021年常州工学院学报1 自适应滤波减噪自适应信号的主要特征是在无预设值的条件下,实时调用运行数据,根据算法不断递归,更新参数,逐步逼近最优结果[1]。
一种改进的小波能量熵语音端点检测算法
一种改进的小波能量熵语音端点检测算法李乐;王玉英;李小霞【摘要】语音端点检测是语音信号处理的一个重要环节,在低信噪比下,端点检测的准确度和鲁棒性较低.为此,提出一种小波能量熵与基音周期相结合的混合端点检测算法.该算法通过分析语音信号的小波能量和小波能量熵,构造不同语者的小波能量熵端点检测参数,针对不同语者的发音特性运用小波能量熵和基音周期检测语音端点.实验结果表明,在不同噪声背景下,当信噪比为5 dB时,该算法的端点检测平均准确率达到84.375%,相对于小波能量和小波能量熵算法均有明显提高.%Speech endpoint detection is an important step in the processing of speech signal.The accuracy and robustness of endpoint detection are low at low Signal to Noise Ratio (SNR).In order to solve this problem,this paper proposes a new endpoint detection algorithm based on wavelet energy entropy and pitch period.It analyzes the speech signal wavelet energy and wavelet entropy to build wavelet energy entropy endpoint detection parameters for different speaker,and utilizes the pronunciation characteristics of different speakers to detect the speech endpoint by wavelet energy entropy and pitch period.Experimental result shows that at different noise background the average detection accuracy is 84.375% in 5 dB SNR which is more accurate than the wavelet energy algorithm and wavelet energy entropy algorithm.【期刊名称】《计算机工程》【年(卷),期】2017(043)005【总页数】7页(P268-274)【关键词】端点检测;信噪比;小波能量熵;基音周期;性别识别【作者】李乐;王玉英;李小霞【作者单位】西安建筑科技大学理学院,西安710055;西安建筑科技大学理学院,西安710055;西安建筑科技大学理学院,西安710055【正文语种】中文【中图分类】TN912.34语音端点检测是从混有噪声的语音信号中检测出语音信号的起始点和终止点。
低信噪比条件下的语音端点检测与增强
低信噪比条件下的语音端点检测与增强1 引言语音作为语言的声学表现,是听觉器官对外界声音传播介质机械振动的感知,是人类信息传递和情感交流的重要载体。
目前,语音处理技术要求语音输入在安静的环境下进行,当周围环境有噪声时,系统性能会急剧下降。
然而,语音通信过程不可避免地受到来自周围环境、传播介质等噪声的影响。
语音增强是解决噪声污染的一种有效方法,是语音处理领域的重要组成部分,广泛应用于语音识别和语音编码等数字语音系统中。
由于几乎不可能从带噪语音信号中提取纯净语音,语音增强主要是改善语音质量,消除背景噪声,提高清晰度和可懂度,使人乐于接受[1]。
针对加性宽带噪声研究,当前国内外语音增强的主要算法有频谱相减法、自相关法、谐波增强法、自适应噪声对消法、小波变换法、听觉掩蔽法、基于语音生成模型增强算法以及基于短时谱幅度估计算法,其中广泛使用的主要是谱减法及其变体。
谱减法简单,运算量小,实时性强,增强效果较好;缺点为仅从信噪比角度改善语音质量,另外引入了音乐噪声[2]。
小波分解法和听觉掩蔽法是人们研究的热点,听觉掩蔽法尚处于研究的初级阶段。
人耳能掩蔽语音信号中能量较小的噪声,使得部分噪声不为人们感知[3]。
结合人耳听觉掩蔽效应,笔者提出了改进型的谱减法,对语音增强算法中相关参数进行动态调整,有效抑制了音乐噪声,提高了语音质量。
语音端点检测将采集的语音信号分为纯噪声段和带噪语音段,判断各语音片段的起止点,是语音增强算法和语音编码的重要组成部分之一。
在语音识别过程中,正确确定语音段的起止端点,可减少计算量和语音识别误判率。
目前,普遍采用的语音端点检测方法,如利用频域短时能量检测方法,在低信噪比条件下,结果令人难以接受。
笔者提出的采用混沌振子模型有效解决了低信噪比环境下语音端点检测问题。
2 预备知识2.1混沌理论1963年,美国气象学家E.Lorenz在《大气科学》杂志上发文指出,在气候不能精确重演与长期天气预报无能为力之间存在一种必然联系,还认为一连串事件可能有一个临界点,在这一点上,小的变化可产生大的变化。
低信噪比下的语音端点检测算法研究
低信噪比下的语音端点检测算法研究随着语音信号处理技术的不断发展和广泛应用,低信噪比下的语音端点检测算法变得尤为重要。
在低信噪比环境中,语音信号通常被噪声所掩盖,导致难以准确地检测语音端点。
因此,研究提高低信噪比下的语音端点检测算法,具有极大的实用价值。
基于能量的方法是一种简单有效的低信噪比语音端点检测算法。
其基本思想是通过对语音信号能量进行分析来判断语音的开始和结束位置。
该方法的一种常见算法是短时能量法。
该方法首先对输入语音信号进行分帧处理,并计算每帧的短时能量值。
然后,通过设置一个合适的能量阈值,将能量超过阈值的帧判定为语音信号的开始和结束。
尽管短时能量法是一种简单有效的方法,但其在低信噪比环境中存在很多问题,如噪声波动引起的能量变化和静默段中的能量突变等。
基于模型的方法是另一种常见的低信噪比语音端点检测算法。
该方法采用语音信号的统计模型来描述语音的特征,然后根据模型参数的变化来判断语音的开始和结束位置。
该方法一般包括两个关键步骤:模型训练和端点检测。
模型训练一般需要使用已知的语音和非语音样本数据集,并采用不同的机器学习算法来训练模型。
常见的模型包括高斯混合模型(Gaussian Mixture Model,GMM)和隐马尔可夫模型(Hidden Markov Model,HMM)。
端点检测阶段则是利用训练好的模型对新的语音信号进行检测,并判断开始和结束位置。
除了上述两种主流方法,还有一些其他的方法被用于低信噪比语音端点检测。
例如,基于频域特征的方法可以通过对语音信号进行频谱分析,提取语音的频域特征,并通过设置合适的阈值进行检测。
此外,一些深度学习算法,如卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆网络(Long Short-Term Memory,LSTM),在低信噪比下也具备较好的语音端点检测性能。
总结起来,低信噪比下的语音端点检测算法是一个复杂而重要的问题。
一种改进的语音信号端点检测方法研究
一种改进的语音信号端点检测方法研究摘要:在语音识别系统中端点检测有误差会降低系统的识别率,进行有效准确的端点检测是语音识别的重要步骤。
当信噪比较低时,传统的端点检测方法不能有效的工作。
为了提高系统的识别率,本文提出了一种更有效的端点检测算法,基于LPC美尔倒谱特征的端点检测方法。
它是基于倒谱特征方法的一种改进。
实验证明,该算法在低信噪比的情况下,能够准确的检测出语音信号的端点。
通过对三种不同的端点检测算法的比较,证明了基于LPC美尔倒谱特征算法在低信噪比的情况下有较高的检测正确率。
关键词:端点检测;语音识别;Mel倒谱距离;LPC美尔倒谱系数引言语音端点检测是语音识别中一个重要的步骤,进行有效的端点检测能够对语音信号更好的进行分析和训练,这样语音识别才能有好的识别率。
所以进行有效的端点检测是语音信号处理中首先要解决的问题。
传统的端点检测算法口如利用过零率、短时能量和自相关参数,在高信噪比环境下可以获得较好的检测效果,但在低信噪比环境下其检测性能却急剧下降。
当语音信号包含有背景噪音时,从中检测出语音信号的起始点和终止点,可以减少数据的采集量,删除不含语音信号的背景噪声和无声段,从而降低特征提取的计算量和处理时间,提高语音识别的准确性。
因此噪声环境中准确的检测语音起止位置有利于提高语音系统性能。
当语音中含有噪音时,传统的端点检测方法显得有些无能为力。
针对这种情况,提出了基于LPC美尔倒谱特征的端点检测算法。
它是对倒谱特征算法的一种改进。
1 基于倒谱特征的端点检测方法在大多数的语音识别系统中,选用倒谱特征参数作为语音信号的特征参数能够提高语音识别系统的性能。
因此用倒谱系数作为端点检测的参数。
信号倒谱可以看成是信号能量谱密度函数s( )的对数的傅立叶级数展开。
定义如下:(3)式中:Cn 和Cn′分别为对应于谱密度函数S(w)和S′(w)的倒谱系数。
对数谱的均方距离可以表示两个信号谱的区别,故它可以作为一个判决参数。
噪声环境下语音信号端点检测算法的研究与改进
行 判 断, 确 地 找 出语 音 信 号 的 起 始点 和终 止 点 。 效 的 端 点 检 测 准 有 不 仅 可 以减 少 数 据 的 存 储 量 和 处 理 时 间 , 而且 能排 除无 声 段 的 噪
声干扰。
倒 谱 系 数 可用 来 估计 语 音 信号 的倒 谱 , 也 是 语 音 信 号 短 时 这
t p e h r c n t ro m a c .Th a rm a e ee r he nd i p o m e t o t rdiina g it ors e h sg l n oitdee — hes e c e og i on pef r n e i e p pe k sr s ac sa m r ve n t heta to l a or hm f pe c ina e dp n t c s l i t . a d he e p rm e ti iae a od dee t ror a e c r bti d i t o R . W ih t e de lpm e he s e h on n t xe e i n nd c tst tgo tc on pe h i f m nc albe o ane n hel w SN t h veo ntoft pe c rc gnton t c ol y ,t sago ih i ompii sfri gh e ce c s nc r i n c u a y i he a lc t e eo i i e h n og i l rt h m w l bec l cou t h o si f in y, y h onc a d a c rc n t ppia on us 、 i i源自中图分类号: P 7 T 3
文献标识码 : A
文章编号 :0 9 3 4 (0 7 1 - 1 8 - 2 1 0 - 0 42 0 ) 1 2 3 6 0
噪声环境下语音信号端点检测算法的研究与改进
得!
似基于能量的端点检测 $
! 实验结果
!" " 再将上式两边对 #$% 求导后 & 化简得 ! !’ " 令方程两边 #$% 各次幂的系数相等 & 则可以得 ()* 倒谱系数 +(),-. 与线性预测系数 !/,/0%&1&222&3.的关系 # 具体工作过程是 # 本文对提出的方法在计算机上进行了实验 & 用声卡采集各声音信号样本 & 端点检 测 过 程 基 于 9CB;CD 实 现 <4= $ 语音端点检测方法是在白噪声条件下进行测试% 语音信号经 5 @@@E# 采样和 %>D/BF 量化后 % 与不同电平的白噪声混合作为测试 样本 $ 所有测试试验中 % 在所有实验中 & 语音信号被分为 1’@ 采样 的帧 & 相邻帧有 4@ G 重叠 2 每帧采用 %1 阶 ()* 美尔倒谱系数 $ 仿 真实验使用 > 个人的语音作为实验数据 $ 每个 人 分 别 录 %1 段 语 音 % 选取其中 ’ 段语音作为训练数据 %5 段语音作为识别数据 $ 测 试结果如表 % 所示 $ 在下表中可以明显的看出当使用 ()* 美尔倒 谱特征参数时 % 在低信噪比下可以明显提高系统识别的准确率 $ 表 " 仿真实验的测试结果
!4 " 式 中 & 3 为 ()* 阶 数 & 一 般 305 !%1 时 & 能 较 好 地 表 征 声 道 特 性 & - 为 ()** 阶数 $ 12" 基于 ()* 美尔倒谱特征的检测算法 这种算法是对传统的倒谱特征检测算法的改进 % 其 运 算 过 程 为 # 首 先 将 经 过 678 转 换 & 采 样 后 的 语 音 信 号 经 适 当 的 数 字 滤 波 器分成高 & 低频带 1 个信号 % 频带间允许重叠 ’ 然后将滤波 形 成 的 1 个信号分别进行预处理 % 包括预加重 & 分帧 & 加窗 ’ 再进行特征参 数的提取 $ ()* 倒谱特征取合适的阶数可较 好 地 表 征 声 道 特 性 % 但 它 是 按实际频率尺度的倒谱系数 $ 可根据人耳听觉特性将上述的倒谱 系数进一步按符合人听觉特性的美尔 !9:; " 尺 度 进 行 非 线 性 变 换 % 从而求出 ()* 美尔倒谱系数 <’= $ 具体算法如下 ! !> " 式中 & *- 表示倒谱系数 &9*?,-. 表示美 尔 倒 谱 系 数 & - 为 迭 代 次数 & ? 为倒谱阶数 & 一般 -0? $ 迭代时 - 从无穷大递减至 @ 取值 $ 12’ 采用改进的判决门限 采用短时能量作门限时 % 当测试信号帧的短时 能 量 超 过 噪 声 能量门限并持续一段时间 & 则第一次超过能量门限的点被判定为 语音段的起点 ’ 而当测试信号帧的能量低于另一个噪声 能 量 门 限 并持续一定时间 % 就可测定语音段的终止点 $ 但在噪声环境下 & 短 时能量与其它特征参数都不能很好地区分语音段与非语音段 $ 采用倒谱距离作为门限时 % 假定前几帧信号是 背 景 噪 声 % 计 算这些帧的倒谱系数矢量 % 利用前几帧倒谱矢量的平均 值 可 估 计 背景噪声的倒谱矢量 % 计算所有测试帧与背景噪声之间 的 倒 谱 距 离可得到倒谱距离轨迹 $ 论文选用 9:; 倒谱距离作为判决门限 & 定义为下式 ! !A " 式 中 & ) 为 倒 谱 阶 数 & +B,/. 为 待 测 倒 谱 向 量 & * 为 参 考 样 本 的 倒谱向量 $ 将倒谱距离作为门限 & 判断语音起止点 & 其判断步骤类
低信噪比环境下改进的倒谱距离语音端点检测算法
低信噪比环境下改进的倒谱距离语音端点检测算法张涛;章小兵;朱明星【摘要】在强背景噪声的情况下,针对传统倒谱距离法端点检测难以判断语音段起止点的问题,提出了一种基于多窗谱估计的谱减法与改进的倒谱距离语音端点检测新方法.首先对每一帧带噪信号进行多窗谱估计得到平滑功率谱,提取前导无话段平均功率谱,再利用谱减法对带噪语音信号进行减噪处理,对语音的减噪是为了更好地进行下一步的端点检测,然后对传统的倒谱距离门限阈值进行改进,得到一种改进的自适应阈值,并结合倒谱距离法进行端点检测.通过仿真实验结果表明,与传统倒谱距离端点检测算法相比,本文方法提高了低信噪比语音端点检测的精度,具有良好的鲁棒性能.【期刊名称】《电声技术》【年(卷),期】2017(041)007【总页数】6页(P108-112,125)【关键词】端点检测;多窗谱估计谱减法;自适应门限阈值;倒谱距离;平滑功率谱【作者】张涛;章小兵;朱明星【作者单位】安徽工业大学电气与信息工程学院,安徽马鞍山243000;安徽工业大学电气与信息工程学院,安徽马鞍山243000;安徽工业大学电气与信息工程学院,安徽马鞍山243000【正文语种】中文【中图分类】TN912.35文献引用格式:张涛,章小兵,朱明星.低信噪比环境下改进的倒谱距离语音端点检测算法[J]. 电声技术,2017,41(7/8):108-112.ZHANG Tao, ZHANG Xiaobing, ZHU Mingxing.Speech endpoint detection with low SNR based on improved cepstrum distance method[J]. Audio engineering,2017,41(7/8):108-112.在语音信号预处理技术中,语音端点检测(Voice Activity Detection,VAD)广泛应用在通信系统,语音编码等领域。
低信噪比条件下的语音端点检测与增强
・
论文・
【 摘 要 】针 对 在 低 信 噪 比条 件 下 难 以实 现 语 音 端 点检 测 , 出 了基 于 混沌 理 论 的解 决 方 法 , 用 D fn 提 采 u g方 程 的 间 i
歇 混 沌 特 性 对 语 音 信号 进 行 检 测 , 时 对谱 减 法 作 了改进 , 据 人 耳 听 觉掩 蔽 效 应 的 语 音 增 强 算 法 , 同 根 动态 修 正 谱 减 系数, 有针 对 性 地 进 行 谱 减 , 有效 克服 了音 乐 噪 声 。 在信 噪 比 较低 的 情 况 下 , 照 该 方 案处 理 后 的语 音 不 仅 信 噪 比 按
te v ie e h n e n h oc n a c me t
a g rt l oihm pef r s s lci e pe ta u r ci n, a ec m e t n u i n ie e fc iey rom ee tv s cr ls bta to nd ov r o s he l sc o s fe tv l.Th e p rme tl e ut e x e i n a r s ls so h w t tt e r p s d l oihm i s p ro t t g ne a s e ta s bta to meh s, n o y n mp o e nt ha h p o o e ag rt s u e ir o he e r l p c rl u r ci n tod 9t nl i i r v me o NR nd e c in f e c pua dso i n fS a rdu to o p r e t l itr o s, bu a s i v i e lrt i elgbii t t lo n o c ca y, ntlii lt a c mfr. i y, nd o o t
低信噪比语音信号的经验模态分解与端点检测
DOI : 1 0 . 1 6 1 8 5 / j . j x a t u . e d u . c n . 2 0 1 7 . 0 7 . 0 0 6
低 信 噪 比语 音 信 号 的经 验 模 态 分解 与端 点检 测
吴 进 ,崔 旭
( 西安 邮电大学 电子工程学院 , 西安 7 1 0 1 2 1 )
Ab s t r a c t : I n o r d e r t o i mp r o v e t h e a c c u r a c y o f s p e e c h r e c o g n i t i o n a n d s y n t he s i s i n t he l O W S NR e n v i r o n me n t , t he e mpi r i c a l mo d e d e c o mp o s i t i o n a n d t h e s p e c t r a l s ub t r a c t i o n i mp r o v e d by mu l t i pl e wi n d o w s p e c t r u m e s t i ma t i o n a r e u s e d f o r s p e e c h s i gn a l r e c o n s t r u c t i o n .And t h e n t he T e a g e r e n e r g y o p e r a t o r a nd z e r o c r o s s i n g r a t e a r e u s e d t o
测算 法. 结果表 明 : 该 算 法在 白噪 声 、 粉 红噪 声和 B a b b l e 噪 声 背景 下的 端点检 测 正 确 率优 于基
一种改进的语音端点特征检测方法
m
~
( , z —m)
(s g n E] 为符 号 函数 。
表 1为 选 取 的 韵 母 及 声 母 的 各 种 类 型 , 包 括 塞
清辅 音 , 浊辅音和半元音 ; 韵母 3 4个 , 都为浊音 。 语音 信 号属 于典 型 的非平 稳信 号 , 但 声道 的变化 频 率 与声 音 的振动 频率 相 比要小 得 多 , 因此 语 音信 号
语 音 端点检 测 不仅 能有 效去 除无 声语 音 , 减 小 数 据
处理 , 而且 端 点检 测 的 准 确 度 直接 影 响识 别 率 , 实
验表明, 当端 点检测 的误差 在 ±6 0 ms 时, 识别 率 降
s 一
T[ ( ) ]・ ( 一 m)
( 1 )
其 中 TE l 表 示某 种 运 算 , z( m) 为输 入 信 号 序
一
种 改 进 的 语 音 端 点 特 征检 测 方 法
潘 丹 青
( 桂 林航 天 工 业 学 院 电 子 工 程 系, 广 西桂 林 5 4 1 0 0 4 )
摘 要
通过对普通话语音时域及频域 特征的分析 , 得 出一种 在较低信噪 比条件下能有效检测 出语音端 点的 自 适应 改
传 统 的 基 于 能 量 的域 值 法 , 是一种高效 、 适应较强背景噪声环境下端点检 测的有效方法 。
关 键 词 汉语 ; 普通话 ; 语音端点 ; 子带 ; 能量 中图 分类 号 : T N 9 1 2 . 3 文献标 志 码 : A 文章 编号 : 2 0 9 5 — 4 8 5 9 ( 2 0 1 4 ) 0 3 — 0 2 0 7 — 0 4
基于EMD和能零比的语音端点检测算法
• 28•语音端点检测是语音信号处理的一个重要环节。
在低信噪比的情况下,传统的能零比端点检测的方法正确率很低。
本文提出了基于EMD 和能零比的语音端点检测算法,它结合语音增强技术,利用EMD 分解特性,求出能零比参数,设置自适应检测阈值,实现了在低信噪比环境下的语音端点检测。
仿真实验结果表明该方法在低信噪比情况下能够提高检测的正确率和稳定性。
语音端点检测是语音信号处理中的一个非常重要的环节。
语音端点检测算法主要分为两大类:模型匹配端点检测和特征参数端点检测。
模型匹配端点检测如基于隐马尔科夫模型等,该类型检测算法过程复杂,运算量大,因此应用与发展受到了限制。
特征参数端点检测主要是根据语音信号的时域特征和频域特征,该算法简单,运算量小,但在低信噪比的情况下检测误判率高。
美籍华人N.E.H u a n g 在1998年提出了经验模态分解方法(Empirical Mode Decomposition ,EMD)。
该算法能够很好的适应于语音这种常见的非线性非平稳信号。
本文提出了基于EMD 和能零比的语音端点检测算法。
研究表明,该方法在低信噪比情况下能够提高语音端点检测的正确率和稳定性。
1 基于EMD和能零比的语音端点检测算法基于EMD 和能零比的语音端点检测算法,首先对含有白噪声的语音数据进行语音增强,这里采用谱减法进行语音增强。
再将增强后的语音进行EMD 分解,由于含白噪声的语音信号的能量主要分布在第2-5层IMF 中,因此重构语音信号选择第2-5个IMF 分量。
对于重构后的语音信号进行分帧,求出每帧的过零率,同时对每帧再次EMD 分解,求出各阶IMF 的Teager 能量,并将各阶能量求和,构成特征参数能零比,最后自适应门限求解、判决。
1.1 语音增强当信噪比下降时,噪声的能量变大,使得语音端点检测正确率下降。
为了能有效检测较低信噪比的语音信号的端点,应用语音增强技术来提高语音的信噪比,改进语音质量。
一种改进的含噪语音端点检测方法
一种改进的含噪语音端点检测方法汪鲁才;曹鹏霞;姜小龙【摘要】Speech endpoint detection is one of the important links of speech recognition system. In view of the question that the speech endpoint detection is difficult in noisy environment, this paper proposes a kind of speech endpoint detec-tion method based on improved Support Vector Machine(SVM). First, it extracts the feature vector of the noisy speech signal using the Wavelet Analysis(WA). Then, it gets the optimal parameters of the SVM kernel function γ and penalty factor C using the Genetic Algorithm(GA). Finally, it establishes speech endpoint detection model. Carried out the simu-lation experiments in the Matlab software platform, the results show that the average detection rate of GA-SVM is 94.5%under the condition of different noise. It is superior to the traditional double threshold algorithm and ordinary SVM algorithm.%语音端点检测是语音识别系统的重要环节之一。
基于SVD-HHT的低信噪环境语音信号端点检测
基于SVD-HHT的低信噪环境语音信号端点检测
王建元;陈鹏;栾德福
【期刊名称】《制造业自动化》
【年(卷),期】2014(36)1
【摘要】为了提高嘈杂、低信噪比环境中对语音信号的识别准确度,更加完善的语音信号端点检测尤为重要。
本文提出了一种基于SVD-HHT的低信噪比环境语音信号端点检测算法,即将奇异值分解(SVD)算法与希尔伯特黄变化(HHT)算法相结合,用于语音信号端点检测。
为验证该方法的准确性,本文在不同信噪比环境下,对相同的几组语音信号进行端点检测,并以基于小波变换降噪法语音信号端点检测作为比较对象,得出两种算法相应的检测准确率。
通过实验比较与分析,本文提出的SVD-HHT端点检测算法其准确率高于小波法语音信号端点检测率,具有一定的实用意义。
【总页数】5页(P57-61)
【作者】王建元;陈鹏;栾德福
【作者单位】东北电力大学,吉林132000;东北电力大学,吉林132000;东北电力大学,吉林132000
【正文语种】中文
【中图分类】TP274+.2
【相关文献】
1.低信噪比语音信号的经验模态分解与端点检测 [J], 吴进;崔旭
2.一种基于多特征的带噪语音信号端点检测与音节分割算法 [J], 卢艳玲;侯榆青;王宾;唐升;史燕
3.一种带噪语音信号端点检测方法研究 [J], 李玉萍;朴春俊;韩永成
4.含噪语音信号端点检测 [J], 罗海涛
5.噪声环境中基于HMM模型的语音信号端点检测方法 [J], 朱杰;韦晓东
因版权原因,仅展示原文概要,查看原文内容请购买。
低信噪比环境下语音增强与激活检测算法研究的开题报告
低信噪比环境下语音增强与激活检测算法研究的开题报告一、背景随着科技的不断发展,语音技术也逐渐走进人们的日常生活中。
但在现实应用场景中,语音信号常常受到环境噪声等影响,导致语音质量下降、信号不清晰,影响人们的语音交流效果。
因此,如何对低信噪比环境下的语音进行增强,提高语音质量,是当前语音技术研究中的一个重要问题。
另外,对于语音信号的激活检测也是语音技术研究中的一大难点。
在多人交流、多噪声环境中,如何准确检测出每个说话者的语音信号,进行后续语音处理是提高语音识别率和交流效果的重要环节。
因此,本文旨在探索在低信噪比环境下语音增强与激活检测算法的研究。
二、研究内容本文主要研究内容包括以下两方面:1. 低信噪比环境下语音增强算法的研究在低信噪比环境下,常常存在噪声干扰的情况,导致语音信号质量下降。
因此,本文将探索通过对语音信号进行去噪处理,提高语音质量的方法。
具体的,本文将采用基于小波变换的去噪算法,利用小波分析器多分辨率分析语音信号,从中提取语音信号的特征,去除噪声信号。
同时,为了更好地处理语音信号在时间和频率上的特征,本文将采用卷积神经网络(CNN)对语音特征进行处理,提高语音信号的还原质量。
2. 低信噪比环境下语音激活检测算法的研究在多人交流的情境中,如何快速准确地检测出每个说话者的语音信号,是提高语音识别率和交流效果的重要环节。
因此,本文将探索基于音频信号的声源分离和激活检测算法,通过对语音信号进行特征提取和分类,准确分离出各个说话者的语音信号。
具体的,本文将采用基于多通道约束条件的盲源分离算法,利用空间信息和时间信息分离出各个说话者的音频信号。
同时,本文还将采用深度学习方法对分离出的语音信号进行分类,提高激活检测的准确性。
三、研究计划本文的研究计划主要包括以下几个方面:1. 文献综述:对语音增强和激活检测相关的研究文献进行综述,了解当前研究热点和难点问题。
2. 语音增强算法的设计和实现:对低信噪比的语音信号进行去噪处理,设计并实现基于小波变换和卷积神经网络的语音增强算法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
低信噪比环境下改进的语音端点检测算法董胡【摘要】Endpoint detection has a very important role in speech recognition,its accuracy will directly affect the accuracy of speech recog-nition system. In order to improve the accuracy of speech endpoint detection under low SNR environment,an endpoint detection algorithm based on spectral subtraction of multitaper spectrum estimation and spectral entropy is proposed. Firstly,it uses improved spectral subtrac-tion of multitaper spectrum estimation to denoise speech signal in order to improve signal to noise ratio,and then it utilizes energy-entro-py-ratio algorithm to make endpoint detection for speech signal denoised. Simulation experiment results show that compared with com-mon endpoint detection algorithm,this algorithm has good endpoint detection accuracy and certain robustness in low SNR environment. It proves the effectiveness of the proposed algorithm.%端点检测在语音识别中具有非常重要的作用,其准确性将直接影响语音识别系统的正确率。
为了提高低信噪比环境下语音端点检测的正确率,提出了一种基于多窗谱估计的改进谱减法和能量谱熵的端点检测算法。
该算法首先利用多窗谱估计改进谱减法对含噪语音进行去噪以提高语音信号信噪比,接着对去噪后的语音信号使用新的能量谱熵算法进行端点检测。
仿真实验结果表明,同常见端点检测算法相比较,该算法在低信噪比环境下具有较好的端点检测正确率且有一定的鲁棒性,证明了该算法的有效性。
【期刊名称】《计算机技术与发展》【年(卷),期】2016(026)003【总页数】4页(P71-74)【关键词】多窗谱估计;改进谱减法;谱熵;语音增强;端点检测【作者】董胡【作者单位】长沙师范学院电子与信息工程系,湖南长沙 410100【正文语种】中文【中图分类】TN912.35语音端点检测是信号处理的一个重要方面[1]。
特征参数的提取是一些常见的端点检测方法所普遍重视的方面,却往往忽略了之前的语音增强工作,这将会对端点检测的准确度产生影响[2-5]。
相对于短时能量特征,文献[6]提出了对数能量特征。
它较好地解决了小幅度的辅音和静音混淆问题,更不会出现短时能量中噪声段特征值过大的情况,能较好地区别语音、噪声和静音。
然而,在非平稳含噪环境下,能量较难区分语音与背景噪声,而谱熵可克服能量这一缺点[7-8]。
但是,在嘈杂噪声和音乐噪声之下,谱熵变得不稳定,而能量却可抑制该不足之处。
根据能量的加性性质,语音与噪声的能量之和大于噪声能量。
基于上述考虑,文中提出了多窗谱估计[9-10]改进谱减和能量谱熵相结合的语音端点检测算法。
首先,通过多窗谱估计改进谱减法对含噪语音信号进行谱减增强;接着,使用新的能量谱熵算法进行端点检测。
仿真结果表明,在低信噪比环境下,文中提出的新算法与文献[11]提出的改进语音端点检测法相比,有更好的端点检测效果及鲁棒性。
针对同一数据序列,周期图法仅用单个数据窗,而多窗谱用多个正交的数据窗依次求直接谱,接着求平均以得到谱估计,从而能得到较小的估计方差[12]。
多窗谱与周期图相比是一种更准确的谱估计方法。
多窗谱定义为:式中:L为数据窗个数;Smt为第k个数据窗的谱。
式中:x(n)为数据序列;N为序列长度;ak(n)为第k个数据窗,满足多个数据窗互相正交。
数据窗也叫Slepian窗。
Riedal和Siderenko提出下面的正弦窗:ak(m), N-1正弦窗产生的局部偏差比Slepian窗更小,但却具有大致一样的频谱集中度。
利用Matlab软件对多窗谱估计函数和周期图跟真实谱的差异进行对比。
其中,周期图使用Hamming窗,真实谱采用AR模型来估计。
对比实验采用两个正弦信号叠加:x(n)=cos(2π×50n)+3cos(2π×200n)周期图与多窗谱谱估计性能对比见图1。
从图1可知,周期图法的方差性能要劣于多窗谱法。
所以,采用多窗谱进行功率谱估计来实现语音增强,能更好地降低音乐噪声。
利用Matlab的信号处理工具箱中的多窗谱功率谱估算函数pmtm,可估算多窗谱的功率谱密度,进而获得谱减法中的增益因子,实现谱减语音增强运算[13]。
具体步骤如下:(1)令x(n)为带噪语音,xi(n)为加窗分帧后信号,邻帧之间有重叠。
(2)对分帧后的信号进行FFT,分别求其幅度谱|Xi(k)|和相位谱θi(k),在相邻帧之间做平滑处理,计算平均幅度谱i(k)|:以i帧为中心前后各取M帧,共有2M+1帧进行平均。
实际中取M为1,即在3帧中进行平均。
(3)对分帧后的信号xi(m)进行多窗谱估计,可得多窗谱功率谱密度P(k,i)(i表示第i 帧,k表示第k条谱线):P(k,i)=PMTM[xi(m)]式中,PMTM表示进行多窗谱功率谱密度估计。
(4)对多窗谱功率谱密度估计值也进行相邻帧间平滑处理,计算平滑功率谱密度Py(k,i):以i帧为中心前后各取M帧,共有2M+1帧进行平均。
实际中取M为1,即在3帧中进行平均。
(5)已知前导无话段(噪声)占有NIS帧,可以计算出噪声的平均功率谱密度值Pn(k):(6)利用谱减关系。
g(k,i)=式中:α为过减因子;β为增益补偿因子。
选择恰当的α值能有效消除音乐噪声,但α值过大则会引起语音失真。
(7)由平均幅度谱(k)|与增益因子g(k,i),可得谱减后的幅度谱:将幅度谱i(k)|与相位谱θi(k)进行IFFT,将频域i(k)|还原至时域,即得增强后的信号多窗谱估计的改进谱减算法见图2。
3.1 对数能量对第i帧语音信号,文献[14]提出一种对数能量特征,计算表达式如下:LE(i) =lg(E(i)+a)-lga式中为第i帧信号的短时线性能量;a为某常数。
文献[14]实验表明,当a=5×105时,取得了较好的端点检测性能。
3.2 谱熵令x(n)为含噪的时域信号,加窗分帧之后得到第i帧信号xi(m),通过FFT变换,得到第k条谱线频率分量fk的能量谱Yi(k)。
定义每个信号频率分量的归一化谱概率密度函数为[15]:式中:pi(k)为第i帧中第k个频率分量fk的概率密度;N为FFT长度。
语音帧的谱熵定义为[15]:3.3 能量谱熵特征计算首先,将含噪语音信号通过多窗谱估计的改进谱减法进行降噪处理;接着,对降噪后的信号进行分帧与加窗,再分别计算对数能量与谱熵;最后,将对数能量与谱熵作除法运算,其结果记为B(i)。
具体计算表达式定义如下:最终能量谱熵特征计算公式定义如下:低信噪比环境下可利用谱熵进行端点检测,而语音信号能量大小的变化则可通过对数能量反映。
在无噪声情况下,噪音帧和语音帧的对数能量区别非常明显,因此将两者相除,形成了新的特征参数——能量谱熵。
结合两种算法自身一定的抗噪能力,将二者结合起来,在低信噪比环境下的检测能力也有了一定程度的提高,鲁棒性得到增强。
实验语音样本使用TIMIT语音库中450条连续语音,16 kHz采样频率,16 bit量化,单声道wav格式。
加噪数据使用NOISEX 92标准噪声库,分别添加white、pink、volvo噪声至纯净语音样本中,分别形成-5dB、0dB、5dB和10dB的含噪语信号1 500条。
含噪语音信号经多窗谱估计改进谱减法增强之后,接着采用能量谱熵法进行端点检测。
为了检验文中提出的端点检测算法的效果,分别在white、pink及volvo噪声环境下,将其和文献[11]提出的端点检测法作比较,具体见图3~5。
从图3、图5及表1可知,文中提出的能量谱熵算法和文献[11]提出的端点检测算法均可在低信噪比环境下检测出语音的起止端点,但文献[11]提出的端点检测算法的端点检测正确率却低于文中提出的能量谱熵端点检测法。
从图4可知,文献[11]提出的端点检测算法能检测出语音端点位置但存在漏检,而文中提出的能量谱熵算法却不存在。
说明能量谱熵算法有更好的端点检测特性,在低信噪比环境下有更高的端点检测正确率。
端点检测正确率定义如下:错误帧数=语音误判为噪声的帧数+噪声误判为语音的帧数正确率=(总帧数-错误帧数)/总帧数文中提出了一种低信噪比环境下的语音端点检测算法。
该算法通过对含噪语音信号先用多窗谱估计改进谱减法进行增强,提高了语音信号的信噪比,接着采用能量谱熵算法进行端点检测。
仿真实验结果表明,该算法在低信噪比环境下能较好地实现语音端点检测,具有良好的抗噪性能,鲁棒性较强,适于实际端点检测应用,从而证明该算法是一种较有效的低信噪比端点检测算法。
但是,由于实际背景噪声变化性大,如何进一步改善算法,使其适应更复杂的低信噪比环境将是今后研究工作的重点。
【相关文献】[1] 董胡.倒谱距离和短时能量的语音端点检测方法研究[J].计算机技术与发展,2014,24(7):77-79.[2] Rabiner L R,Sambur M R.An algorithm for determining the endpoints of isolated utterances[J].Bell System Technical Journal,1975,54(2):297-315.[3] 武薇,范影乐,庞全.基于广义维数距离的语音端点检测方法[J].电子与信息学报,2007,29(2):465-468.[4] 闫润强,朱贻盛.基于信号递归度分析的语音端点检测方法[J].通信学报,2007,28(1):35-39.[5] Jia Chuan,Xu Bo.An improved entropy-based endpoint detectionalgorithm[C]//Proceedings of ISCSLP.Taiwan,China:[s.n.],2002:96-99.[6] 肖述才,王作英.端点检测中的一种新的对数能量特征[J].电声技术,2004(6):37-41.[7] Huang L S,Yang C H.A novel approach to robust speech endpoint detection in car environments[C]//Proc of IEEE international conference on acoustics,speech and signal processing proceedings.Istanbul,Turkey:IEEE,2000:1751-1754.[8] 李荣荣,胡昌奎,余娟.基于谱熵的语音端点检测算法改进研究[J].武汉理工大学学报,2013,35(7):134-139.[9] 武鹏鹏,赵刚,邹明.基于多窗谱估计的改进谱减法[J].现代电子技术,2008,31(12):150-152.[10] 彭军,王忠,刘兴涛,等.基于多窗谱相关加权语音增强[J].计算机仿真,2011,28(3):142-145.[11] 鲁远耀,周妮,肖珂,等.强噪声环境下改进的语音端点检测算法[J].计算机应用,2014,34(5):1386-1390.[12] Thomson D J.Spectrum estimation and harmonic analysis[J].Proc ofIEEE,1982,70(9):1055-1096.[13] Hu Yi,Loizou P C.Incorporating a psycho acoustical model in frequency domain speech enhancement[J].IEEE Signal Processing Letters,2004,11(2):270-273.[14] 王民,孙广,沈利荣,等.基于对数能量倒谱特征的端点检测算法[J].计算机工程与应用,2014,50(16):198-201.[15] Zhao H,Zhao L X,Zhao K,et al.Voice activity detection based on distance entropy in noisy environment[C]//Proc of 5th international joint conference on INC,IMS,and IDC.Seoul,Korea:IEEE Computer Society,2009:1364-1367.。