基于MFCC倒谱距离的语音端点检测方法
基于自适应倒谱距离的强噪声语音端点检测
s i mu l a t i o n r e s u l t s s h o w t h a t , u n d e r d i f f e r e n t b a c k g r o u n d n o i s e a d n d i f f e r e n t S NR , t h e me t h o d f o r v o i c e a c t i v i t y d e t e c t i o n h a s hi g h d e t e c t i o n a c c u r a c y .I t s d e t e c t i o n i s b e t t e r t h a n t h e t r a d i t i o n a 1 e n d p o i n t d e t e c t i o n me t h o d, a n d i s s u i t a b l e f o r
摘 要 在有噪声 干扰 的情 况下 , 传统 的语音 端点检 测方法的检 测准确度 明显下 降。为 了在强 背景噪 声环境 下有效
区分 出语音信号和非语音信 号, 针对倒谱距 离端点检测 方法进行 了研 究 , 提 出了一种基 于 自适应倒谱 距 离的强噪声语
音 端 点 检 测 方 法 。本 方 法 引入 倒 谱 距 离乘数 和 门限 增 量 系数 , 针 对 不 同信 噪 比采 用 不 同的 倒 谱 距 离乘 数 , 并 采 用 自适
matlab仿真实验结果显示在不同背景噪声和不同信噪比下本方法对于语音端点检测具有较高的检测正确率其端点检测效果明显优于传统端点检测方法适用于强背景噪声下的端点检倒谱距离自适应判决门限强噪声端点检测中图法分类号tp3016文献标识码adoi1011896adaptivecepstraldistancebasedvoiceendpointdetectionofstrongnoisezhaoxinyanwanglianhongpenglinzheaccuracyofspeechendpointdetectionusingthetraditionalmethoddramaticallydeclinesinordertoeffectivelydistinguishthespeechsignalandnonvoicesignalinstrongbackgroundnoiseenvironmentthispaperpresentedastrongnoisespeechendpointdetectionmethodbasedonadaptivecepstraldistancethemethodintroducescepstraldistancemultiplierandthethresholdincrementcoefficientdifferentcepstraldistancemultipliersareusedfordifferentsnrandadaptivedecisionthresholdmethodisusedforvoiceactivitydetectionmatlabsimulationresultsshowthatthemethodforvoiceactivitydetectionhashighdetectionaccuracyitsdetectionisbetterthanthetraditionalendpointdetectionmethodandissuitableforendpointdetectionunderstrongbackgroundnoisekeywordscepstraldistance引言语音端点检测的实质是利用语音与噪声对于相同参数的不同特征表现来对它们进行区分
基于MFCC的语音评分方法研究
性 ,具 有 较 强 的 实 用 性 。
关 键 词 : 语 音 评 分 ;特 征提 取 ; 动态 时 间 规整 法 ;梅 尔 频 率 倒 谱 系数
语音评分的一个重要 模块就 是特征提取 ,目前语
音 识 别系 统 常用 的特 征 有线 性 预 测系 数 (P ) P 倒 L C 、L C
谱系数 ( P C 、线谱对参数 ( S ) L C) L P 、短时频谱 、共振
峰 频 率 、M l e 频率 倒 谱 系数 (F C 等 。文 献 [] 比 了 M C) 6对 语 音 识 别 中常 用 的 特 征参 数 ( 括 带 通 滤 波 器 组 的频 包
收稿 日期 :2 1— 3 1 0 0 0— 8 作者 简介 :王 娜 ,硕 士 ,讲 师线性预测倒谱系数和M 频 e 1
率 倒 谱 系数 M C )及 其 失 真测 度 ,得 出M C 的鲁 棒 性 FC FC
。
中国 装 现代 备
最好 的结 论 。
21 第1 总 0 ) 0 年 5 第1 期 0 期( 3
中国 装备 现代
基于M C 的语音评分方法研究 FC
王 娜
福建 师范大学福清分校
福建福清
3 0 0 530
摘 要:针对 目前语言 学习中普遍存在 的发音 问题 ,提 出了一种基于M C 的语音评分方法 ,通过对测试语言和标准语音进 FC
方 法 ,该 方 法 除 了可 以对 词 和 句 子 进 行 打 分 , 还 可 以
模块、模式 比对模块和 自动评分模块 。
基于倒谱特征的带噪语音端点检测
,
图*
带噪语音倒谱距离轨迹与短时能量曲线的比较
( .) 原始语音波形; ( /) 加入白噪声后的带噪语音波形图; ( () 带 噪语音归一化倒谱距离轨迹图; ( )) 带噪语音归一化短时能量曲 线
, , ( (% ’ (* % ) )* 6’7 % 48!4,9 ( (+ ’ (* +) $ ,!
!"#$%&"’ ()’)*’&%" %+ ,%&-. /$))*0 12-)# %" 3)$-’456
%1 23456/738, 9:; <84=/>=56
( !"#$%&’"(& )* +,"-&%)(.- +(/.(""%.(/ , 01$(/1$. 2.$)&)(/ 3(.4"%5.&6 , 01$(/1$. !"""#", 71.($ )
量门限并持续一段时间, 则第一次超过能量门限的点被判定 为语音段的起点 8 而当测试信号帧的能量低于另一个噪声能 量门限并持续一定时间, 就可测定语音段的终止点 8 噪声能量 门限的估计对这种方法的性能影响很大 8 在低噪声环境下, 如 H(I 大于 !">Q 时, 这种方法具有很 好的性能 $ 然而, 实际的语音识别系统常应用于不同的环境 $ 例如, 在汽车中 H(I 通常只有几个 >Q$ 在低 H(I 环境下, 由于 难以确定适当的门限值, 基于能量的端点检测不能很好地工 作, 这种方法也会舍弃一些低能量的清音语音 (摩擦音, 如9 , 而且, 难以处理非平衡噪声 8 在有些算法中, 一些其它 DR, R BR)
基于倒谱的大学生语音识别算法研究
兰州理工大学毕业论文LANZHOU UNIVERSITY OF TECHNOLOGY毕业论文题目:基于倒谱的大学生语音识别算法研究College Students' Speech Recognition Algorithm based on Cepstrum摘要语音是人类最重要的交流工具,随着电子计算机和人工智能机器的广泛应用,人们发现人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现形式。
要使机器听的懂人话,就要对语音信号进行处理。
随着信息技术的不断发展,尤其是网络技术的日益普及和完善,语音信号处理技术正发挥着越来越重要的作用。
为了寻找良好性能的特征、提取重要参数以提高识别系统性能,各种科学的算法应运而生。
语音识别的关键技术是提取出语音特征,语音特征有很多,倒谱分析就是其中之一。
倒谱法作为信号处理的重要的方法,能够得到比较好的识别性能。
本文主要介绍了语音识别技术。
基本实现思想是将输入的随机语音信号通过线性变换系统处理为加性信号,用基于Mel 频率的倒谱系数(MFCC)以及一些语音信号的固有特征进行倒谱分析。
接下来通过对语音倒谱在各个方面的应用进行MATLAB编程仿真,得到语音基音检测和共振峰检测的实验仿真结果。
关键词:倒谱;语音识别;共振峰检测;基音检测;AbstractV oice is one of the most important human communication tools. With the widely application of electronic computers and artificially intellective machine, it was discovered that language communication is the best way to communicate between man and machine and the voice was the reflection of the language. If we wanted us understood by the machines, it is necessary to deal with the signal. With the continuous development of IT, especially the popularity of network and perfect system, voice signal processing technology plays an increasingly important role. In order to find a good performance characteristics and extract important parameters to improve the performance of the recognition system, a variety of scientific algorithms have been emerged.The key technology of voice recognition is extracting voice features. While there are many voice features, cep-strum analyses is one of them. The cep-strum, as one of the important signal processing methods, can get better recognition performance. This paper mainly introduce the voice recognition technology. The basic idea is to casually input voice signal and transform the signal by using additive signal to linear transformation, and use the methods based on Mel(MFCC) frequency as well as some of the speech signal to cep-strum analyze. And then by the usage of the voice spectrum of applications in all aspects programs MATLAB simulation, it can get the simulation results of detect voice pitch and formant detection.Keywords: Cepstrum;Voice recognition;Resonance peak detection;Pitch detection;目录第1章绪论 (3)1.1研究背景及意义 (1)1.2语音信号研究现状 (1)1.3主要研究内容 (3)第2章语音识别技术基本理论.................................. 错误!未定义书签。
基于倒谱距离的语音端点检测改进算法.
n (i-n (i akz)ckz) -1PO n (i- ⑵ dkz) k=1k=1n (i-式中ak 、bk 、ck 和dk 的模都小于1,m1和mO 分别表示单位圆内和外的零点数 目,p1和pO 分别表示单位圆内和外的极点数目。
对logS(z)取逆Z 变换得到倒谱系数的另一种表达式为 an Pl++ k=1npOk=1cn n>0-n⑶-nk=1niog|A|mic( n)--k=1m0 n=0cN2-1(14)PN=PN+p ncN1cN2同样的,当检测到语音起始点时(当前帧可能是语音段),计数量cS1(初始值为0)开始计数,每读取一帧信号cS1加1直到饱和值10。
若在cS1计到饱和值前检测到语音终止点(当前帧可能是背景噪声段),则cS1置0,由于该起始点和终止点之间持续期小于10帧所以不认为是语音段,不对PS+N进行更新;若cS1计到饱和值,则计数量cS2(初始值为10)开始计数,每读取一帧信号cS2加1,直到饱和值110(与变量CN2不同的是cS2 不需要重新初始化),然后利用计数量cS2对PS+N进行更新。
cS2-1(15)PS+N=PS+N+p ncS1cS22)由短时SNR确定判决门限。
用估计的短时SNR确定语音起点和终点判决门限1.41.210.8 • 0.6 *0.40.2-0. 2 ~1~1~*■_*_I~1-10 -5 0 5 10 15 20 25SNR/d1、Ts2和终点判决门限Tn1、Tn1为Tsi=dcepsil+ △ Tsi i=1,2 (16) ;Tni=dcepsil+ △ Tni i=1,2式中,dcepsil为噪声倒谱距离估值,△ Ts和△ Tni为门限增量,其值与SNR有关,如图1所示。
(17)(a)语音起点判决门限增量图(b)语音终点判决门限增量图图1门限增量与SNR关系曲线图62空军工程大学学报(自然科学版)2006年2仿真试验结果分析实验室条件下录制200条相对纯净语音,男女各100条,4男3女朗读,采样频率8kHz、6bit量化,长度3〜10s。
梅尔频率倒谱系数(mfcc)及Python实现
梅尔频率倒谱系数(mfcc)及Python实现语⾳识别系统的第⼀步是进⾏特征提取,mfcc是描述短时功率谱包络的⼀种特征,在语⾳识别系统中被⼴泛应⽤。
⼀、mel滤波器每⼀段语⾳信号被分为多帧,每帧信号都对应⼀个频谱(通过FFT变换实现),频谱表⽰频率与信号能量之间的关系。
mel滤波器是指多个带通滤波器,在mel频率中带通滤波器的通带是等宽的,但在赫兹(Hertz)频谱内mel滤波器在低频处较密集切通带较窄,⾼频处较稀疏且通带较宽,旨在通过在较低频率处更具辨别性并且在较⾼频率处较少辨别性来模拟⾮线性⼈类⽿朵对声⾳的感知。
赫兹频率和梅尔频率之间的关系为:假设在梅尔频谱内,有M 个带通滤波器Hm (k),0≤m<M,每个带通滤波器的中⼼频率为F(m) F(m)F(m)每个带通滤波器的传递函数为:下图为赫兹频率内的mel滤波器,带通滤波器个数为24:⼆、mfcc特征MFCC系数提取步骤:(1)语⾳信号分帧处理(2)每⼀帧傅⾥叶变换---->功率谱(3)将短时功率谱通过mel滤波器(4)滤波器组系数取对数(5)将滤波器组系数的对数进⾏离散余弦变换(DCT)(6)⼀般将第2到底13个倒谱系数保留作为短时语⾳信号的特征Python实现import waveimport numpy as npimport mathimport matplotlib.pyplot as pltfrom scipy.fftpack import dctdef read(data_path):'''读取语⾳信号'''wavepath = data_pathf = wave.open(wavepath,'rb')params = f.getparams()nchannels,sampwidth,framerate,nframes = params[:4] #声道数、量化位数、采样频率、采样点数str_data = f.readframes(nframes) #读取⾳频,字符串格式f.close()wavedata = np.fromstring(str_data,dtype = np.short) #将字符串转化为浮点型数据wavedata = wavedata * 1.0 / (max(abs(wavedata))) #wave幅值归⼀化return wavedata,nframes,frameratedef enframe(data,win,inc):'''对语⾳数据进⾏分帧处理input:data(⼀维array):语⾳信号wlen(int):滑动窗长inc(int):窗⼝每次移动的长度output:f(⼆维array)每次滑动窗内的数据组成的⼆维array'''nx = len(data) #语⾳信号的长度try:nwin = len(win)except Exception as err:nwin = 1if nwin == 1:wlen = winelse:wlen = nwinnf = int(np.fix((nx - wlen) / inc) + 1) #窗⼝移动的次数f = np.zeros((nf,wlen)) #初始化⼆维数组indf = [inc * j for j in range(nf)]indf = (np.mat(indf)).Tinds = np.mat(range(wlen))indf_tile = np.tile(indf,wlen)inds_tile = np.tile(inds,(nf,1))mix_tile = indf_tile + inds_tilef = np.zeros((nf,wlen))for i in range(nf):for j in range(wlen):f[i,j] = data[mix_tile[i,j]]return fdef point_check(wavedata,win,inc):'''语⾳信号端点检测input:wavedata(⼀维array):原始语⾳信号output:StartPoint(int):起始端点EndPoint(int):终⽌端点'''#1.计算短时过零率FrameTemp1 = enframe(wavedata[0:-1],win,inc)FrameTemp2 = enframe(wavedata[1:],win,inc)signs = np.sign(np.multiply(FrameTemp1,FrameTemp2)) # 计算每⼀位与其相邻的数据是否异号,异号则过零 signs = list(map(lambda x:[[i,0] [i>0] for i in x],signs))signs = list(map(lambda x:[[i,1] [i<0] for i in x], signs))diffs = np.sign(abs(FrameTemp1 - FrameTemp2)-0.01)diffs = list(map(lambda x:[[i,0] [i<0] for i in x], diffs))zcr = list((np.multiply(signs, diffs)).sum(axis = 1))#2.计算短时能量amp = list((abs(enframe(wavedata,win,inc))).sum(axis = 1))# # 设置门限# print('设置门限')ZcrLow = max([round(np.mean(zcr)*0.1),3])#过零率低门限ZcrHigh = max([round(max(zcr)*0.1),5])#过零率⾼门限AmpLow = min([min(amp)*10,np.mean(amp)*0.2,max(amp)*0.1])#能量低门限AmpHigh = max([min(amp)*10,np.mean(amp)*0.2,max(amp)*0.1])#能量⾼门限# 端点检测MaxSilence = 8 #最长语⾳间隙时间MinAudio = 16 #最短语⾳时间Status = 0 #状态0:静⾳段,1:过渡段,2:语⾳段,3:结束段HoldTime = 0 #语⾳持续时间SilenceTime = 0 #语⾳间隙时间print('开始端点检测')StartPoint = 0for n in range(len(zcr)):if Status ==0 or Status == 1:if amp[n] > AmpHigh or zcr[n] > ZcrHigh:StartPoint = n - HoldTimeStatus = 2HoldTime = HoldTime + 1SilenceTime = 0elif amp[n] > AmpLow or zcr[n] > ZcrLow:Status = 1HoldTime = HoldTime + 1else:Status = 0HoldTime = 0elif Status == 2:if amp[n] > AmpLow or zcr[n] > ZcrLow:HoldTime = HoldTime + 1else:SilenceTime = SilenceTime + 1if SilenceTime < MaxSilence:HoldTime = HoldTime + 1elif (HoldTime - SilenceTime) < MinAudio:Status = 0HoldTime = 0SilenceTime = 0else:Status = 3elif Status == 3:breakif Status == 3:breakHoldTime = HoldTime - SilenceTimeEndPoint = StartPoint + HoldTimereturn FrameTemp1[StartPoint:EndPoint]def mfcc(FrameK,framerate,win):'''提取mfcc参数input:FrameK(⼆维array):⼆维分帧语⾳信号framerate:语⾳采样频率win:分帧窗长(FFT点数)output:'''#mel滤波器mel_bank,w2 = mel_filter(24,win,framerate,0,0.5)FrameK = FrameK.T#计算功率谱S = abs(np.fft.fft(FrameK,axis = 0)) ** 2#将功率谱通过滤波器P = np.dot(mel_bank,S[0:w2,:])#取对数logP = np.log(P)#计算DCT系数# rDCT = 12# cDCT = 24# dctcoef = []# for i in range(1,rDCT+1):# tmp = [np.cos((2*j+1)*i*math.pi*1.0/(2.0*cDCT)) for j in range(cDCT)] # dctcoef.append(tmp)# #取对数后做余弦变换# D = np.dot(dctcoef,logP)num_ceps = 12D = dct(logP,type = 2,axis = 0,norm = 'ortho')[1:(num_ceps+1),:]return S,mel_bank,P,logP,Ddef mel_filter(M,N,fs,l,h):'''mel滤波器input:M(int):滤波器个数N(int):FFT点数fs(int):采样频率l(float):低频系数h(float):⾼频系数output:melbank(⼆维array):mel滤波器'''fl = fs * l #滤波器范围的最低频率fh = fs * h #滤波器范围的最⾼频率bl = 1125 * np.log(1 + fl / 700) #将频率转换为mel频率bh = 1125 * np.log(1 + fh /700)B = bh - bl #频带宽度y = np.linspace(0,B,M+2) #将mel刻度等间距print('mel间隔',y)Fb = 700 * (np.exp(y / 1125) - 1) #将mel变为HZprint(Fb)w2 = int(N / 2 + 1)df = fs / Nfreq = [] #采样频率值for n in range(0,w2):freqs = int(n * df)freq.append(freqs)melbank = np.zeros((M,w2))print(freq)for k in range(1,M+1):f1 = Fb[k - 1]f2 = Fb[k + 1]f0 = Fb[k]n1 = np.floor(f1/df)n2 = np.floor(f2/df)n0 = np.floor(f0/df)for i in range(1,w2):if i >= n1 and i <= n0:melbank[k-1,i] = (i-n1)/(n0-n1)if i >= n0 and i <= n2:melbank[k-1,i] = (n2-i)/(n2-n0)plt.plot(freq,melbank[k-1,:])plt.show()return melbank,w2if __name__ == '__main__':data_path = 'audio_data.wav'win = 256inc = 80wavedata,nframes,framerate = read(data_path)FrameK = point_check(wavedata,win,inc)S,mel_bank,P,logP,D = mfcc(FrameK,framerate,win)以上就是本⽂的全部内容,希望对⼤家的学习有所帮助,也希望⼤家多多⽀持。
基于谱熵梅尔积的语音端点检测方法
基于谱熵梅尔积的语音端点检测方法
基于谱熵梅尔积的语音端点检测方法是一种改进的语音端点检测算法,它结合了谱熵和梅尔频率倒谱系数的特点,提高了语音端点检测的准确率。
首先,该方法通过提取带噪语音信号的梅尔频率倒谱系数中的第一维参数MFCC0,将其与谱熵的乘积作为最终区分语音段和背景噪声段的融合特征参数。
梅尔频率倒谱系数能够有效地描述语音信号的短时特性,而谱熵则可以反映语音信号的平坦程度,用于区分语音段和噪声段。
其次,该方法结合模糊C均值聚类算法和贝叶斯信息准则(BIC)算法对MFPH特征参数门限值进行自适应估计。
模糊C均值聚类算法可以将特征参数进行聚类,使得相似的特征参数归为一类,从而更好地进行语音端点检测。
贝叶斯信息准则(BIC)算法则可以用于估计最佳的聚类数目,提高聚类的准确性和稳定性。
最后,该方法采用双门限法进行语音端点检测。
在确定了特征参数门限值后,通过比较语音信号的特征参数与门限值的大小关系,可以判断语音信号的起始点和结束点,从而实现语音端点检测。
实验结果表明,与传统方法相比,基于谱熵梅尔积的语音端点检测方法在低信噪比环境下具有更高的准确率。
这主要是因为该方法综合考虑了语音信号的短时特性和频谱平坦度,能够更准确地描述语音信号的特点,从而提高了语音端点检测的准确率。
基于梅尔频率倒谱系数与短时能量的低信噪比语音端点检测
波器MFCC系数取绝对值后再相加,记为MFCC, f):
MFCC,f)= IMFCC 1(f) l + lMFCC2(f) l + lMFCC3(f) I.
(7)
此时,MFCC,f)是一个f*1维数组,f是帧数.
2短时能量
由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著.因此对短时能量进行分
有跟踪能力,图1给出了信噪比为0 dB环境下MFCC
的前四分量与语音段(直线开始,虚线结束)的波形.
从图1可以用肉眼看到不仅第一分量具有语音追 踪能力,第二、三分量的波形走势和语音起点、话音
段、终点模糊对应,但是第四分量的波形开始紊乱不
具备这一特性应舍弃.由于第一分量的幅值均为负 数,第二、三分量的幅值绝大多数为负数,可将第二、 三的波形向下平移至其幅值的最大值为零,保证所有 的MFCC均为负值.然后,将每一帧所对应的三个滤
基于梅尔频率倒谱系数与短时能量的 低信噪比语音端点检测
柏 顺二颜夕宏2,张生平2,陈建飞二张 胜1
(1.南京邮电大学电子与光学工程学院,江苏南京210023) (2.南京梧桐微电子科技有限公司,江苏南京210023)
[摘要]低信噪比环境下语音信号的端点检测在语音识别与通信等领域具有重要意义,目前低信噪比环境下 的端点检测还存在效率低、识别率不高等问题.本文在分析梅尔频率倒谱系数(MFCC)和短时能量在端点检测 中应用的基础上,提出将MFCC前三维度分量相加(MFCC)再与短时能量相除(梅尔能量比)作为语音特征参 数的语音端点检测测度,最后利用模糊C均值聚类算法自适应确定双门限阈值进行端点检测.选取TIMIT语音 库中的50条语音信号进行实验,结果表明:在信噪比为5 dB、0 dB、-5 dB的噪声环境下,与能零比、谱熵等算法 相比,本算法端点识别准确率均有所提高,其中在-5 dB信噪比环境下提升了约30%. [关键词]语音端点检测,梅尔频率倒谱系数,短时能量,模糊C均值聚类,低信噪比 [中图分类号]O429,TP391.9 [文献标志码]A [文章编号]1001-4616( 2021) 02-0117-04
语音信号处理中的端点检测技术研究
语音信号处理中的端点检测技术研究随着语音技术的快速发展,语音信号处理技术也在不断创新和更新。
其中,端点检测技术在语音信号处理中起着重要的作用。
本文将就语音信号处理中的端点检测技术进行深入研究,探讨其在语音识别、语音增强、语音编解码等领域的实际应用。
1. 端点检测技术的基本原理端点检测技术是指在语音信号中自动识别信号的开始和结束点。
其基本原理是在语音信号中识别出信号的活动区(即声音出现的时间段),将其与语音信号中的静音区(即无声区域)区分开来。
在语音信号处理系统中,端点检测技术是一个非常关键的部分,它对后续语音信号处理的结果有着重要的影响。
2. 端点检测技术的分类根据端点检测技术的不同特点和应用领域,可以将其分为以下几种:(1)基于能量的端点检测技术:这种技术是根据语音信号中的能量变化来识别出信号的开始和结束点。
其主要原理是当信号的能量达到一定阈值时,判断此为信号开始点;当信号的能量低于一定阈值时,判断此为信号结束点。
此种方法的不足之处在于无法准确识别信号中存在低能量噪声或者说话人停顿的情况。
(2)基于短时能量和短时平均幅度差(Short-time Energy and Zero Crossing Rate)的端点检测技术:这种方法在能量分析的基础上,通过计算相邻两帧之间的能量变化量和过零率来确定端点。
过零率是信号经过零点的比例。
只有在过零率和能量变化等于阈值时,才被认为是信号的开始或结束点。
(3)基于Mel频率倒谱系数(Mel-frequency Cepstrum Coefficient, MFCC)的端点检测技术:这种技术利用Mel频率倒谱系数提取语音信号的特征,再根据这些特征识别信号的开始与结束点。
这种方法一般用于噪声环境中,能够有效减少环境噪声对语音质量的影响,使信号检测更加准确。
3. 端点检测技术的应用领域端点检测技术在语音处理系统中有着广泛的应用,包括:(1)语音识别:端点检测技术是语音识别中必不可少的一环。
一种改进的基于倒谱距离端点检测方法研究
Cl a s s Nu mb er TN9】 2 3 5
1 引言
准 确 的语 音 信 号 端 点 检 测 ( Vo i c e Ac t i v i t y D e t e c t i o n ,
“ 一 f l o g S( w) d w/ ( 2 n )
n o i s e r a t i o de t e c t i o n p e r f o r ma n c e .
Ke y Wo r d s c e p s t r u m d i s t a n c e ,s h o r t — t i me e n e r g y,z e r o c r o s s i n g r a t e,s i g n a l t o — no i s e r a t i o
能量 、 短时平均过零率和倒谱距离逐一分析研究 , 提 出了一种结合三者特征的语音参数 , 将 应用于端点检测 中。实验结果表 明, 该方法 相 对于基本倒谱距离检测方法 , 在低信噪比时检测性能有较明显提高 。 关键词 倒谱距离 ;短时能量 ;过零率 ;信噪 比
TN9 1 2 . 3 5 D OI : l 0 . 3 9 6 9 / j . i s s n 1 6 7 2 9 7 2 2 . 2 0 1 3 . 0 7 . 0 1 1 中图 分 类 号
一种基于倒频谱分析的快速音频检索方法[发明专利]
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202011145738.9(22)申请日 2020.10.23(71)申请人 昆明理工大学地址 650500 云南省昆明市呈贡区吴家营街道景明南路727号(72)发明人 邵玉斌 杨贵安 龙华 杜庆治 刘晶 唐维康 陈亮 (74)专利代理机构 北京方圆嘉禾知识产权代理有限公司 11385代理人 王月松(51)Int.Cl.G06F 16/61(2019.01)G06F 16/683(2019.01)G06K 9/62(2006.01)(54)发明名称一种基于倒频谱分析的快速音频检索方法(57)摘要本发明公开了一种基于倒频谱分析的快速音频检索方法,属于音频检索技术领域。
本发明包括:第一步,构建检索音频特征库,根据信号能量比值循环对检索音频库每一段音频提取频域特征构建出检索音频特征库,以供检索使用;第二步,提取样本音频指纹,根据信号能量比值对用户输入的样本音频提取频域特征形成样本音频特征;第三步,根据样本长度确定最佳混合点,样本音频特征与检索音频特征在最佳混合点混合使得对混合特征的倒频谱分析结果更为精确;第四步,样本音频检索,用倒频谱分析的方法寻找检索音频特征库中与样本音频特征相似度最高的检索音频特征,对应检索音频信息即为样本音频检索结果。
本方法提取的音频特征代表性强且占用空间小;在检索时,倒频谱分析直接针对两个音频特征的混合结果进行,且倒谱分析仅对混合特征做傅里叶相关变换,计算量小且计算速度快。
因此,针对现有技术在音频检索应用中检索效率低的缺点,本发明在保证音频检索准确率的前提下极大提高了检索效率。
权利要求书1页 说明书6页 附图5页CN 112214635 A 2021.01.12C N 112214635A1.一种基于倒频谱分析的快速音频检索方法,其特征在于:S1、建检索音频特征库,根据信号能量比值循环对检索音频库每一段音频提取频域特征构建出检索音频特征库,以供检索使用;S2、提取样本音频指纹,根据信号能量比值对用户输入的样本音频提取频域特征形成样本音频特征;S3、根据样本长度确定最佳混合点,样本音频特征与检索音频特征在最佳混合点混合使得对混合特征的倒频谱分析结果更为精确;S4、样本音频检索,用倒频谱分析的方法寻找检索音频特征库中与样本音频特征相似度最高的检索音频特征,对应检索音频信息即为样本音频检索结果。
基于MFCC的声音检测装置及算法实现
0 引言近年来,信号处理技术和语音识别技术都取得了飞速的发展。
研究人员越来越多地采用信号处理和语音识别方法来分析声音。
数字信号处理技术的进步,使得研究人员能够借助计算机高效分析声音,时域分析、频域分析和频谱分析等信号处理手段为研究人员提供了丰富的工具。
在语音识别领域,信号经过预处理后,再经过模式识别技术进行分类判断,这些分类判断后的信号对于声音的分析至关重要。
婴儿啼哭声中包含丰富的信息,如饥饿、疼痛、不适或疾病等。
基于嵌入式系统的婴儿啼哭智能检测设计可以实时分析和识别啼哭声,及时发现婴儿的健康问题,为医护人员提供重要参考,从而采取相应的护理和治疗措施。
婴儿啼哭声识别可以作为一种辅助工具,帮助父母或照顾者更好地了解婴儿的需求[1]。
婴儿啼哭检测装置通过分析啼哭声的特征和模式,可以快速判断婴儿的状态,是否饥饿、是否需要换尿布、是否感到不适等[2]。
基于嵌入式系统的智能婴儿啼哭检测设计是一项前沿研究,旨在利用先进的硬件和软件技术,实现对婴儿啼哭声的实时分析和识别。
本文通过探讨该设计方案的主要内容,包括系统设计、软件设计、算法设计和测试结果,以期为智能婴儿护理和健康监测领域提供有益的参考和指导。
1 系统设计本装置基于嵌入式系统,通过各种传感器来检测婴儿是否啼哭、是否发烧、是否尿床,从而及时安抚婴儿。
系统采用了高性能的嵌入式处理器作为基于MFCC的声音检测装置及算法实现Sound detection device and algorithm implementation based on MFCC米月琴 王新怀 徐 茵西安电子科技大学电子工程学院,陕西 西安 710071 摘要:提出了一种基于梅尔频率倒谱系数(Mel frequency cepstrum coefficients,MFCC)的声音检测装置及算法实现。
通过采集声音的波形,结合特征提取和分类算法,实现对不同声音的智能判断。
从嵌入式系统硬件设计、声音波形特征提取、声音分类算法等方面进行了详细的研究,并对实验结果进行了分析。
基于倒谱特征的重放语音检测
物联网技术 2020年 / 第6期860 引 言说话人识别领域在过去的几十年中取得了重大进展。
事实上,这项技术已经成熟了,可以广泛的应用于现实世界中。
但是多项研究表明,没有采取一定检测措施的自动说话人验证(Automatic Speaker Verification ,ASV )系统对于欺骗攻击表现得非常脆弱[1-3]。
语音欺骗攻击手段主要有模仿、语音合成、语音转换、录音重放等,其中重放录音是最容易采用的欺骗攻击方式,它不需要特殊的信号处理知识就能够进行[4]。
在过去的几年里,特别是从ASVspoof 2015挑战赛开始,为了保护说话人识别系统,人们进行了大量的研究工作,制定了各种反欺骗策略。
一般,反欺骗系统由两部分组成:前端用于参数化语音信号,后端通过分类器确定其是真实语音还是欺骗语音[5]。
本文对基于倒谱特征的重放语音检测系统进行实验和分析,并对比几种不同倒谱系数特征系统的性能。
1 ASV 系统及重放语音检测基于GMM-UBM 分类器的ASV 系统模型如图1所示。
图1 ASV 系统模型ASV 系统模型可能在8个位置受到攻击,其中重放语音攻击一般发生在语音信号的输入,即麦克风接收端。
相应的,反欺骗系统的分类器需要训练真实语音模型和欺骗语音模型,针对重放语音的检测过程如图2所示。
图2 重放语音检测过程2 基于倒谱特征的重放语音检测算法重放语音检测算法的流程如下。
(1)语音信号的采集。
(2)信号的预处理,包含采样量化,预加重,端点检测,分帧,加窗等。
(3)特征提取。
(4)模型的训练,即分类器。
本文采用高斯混合模型(GMM ),通过训练集语音数据获得真实说话人语音模型与欺骗语音模型。
(5)检测判决。
对测试语音数据(开发集或评估集语音数据)分别在真实说话人语音模型与欺骗语音模型上计算对数似然分值后,获得系统的等错误率EER 值。
本文主要对基于不同倒谱系数特征的欺骗检测系统进行评估对比,系统的EER 值越低反映检测性能越优。
基于压缩感知和MFCC的语音端点检测算法
基于压缩感知和MFCC的语音端点检测算法杨海燕;吴雷;周萍【摘要】在连续语音识别系统中,针对强噪声环境下传统双门限语音检测方法出现的误检问题,提出了一种结合压缩感知理论和MFCC倒谱系数的端点检测算法.该算法采用Hadamard随机观测矩阵和改进的OMP重构算法对语音信号进行压缩感知与重构,利用语音信号在离散余弦基上的近似稀疏性,提取重构信号的MFCC倒谱系数来检测语音信号的端点.仿真结果表明,提出的改进算法具有较强的鲁棒性,能满足在强噪声环境下对连续语音信号进行有效端点检测的要求.【期刊名称】《测控技术》【年(卷),期】2019(038)005【总页数】6页(P88-93)【关键词】连续语音;端点检测;压缩感知;梅尔倒谱系数【作者】杨海燕;吴雷;周萍【作者单位】桂林电子科技大学认知无线电与信息处理教育部重点实验室,广西桂林541004;桂林电子科技大学信息与通信学院,广西桂林541004;桂林电子科技大学信息与通信学院,广西桂林541004;桂林电子科技大学电子工程与自动化学院,广西桂林541004【正文语种】中文【中图分类】TP391.42在语音识别系统中,输入信号通常由原始语音信号和各类噪声信号混合而成。
将各个语音信号时段与非语音信号时段区分开并对语音信号开始位置进行精确定位被称作端点检测(Voice Activity Detection,VAD)。
端点检测是语音信号处理的一个基本问题,语音端点检测的目的是在一段含噪语音中提取出语音段的起点和终点[1]。
在对连续语音检测和去噪时,可以利用浊音的周期性将语音和噪声分离,但是将清音和宽带平稳噪声进行区分时却存在一定的困难,语音信号容易被噪声淹没。
文献[2]中采用基于短时幅度和短时过零特征的端点检测方法在同一个门限下对一些清音信号进行检测时,可能会出现虚检、漏检现象,从而导致系统发生错误识别。
基于奈奎斯特定理的其他端点检测算法(谱熵法、自相关参数法、独立分量分析法、高阶统计量)在解决这一问题时能取得一定的效果,但通常其数据处理量大,大多数情况下不利于语音信号的实时分析与处理[3]。
倒谱距离和短时能量的语音端点检测方法研究
倒谱距离和短时能量的语音端点检测方法研究董胡【摘要】Based on the shortages discussion of traditional cepstrum distance speech endpoint detection method,the speech endpoint detec-tion method based on cepstrum distance and short-time energy is proposed. The endpoint detection method of single parameter of ceps-trum distance is effective in high SNR environment, but the endpoint detection performance falls sharply in low SNR environment. Through the analysis of cepstrum distance and short-time energy endpoint detection features,combined the characteristics of double pa-rameters establish a judgment criteria,which improves the accuracy of endpoint detection under the premise of no significant increase in computational complexity. By comparing the new method with traditional cepstrum distance speech endpoint detection method,simulation experimental results show that the new method for endpoint detection performance is improved obviously under Gaussian white noise in low SNR environment.%在讨论传统倒谱距离语音端点检测方法不足的基础上,提出了一种基于倒谱距离和短时能量的语音端点检测改进方法。
一种改进的语音信号端点检测方法研究
一种改进的语音信号端点检测方法研究摘要:在语音识别系统中端点检测有误差会降低系统的识别率,进行有效准确的端点检测是语音识别的重要步骤。
当信噪比较低时,传统的端点检测方法不能有效的工作。
为了提高系统的识别率,本文提出了一种更有效的端点检测算法,基于LPC美尔倒谱特征的端点检测方法。
它是基于倒谱特征方法的一种改进。
实验证明,该算法在低信噪比的情况下,能够准确的检测出语音信号的端点。
通过对三种不同的端点检测算法的比较,证明了基于LPC美尔倒谱特征算法在低信噪比的情况下有较高的检测正确率。
关键词:端点检测;语音识别;Mel倒谱距离;LPC美尔倒谱系数引言语音端点检测是语音识别中一个重要的步骤,进行有效的端点检测能够对语音信号更好的进行分析和训练,这样语音识别才能有好的识别率。
所以进行有效的端点检测是语音信号处理中首先要解决的问题。
传统的端点检测算法口如利用过零率、短时能量和自相关参数,在高信噪比环境下可以获得较好的检测效果,但在低信噪比环境下其检测性能却急剧下降。
当语音信号包含有背景噪音时,从中检测出语音信号的起始点和终止点,可以减少数据的采集量,删除不含语音信号的背景噪声和无声段,从而降低特征提取的计算量和处理时间,提高语音识别的准确性。
因此噪声环境中准确的检测语音起止位置有利于提高语音系统性能。
当语音中含有噪音时,传统的端点检测方法显得有些无能为力。
针对这种情况,提出了基于LPC美尔倒谱特征的端点检测算法。
它是对倒谱特征算法的一种改进。
1 基于倒谱特征的端点检测方法在大多数的语音识别系统中,选用倒谱特征参数作为语音信号的特征参数能够提高语音识别系统的性能。
因此用倒谱系数作为端点检测的参数。
信号倒谱可以看成是信号能量谱密度函数s( )的对数的傅立叶级数展开。
定义如下:(3)式中:Cn 和Cn′分别为对应于谱密度函数S(w)和S′(w)的倒谱系数。
对数谱的均方距离可以表示两个信号谱的区别,故它可以作为一个判决参数。