一种基于倒谱法的基音周期检测改进算法
语音基音周期精确测量方法研究
—
期测 量 的影 响 , 高基 音周期 测量 的准 确率 。 提 该算 法 适 用于基 音分 离 ,对 于语音合 成 和语 音合成 工作 具
有 指导 意义 。
参 考 文献
[] 1黄煜 , 陈克安 , 郑文. 声样本质量及其在声 品质评价 中的应用 ll J 电 _ 声技术. 0 8 3 ( :0 4 . 20 ,23)4 — 3 f1 飞 , 2李 覃爱娜 , 赖旭 芝. 过渡音 的基 音周期检测方 法. 中南大 学学
上 扬趋 势 , 与图 2共振 峰 图走 势 一致 。
7 6 5 4 3 2 l O
一 一 叵 繇
4 结 语
本文基于短时 自 相关算法 ,根据语音信号共振
峰 频谱 图 的特点 , 对语 音信 号进 行低 通滤 波 预处理 ,
【1 3 陈小利 , 徐金甫. 基于小波变换和时域波形 的基音检测算[ ]现代 J. 电子技术 , 0 1 3 (1 :7 9 2 1 , 4 ) 7 —7 . [] 4 郑继 明, 王劲松. 语音基音周期检测方法ll J 计算机丁程. 0 0 3 ( _ 2 1 ,6
…
…
…
…
…
…
…
。
蕊
语 音 音周 期 精确 测量 方法 研 究 旧 日基
沈 阳 南 京 邮电大 学硕 士研 究 生 王 曾泉 南 京 邮电大 学硕 士研 究 生
摘要 : 文章 对短 时 自相 关测语 音基 音周期 的方法
进行 改进 ,提 出一种精 确的基音周期 测量方法 。 根据 语音共 振峰 的特点 , 滤除 高频分 量 , 降低 语 音 短 时周 期 性 对 基 音 周期 测量 的影 响 。
一种基于音频的倒谱域水印算法
巾嵌入水印的通用算法 。实验结果表明,利用该方法嵌入 的
水印对大多数信号处 具有较好的不可知性和鲁棒性。
1 倒 谱 分析
印的嵌入算法进行 了广泛的研究。显然,这些算法的研 究将
有助于数字水印技术的发展 。目前 M E_ 第三层 (p ) PG1 m3 格式
倒谱分析是一种应 用于语音分析和识别巾比较成熟的工
图一
倒谱形成过程
所谓的倒谱是指序列的对数幅度谱的傅立叶逆变换,即 定义为实倒 潜 C n 为: ()
C n = 1 (J () r 【n Ix e ) I J
维普资讯
倒潜 有 以下 3 个重要性 质:
很可能在处理后的音频 文件 巾已被完全 破坏 。 因此理想 的水
具。倒 潜分析是一种同态映射 , 在语音识别巾是一种最有效
已经成为现在音频标准格式之一, 然而许多m p 文件来 自盗 a3 版C ,Itr e 上肆无忌惮的复 制和传播 版音乐制品, D nent 使
得艺术作品的作者和发行者的利益受到极人损害,所以对音 频所有权的保护 U益重I 。 婴 数字音频水 印的分类方法有很多 种,一般根据嵌入水印nx 音频信号的处理方式不同,可以 et
倒潜分析是一种同态映射在语音识别巾是一种最有效已经成为现在音频标准格式之一然而许多map3文件来自盗的特征提取方法还可用于语音信号的基音检测低比特率版cdinternet上肆无忌惮的复制和传播版音乐制品使编码的语音分析等等方面
维普资讯
a C s r m W t r r k g A g r h a e o u i p t u a e m a i 1 o i m B s n A d n t 0
中图分类号 :T 3 1 P 9
倒谱计算与分析
《视频语音处理技术》倒谱计算与分析学院名称:计算机与信息工程学院专业名称:计算机科学与技术年级班级:姓名:学号:计算机与信息技术学院综合性、设计性实验报告一、 实验目的:对语音信号进行同态分析可得到语音信号的倒谱参数。
语音的倒谱是将语音的短时谱取对数后再进行IDFT 得到的,所以浊音信号的激励反映在倒谱上是同样周期的冲激,借此,可从倒谱波形中估计出基音周期。
对倒谱进行低时窗选,通过语音倒谱分析的最后一级,进行DFT 后的输出即为平滑后的对数模函数,这个平滑的对数谱显示了特定输入语音段的谐振结构,即谱的峰值基本上对应于共振峰频率,对于平滑过的对数谱中的峰值进行定位,即可估计共振峰。
对于倒谱计算与分析的设计实验可作如下训练: 1、复倒谱的几种计算方法: 2、最小相位信号法和递归法; 3、基音检测; 4、共振峰检测。
二、实验仪器或设备:windowsXP 下的Matlab 编程环境 三、总体设计(设计原理、设计方案及流程等)1.复倒谱的几种计算方法:在复倒谱分析中,z 变换后得到的是复数,所以取对数时要进行复对数运算。
这时存在相位的多值性问题,称为“相位卷绕”。
设信号为则其傅里叶变换为对上式取复对数为 则其幅度和相位分别为:)()()(21n x n x n x *=)()()(21ωωωj j j e X e X e X ⋅=)(ln )(ln )(ln 21ωωωj j j e X e X e X +=)(ln )(ln )(ln 21ωωωj j j e X e X e X +=)()()(21ωϕωϕωϕ+=)()()(21ωϕωϕωϕ+=上式中,虽然 , 的范围均在 内,但 的值可能超过范围。
计算机处理时总相位值只能用其主值 表示,然后把这个相位主值“展开”,得到连续相位。
所以存在下面的情况:(K 为整数) 此时即产生了相位卷绕。
下面介绍几种避免相位卷绕求复倒谱的方法。
最小相位信号法这是解决相位卷绕的一种较好的方法。
语音信号基音检测算法研究
语音信号基音检测算法研究摘要:本文对倒谱法做了改进,在用倒谱法进行基音检测分析时,提出了一种功率谱二次处理的二次谱减法,该方法克服了倒谱法基音检测的抗噪能力低的弱点,在相同噪声环境下能更加精确地检测出语音信号的基音周期。
关键词:语音信号基音检测倒谱法二次谱减法1、引言近年来,基于线性预测和分析频谱的Mel倒谱系数在处理包含情感的语音识别中取得了很大的进步,能否把此种方法应用到相应状态下的基音检测中去,值得广大学者研究。
国外很多学者采用实时监控情感变化,并把影响修正基音的轨迹加以平滑或者动态改变窗的宽度,可以明显降低上述影响。
基音检测一直是语音信号处理的一大难题,短时自相关函数法、短时平均幅度差函数法、倒谱法、小波变换法等传统的经典基音检测方法,都有各自的用场,但同时也有其相应的不足。
其中任一种方法都不能作为通用的方法,但若在基音检测过程中,对预处理和后处理上进行一些改进,且突破传统的语音模型,并适当考虑说话人的个体特征及发音时的情感力度对基音检频带内谱包络测的影响,定能提高基音检测的准确性及健壮性。
本文以语音信号的基音检测为研究对象,着重分析自相关函数法p倒谱法的定义为,时间序列的z变换的模的对数的逆z变换,该序列的倒谱的傅里叶变换形式为。
落实到具体实现时,采用DFT来近似傅里叶变换,根据传统语音产生的模型及语音信号的短时性。
在其频域内,语音信号短时谱等于激励源的频谱与滤波器的频谱的乘积,浊音信号短时谱中包含的快变化周期性细致结构,则必会对应着周期性脉冲激励的基频以及各次谐波。
语音的倒谱是将语音的短时谱取对数后再进行IDFT来得到,所以浊音信号的周期性激励如果反映在倒谱上,便是同样周期的冲激。
藉此,我们可从得到的倒谱波形中估计出基音周期。
一般我们把倒谱波形中第二个冲激,认为是对应激励源的基频,即基音周期。
下面列举出一种倒谱法求基音周期的框图(见图1) 。
3、改进算法的基音检测当用无噪声的语音信号时,采用倒谱法进行基音检测还是很理想的。
倒谱法在基音检测中的应用
倒谱法在基音检测中的应用
倒谱法是一种音频信号处理方法,主要应用于基音检测。
在语音
识别、音乐分析等领域具有广泛的应用。
基音是指说话或唱歌时声带产生的基本频率,也称为声调。
基音
频率的测量对于语音信号处理任务非常重要。
倒谱法就是一种有效的
基音检测方法之一。
它的核心思想是将原始信号转换为倒谱系数,并
利用倒谱系数间的差异来确定基音周期。
具体实现方法是,先取得语音信号的包络频率,经过预加重处理后,使用离散傅里叶变换(DFT)得到频谱,然后对频谱进行对数转换,接着再次进行DFT得到倒谱系数。
通过计算倒谱系数的一阶差分和二
阶差分,可以得到倒谱差分系数。
通过分析倒谱差分系数的尖峰位置,可以获得基音周期。
倒谱法具有简单、快速、准确的特点,适用于不同语种、不同发
音人的声音分析,并经常用于语音信号的频率跟踪、检测、降噪等多
种任务。
倒谱计算与分析..
《视频语音处理技术》倒谱计算与分析学院名称:计算机与信息工程学院专业名称:计算机科学与技术年级班级:姓名:学号:计算机与信息技术学院综合性、设计性实验报告一、 实验目的:对语音信号进行同态分析可得到语音信号的倒谱参数。
语音的倒谱是将语音的短时谱取对数后再进行IDFT 得到的,所以浊音信号的激励反映在倒谱上是同样周期的冲激,借此,可从倒谱波形中估计出基音周期。
对倒谱进行低时窗选,通过语音倒谱分析的最后一级,进行DFT 后的输出即为平滑后的对数模函数,这个平滑的对数谱显示了特定输入语音段的谐振结构,即谱的峰值基本上对应于共振峰频率,对于平滑过的对数谱中的峰值进行定位,即可估计共振峰。
对于倒谱计算与分析的设计实验可作如下训练: 1、复倒谱的几种计算方法: 2、最小相位信号法和递归法; 3、基音检测; 4、共振峰检测。
二、实验仪器或设备:windowsXP 下的Matlab 编程环境 三、总体设计(设计原理、设计方案及流程等)1.复倒谱的几种计算方法:在复倒谱分析中,z 变换后得到的是复数,所以取对数时要进行复对数运算。
这时存在相位的多值性问题,称为“相位卷绕”。
设信号为则其傅里叶变换为对上式取复对数为 则其幅度和相位分别为:)()()(21n x n x n x *=)()()(21ωωωj j j e X e X e X ⋅=)(ln )(ln )(ln 21ωωωj j j e X e X e X +=)(ln )(ln )(ln 21ωωωj j j e X e X e X +=)()()(21ωϕωϕωϕ+=)()()(21ωϕωϕωϕ+=上式中,虽然 , 的范围均在 内,但 的值可能超过范围。
计算机处理时总相位值只能用其主值表示,然后把这个相位 主值“展开”,得到连续相位。
所以存在下面的情况:(K 为整数) 此时即产生了相位卷绕。
下面介绍几种避免相位卷绕求复倒谱的方法。
最小相位信号法这是解决相位卷绕的一种较好的方法。
语音信号基音检测的现状及展望
收稿日期:2003-08-15基金项目:院级青年人才基金资助项目(2003L KQ01)作者简介:冯 康(1969—),男,安徽淮南人,硕士,讲师,研究方向为计算机系统结构、人工智能。
语音信号基音检测的现状及展望冯 康,时慧琨(淮南师范学院,安徽淮南232007)摘 要:基音检测是语音处理中的一个非常重要的问题,但由于影响基音检测的因素众多,使得基音周期的准确估计非常困难。
文中阐述了短时自相关函数法、短时平均幅度差函数法、倒谱法、小波变换法等几种经典的基音检测方法,分析它们各自的优点及存在的不足,并在预处理、后处理、语音信号的产生模型、语音信号的个性特征、发音时的情感及力度等基音检测的各个环节上提出了一些看法,并就一些可能出现的突破口做了一些展望。
关键词:基音周期;短时自相关函数;短时平均幅度差函数;倒谱;小波变换;预处理;后处理中图分类号:TN912.3 文献标识码:A 文章编号:1005-3751(2004)03-0095-04The Current Situation and Prospects of Pitch DetectionFEN G Kang ,SHI Hui 2kun(Huainan Normal College ,Huainan 232007,China )Abstract :The Pitch detection is important in speech signal procession.But it is difficult in detecting pitch accurately because many factors affect the detection.In this paper ,several classical methods of pitch detection are proposed with analysis of their strong points and weak points ,they are short time autocorrelation function ,short time average magnitude difference function ,cepstrum and wavelet transform.Also some peculiar views are presented on pro -procession ,post -procession ,model of speech signal ,characters ,emotions and physical power ,and finally some possible breakthroughs are expected.K ey w ords :pitch ;short time autocorrelation function ;short time average magnitude difference function ;cepstrum ;wavelet transform ;pro -procession ;post -procession 人在发浊音时,气流通过声门使声带产生张驰振荡式振动,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分能量。
基于分数阶倒谱的带噪语音基频跟踪方法
Ke r :Pi h ta k n ywo ds t r c i g;Fr c FT; c p tu ; n iy s e c e sr m o s p e h
浊音的声带振动基频 . 而估计通常叫做基频追踪 ,
倍点会出现很强的峰值点。因此可 以利用倒谱进行基
在语音信号处理的各个领域 ,无论是编码、识别( 对于 汉语来说 ,四声识别就是以基频轨迹 为基础的) 还是合
m o ea c rt xrcig pth o n iys e c y sa c i go t a a so r e t a rdt n l e s u nm eh d fr l c u aei e ta t i f os p e hb e hn pi lr n f r o d r nta io a p l r to o n n c r m t m h i c r p th e ta t n i c xrci . o
幺正性,即:
:
里叶变换在信号处理领域中的应用提供了有利条件。
信号的分数阶傅里叶变换可以表示为 J :
, 1 、
F
() [ f =I( (u t “= ) f f ) , (] ) ,d
L ,
旋转可加性 ,即 :
=
其中 : 是个实数,代表分数阶傅里叶变换的阶数 ,它
Ma uj ,X e i g oi D a i X a ,Wa g ig u n n mig n n n ,K a g ig n J J ( s tto i om t na d l t nc, e ig ntue fTc n l y B in 0 0 C i ) I tu n r ai n e r i B in stt o eh oo , e i 10 8 , hn n i ef f o E co s j I i g jg 1 a
基音周期
语音是语言的声学表现,语言是人类交流信息最自然、最有效、最方便的手段。
在高度信息化的今天,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。
语音处理的研究目标多种多样,所涉及的学科门类也是丰富多彩的,其中包括了语音和语言学、声学、心理学、认知科学、计算机、数理统计、信号处理、人工智能和模式识别等等,并且它始终与当前信息科学中最活跃的前沿学科,如神经网络理论、小波变换理论、模糊集理论、时频分布理论和混沌与分形理论等保持密切联系并共同发展着。
语音处理研究者常常从这些领域的进展中找到突破口,使语音处理技术研究取得突破性的进展,其研究成果具有重要的学术及应用价值。
语音信号处理主要包括语音识别、语音合成、语音压缩编码和语音增强等分支[1]。
语音识别技术是指计算机系统能够根据输入的语音识别出其代表的具体意义,进而完成相应的功能。
一般的方法是事先让用户朗读有一定数量文字、符号的文档,通过录音装置输入、存储到计算机,作为声音样本。
以后,当用户通过语音识别系统操作计算机时,用户的声音通过转换装置进入计算机内部,语音识别技术便将用户输入的声音与事先存储好的声音样本进行对比。
系统根据对比结果,输入一个它认为最“象”的声音样本序号,就可以知道用户刚才念的声音是什么意义,进而执行此命令。
因此通过语音识别技术,计算机可以“听”懂人类的语言。
语音合成是人机语声的一个重要组成部分,语音合成技术赋予机器“人工嘴巴”的功能,即解决让机器说话问题。
是将计算机自己产生的或外部输入的文字信息,比如文本文件内容、WORD文件内容等文字信息,按语音处理规则转换成语音信号输出,即使计算机流利地读出文字信息,使人们通过“听”就可以明白信息的内容。
也就是说,使计算机具有了“说”的能力,能够将信息“读”给人类听。
这种将文字转换成语音的技术称之为文语转换技术,简称TTS( Text to Speech)技术,也称为语音合成技术。
一种基于基音周期和MFCC的融合特征参数提取方法[发明专利]
专利名称:一种基于基音周期和MFCC的融合特征参数提取方法
专利类型:发明专利
发明人:何兴高,张效藩,李蝉娟
申请号:CN201611215760.X
申请日:20161223
公开号:CN106782500A
公开日:
20170531
专利内容由知识产权出版社提供
摘要:本发明提出了一种融合基音周期和Mel倒谱参数的融合特征参数PITCHMFCC。
通过增加Mel倒谱参数的维度来提高声纹识别效率的方法。
基音周期是基于人体发声结构提出,而Mel倒谱参数通过人耳听觉结构提出,结合这两种特征得到的混合特征参数更符合人体生理结构。
方法是通过每一帧语音数据获得该帧语音的Mel倒谱参数,Mel倒谱参数的一阶差分参数,二阶差分参数以及该帧的说话人基音周期参数。
将这四个参数结合成一个(3L+1)维的特征矢量。
这样更逼近语音的动态特征和人体的生理结构,可以提高声纹识别的效率。
申请人:电子科技大学
地址:611731 四川省成都市高新西区西源大道2006号
国籍:CN
更多信息请下载全文后查看。
基于倒谱修正模型的语音基音检测算法
第 3 卷 第 4期 1
20 0 7年 8月
南
京
理
工
大
学
学
报
Vo . No 4 131 . Aug 2 0 . 07
J u n l fN nigUnvri f c n ea d T c n lg o r a o a j ies yo i c n e h oo y n t S e
.
ta t d fo t e c p tu o r d ci e r sd a .Th i l td pi h d t ci n r s ls s o t a h r ce m h e sr m fp e itv e i u 1 r e smu a e t ee to e u t h w h tt e c pt h e ta to ro ft e p o o e l o t m ssg i c n l o rta h to h o v n in lc p i xr cin e r ro h r p s d ag r h i in f a ty lwe h n t a ft ec n e to a e - c i i sr m a e lo t m oh frc e n s e c n fe e tn iy s e c tu b s d a g r h b t o la p e h a d di r n os p e h.Th e o a c ft e p o i f e p r r n e o h r - fm p s d ag rt m sa s o e lo h i lo muc te h n t a fte a e a e ma iu e d fee c u c in b s d pt h i h betrt a h to h v r g g t d i r n e f n t a e i n f o c d tc in a g rt m n l h l etrt a h to h a i u o o eai n f n to a e lo t m. e e to lo h a d si t b te h n ta ft e b sc a tc r l t u c in b s d a g r h i g y o i Ke r y wo ds:p t h;c p tu ;l e r p e i t e c di ic e sr m i a r d ci o ng;p e c ie p sd a n v r dit e i u l v
基于ACF和AMDF的基音检测改进算法
【 s at T e uo or ao F n t n A F ad h A eae Abt c】 h A t r C r lt n u co ( C ) n te vrg Mantd D frn e uci A F) ae e i i gi e ieec F nt n( MD u o r
t c mm o l u e meho o pt h d tc in. The ha e i e en e a d smia sa itc l c a a trsi . wo o ny s d t d f ic ee to y v nd p d nt n i lr ttsia h r ce t i cs
B s d n h d s u so o ta i o a a e o t e i si n f rd t n l i h ee t n lo i m , a o r h n ie p l ai n c i p t d t ci a g rt c o h c mp e e s a p i t wi ACF n v c o t h a d AMDF s ie i gv n. Te h me h d i s l a d r cia l . to s i e n p a t b e mp c I S etr ta t d t n l t t b t h n r i o a i e a i me— o i p th d man i c
d tc in loi m . S mu ain e u t h w h t h ag r h ee t ag r h o t i l t r s l s o t a t e l o t m h s t n a t os a i t . o s i a sr g n i i o n e b l y i
基于多窗频谱估计和平滑幅度谱包络的Mel频率倒谱系数(MFCC)改进算法
基于多窗频谱估计和平滑幅度谱包络的Mel频率倒谱系数(MFCC)改进算法张怡然;白静;王力【摘要】语音的特征提取是说话人识别系统中的关键问题.在传统的Mel频率倒谱系数(MFCC)参数的基础上,提出一种改进的MFCC特征提取算法.该算法着眼于语音的前端处理,在预处理阶段,利用SWCE窗函数,对信号进行多窗频谱估计.并对得到的频谱进行平滑处理,得到信号的谱包络.然后对信号的谱包络进行计算,得到改进的MFCC参数.实验表明,在不同噪声环境下,与传统的MFCC算法相比,改进的算法识别率提高四个百分点以上.【期刊名称】《科学技术与工程》【年(卷),期】2014(014)019【总页数】5页(P253-256,274)【关键词】Mel频率倒谱系数;多窗频谱估计;滑动平均滤波;谱包络;说话人识别【作者】张怡然;白静;王力【作者单位】太原理工大学信息工程学院,太原030024;太原理工大学信息工程学院,太原030024;太原理工大学信息工程学院,太原030024【正文语种】中文【中图分类】TN912.3说话人识别是语音识别的一种,属于语音信号处理的范畴。
它利用说话人的声纹特征进行识别。
它先将说话人的语音训练成一个模板,然后从说话人的待测语音中提取说话人的个性特征信息,并对这些特征信息与训练好的模板进行比较,最终对说话人的身份做出正确判断。
说话人识别的原理框图如图1所示。
根据识别目标的不同,说话人识别可分为说话人辨认和说话人确认两种。
前者是在若干个参考模板中判别出待识别语音是谁所说。
后者是要判定待识别语音是否是所声明的人所说。
本文研究的是与文本无关的说话人确认系统。
图1 说话人识别的原理框图Fig.1 The block diagram of speaker recognition2014年1月23日收到国家自然科学基金资助项目(61072087)、山西省科技攻关项目(20120313013-6)、山西省青年科技研究基金(2013021016-1)资助第一作者简介:张怡然(1987—),女,硕士研究生。
常用的基音周期检测的方法有哪些
常用的基音周期检测的方法有哪些?它们的基本原理是什么?自相关法、平均幅度差函数法、并行处理法、倒谱法、简化逆滤波法自相关法的基本原理是浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。
因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。
平均幅度差函数法的基本原理是对周期性的浊音语音,Fn(k)呈现与浊音语音周期相一致的周期特性,Fn(k)在周期的各个整数倍点上具有谷值特性,因而通过Fn(k)的计算可以来确定基音周期。
而对于清音语音信号,Fn(k)却没有这种周期特性。
利用Fn(k)的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。
倒谱(CEP)法利用语音信号的倒频谱特征,检测出表征声门激励周期的基音信息。
采取简单的倒滤波方法可以分离并恢复出声门脉冲激励和声道响应,根据声门脉冲激励及其倒谱的特征可以求出基音周期。
简述时域分析的技术(最少三项)及其在基因检测中的应用。
短时能量及短时平均幅度分析、短时过零率分析、短时相关分析、短时平均幅度差函数基音检测中的应用:基音检测的提取。
二、名词解释(每题3分,共15分)端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。
共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。
语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义公示,用最少的搜素和计算失真的运算量。
语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量。
基音周期的一种检测方法
第 6卷
第1 7期
20 0 6年 9月
科
学
技
术
与
工
程
Vo . No 1 S p 0 6 16 .7 e .2 0
17 —85 2 0 )72 7 -4 6 111 (0 6 1 -7 40
S in eT c n lg n n ie r g ce c e h o o y a d E g n ei n
部分。对中心削波后 的语音信 号计算 自相关 函数 ,
图 4 三电平削波 函数
这样在基音周期位置呈 现大 而尖的峰值 , 而其余 的
L【 ’ J
/ / /
/ C—
图 1 中心削波 函数 图 5 原始输 入的语音信 号
维普资讯
+
3 中心 削波法
中心削波法实质上是对信号做非线性处理 , 它
图 2 原始输入后 的语言信号
消除语音 信号 的低幅值 部分 , 保 留高 振幅 的峰 而 值, 从而能有利于信号的基音周期估计 。中心削波
函数如图 1 所示 , 工作过Leabharlann 见图 2 图 3 、 。它的数学
冒
时间
厦
y凡 c =c 凡 c =
形 图像 。E m i le i 13 cm - al l ma @ 6 .o :j l
( |) ∑ ( ) m+} m+} = m ( |。 i ) i )
维普资讯
1 7期
刘丽娟 , : 音周 期的一种检测方法 等 基
式中, 表示窗函数是从第 几点开始加入 。 凡 无论是对 随机 的语音 信号还 是对离散 的信 号
进行处理 , 只要是使用 自相关 函数对信 号进行周期
倒谱计算与分析
倒谱计算与分析上式中,虽然 , 的范围均在 内,但 的值可能超过范围。
计算机处理时总相位值只能用其主值 表示,然后把这个相位主值“展开”,得到连续相位。
所以存在下面的情况:(K 为整数) 此时即产生了相位卷绕。
下面介绍几种避免相位卷绕求复倒谱的方法。
最小相位信号法这是解决相位卷绕的一种较好的方法。
但它有一个限制条件:被处理的信号想x(n)必须是最小相位信号。
实际上许多信号就是最小相位信号,或可以看作是最小相位信号。
语音信号的模型就是极点都在z 平面单位圆内的全极点模型,或者极零点都在z 平面单位圆内的极零点模型。
设信号x (n )的z 变换为X (z )=N (z )/ D (z ) ,则有根据z 变换的微分特性有若x (n )是最小相位信号,则 必然是稳定的因果序列。
由Hilbert 变换的性质可知,任一因果复倒谱序列都可分解为偶对称分量和奇对称分量之和: 其中这两个分量的傅里叶变换分别为 的傅里叶变换的实部和虚部。
从而可得)()()(21ωϕωϕωϕ+=)(1ωϕ)(2ωϕ()ππ,-)(ωϕ()ππ,-)(ωΦπωωϕk 2)()(+Φ=)()(ln )(ln )(ˆz D z N z X z X==⎥⎦⎤⎢⎣⎡-=-=-∞-∞=∑)()(ln )(ˆ)(ˆz D z N dz d z z X dzd z z n x n n n [])()()()()()(z D z N z D z N z N z D z'-'-=)(ˆn x )(ˆ)(ˆ)(ˆn x n x n xo e +=[]2/)(ˆ)(ˆ)(ˆn x n x n xe -+=[]2/)(ˆ)(ˆ)(ˆn x n x n xo --=)(ˆn x )(ˆ)(ˆ)(ˆ)(ˆωωωωj Ij R jn n j e X j e X e n x e X +==-∞-∞=∑⎪⎩⎪⎨⎧>=<=0)(ˆ20 )(ˆ00)(ˆn n x n n x n n xe e此即复倒谱的性质3,也就是说一个因果序列可由其偶对称分量来恢复。
两种基音周期检测方法
基音周期中两种算法常用的基音周期检测方法-自相关函数法、倒谱法、平均幅度差函数法都属于非基于事件基音检测方法,都先将语音信号分为长度一定的语音帧,然后对每一帧语音求平均基音周期,它们的优点是比较简单,主要应用于只需要平均基音周期作为参数的语音编解码,语音识别等。
自相关函数具有很好的抗噪性,但易受半频、倍频错误影响。
平均幅度差函数只需加法、减法和取绝对值等计算,算法简单;它们在无背景噪声情况下可以精确地提取的语音基音周期,但在语音环境较恶劣、信噪比较低时,检测的结果很差,难以让人满意。
2.1 基于短时自相关函数的方法能量有限的语音信号}{()s n 的短时自相关函数[10][11]定义为:10()[()()][()()]N n m R s n m w m s n m w m ττττ--==++++∑ (2.1)其中,τ为移位距离,()w m 是偶对称的窗函数。
短时自相关函数有以下重要性质:①如果}{()s n 是周期信号,周期是P ,则()R τ也是周期信号,且周期相同,即()()R R P ττ=+。
②当τ=0时,自相关函数具有最大值;当0,,2,3P P P τ=+++…处周期信号的自相关函数达到极大值。
③自相关函数是偶函数,即()()R R ττ=-。
短时自相关函数法基音检测的主要原理是利用短时自相关函数的第二条性质,通过比较原始信号和它移位后的信号之间的类似性来确定基音周期,如果移位距离等于基音周期,那么,两个信号具有最大类似性。
在实际采用短时自相关函数法进行基音检测时,使用一个窗函数,窗不动,语音信号移动,这是经典的短时自相关函数法。
窗口长度N 的选择至少要大于基音周期的两倍,N 越大,短时自相关函数波形的细节就越清楚,更有利于基音检测,但计算量较大,近年来由于高速数字信号处理器(DSP )的使用,从而使得这一算法简单有效,而不再采用结构复杂的快速傅里叶变换法、递归计算法等;N越小,误差越大,但计算量较小。
基于基音周期和共振峰频率检测的倒谱特征研究
在噪声环境下,短时能量与其它特征参数都不能很好地区分语音段与非语音段。
倒谱能很好表示语音的特征,因此在大多数语音识别系统中选择倒谱系数作为输入特征矢量。
语音信号不是加性信号,而是卷积信号。
为了能用线性系统对其进行处理,可以先采用卷积同态系统处理。
经过卷积同态系统后输出的伪时域序列称为原序列的“复倒频谱”。
它的定义式可以表示为倒谱或称“倒频谱”的定义为。
它和复倒谱的主要区别是对序列对数幅度谱的傅立叶逆变换,它是复倒谱中的偶对称分量。
它们都将卷积运算,变为伪时域中的加法运算,使得信号可以运用满足叠加性的线性系统进行处理。
复倒谱涉及复对数运算,而倒谱只进行实数的对数运算,较复倒谱的运算量大大减少。
2 倒谱法检测基音周期噪声环境下常用基音检测方法的检测效果都不理想,而实际语音在产生过程中,不可避免地要受到背景噪声的影响。
语音的倒谱是将语音的短时谱取对数后再进行IDFT 得到的,所以浊音信号的周期性激励反映在倒谱上是同样周期的冲激。
因此,可以从倒谱波形中估计出基音周期。
先计算倒谱,然后在预期的基音周期附近寻找峰值。
如果倒谱的峰值超出了预先规定的门限,则输入语音段定位浊音,而峰的位置就是基音周期的良好估值。
如果没有超出门限的峰值,则输入语音段定位清音。
图1是倒谱法求浊音的基音周期。
语音信号是缓慢的时变的信号,倒谱是时变的,可以估计出激励源模型及基音周期随时间的变化。
通常每20-30ms 计算一次倒谱。
浊音是周期性的,清音不是周期性的,没有强烈的峰起,利用倒谱可以判断出清浊音和估算基音周期。
图1 倒谱法求浊音的基音周期3 倒谱法检测共振峰频率共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在语音频谱的包络中。
因此共振峰提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。
利用语音频谱傅里叶变换相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。
依据包络线各峰值能量的大小确定出第一至第四共振峰。
倒谱计算与分析
《视频语音处理技术》倒谱计算与分析学院名称:计算机与信息工程学院专业名称:计算机科学与技术年级班级:姓名:学号:计算机与信息技术学院综合性、设计性实验报告一、 实验目的:对语音信号进行同态分析可得到语音信号的倒谱参数。
语音的倒谱是将语音的短时谱取对数后再进行IDFT 得到的,所以浊音信号的激励反映在倒谱上是同样周期的冲激,借此,可从倒谱波形中估计出基音周期。
对倒谱进行低时窗选,通过语音倒谱分析的最后一级,进行DFT 后的输出即为平滑后的对数模函数,这个平滑的对数谱显示了特定输入语音段的谐振结构,即谱的峰值基本上对应于共振峰频率,对于平滑过的对数谱中的峰值进行定位,即可估计共振峰。
对于倒谱计算与分析的设计实验可作如下训练: 1、复倒谱的几种计算方法: 2、最小相位信号法和递归法; 3、基音检测; 4、共振峰检测。
二、实验仪器或设备:windowsXP 下的Matlab 编程环境 三、总体设计(设计原理、设计方案及流程等)1.复倒谱的几种计算方法:在复倒谱分析中,z 变换后得到的是复数,所以取对数时要进行复对数运算。
这时存在相位的多值性问题,称为“相位卷绕”。
设信号为则其傅里叶变换为对上式取复对数为 则其幅度和相位分别为:)()()(21n x n x n x *=)()()(21ωωωj j j e X e X e X ⋅=)(ln )(ln )(ln 21ωωωj j j e X e X e X +=)(ln )(ln )(ln 21ωωωj j j e X e X e X +=)()()(21ωϕωϕωϕ+=)()()(21ωϕωϕωϕ+=上式中,虽然 , 的范围均在 内,但 的值可能超过范围。
计算机处理时总相位值只能用其主值 表示,然后把这个相位主值“展开”,得到连续相位。
所以存在下面的情况:(K 为整数) 此时即产生了相位卷绕。
下面介绍几种避免相位卷绕求复倒谱的方法。
最小相位信号法这是解决相位卷绕的一种较好的方法。
空中交通管制员疲劳检测与管理综述
空中交通管制员疲劳检测与管理综述摘要:中国民航事业要发展,需要以大型运输客机自主研发为基础,以高效空中交通管理体系为支撑,两大软硬实力缺一不可。
空中交通管制员是空中交通管理中最核心的因素,他们对疲劳状态的发现和管理对航空安全起着至关重要的影响。
论文首先对国内外疲劳检测研究成果进行了详细描述,包括传统的主观量表评定与客观评定方法,并对各自的优缺点进行了分析;接着介绍了一种基于语音分析对管制员进行疲劳特征提取和检测的算法,并重点研究了以陆空通话为载体进行语音疲劳检测的方法;可供管制员疲劳检测及管理相关研究人员借鉴和参考。
关键词:空中交通管理;管制员;疲劳检测;语音分析;特征提取引言民航的迅猛发展为空中交通管理提出了重大挑战,继而空中交通管制员需求量激增。
空中交通管制这一专业承担着重要的安全责任,管制员的一个错误命令就有可能导致严重航空安全事故的发生,所以空中交通管制在全球范围内都面临着挑战与难题。
管制员的工作职能分为三类,即塔台管制,进近管制和区域管制。
塔台管制员管理机场区域内的作业,主要向飞行员发出起降指令;进近管制员担负着终端区进出场飞机的顺序指挥任务;区域管制员的职责是在航线上控制飞机。
管制员因工作重要,在工作期间需保持精神饱满、注意力高度分散,再加上他们昼夜倒班工作制度、航班量剧增所造成的工作负荷等原因,使管制员极易陷入劳累之中。
疲劳一般表现为生理或心理疲倦状态,有研究显示疲劳状态会明显降低人们的警觉性,判断力和反应力,并被视为造成人为差错最主要的潜在风险因素之一。
历史研究资料显示,航空安全事故涉及管制员的大部分都是由于管制员疲劳导致的“错误,忘记,漏掉”,所以管制员疲劳检测对航空安全和风险管控都有着十分重要的作用。
1主观评价方法1.1管制员工作负荷的评价方法工作负荷对疲劳有重要影响,所以对工作负荷进行评价则可以间接的判断疲劳程度。
早在20世纪60年代就有关于管制员工作量的研究,其主要研究方法是以主观评价为主,目前常用的主观疲劳评价方法有两种。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种基于倒谱法的基音周期检测改进算法张景扩;彭龑【摘要】通过对常规语音信号处理分析,设计一种基于倒谱法的基音周期检测改进算法.其过程是先对语音信号进行预处理、去趋势项处理及去噪声处理,,然后通过语音分析中的线性化处理、伯格算法和中值滤波算法对预处理过的语音信号进一步优化,并利用仿真软件验证改进增强算法,改进算法可有效的减少外界环境及共振峰等因素的干扰,相对于常规的语音基音检测算法其鲁棒性、稳定性更强.【期刊名称】《电声技术》【年(卷),期】2017(041)007【总页数】5页(P113-116,130)【关键词】基音周期检测;倒谱;预处理;增强处理【作者】张景扩;彭龑【作者单位】四川理工学院计算机学院四川自贡643000;四川理工学院计算机学院四川自贡643000【正文语种】中文【中图分类】TN911.7文献引用格式:张景扩,彭龑.一种基于倒谱法的基音周期检测改进算法[J]. 电声技术,2017,41(7/8):113-116.ZHANG Jingkuo, PENG Yan.Improved algorithm of pitch detection based on cepstrum[J]. Audio Engineering,2017,41(7/8):113-116.语音音调由基音决定,基音周期是指发韵母时,声带每一次打开和关闭的时间[1]。
基因周期在音频合成与分析、声调控制、语音编码以及声音识别等多个领域有着重要的价值。
语音基音周期检测经常用到倒谱法。
在纯净语音的检测中,采用倒谱检测会得到比较理想的结果,但待检测语音受外界环境影响时,其性能急剧恶化[2],原因是噪声会淹没功率谱中的低电平部分,导致信号分析出现各种问题。
在传统的检测过程中会容易受到噪声、趋势项、共振峰等因素的影响。
语音信号为卷积信号。
利用卷积同态系统理论,可有效处理语音信号。
经卷积同态处理得到得伪时域序列为初始序列的复倒频谱其定义可表示为(n)=IFT{ln[FT{x(n)}]}倒谱定义为c(n)=IFT{ln∣[FT{x(n)}]∣}在纯净的环境下,倒谱法检测效果较好,但在噪声环境下,语音信号基音检测检测较困难,且倒谱法容易受到共振峰等环境因素的影响,难以正常提取基音周期[3],为此提出如图1改进的倒谱算法。
2.1 加窗分帧语音信号是不断变化的,每个音频之间存在间隔性。
然而在一个较短的时间区域内,可近似地认为其特征保持一致,每帧的长度大约为9 ms~28 ms。
虽然分帧可以连续,但为了保证帧与帧之间的平滑过渡及连续性,常采用重叠分帧方法[4]。
相邻两帧重叠的部分叫做帧移,帧移与帧长之间的比值通常为0~1/2,帧移与帧长如图2。
计算机只能处理有限长度的语音信号,需要弱化波形的其余部分,应对信号进行加窗处理。
海宁窗、矩形窗、和汉明窗为常用的窗函数,他们具有低通特性。
矩形窗,主瓣较窄,具有较高的频率分辨率,但具有较高的旁瓣,相邻谐波会因能量泄漏而导致互相叠加或抵消等比较严重的干化。
与其他窗函数相比,经汉明窗处理后可得到的相对纯净的频谱。
本文的窗函数选用汉明窗。
2.2 信号的去趋势项处理分帧处理语音信号后,外界的扰动会使语音信号的零线偏离基线。
趋势项是工作过程中信号的偏移。
其存在会使功率谱函数、相关函数在计算中呈现变化,特别情况下会导致低频段的谱估计存在较大的不确定性。
常采用最小二乘法消除趋势项,可以有效的去除外界环境影响,保证信号的稳定性。
最小二乘法原理[5]:实测语音信号的采样数据为{xk}(k=1,2,…,n),将时间间隔设为1 s,则有根据最小二乘法原理,选择适当的参数保证与xk之差的平方和最小,即E值最小。
由求极值条件,(式4)结果应为0:=2ki(xk-ajkj)=0(i=1,2…,m)为求得线性方程组,进行一下处理:ki进一步得出m+1个待定系数aj(j=1,2…,m)。
当m=0 时求得趋势项为常数,可以求得当m=1时为线性趋势项,有a0=a1=消除线性趋势项的计算yk=xk-(a0-a1k)k=1,2…,n在语音信号处理中,一般取m=2进行去趋势项处理。
对纯净语音“四川理工”进行趋势化处理,然后利用最下二乘法对信号处理实验结果如图4。
基于以上分析可知经最小二乘法拟合消除趋势项的信号倒谱很大程度上减少了外部环境等因素的干扰,信号的幅值趋于正常,稳定性得到了增强。
2.3 利用改进的谱减法降低信号噪声信号中存在的噪声在信号检测中不可避免,而最大程度的减少噪声的干扰成为信号检测中关键的一步。
改进算法采用谱减法。
谱减法的基本思想:利用静音段分析语音中的噪声成分,再将含噪声语音减去就获得纯净的语音[6]。
谱减法原理如图5。
如果设y(t)为噪声信号,n(t)为噪声信号,s(t)为纯净语音信号则有y(t)=s(t)+n(t)用Y(ω)、S(ω)、N(ω)分别表示y(t)、s(t)、n(t) 的傅里叶变换,则可得Y(ω)=S(ω)+N(ω)假设加性噪声和语音信号互不相关,则有∣Y(ω)∣=∣S(ω)∣+∣N(ω)∣如果用Py(ω)、Ps(ω)、Pn(ω)分别表示y(t)、s(t)、n(t)的功率谱,则有Py(ω)=Ps(ω)+Pn(ω)一般情况下将噪声功率谱变化视为稳态,即可以得出Pn(ω)。
Ps(ω)=Py(ω)+Pn(ω)相比于常规的谱减法,改进的谱减法用数个正交的数据窗单独计算出直接谱,通过均值处理进一步求出谱估计,获得合适的估计方差[7]。
其定义为Smt为数据窗的谱,数据窗为L个:式中:N是序列长度;ak(n)为第k个数据窗;x(n)为数据序列,且相异的数据窗之间正交。
纯净语音“四川理工”叠加高斯噪声,经MATLAB仿真可以分析出利用多窗谱估计的谱减法滤除信号噪声,相比于常规的谱减法,能够在保证滤除噪声信号的同时并保证原始信号的完整性,结果分析如图6。
3.1 基于线性检测的基音检测由于常规的倒谱法会受到到共振峰的影响,需要结合线性检测来去除共振峰的影响。
线性预测法基本思想:临近的采样值彼此存在较大的关联性,通过之前的采样值可以预测出下一时刻的采样值。
也就是说把模型输出概念引入至语音处理中,利用过去的特征来分析计算出现在的特征[9]。
简单LPC音码器的结构如图7。
x(n)为语音信号的时间序列,设每帧的帧长为N,xi(m)为预处理过后的信号,其线性预测模型为进一步推出预测误差的传递函数因为线性预测法去除了共振峰的响应,能够把声道响应的影响减到最低[10]。
线性预测分析是一种有效且简便的信号处理方法,实际过程中其误差较小、计算简单,所以在语音分析中有着重要价值,若想保证结果的准确度,则需要着重考虑预测系数的分析,本文通过伯格算法(BURG)来分析预测系数。
利用伯格算法[11]获得格型滤波器,可以有效处理准确度和稳定性之间的问题。
出现的第i阶的正向预测误差为ei(n),反向预测误差为bi(n),设格型滤波器中反射系数ki,正向误差和反向误差可由格型滤波器的结构得出正向误差E(i)=E[(ei(n))2]反向误差Bi(n)=E[(bi(n))2]伯格算法的逼近准则:使ei(n)和bi(n)在第i阶最小。
令=0由此得到ki==ai3.2 信号平滑处理信号处理一定程度还会有很多毛刺,为提高信号曲线光滑度,常采用平滑处理方法。
中值滤波能有效过滤尖峰脉冲,滤波后的信号保持原来的变化趋势,并去除毛刺对语音分析造成的影响。
其原理是将语音信号序列的某个点值用临近各点的中值取代,来滤除毛刺。
论文采用中值滤波法,利用MATLAB中的中值滤波函数(A=medfilt1(B,n))方式滤除语音信号的野点。
3.3 信号处理结果与分析采用改进算法的处理结果如图8。
实验结果表明,本文提出的改进算法较之传统的倒谱法来讲在提取信号的周期、鲁棒性以及平稳性有了大幅提升,基音的周期检测效果明显。
论文提出一种基于倒谱法的基音检测改进算法[12]。
其过程是先对语音信号预处理(加窗分帧、去趋势项处理、谱减降噪),然后利用语音信号的线性化分析、伯格算法和中值滤波算法对预处理过的语音信号进一步处理,改进算法可有效的减少外界环境及共振峰等因素的干扰,相对于常规的语音基音检测算法其鲁棒性、稳定性更强,但是在强噪声的情况下还需进一步改善。
张景扩(1992— ),硕士生,主研物联网技术与应用;彭龑(1967— ),硕士生导师,教授,主要从事计算机应用、人工智能与智能控制等研究。
责任编辑:哈宏疆【相关文献】[1] 李鹏,周明全,夏小亮,等. 改进的基音检测方法及在音乐检索中的应用[J]. 计算机工程与应用, 2011,47(6):127-130.[2] 焦蓓. 语音信号的基音检测法研究[D].湘潭:湘潭大学,2013.[3] 何姣. 带噪语音信号基音检测技术研究[D].成都:电子科技大学,2012.[4] 张晶. 声纹识别鲁棒性技术及应用研究[D].广州:广东工业大学,2015.[5] 乔新勇,刘春华,曾兴祥,等. 基于局部均值分解的信号非线性趋势项剔除方法及应用[J]. 软件,2012,33(3):15-18.[6] 王平,陆继翔,余隋怀,等. 云终端语音交互中改进型谱减法语音增强算法[J]. 计算机集成制造系统,2013,19(7):1721-1725.[7] WANG J,LIU H,ZHENG C, et al. Spectral subtraction based on two-stage spectral estimation and modified cepstrum thresholding[J].Applied Acoustics, 2013, 74(3):450-458.[8] BAHJA F, DI MARTINO J, ELHAJ E I, et al. Acorroborative study on improving pitch determination by time-frequencycepstrum decomposition using wavelets[J]. Springerplus, 2016(5): 564-580.[9] 宋知用. MATLAB在语音信号分析与合成中的应用[M]. 北京航空航天大学出版社:2013.[10] ALI S M, KARULE P T. MFCC, LPCC, formants and pitch proven to be best features in diagnosis of speech disorder using neural networks and SVM[J]. International Journal of Applied Engineering Research, 2016,11(2): 897-903.[11] 朱颖,钱盛友. 一种改进的倒谱基音提取算法[J]. 计算机工程与应用, 2009,45(15): 158-159.[12] 赵祎,张盛,林孝康. 一种改进的基音周期提取算法[J]. 数据采集与处理, 2014,2(29): 304-308.。