第05讲 基音周期估计
基于随机共振的基音周期估计方法

基于随机共振的基音周期估计方法
何朝霞;刘凯
【期刊名称】《电脑知识与技术》
【年(卷),期】2011(007)013
【摘要】基音周期估计是语音处理和分析的最基本步骤.无论是做语音信号处理,语音压缩,还是语音识别,都要用到基音周期这一重要参数.文章基于随机共振的理论,提出了一种新的估计基音周期的方法.
【总页数】2页(P3140-3141)
【作者】何朝霞;刘凯
【作者单位】长江大学工程技术学院,湖北荆州,434023;长江大学工程技术学院,湖北荆州,434023
【正文语种】中文
【中图分类】TP334
【相关文献】
1.基于FFT-ACF和候选值估计的基音周期提取方法 [J], 徐明;陈知困;黄云森
2.基于随机共振的微弱OFDM子载波数估计改进算法 [J], 张政;马金全;王学成
3.一种随机共振联合小波变换的符号速率估计方法 [J], 张政; 马金全
4.基于随机共振的基音周期估计方法 [J], 何朝霞; 刘凯
5.基于多普勒-随机共振技术的高精度阵形估计系统研究 [J], 王世闯;王晓林;庞玉红
因版权原因,仅展示原文概要,查看原文内容请购买。
基音周期的优化算法

脚
= a r g m i n [ E V  ̄ U  ̄ r ( v ) J
( 4 )
由以上推导过程可以看出 , 式( 3 ) 比 式 ( 1 ) 减少了 ( 2 Ⅳ一
f ) ( z 一 ) / 2 次 减法 和( 2 N一 i 一 ) ( 彳 一一 ) / 2次加 法运 算, 算法 得到简 化。
来 完成 。
半计算 时间。
^ / k ^ ^ / X ^ ^ ^ / X / N ^ X ^ X ^
、X
语 音 识 别 的 首 要 步 骤 是特 征 提取 ,特 征 的选 择 对 识 别 效 果
至关重要 ,选择的标准应该体现 对异 音字特征 间的距离尽可能 的 最 大 化 ,同 音 字特 征 间 的距 离尽 可 能 的小 。 同时 ,还 要 考 虑
v a r i e d - l e n g t h a v e r a g e ma g n i t u d e d i f f e r e n c e f u n c t i o n)和 变 长 自相 关 ( V L AC v a r i e d - l e n g t h a u t o — c o r r e l a t i o n)函数 的基 音 估计 。 1 V L A MD F 基 音估 计 及 其优 化 算法
( 8 )
从式 ( 5 )中可 以看 出 ,用 自相 关 法估 计 基 音周 期 需要 计 算
为 了减少函数乘法的计算次数 ,本文提 出如下的变长 自相
关 基 音估 计 方 法 。
语音信号的最大特 征是短时平稳 性 ,即时域波形 的周期 间 隔相似性 。平均幅度差函数通过比较原始信号 及其 时移信号 的 相 似 性来 估算 语 音信 号 的基 音 周期 。 短时平均幅度差函数定义为:
基音及提取方法

并行处理技术(PPROC)方法
基音周期并行处理法
❖ m1(n):在每一个峰点处产生一个等于峰值的冲激 ❖ m的2冲(n激):在每一个峰点处产生一个等于峰值减去前一个谷值点 ❖ m3(n):在每一个峰点处产生一个等于峰值减去前一个峰点值
倒谱(CEP)法
❖ 然而,反应信息的倒谱峰,在过渡音和含噪语音中将会变得 不清晰甚至完全消失。其原因当然主要是因为过渡音中周期 激励信号能量降低和类噪激励信号干扰或含噪语音中的噪声 干扰所致。对于一帧典型的浊音语音的倒谱,其倒谱域中基 音信息与声道信息并不是完全分离的,在周期激励信号能量 较低的情况下,声道响应(特别是其共振峰)对基音倒谱峰的 影响就不可忽略。如果设法除去语音信号中的声道响应信息, 对类噪激励和噪声加以适当抑制,倒谱基音检测算法的检测 结果将有所改善,特别对过渡语音的检测结果将有明显改善。
❖ 与短时自相关函数一样,对周期性的浊音语音,Fn(k)也呈 现与浊音语音周期相一致的周期特性
❖ Fn(k)在周期的各个整数倍点上具有谷值特性而不是峰值特 性,因而通过Fn(k)的计算同样可以来确定基音周期。
❖ 对于清音语音信号,Fn(k)却没有这种周期特性。利用Fn(k) 的这种特性,可以判定一段语音是浊音还是清音,并估计出 浊音语音的基音周期。
3.组合平滑处理
❖ 为了改善平滑的效果可以将两个中值平滑串接,图3-29a所 示是将一个5点中值平滑和一个3点中值平滑串接.另一种方 法是将中值平滑和线性平滑组合,如图3-29b所示。为了使平 滑的基音轨迹更贴近,还可以采用二次平滑的算法,全部算 法的框图如图3-29c所示。由于中值平滑和线性平滑都会引 入延时,所以在实现上述方案时应考虑到它的影响。3-29d 是一个采用裣延时的可实现二次平滑方案。其中的延时大小 可由中值平滑的点数和线性平滑的点数来决定。
3.8-3.9 基音和共振峰估计解析

N k 1 m 0
S (m)S
n
n
(m k )
• Rn(k)不为零的范围为是k=(-N+1)~(N—1),且为偶函数。 由3.3小节的分析可知,浊音信号的自相关函数在基音周期 的整数倍位置上出现峰值;而清音的自相关函数没有明显的 峰值出现。因此检测是否有峰值就可判断是清音或浊音,检 测峰值的位置就可提取基音周期值。
X
第1-2页
天津商业大学信息工程学院
语音信号处理 电子教案
2.基音周期估计的方法 (1)自相关法
(2)平均幅度差函数法
(3)并行处理法 (4)倒谱法 (5)简化逆滤波法 (6)小波变换法
第1-3页
X
电子教案
(1)自相关法
• 语音信号s(m)经窗长为N的窗口截取为一段加窗语音信号 Sn(m)后,定义Sn(m)的自相关函数(ACF)Rn(k)(亦即语音信号 s(m)的短时自相关函数)为:
第1-9页
X
天津商业大学信息工程学院
语音信号处理 电子教案
(5)简化逆滤波法(SIFT)
• 简化的逆滤波跟踪(SIFT)算法是相关处理法进行基 音提取的一种现代化的版本。该方法的基本思想是: 先对语音信号进行LPC分析和逆滤波,获得语音信号 的预测残差,然后将残差信号通过自相关滤波器滤 波,再作峰值检测,进而获得基音周期。语音信号 通过线性预测逆滤波器后达到频谱的平坦化,因为 逆滤波器是一个使频谱子坦化的滤波器,所以它提 供了一个简化的(亦即廉价的)频谱平滑器。预测 误差是自相关器的输入,通过与门限的比较可以确 定浊音,通过辅助信息可以减少误差。
第1-8页
X
天津商业大学信息工程学院
语音信号处理 电子教案
基音周期预测

专业班级组别成员实验内容:编程求解出各自声音信号的基音周期。
1 程序代码(或者软件流程图等)(1)function zhouqi=jiyinzhouqi(filename)%帧长和帧位移是重要的参数,位移是帧长的0~1/2%短时自相关分析%filename语音文件*.wav%zhouqi基音周期,以毫秒为单位表示[signal,fs]=wavread(filename); %用于得到声音文件的数据和采样率shift=0.02; %每次移动20毫秒shift=round(fs*shift); %帧移n1=fix(fs*0.01)+1; %分析起点0.01ms,帧长20msn2=fix(fs*0.03)+1;shift_count=fix((length(signal)-n1)/shift);value =zeros(1,shift_count); %存放每次移位后的帧的基音周期for ii=1:shift_count %分析次数if n2<length(signal) %防止溢出data=signal(n1:n2); %加窗,提取一帧数据N=n2-n1+1; %每一帧的长度R=zeros(1,N); %创建一个一行N列的矩阵for k=1:N-1 %求自相关序列for jj=1:N-kR(k)=R(k)+data(jj)*data(jj+k); %矩阵用于储存每次自相关的结果; endendvalue(ii)=find_maxn(R); %调用基音周期分析函数,求最大值所对应的位置,即基音周期n1=n1+shift; %移动帧,计算下一帧的基音周期n2=n2+shift;endendfigure(1)stem(value); %画出基因周期走势图axis([0 length(value) 0 1000])aver=mean(value); %基音周期的平均值,未去除野点value=value(logical(abs(value-aver)<=aver/5));%找出偏移均值超出均值的1/5的基音周期,将其去除len= length(value); %去除大野点后剩余的基音点数for jj=1:3:len/3 %中值平滑,滑动窗口宽度3,精度为中值1/4(剔除野点)average=(value(jj)+value(jj+1)+value(jj+2))/3;for kk=1:3if abs((value(jj-1+kk))-average)>average/4value(jj-1+kk)=0; %将野点置零,同时数组长度减一endendendvalue=value(( value~=0)); %出去所有野点后的基音周期数组len= length(value); %去除野点以后的基音点数figure(2)stem(value);axis([0 length(value) 0 max(value)])zhouqi=1000*sum(value)/len/fs; %求平均的基音周期,单位是毫秒(2) function nmax=find_maxn(r) %寻找峰值最大的n值及基音周期%r,自相关序列%maxn,为峰值最大的nzer=find(r==0); %找第一个零点如果存在jiaocha=0; %找第一近零点ii=1;while (jiaocha<=0)if(r(ii)>0 && r(ii+1)<0 && (ii+1)<length(r))jiaocha=ii;endii=ii+1;if ii==length(r) %没有找到符合要求的点jiaocha=1;endendif length(zer)>0 %检查是否存在零点if zer(1)<jiaocha %存在,则和jiaocha比较大小,用于祛除前点的对基音周期的查找带来的影响jiaocha=zer(1);endendr(1:jiaocha)=0; %祛除影响maxn=max(r); %找最大值temp=find(r==maxn); %返回第一个最大值nmax=temp(1);(3) function zhouqi=get_frq_frame(filename)%帧长和帧位移是重要的参数,位移是帧长的0~1/2%短时自相关分析%filename语音文件*.wav%zhouqi基音周期,以毫秒为单位表示[signal,fs]=wavread(filename);%用于得到声音文件的数据和采样率shift=0.02; %每次移动20毫秒shift=round(fs*shift); %帧移n1=fix(fs*0.01)+1; %分析起点0.01ms,帧长20msn2=fix(fs*0.03)+1;shift_count=fix((length(signal)-n1)/shift);value = zeros(1,shift_count); %存放每次移位后的帧的基音周期zhouqi = zeros(1,shift_count); %存放每次移位后的帧的基音周期for ii=1:shift_count %分析次数if n2<length(signal) %防止溢出data=signal(n1:n2); %加窗,提取一帧数据N=n2-n1+1; %每一帧的长度R=zeros(1,N);for k=1:N-1 %求自相关序列for jj=1:N-kR(k)=R(k)+data(jj)*data(jj+k);endendvalue(ii)=find_maxn(R); %调用基音周期分析函数,求最大值所对应的位置,即基音周期n1=n1+shift; %移动帧,计算下一帧的基音周期n2=n2+shift;zhouqi(ii) = 8000/value(ii);endendfor ii=1:length(zhouqi)if zhouqi(ii)==0zhouqi(ii) = [];endendplot(zhouqi);2 程序使用说明(1) function zhouqi=jiyinzhouqi(filename)① 函数基音周期是计算所采样的声音的平均基音周期的函数,函数使用加窗计算自相关函数的办法,通过帧移得到不同位置加窗信号的相关性,然后用矩阵R储存相对应的n2-n1+1个自相关值。
基音周期估计-共振峰估计-小结

HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉
5 简化逆滤波法 SIFT
• 简化逆滤波法SIFT是进行基音提取的一种新方法。 • 基本思想:首先进行LPC分析和拟滤波,得到预测残 差;然后通过自相关滤波器滤波,峰值检测,获得基音 周期。 • 与倒谱法类似,需有一个有声/无声检测器,以减少运 算量。 • 在基音提取中,采用低通滤波对提高基音提取精度是很 重要的。
原始语音信号 C-AMDF LV-AMDFFn ( k ) =
N − k −1 m=0
基本AMDF W-AMDF
∑
S n ( m + k ) − S n ( m)
LP-AMDF
HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉
Байду номын сангаас
2 倒谱法
虽然可以直接对语音信号求离散傅里叶变换(DFT),然 后用DFT谱来提取语音信号的共振峰参数。但是,直接DFT 的谱要受基频谐波的影响,最大值只能出现在谐波频率上, 因而共振峰测定误差较大。 为了消除基频谐波的影响,可以采用同态解卷技术,经 过同态滤波后得到平滑的谱,这样简单地检测峰值就可以直 接提取共振峰参数,因而这种方法更为有效和精确。
式中e(n)是声门激励,v(n)是声道响应;倒谱为加法运算, 即倒谱域中基音信息与声道信息是相互分离的。 • 采用简单的倒谱滤波方法可以分离出e(n)和v(n),根据 激励e(n)及其倒谱的特征,可以求出基音周期。 • 在过渡音或含噪语音中,倒谱峰会变得不清晰,方法 需要采用LPC分析进行改进(略)。
《语音信号处理》实验2-基音周期估计

华南理工大学《语音信号处理》实验报告实验名称:基音周期估计姓名:学号:班级:10级电信5班日期:2013年5 月15日1.实验目的本次试验的目的是通过matlab编程,验证课本中基音周期估计的方法,本实验采用的方法是自相关法。
2. 实验原理1、基音周期基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。
基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。
因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。
由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。
基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。
②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容易。
③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。
④基音周期变化范围大,从老年男性的50Hz到儿童和女性的450Hz,接近三个倍频程,给基音检测带来了一定的困难。
由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。
尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT、谱图法、小波法等等。
一种基音周期估计方法

基音周期语音"#$%&自相关 ’ 倍线性逆 !"#有无声低通及峰值 抽取滤波器插值判 决滤波检 测无声 抽取模型参数无声无声检测器 图 ( 简化逆滤跟踪算法原理框图文章编号!!$$%&$%’$"($$-#$+&$$,!&$,一种基音周期估计方法陈洪立$中国铁通萍乡分公司#江西 萍乡 556777%摘 要!基音是语音信号中一个极为重要的参数! 基音周期的估计在语音编码"语音合成和语音识 别中有着广泛的 应 用# 本 文 介 绍了 一 种 极为 重 要 的 !"#$$!%&’(%)%*+ %,-*./* )%(0*. 0.123%,4 简 化 逆 滤波 跟 踪%基音周期估计算法#并对该算法进行了仿真# 仿真结果表明#!"#$ 基因周期估计算法具有较好的估 计性能!关键词!基音周期#语音信号处理#简化逆滤波跟踪基音周期的估计方法大致可以分为三类)(*%(& 波形估计法" 直接由语音波形来估计基音周!" !"期 ! 分 析 出 波 形 上 的 周 期 峰 值 ! ’//012&$数据减少法’3403&等"包括 并 行 处 理 法 基音是指发浊音时声带振动所引起的周期性!而 基音周期是指声带振动频率的倒数" 基音的提取和估 计是语音信号处理中一个十分重要的问题!尤其是对 汉语更是如此" 因为汉语是一种有调语言!基音的变 化模式成为声调!它携带着非常重要的具有辨意作用 的信息" 自从语音信号的研究以来!基音周期估计一 直是个重要的研究课题!为此提出了很多方法! 然而 这些方法都有局限性#迄今为止! 尚未找到一个完善 的方法可以适用于不同的讲话者$ 要求和环境! 这是 因为基音提出有许多困难)(*"基音提取的主要困难反映在)+*%(&声门激励信号 并不是一个完全的周期序列" 在语音的头$尾部并不 具有声带振动那样的周期性!特别是清音和浊音之间 的过渡帧很难判断它们是否是周期性的" +&很难从语 音信号中去除声道的影响!直接取出仅和声带振动有 关的激励信号!例如声道共振峰有时会严重影响激励 信号的谐波结构" ,&在浊音段很难精确地确定每个基 音周期的起止位置!这是因为语音信号本身是准周期 性的’即音调是变化的&!同时!波形的峰以及过零受 共振峰结构$噪声等的影响" -&基音周期变化范围大! 从老年男性的 .$%& 到女童的 ’$$%&!接近三倍频程! 给基音检测带来一定的困难"+& 相关处理法" 计算语音信号的短时相关函数!根据相关函数的周期性来获得基音周期的估计!常见 的有自相关函数法’54671&$ 平均振幅差分函数法 ’4538&$简化逆滤波法’9:87&等",& 变化法" 将语音信号变换到频域或者倒谱域 来估计基音周期!比如倒谱法’2;/&"其中相关处理法因为其抗波形相位失真能力强! 且在硬件处理上的结构简单而被广泛应用! 为此!着 重分析相关处理法中的 9:87 基音周期估计法"$ " %&’( 基音周期估计算法简化逆滤波器跟踪算法是相关处理法进行基音提取的一种现代化版本" 这种方法首先抽取声道模型参数!利用这些参数对原信号进行逆滤波!从预测误差中 得到音源序列!之后再用相关法求得基音周期)(<+*"收稿日期!!""#$"%$&’图 ) 原始语音样本的信号波形图 + 数字低通滤波器的频率特性图 / 滤波后的语音信号波形图 * 残差信号波形工作过程为""# 信号经过 "#$%& 取样后$ 通过 ’((%& 的数字 低通滤波器$其目的是滤除声道谱中声道响应部分的 影响$使峰值检测更加容易%)& 进行 * 倍抽取$使采样率降低 * 倍$这是因为 激励序列的宽度小于 "$%&$所以用 )$%& 的采样频率 足够’当然后面需要进行 * 倍的插值$以恢复原来的 采样率%+& 对抽取后的信号进行线性逆滤波处理$ 同时滤波器是 *( 阶的$图 + 描绘了滤波器的频率特性% 滤 波后的信号波形如图 / 所示% 比较图 ) 和图 / 可以看 出$滤波后的语音信号由于去除了因声道引起高频分 量而显得更加平滑$周期性更为明显% 此后$进行了逆 滤波处理$得到的残差信号波形如图 * 所示$ 逆滤波 后的信号频谱更加平坦了$ 周期性已经非常明显$由 波形就可清楚地辨认出每个周期的起止位置% 之后是 残差信号的自相关函数$波形描绘在图 9 中% 最后对 自相关函数波形进行峰值检测$ 获得基音周期的估 提取信号模型参数 (,-. 参数&$ 检测出峰值及其位 计% 检测到的峰值序列以及基音周期序列见表 "% 由 置$便可以得到基音周期% 逆滤波器能使频谱平坦化$ 是一种简化的低成本频谱平滑器%/& 最后进行有0无声判决%在基音周期的估计中$广泛采用语音波形或误差 信号波形的低通滤波$因为这种低通滤波对提高基音周期估计精度具有良好的效果% 低 通滤波在除去高阶共振峰影响的同时$还可以弥补自 相关函数时间分辨率的不足% 在使用了线性滤波预测 误差的自相关函数的基音提取中$时间分辨率的弥补 显得尤其重要%表中结果可知$基音周期的估计值为 :8(56% 至此$完 成 了 ;<=3 算 法 的 仿 真 工 作 $ 仿 真 结 果 令 人 满 意 % !" !"#$ 这里我们对简化逆滤波跟踪算法进行了仿真$软件环 境选用 123,24% 仿真中$选取一段长为 )((56 的男 性语音作为样本$该样本的采样率为 ))7"$%&% 图 ) 描 绘了这段语音的信号波形$ 波形有明显的周期性$可以粗略估计其周期约为 (8("6$即 "(56%图 ) 自相关函数信号波形表 0 峰值位置以及基音周期(单位 23% 峰值点 $/( 0’/( 01/( $)/( *(/* ($/( "’/* "1/( ))/* 基音周期 1/’1/’ +/& 1/’ 1/’ 1/’ 1/’ 1/’ 1/’ 峰值点 +(( 1$/* &’/* &1/* 0’)/* 00(/$ 0$$/* 0*’/$ 0*1/* 基音周期+/& 1/’ 1/’ 1/’ +/& 1/’ 1/’ 1/’ 1/’ 峰值点 0()/* 0"(/* 0)$/* 0+’/* 0+1/* 01)/* 0&(/( 基音周期 1/’ 1/’ 1/’ 1/’ 1/’ 1/’ 1/0!" !"论文介绍了一种语音信号处理中常用的基音周期估计方法" 即简化逆滤波跟踪算法) 在详细分析4567 算法的基础上"选取一段语音样本"对该算法进行了计算机仿真"仿真结果表明"该算法确实具有良 好的估计性能# 算法处理过程简单"易于工程化实现" 说明该算法有很强的实用性# 我们下一步要开展的工 作就是在此基础上"利用 4567 基音周期算法"进行语 音变速不变调技术的研究#参考文献8%9 胡航!语音信号处理!哈尔滨!哈尔滨工业大学 出版社",’’’8,9 陈永彬!语音信号处理!上海!上海交通大学出 版社"%&1&!上接第 !"页" 决用户在使用电信业务中的困难或 江西电信 % 件$互联互通问题 %.% 计算%&江西铁通 %件$互联互通问题 %.% 计算%"江西联通 % 件& 江西移 动 $ 件"手机经销商 $ 件’疑惑"以取得用户的谅解# 对于电信业务经营者明显涉嫌违反电信条例和电信服务标准"侵害用户利益的 用户申诉"向相关企业发函进行立案调查有 %’ 件"企 业及时回复 %’ 件"及时回复率 %’’-# 经核查"确系企 业有责任的案件有 + 件"占立案申诉的 +’-" 其中有$ 季度申诉总量比上季度增加了 $* 件" +(- # 正 式 立 案 数 比 上 季 度 增 加 了 ( 件 " %**-#上升了上升 了。
语音基音周期估计基础

语⾳基⾳周期估计基础先说下为什么要检测语⾳基⾳周期(1)基⾳决定了语⾳的⾳调。
汉语是⼀种有调的语⾳,同⼀句话,语调不同,意义差别⾮常⼤,准确的检测语⾳的基⾳周期,有利于“理解”话语中的意思。
(2)语⾳合成、声调控制等⾳效果制作的需要。
再说下什么是基⾳周期按照经典的语⾳激励模型,声带周期性的张开和闭合所需要的时间,就是指基⾳的周期(假如声带某次从开启到闭合的时间为4ms,那么,它的基⾳频率为250Hz)。
很显然,要准确的检测基⾳周期,需要尽可能的先去掉声道模型和辐射模型的⼲扰。
⼀般来说,男性的基⾳频率约为50Hz~250Hz,⼥性的基⾳频率约为:100Hz~500Hz,所以我们通常把基⾳频率的上限限制为500Hz,同时,⼜由于50Hz对应的是交流电的⼯频频率,难以去掉它的噪声⼲扰,所以这个频率检测时也不予考虑。
综上,基⾳频率的检测范围在60Hz~500Hz或者70Hz~500Hz⽐较好。
基⾳周期检测的困难(1)有些⾳的发⾳不具有声带的震动,通常这些⾳为过渡⾳。
(2)基波的分量往往不是最强的分量,容易把⼀些浊⾳的谐波当做基波(这是因为经过声道激励后,⼀些谐波分量变的⽐较强)(3)基⾳周期变化范围⼤,从⽼年男⼈的50Hz到⼉童和⼥性的500Hz,给检测带来了⼀定的困难。
基⾳周期检测预处理(1)端点检测(多媒体核⼼技术群中在2015-04-18⽇已经讲过了)(2)带通滤波(60Hz~500Hz),尽可能去掉声道模型和辐射模型的⼲扰(去掉50Hz是为了避免⼯频噪声的⼲扰)基⾳周期估计的⽅法(1)平均幅度差法 语⾳的浊⾳,通常会呈现出⼀定的周期性,这个周期性与基⾳的周期⼀致,通过计算平均幅度差,来找到这个周期,就可以得到基⾳的周期。
(2)相关法 同样的道理,通过计算语⾳信号的⾃相关特性,并寻找相应的周期性,也可以得到语⾳的基⾳周期(3)倒谱法 使⽤倒谱处理,使得脉冲激励与声道响应进⾏分离,再查找最⼤值,就可以得到语⾳的基⾳周期(4)线性预测法 这类⽅法是先利⽤线性预测法,得到预测系数,再⽤这些系数去重建信号,这样就弱化了声道响应的影响。
基音周期

语音是语言的声学表现,语言是人类交流信息最自然、最有效、最方便的手段。
在高度信息化的今天,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。
语音处理的研究目标多种多样,所涉及的学科门类也是丰富多彩的,其中包括了语音和语言学、声学、心理学、认知科学、计算机、数理统计、信号处理、人工智能和模式识别等等,并且它始终与当前信息科学中最活跃的前沿学科,如神经网络理论、小波变换理论、模糊集理论、时频分布理论和混沌与分形理论等保持密切联系并共同发展着。
语音处理研究者常常从这些领域的进展中找到突破口,使语音处理技术研究取得突破性的进展,其研究成果具有重要的学术及应用价值。
语音信号处理主要包括语音识别、语音合成、语音压缩编码和语音增强等分支[1]。
语音识别技术是指计算机系统能够根据输入的语音识别出其代表的具体意义,进而完成相应的功能。
一般的方法是事先让用户朗读有一定数量文字、符号的文档,通过录音装置输入、存储到计算机,作为声音样本。
以后,当用户通过语音识别系统操作计算机时,用户的声音通过转换装置进入计算机内部,语音识别技术便将用户输入的声音与事先存储好的声音样本进行对比。
系统根据对比结果,输入一个它认为最“象”的声音样本序号,就可以知道用户刚才念的声音是什么意义,进而执行此命令。
因此通过语音识别技术,计算机可以“听”懂人类的语言。
语音合成是人机语声的一个重要组成部分,语音合成技术赋予机器“人工嘴巴”的功能,即解决让机器说话问题。
是将计算机自己产生的或外部输入的文字信息,比如文本文件内容、WORD文件内容等文字信息,按语音处理规则转换成语音信号输出,即使计算机流利地读出文字信息,使人们通过“听”就可以明白信息的内容。
也就是说,使计算机具有了“说”的能力,能够将信息“读”给人类听。
这种将文字转换成语音的技术称之为文语转换技术,简称TTS( Text to Speech)技术,也称为语音合成技术。
利用平均幅度差函数法进行基音周期估计-Read

Speech Pitch Period Estimation Based on AMDF Abstract:Pitch period is a key parameter in speech compression , synthesis andrecognition. The well-known AMDF is often used to determine this parameter.But it is easy to make the estimated pitch doubled.According to the conventional speech- generating mode AMDF, the paper refers to a new speech pitch determination algor- ithm which bases on AMDF. The new method can resolve both the error by searching "the first trough" and the reduplication by searching "the minimal trough". It can win more accurate results by forecasting the range of the rough value, making and linear- transformation.The algorithm not only simplifies the pitch detection ,but also efficie- ntly decreases the estimation errors and improves the precision of estimated values.Key words:average magnitude difference function(AMDF);pitch period estimation 1 引言基音是指发浊音时声带振动起的周期性, 而基音周期是指声带振动频率的倒数。
基于随机共振的基音周期估计方法

所 谓 基 音 周 期 就 是 指 当发 浊 音 时 , 流 通 过 声 门 时 使 声 带 发 生 振 动 , 生 的准 周 期 激 励 脉 冲 串 的周 期 , 倒 数 称 为 “ 音 频 气 产 其 基
率 ” 1 实 际 中 , 话 人 努 力保 持 基 音 和 声道 形 状 的情 况 下 , 音 周 期也 都 不 能 够保 持 固定 , 是 随 时 间随 机 的 变化 的 , 一 特性 称 。[ l 在 说 基 而 这 为基 音 的 “ 动 ” 此 外 , 抖 ; 在一 个 音 中 , 邻 的几 个 基 音 周 期 的 声 门 波 幅度 也 会 有 变 化 , 一 特 性 称 为 幅度 “ 烁 ” 相 这 闪 。在 语音 分 析 中 , 为 了解 释 连 续 的周 期 声 门 波 的变 化 会按 周 期 交 替 出现 或 者 近 似 随 机 的 出 现 , 音 的 “ 动 ” “ 烁 ” 象 被 推 测 为 由一 个 潜 在 的 稳 定 基 抖 和 闪 现
系 统或 混 沌 系统 引 起 的 非线 性 行 为 。{ 2 1
根 据 基 音 的这 些 特 点 , 者考 虑 利 用 非线 性 随 机 共 振原 理 估 计语 音 信 号的 基音 周 期 。实现 随机 共 振需 要 三 个 基本 条 件 , 作 即非 线
性 系统 、 入 信 号 和 噪声 , 输 它分 利 用 信 号 、 噪声 与非 线 性 系统 的协 同作 用 实 现 弱周 期 信 号 频 率 的提 取 。进 一 步 的研 究 发现 , 用 参 数 利 调 节 可检 测 大信 号 的 频 率 。从语 音 产 生 的 机 理 出发 , 1 我们 知 道 产 生 语 音 的 生 源 主要 分 为 三种 : 期 性 、 周 噪声 和 冲击 性 生 源 , 且 这 而
[工学]第05讲 基音周期估计
![[工学]第05讲 基音周期估计](https://img.taocdn.com/s3/m/b9570f3a650e52ea55189839.png)
线性预测分析
线性预测分析的基本原理
H ( z)
基本概念:用过去的一组值估计(预测)新值 预测参数:LPC
设输出的语音信号为s(n) 激励信号为u(n),则
过去P个值的加 权求和-预测
G 1 ai z i
i 1 p
全极点模型,原因P70
s(n) Gu (n) a 'i s(n i )
经过中心削波 的语音通过自 相关运算后, 在基音周期的 位置呈现大而 尖的峰值,而 其余的次要峰 值幅度都很小 甚至没有。错 判为倍频或分 频的情况就可 以大大减少, 因此可以获得 更理想的性能。
基音频率=201.2381HZ
§3.8.2 平均幅度差函数法(AMDF)
• 此算法的核心是平均幅度差函数,这个函数同样具有与原序 列等同的周期,因此同样可以用来基音周期的检测。 • 由于函数中只需加法、减法和取绝对值等计算,因此算法很 简单,易于硬件实现,从而使得短时平均幅度差函数法在基 音检测中使用得相当普遍, • 研究表明,当语音信号的变化比较平缓时,AMDF法进行基 音周期估计可以得到较高的估计,即精度和可靠性,所需计 算量比较小,但是当语音信号的幅度或频率变化比较快时, AMDF法的基音估计精度会明显下降。噪音对AMDF法的影 响很大,鲁棒性较差。
语音信号的短时平均幅度差函数(AMDF) Fn(k)定义为:
Fn (k )
N k 1 m 0
S (m k ) S (m)
n n
Fn (k )
N k 1 m0
S
n
(m k ) S n (m)
峰值幅度逐渐下降,这使得 谷值点检测以及谷值点的清 晰度检查比较困难
i 1
改善基音估计准确度的有效途径

改善基音估计准确度的有效途径
杜立昌;朱仁峰;周辉
【期刊名称】《装备学院学报》
【年(卷),期】2005(016)005
【摘要】基音周期是语音信号处理中的重要参数,基音周期估计的准确度对合成语音的质量有决定性作用.讨论了多带激励(multi-band excitation,MBE)语音编码模型中,对自相关基音周期估计的2种改善方法:数值滤波和动态基音平滑技术,由此可以得到更精确的基音轮廓.实验证明:在多带激励语音编码模型中,结合这2种改进方法,可有效提高基音周期估计的准确度.
【总页数】4页(P108-111)
【作者】杜立昌;朱仁峰;周辉
【作者单位】装备指挥技术学院,电子工程系,北京,101416;装备指挥技术学院,电子工程系,北京,101416;装备指挥技术学院,电子工程系,北京,101416
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.基于幅度压缩滤波的清浊音分类及基音估计 [J], 徐静云;赵晓群;王峤;王缔罡
2.基于随机共振的基音周期估计方法 [J], 何朝霞;刘凯
3.加权短时自相关函数的基音周期估计算法 [J], 沈瑜;党建武;王阳萍;雷涛
4.基于随机共振的基音周期估计方法 [J], 何朝霞; 刘凯
5.一种语音信号基音周期时域估计算法 [J], 吴树兴
因版权原因,仅展示原文概要,查看原文内容请购买。
基音周期估计-共振峰估计-小结

峰的位置;若p不大,影响精度,可以采用抛物线插值技 术解决分辨率较低时的共振峰频率值的求取。
HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉
1 带通滤波器法
带通滤波器法类似于语谱仪,是共振峰提取的最早形 式,通过滤波器组的设计可以使估计的共振峰频率同人耳 的灵敏度相匹配。 滤波器的中心频率有两种分布方法:均匀分布,所有 带通滤波器的带宽相同;非均匀分布,如低频端间距小, 高频端间距大(带宽增加);
一、基音周期估计
• 基音周期是指声带振动频率的倒数,是语言信号最重 要的参数之一,在语音识别、说话人识别、语音分析、 语音编码中都有应用。 • 基音周期估计比较困难,目前还没有十分完善的方法 可以对于各类人群、各类应用都能获得满意的结果。 • 基音的检测和提取包括:自相关函数法ACF、峰值提取 算法PPA、平均幅度差函数法AMDF、并行处理技术、倒 谱法、SIFT、谱图法、小波法等。
HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉
二、共振峰估计
• 声道可以看成是一根具有非均匀截面的声管,在发声时 起共鸣器作用。 • 当准周期脉冲激励进入声道时会引起共振特性,产生一 组共振频率,称为共振峰频率或简称共振峰。 • 共振峰参数包括共振峰频率和频带宽度,它是区别不同 韵母的重要参数。 • 共振峰信息包含在语音频谱包络中,因此共振峰参数提 取的关键是估计自然音频包络,并认为谱包络中的最大 值就是共振峰。
峰值-前峰值 谷值 谷值+ 峰值 峰值-前谷值
两种基音周期检测方法

基音周期中两种算法常用的基音周期检测方法-自相关函数法、倒谱法、平均幅度差函数法都属于非基于事件基音检测方法,都先将语音信号分为长度一定的语音帧,然后对每一帧语音求平均基音周期,它们的优点是比较简单,主要应用于只需要平均基音周期作为参数的语音编解码,语音识别等。
自相关函数具有很好的抗噪性,但易受半频、倍频错误影响。
平均幅度差函数只需加法、减法和取绝对值等计算,算法简单;它们在无背景噪声情况下可以精确地提取的语音基音周期,但在语音环境较恶劣、信噪比较低时,检测的结果很差,难以让人满意。
2.1 基于短时自相关函数的方法能量有限的语音信号}{()s n 的短时自相关函数[10][11]定义为:10()[()()][()()]N n m R s n m w m s n m w m ττττ--==++++∑ (2.1)其中,τ为移位距离,()w m 是偶对称的窗函数。
短时自相关函数有以下重要性质:①如果}{()s n 是周期信号,周期是P ,则()R τ也是周期信号,且周期相同,即()()R R P ττ=+。
②当τ=0时,自相关函数具有最大值;当0,,2,3P P P τ=+++…处周期信号的自相关函数达到极大值。
③自相关函数是偶函数,即()()R R ττ=-。
短时自相关函数法基音检测的主要原理是利用短时自相关函数的第二条性质,通过比较原始信号和它移位后的信号之间的类似性来确定基音周期,如果移位距离等于基音周期,那么,两个信号具有最大类似性。
在实际采用短时自相关函数法进行基音检测时,使用一个窗函数,窗不动,语音信号移动,这是经典的短时自相关函数法。
窗口长度N 的选择至少要大于基音周期的两倍,N 越大,短时自相关函数波形的细节就越清楚,更有利于基音检测,但计算量较大,近年来由于高速数字信号处理器(DSP )的使用,从而使得这一算法简单有效,而不再采用结构复杂的快速傅里叶变换法、递归计算法等;N越小,误差越大,但计算量较小。
一种基音周期估计方法

一种基音周期估计方法
陈洪立
【期刊名称】《江西通信科技》
【年(卷),期】2004(000)002
【摘要】基音是语音信号中一个极为重要的参数.基音周期的估计在语音编码、语音合成和语音识别中有着广泛的应用,本文介绍了一种极为重要的SIFT(Simplified inverse filter tracking简化逆滤波跟踪)基音周期估计算法,并对该算法进行了仿真,仿真结果表明,SIFT基因周期估计算法具有较好的估计性能.
【总页数】3页(P31-33)
【作者】陈洪立
【作者单位】中国铁通萍乡分公司,江西,萍乡,337000
【正文语种】中文
【中图分类】TN9
【相关文献】
1.一种基于基音周期估计的音频水印算法 [J], 付永庆;孙滢
2.一种高性能汉语语音基音周期估计方法 [J], 李祖鹏;姚佩阳
3.一种改进的混合激励线性预测的基音周期估计算法 [J], 吕声;王炳锡
4.一种新的鲁棒基音周期估计算法 [J], 高戈;胡瑞敏;艾浩军;李德仁
5.一种语音信号基音周期时域估计算法 [J], 吴树兴
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号的短时平均幅度差函数 定义为: 语音信号的短时平均幅度差函数(AMDF) Fn(k)定义为: 短时平均幅度差函数 定义为
Fn (k ) =
N − k −1 m =0
∑S
n
( m + k ) − S n ( m)
Fn (k ) =
N − k −1 m =0
∑
S n (m + k ) − S n (m )
以一个二阶预测器为例,求aj 第一步、求Rn(0),Rn(1),Rn(2)得方程
第二步、按左示步骤递推 1、i=0,a1(0)=1,E0=Rn(0) 2、 i=1(1)k1=Rn(1)/E0 (2) a1(1)=k1 (3)不执行 a1(0) (4)E1=(1-k12)E0 i=2(1)k2=[a1(1)Rn(-1)+Rn(2)] (2)a2(2)=k2 (3)a1(2)=a1(1)-k2a1(1) (4)E2=(1-k22)E1 3、a1=a1(2),a2=a2(2)
G 1− ∑ai z−i
i =1 p
全极点模型,原因P70
s(n) = Gu(n) + ∑a 'i s(n − i)
i =1
p
这些系 数如何 求?
怎样求ai? 方法多样。其中一种: 方法多样。其中一种: 怎样求 则称c(n)为误差。 i =1 在最小均方误差准则下,可确定一组系数ai,称为线性预测系 在最小均方误差准则下,可确定一组系数 ,称为线性预测系 数(LPC) (Linear Predictive Coefficients) (1)线性预测方程组的建立 1、线性预测系数求解
Rn (0) Rn (1) a1 Rn (1) R (1) R (0) a2 = R (2) n n n
§3.8 基音周期估计
• 基音是指发浊音时声带振动所引起的周期性,基音周期是 基音是指发浊音时声带振动所引起的周期性,基音周期是 是指发浊音时声带振动所引起的周期性 指声带振动频率的倒数。 指声带振动频率的倒数。 • 基音周期信息在多个领域有着广泛应用。 基音周期信息在多个领域有着广泛应用。 • 基音提取的主要困难: 基音提取的主要困难:
n n n p n
2 求解该矩阵的一种常用递推算法 - Levinson-Durbin
递推次数 递推步骤:
初值
(0)=1
递推0次时的a值
1、i=0,E0=Rn(0), a1 2、i从1到p计算: 1 i −1 (i −1) (1) ki = ∑ a j Rn ( j − i) E j =0 (i)=k i −1 (2) ai i (3) j从1到i-1计算 aj(i) = aj(i-1) – kiai-j(i-1) (4) Ei = (1-ki2)Ei-1 3、aj = aj(p)
• 语音信号 语音信号s(m)经窗长为 的窗口截取为一段加窗语音信号 经窗长为N的窗口截取为一段加窗语音信号 经窗长为 Sn(m)后,定义 n(m)的自相关函数 后 定义S 的自相关函数(ACF)Rn(k)(亦即语音信 亦即语音信 的短时自相关函数)为 号s(m)的短时自相关函数 为: 的短时自相关函数
Φ( j,0) = ∑ ai Φ( j, i) (1 ≤ j ≤ p)
i =1
p
s(n) = Gu(n) + ∑a 'i s(n − i)
i =1
p
s '( n ) = ∑ ai s ( n − i )
i =1
p
(2) 线性预测增益 ) 最小预测误差e(n) = s(n) – s’(n) 。 最小预测误差
e( n ) = s ( n ) − s '( n ) = s ( n ) − ∑ ai s ( n − i )
i =1
A( z ) = 1 − F ( z )
= 0 求出一组系数ai
显然 H ( z ) = 均方 误差
2
G A( z )
2
σe = ∑ e (n)
n
A(z)称为“逆滤波器”或“预测误差滤波 器” ∂σ 2
Rn (2) Rn (1)
... Rn ( p −1) a1 ...
n 2
Toeplitz矩阵
Rn ( p − 2) Rn ( p − 3) ...
R (1) a R (2) R ( p − 2) = .. .. .. a R ( p) R (0)
§3.8.1 自相关法
• 自相关函数周期与原序列周期等同,由此利用自相关函数而 自相关函数周期与原序列周期等同, • 提出的一种短时基音检测算法称为自相关函数法。 提出的一种短时基音检测算法称为自相关函数法。 • 此算法比较适合于噪声环境下的基音提取。但通常情况下, 此算法比较适合于噪声环境下的基音提取。但通常情况下, 基音频率与第一共振峰频率比较接近, 基音频率与第一共振峰频率比较接近,当声道响应的自相关 峰大于基音周期的自相关峰时, 峰大于基音周期的自相关峰时,单独使用自相关函数会导致 半倍和双倍基音的提取误差。 半倍和双倍基音的提取误差。
– – – – 声门激励信号并不是一个完全周期的序列 声道共振峰有时会严重影响激励信号的谐波结构 语音信号是准周期的,受共振峰结构、噪声的影响。 语音信号是准周期的,受共振峰结构、噪声的影响。 基音周期变化范围大
• 基音检测算法:自相关函数(ACF)法、峰值提取算法 基音检测算法:自相关函数 法 (PPA)、平均度差函数 、平均度差函数(AMDF)法、并行处理技术、倒谱 法 并行处理技术、 法、SIFT、谱图法、小波法等等。 、谱图法、小波法等等。
e(n)是随机序列, 均方误差表示为 s '( n ) = 预测值 集平均?时间平 均?
若
c(n) = s(n) − ∑ ai s(n − i)
p
F ( z ) = ∑ ai z − i
i =1
p
∑ a s (n − i )
i =1 i p
p
s(n) s(n)
F(z) A(z)
s’(n) e(n)
预测误差
i =1
P i =1 Yule-Walker方 程
P
m
线性预测方程
(1 ≤ j ≤ p)
P
En = Φ(0,0) − ∑ ai Φ(0, i) = Rn (0) − ∑ ai Rn (i)
写成矩阵形式
i =1
R (0) R (1) .. R ( p −1)
n n n
Rn (1) Rn (0)
令
e
∂ai
按前述方法,对误差求偏倒数,并令其为0,可得方程组
En = ∑ e
∂En ∂a j
n
2
( n) =∑ [ s (n) − s '(n)] = ∑ [ s ( n) − ∑ ai s (n − i )]2
2 n
p
= 2∑ s(n)s(n − j ) − 2∑ ai ∑ s(n − j )s(n − i) = 0
Rn (k ) =
N − k −1 m =0
∑S
n
( m) S n ( m + k )
• Rn(k)不为零的范围为是 不为零的范围为是k=(-N+1)~(N—1),且为偶函数。 不为零的范围为是 ~ ,且为偶函数。
窗函数——矩形窗 矩形窗 窗函数 窗长——大于两个基音周期 窗长 大于两个基音周期 减少共振峰的影响: 的带通滤波器( 减少共振峰的影响:60-900Hz的带通滤波器(50Hz电源干 的带通滤波器 电源干 最高基音周期450) 扰、最高基音周期 ) 求自相关之前进行非线性变换:中心削波( 求自相关之前进行非线性变换:中心削波(共振峰信息含 在低幅度部分、基音信息含在高幅度部分) 在低幅度部分、基音信息含在高幅度部分)
峰值幅度逐渐下降,这使得 谷值点检测以及谷值点的清 晰度检查比较困难
F nW
N − k +1 1 (k ) = ∑1 S n ( m + k − 1 ) − S n ( m ) N − k + 1 m=
基音频率=201.3474HZ
改进方法:AMDF与ACF相结合
• 基本思路如下:1、预处理。首先采用滤波法和中心削波 基本思路如下: 、预处理。 法处理信号,减小高频信号干扰; 、基音检测核心流程。 法处理信号,减小高频信号干扰;2、基音检测核心流程。 以短时自相关函数、平均幅度差函数相除之商作为检测流 以短时自相关函数、 程的核心函数检测基音,在本算法、自相关法和平均幅度 程的核心函数检测基音,在本算法、 差法基音检测结果中加入判断机制来决定最终的基音周期 值;3、对求得的基音进行后处理,包括分频、倍频消除 、对求得的基音进行后处理,包括分频、 和奇点去除。 和奇点去除。
原始语音
加噪语音
对上述基音检测结果的进一步讨论
• 噪音对语音段开头和结尾的基音检测有比 较明显影响。高信噪比语音波形时,语音段开头是静音段,
不存在周期;加上噪音后,噪音没有周期,这个语音段的开头应该还 是非周期帧,但自相关法和本文算法都算出各自的周期值,这种周期 属于伪周期。语音段末尾为周期帧,由于它的能量小于噪音的能量, 在加上噪音后,这部分语音段波形完全被噪音覆盖,它们的波形显示 出噪音波形不再具有任何的周期性质,此时两种算法都没有检测到周 期结果。在语音段中间,由于信号能量强,加上噪音后,对它影响较 小,它的周期性没有被破坏。
n
p
n
i =1
∑ s ( n) s ( n − j ) = ∑ a ∑ s ( n − j ) s ( n − i )
n i =1 i n
p
i =1
n
线性预 测的标 准方程组
若定义
Φ( j , i ) = ∑ s(n − i ) s(n − j )