语音基音周期的估计
基音周期的优化算法
![基音周期的优化算法](https://img.taocdn.com/s3/m/4b618736aaea998fcc220ed4.png)
脚
= a r g m i n [ E V  ̄ U  ̄ r ( v ) J
( 4 )
由以上推导过程可以看出 , 式( 3 ) 比 式 ( 1 ) 减少了 ( 2 Ⅳ一
f ) ( z 一 ) / 2 次 减法 和( 2 N一 i 一 ) ( 彳 一一 ) / 2次加 法运 算, 算法 得到简 化。
来 完成 。
半计算 时间。
^ / k ^ ^ / X ^ ^ ^ / X / N ^ X ^ X ^
、X
语 音 识 别 的 首 要 步 骤 是特 征 提取 ,特 征 的选 择 对 识 别 效 果
至关重要 ,选择的标准应该体现 对异 音字特征 间的距离尽可能 的 最 大 化 ,同 音 字特 征 间 的距 离尽 可 能 的小 。 同时 ,还 要 考 虑
v a r i e d - l e n g t h a v e r a g e ma g n i t u d e d i f f e r e n c e f u n c t i o n)和 变 长 自相 关 ( V L AC v a r i e d - l e n g t h a u t o — c o r r e l a t i o n)函数 的基 音 估计 。 1 V L A MD F 基 音估 计 及 其优 化 算法
( 8 )
从式 ( 5 )中可 以看 出 ,用 自相 关 法估 计 基 音周 期 需要 计 算
为 了减少函数乘法的计算次数 ,本文提 出如下的变长 自相
关 基 音估 计 方 法 。
语音信号的最大特 征是短时平稳 性 ,即时域波形 的周期 间 隔相似性 。平均幅度差函数通过比较原始信号 及其 时移信号 的 相 似 性来 估算 语 音信 号 的基 音 周期 。 短时平均幅度差函数定义为:
语音信号处理15.ppt
![语音信号处理15.ppt](https://img.taocdn.com/s3/m/1a20ebdbed3a87c24028915f804d2b160b4e86dd.png)
基音周期估值在语音信号处理应用中具有十分 重要的作用。本节介绍语音信号基音周期估值 最基本的两种方法:
基于短时自相关法的基音周期估值 基于短时平均幅度差函数法的基音周期 估值
1
3.6 基音周期估值
1. 基于短时自相关法的基音周期估值
语音的浊音信号具有准周期性,其自相关函 数在基音周期的整数倍处取最大值。计算两相邻 最大峰值间的距离,就可以估计出基音周期。
因此,可以通过计算短时平均幅度差函数中两相邻
谷值间的距离来进行基音周期估值。
这里使用修正的短时平均幅度差函数并加矩形窗,
得到:
N 1
rn (k) | x(n) x(n k) |, k 0,1, , N -1 (3.6-3)
n0
10
3.6 基音周期估值
图3.6-7 浊音信号的AMDF
11
3.6 基音周期估值
AMDF函数与短时自相关函数的不同是:
自相关函数进行基音周期估计时寻找的是最大峰值点的位置 AMDF寻找的是它的最小谷值点的位置
由于清音没有周期性,所以它的自相关函数和平均幅度差 函数均不具有准周期性的峰值或谷值。
12
基音周期估值的后处理
在提取基音时,无论采用哪种方法提取的基音频率 轨迹与真实的基音频率轨迹都不可能完全吻合。
图3.6-3 中心削波前后修正自相关函电平削波 为了克服短时自相关函数计算量大的问题,在中
心削波法的基础上,还可以采用三电平削波法,削波 函数如下式
1 f (x) 0
1
x xL xL x xL x xL
(3.6-2)
f(x)
1
-xL
O xL
x
-1
图3.6-4 三电平削波函数
语音基音周期精确测量方法研究
![语音基音周期精确测量方法研究](https://img.taocdn.com/s3/m/97e5645f3c1ec5da50e270fd.png)
—
期测 量 的影 响 , 高基 音周期 测量 的准 确率 。 提 该算 法 适 用于基 音分 离 ,对 于语音合 成 和语 音合成 工作 具
有 指导 意义 。
参 考 文献
[] 1黄煜 , 陈克安 , 郑文. 声样本质量及其在声 品质评价 中的应用 ll J 电 _ 声技术. 0 8 3 ( :0 4 . 20 ,23)4 — 3 f1 飞 , 2李 覃爱娜 , 赖旭 芝. 过渡音 的基 音周期检测方 法. 中南大 学学
上 扬趋 势 , 与图 2共振 峰 图走 势 一致 。
7 6 5 4 3 2 l O
一 一 叵 繇
4 结 语
本文基于短时 自 相关算法 ,根据语音信号共振
峰 频谱 图 的特点 , 对语 音信 号进 行低 通滤 波 预处理 ,
【1 3 陈小利 , 徐金甫. 基于小波变换和时域波形 的基音检测算[ ]现代 J. 电子技术 , 0 1 3 (1 :7 9 2 1 , 4 ) 7 —7 . [] 4 郑继 明, 王劲松. 语音基音周期检测方法ll J 计算机丁程. 0 0 3 ( _ 2 1 ,6
…
…
…
…
…
…
…
。
蕊
语 音 音周 期 精确 测量 方法 研 究 旧 日基
沈 阳 南 京 邮电大 学硕 士研 究 生 王 曾泉 南 京 邮电大 学硕 士研 究 生
摘要 : 文章 对短 时 自相 关测语 音基 音周期 的方法
进行 改进 ,提 出一种精 确的基音周期 测量方法 。 根据 语音共 振峰 的特点 , 滤除 高频分 量 , 降低 语 音 短 时周 期 性 对 基 音 周期 测量 的影 响 。
语音信号的自相关基音周期检测
![语音信号的自相关基音周期检测](https://img.taocdn.com/s3/m/805fa2571611cc7931b765ce0508763231127426.png)
语音信号的自相关基音周期检测语音信号是一种人类最基本的交流方式,它包含人声的频率、强度和时间三个方面的信息。
语音信号的自相关和基音周期是语音信号分析中的重要技术,对于语音信号分析、识别、合成等应用有着积极的作用。
一、语音信号的自相关语音信号的自相关是指语音信号的样本与样本之间的相关性。
在语音信号中,相邻的样本之间一般都具有相关性,该相关性可以通过计算信号的自相关函数获得。
自相关函数描述了语音信号在不同延迟情况下的相似程度,也就是说,自相关函数可以反映语音信号的周期特征和基音周期。
二、语音信号的基音周期检测语音信号的基音周期是指人语中相邻两个基音周期之间的时间长度。
基音周期检测是一项关键的语音信号分析技术,在音素识别、语音合成、语音编码等领域应用广泛。
基音周期检测方法主要有三种:自相关法、FFT法和LP法。
自相关法是指通过计算信号与自身在不同延迟下的相似度,判断语音信号的基音周期。
具体来说,自相关法首先将语音信号进行预加重和分帧处理,然后计算每一帧的自相关函数,最后采用模板匹配的方法找到最强的周期峰值,从而得到基音周期。
FFT法则是将分帧后的语音信号进行傅里叶变换,提取频谱信息,并通过在频域滑动一个窗口,检测周期性的能量最大值,确定基音周期数。
LP法是通过线性预测,将语音信号分解成具有不同频率的谐波分量,然后利用实验数据验证模型,得到基音周期。
总的来说,不同的基音周期检测方法有其各自的优缺点。
自相关法较为简单但在噪声环境下准确度不高,FFT法可以检测到非周期性的基音,但精度不如自相关法,LP法精度较高但计算复杂度较大。
作为一门复杂的反演问题,语音信号的自相关和基音周期检测一直是语音处理研究中的重要问题,目前的研究主要集中在解决语音信号分析和识别中的实际问题和应用,为提高语音合成、语音编码等方面的应用水平提供技术支持。
基音周期预测
![基音周期预测](https://img.taocdn.com/s3/m/e84b71c0bb4cf7ec4afed078.png)
专业班级组别成员实验内容:编程求解出各自声音信号的基音周期。
1 程序代码(或者软件流程图等)(1)function zhouqi=jiyinzhouqi(filename)%帧长和帧位移是重要的参数,位移是帧长的0~1/2%短时自相关分析%filename语音文件*.wav%zhouqi基音周期,以毫秒为单位表示[signal,fs]=wavread(filename); %用于得到声音文件的数据和采样率shift=0.02; %每次移动20毫秒shift=round(fs*shift); %帧移n1=fix(fs*0.01)+1; %分析起点0.01ms,帧长20msn2=fix(fs*0.03)+1;shift_count=fix((length(signal)-n1)/shift);value =zeros(1,shift_count); %存放每次移位后的帧的基音周期for ii=1:shift_count %分析次数if n2<length(signal) %防止溢出data=signal(n1:n2); %加窗,提取一帧数据N=n2-n1+1; %每一帧的长度R=zeros(1,N); %创建一个一行N列的矩阵for k=1:N-1 %求自相关序列for jj=1:N-kR(k)=R(k)+data(jj)*data(jj+k); %矩阵用于储存每次自相关的结果; endendvalue(ii)=find_maxn(R); %调用基音周期分析函数,求最大值所对应的位置,即基音周期n1=n1+shift; %移动帧,计算下一帧的基音周期n2=n2+shift;endendfigure(1)stem(value); %画出基因周期走势图axis([0 length(value) 0 1000])aver=mean(value); %基音周期的平均值,未去除野点value=value(logical(abs(value-aver)<=aver/5));%找出偏移均值超出均值的1/5的基音周期,将其去除len= length(value); %去除大野点后剩余的基音点数for jj=1:3:len/3 %中值平滑,滑动窗口宽度3,精度为中值1/4(剔除野点)average=(value(jj)+value(jj+1)+value(jj+2))/3;for kk=1:3if abs((value(jj-1+kk))-average)>average/4value(jj-1+kk)=0; %将野点置零,同时数组长度减一endendendvalue=value(( value~=0)); %出去所有野点后的基音周期数组len= length(value); %去除野点以后的基音点数figure(2)stem(value);axis([0 length(value) 0 max(value)])zhouqi=1000*sum(value)/len/fs; %求平均的基音周期,单位是毫秒(2) function nmax=find_maxn(r) %寻找峰值最大的n值及基音周期%r,自相关序列%maxn,为峰值最大的nzer=find(r==0); %找第一个零点如果存在jiaocha=0; %找第一近零点ii=1;while (jiaocha<=0)if(r(ii)>0 && r(ii+1)<0 && (ii+1)<length(r))jiaocha=ii;endii=ii+1;if ii==length(r) %没有找到符合要求的点jiaocha=1;endendif length(zer)>0 %检查是否存在零点if zer(1)<jiaocha %存在,则和jiaocha比较大小,用于祛除前点的对基音周期的查找带来的影响jiaocha=zer(1);endendr(1:jiaocha)=0; %祛除影响maxn=max(r); %找最大值temp=find(r==maxn); %返回第一个最大值nmax=temp(1);(3) function zhouqi=get_frq_frame(filename)%帧长和帧位移是重要的参数,位移是帧长的0~1/2%短时自相关分析%filename语音文件*.wav%zhouqi基音周期,以毫秒为单位表示[signal,fs]=wavread(filename);%用于得到声音文件的数据和采样率shift=0.02; %每次移动20毫秒shift=round(fs*shift); %帧移n1=fix(fs*0.01)+1; %分析起点0.01ms,帧长20msn2=fix(fs*0.03)+1;shift_count=fix((length(signal)-n1)/shift);value = zeros(1,shift_count); %存放每次移位后的帧的基音周期zhouqi = zeros(1,shift_count); %存放每次移位后的帧的基音周期for ii=1:shift_count %分析次数if n2<length(signal) %防止溢出data=signal(n1:n2); %加窗,提取一帧数据N=n2-n1+1; %每一帧的长度R=zeros(1,N);for k=1:N-1 %求自相关序列for jj=1:N-kR(k)=R(k)+data(jj)*data(jj+k);endendvalue(ii)=find_maxn(R); %调用基音周期分析函数,求最大值所对应的位置,即基音周期n1=n1+shift; %移动帧,计算下一帧的基音周期n2=n2+shift;zhouqi(ii) = 8000/value(ii);endendfor ii=1:length(zhouqi)if zhouqi(ii)==0zhouqi(ii) = [];endendplot(zhouqi);2 程序使用说明(1) function zhouqi=jiyinzhouqi(filename)① 函数基音周期是计算所采样的声音的平均基音周期的函数,函数使用加窗计算自相关函数的办法,通过帧移得到不同位置加窗信号的相关性,然后用矩阵R储存相对应的n2-n1+1个自相关值。
含噪语音的基音周期提取算法
![含噪语音的基音周期提取算法](https://img.taocdn.com/s3/m/a9868923cfc789eb172dc88a.png)
资助项 目 江苏 省科 技创 新与 成果 转化 专项
( E 0 83 ) 江 苏 省 “ 大人 才 高峰 ” 目资 B 2 0 19 ; 六 项
主要是通过综合分析语音信号 的波形特征来进行 的, 而不是单单运 用 了语音信号的幅值信息. 文献 [ ] 出, 5指 首先要对语音信号进行相
2 一 I I + J<卢 n=2 34 )j / , , ,.
未 鏖. 学 学 自 科 版, 141:- z 报:然 学 2 2 ( 77 0 , ) 04
Jun f aj gU i rt o If m t nSi c n eh o g : a r c n e dtn 2 1 , ( ) 7 - o ra o N n n nv sy f n r a o c neadT c nl y N t a S i c i ,0 24 1 : 7 l i e i o i e o ul e E i o 04
滑, 从而 得 出最 终 的基音 周期 .
1 时域 波形 匹 配 法提 取 基 音 周 期 的原 理
通 常情况 下 , 语音信 号 总是 以时域 波 形 来描 述 和 记 录 的 , 过 人 通
眼就可 以大 致地判 断 出语 音信 号 的基 音 周 期 . 这个 估 计 的过 程 中 , 在
基 音 周 期 . 真 实验 表 明 : 传 统 的 基 音 仿 与 周 期提 取 方 法 相 比 较 , 提 方 法 在 基 音 所
周 期 提 取 的 准 确 度 方 面有 很 大 的提 高. 关 键 词 基 音 周 期 ; 噪 ; 形 信 息 ; 音 降 波 基
检 坝 4
通过利用语音信号的幅值信息或者频率信息来进行基音周期 的提取 的 , 没 有充分 利用 信号本 身 的一些 形 状 特征 . 际语 音在 产 生 的过 并 实
《语音信号处理》实验2-基音周期估计
![《语音信号处理》实验2-基音周期估计](https://img.taocdn.com/s3/m/173df9df360cba1aa811da52.png)
华南理工大学《语音信号处理》实验报告实验名称:基音周期估计姓名:学号:班级:10级电信5班日期:2013年5 月15日1.实验目的本次试验的目的是通过matlab编程,验证课本中基音周期估计的方法,本实验采用的方法是自相关法。
2. 实验原理1、基音周期基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。
基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。
因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。
由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。
基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。
②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容易。
③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。
④基音周期变化范围大,从老年男性的50Hz到儿童和女性的450Hz,接近三个倍频程,给基音检测带来了一定的困难。
由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。
尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT、谱图法、小波法等等。
基于CEP和LPC谱提取语音信号基音周期的方法
![基于CEP和LPC谱提取语音信号基音周期的方法](https://img.taocdn.com/s3/m/3d4a0f3b87c24028915fc3d4.png)
( 5) 对 截取 加 窗后 的 一帧 语 音信 号 AMP 进 行 CEP 和 L PC 谱分 析, 观察波 形图, 估 计基音周期。如 图 2, 图 3 所示。
LPC 谱( 左 ) 和CEP 谱 ( 右 ) 的讨论
对一帧语音信号做 CEP 谱和 L PC 谱都能准 确地 分析出语音信号的基音周期。 L P C 谱图波峰位置恰好 对应 CEP 谱图中的波谷位置 ; 波形基本上关于横轴对 称; LP C 谱估计基音周期 , 可以采用离开原点的第一个 波谷出现的样值点除以采样频率 ; 而用 CEP 谱图估计 基音周期 , 可以采用离开原点的第一个波峰出现的样点 值除以采样频率[ 7] 。 但是 , 在语音信号分析过程中窗长的选择对于语音 特征参数的选择是非常重要的 , 如果窗长很大, 当语音 信号通过时, 反映波纹细节的高频部分被阻碍, 短时能
0 引
言
1 1. 1
同态分析 同态信号处理的原理 同态信号处理也称为同态滤波, 实现将卷积关系和
语音信号的分析 , 就是提取语音产生模型的各种参 数( 语音的特征参数 ) , 应用于语音的编码、 识别和合成 等。不论是分析怎样的参数以及采用什么分析方法, 在 按帧进行语音分析, 提取语音特征参数前, 有一些经常 使用的、 共同的短时分析技术必须预先进行, 如语音信 号的数字化、 预加重、 加窗和分帧等。经过这些处理, 语 音信号就被分割成一帧一帧加过窗函数的短时信号, 然 后再把每一个短时语音帧看成平稳的随机信号, 利用数 字信号处理技术提取语音特征参数。 在进行处理时, 按帧从数据区中取出数据 , 处理完 后再取下一帧。 最后得到由每一帧参数组成的语音特征 参数的时间序列。基音周期是语音信号最重要的参数 之一 , 它描述了语音激励源的一个重要特征。因为汉语 言是一种有调语言, 基音的变化模式称为声调 , 它携带 着非常重要的具有辨意作用的信息 , 有区别意义的功 能, 所以基音周期的提取和估计对汉语言更是一个十分 重要的问题。
09语言信号处理第九章语音检测分析
![09语言信号处理第九章语音检测分析](https://img.taocdn.com/s3/m/41e58202de80d4d8d15a4fb0.png)
�
下图为语音信号对数频谱示意图. 下图为语音信号对数频谱示意图.
频谱包络的慢变分量 虚线所示) (虚线所示) 基音谐波峰值 的快变分量 实线所示) (实线所示)
幅度
频率Hz
通过滤波或再取一次傅立叶反变换,即可将 慢变分量与快变分量分离开. 下图为倒谱的示意图.
幅度
靠近原点的低 倒频部分是频 谐波峰值的变 谱包络的变换换,表示基音. 表示基音.
C[x]
-CL
+CL
x
CL 由语音信号的峰值幅度来确定
(2)中心削波后的语音再计算自相关函数,求第 )中心削波后的语音再计算自相关函数, 一最大峰值点
中心削波示意图
输入语音
中心削 波后的 语音
计算自相关函数的运算量是很大的,可用一些 减少短时自相关运算的有效方法. 如可对中心削波函数进行修正. 如可对中心削波函数进行修正.
第九章 语音检测分析
基音检测
自相关法 倒谱法 简化逆滤波法
共振峰估计
倒谱法 LPC法 LPC法
9.1 基音周期估计
基音是指发浊音时声带振动所引起的周期 性
基音周期是语音信号最重要的参数之一,也称 是语音产生模型中激励源的一个重要参数 对汉语:是一种有调语言,基音的变化模式称为声调, 对汉语:是一种有调语言,基音的变化模式称为声调, 它携带着非常重要的具有辨意作用的信息. 它携带着非常重要的具有辨意作用的信息.
∑| x
w
(m + k ) x w (m) |
也呈现周期性. 对于周期性的 x(n) ,γ n (k ) 也呈现周期性. 与自相关函数相反,在周期的各整数倍点上 γ n (k ) 与自相关函数相反, 具有的是谷值,而不是峰值. 具有的是谷值,而不是峰值.
语音识别技术中的声纹特征提取方法
![语音识别技术中的声纹特征提取方法](https://img.taocdn.com/s3/m/83759327cbaedd3383c4bb4cf7ec4afe05a1b169.png)
语音识别技术中的声纹特征提取方法声纹识别技术是一种基于人声信号的生物识别技术,通过分析声音中独特的声纹特征,实现对个体身份的准确识别。
声纹特征提取方法是声纹识别技术中的核心环节,决定了识别性能的优劣。
本文将介绍几种常用的声纹特征提取方法,并对其原理和优缺点进行分析。
一、时域特征提取方法时域特征提取方法主要基于声音信号的时序特点,常用的特征包括基音周期、语调、能量等。
1. 基音周期:基音周期是指声音波形中基音振动周期的长度,具有很强的个体差异性。
基于基音周期的特征提取方法主要包括自相关法和互相关法。
自相关法通过计算信号与其自身在不同时间偏移下的互相关系数,来提取基音周期信息。
互相关法则是通过计算两个不同信号之间的互相关系数,来提取基音周期信息。
2. 语调:语调是指声音信号的音高。
不同个体的音高存在一定差异,可以用于声纹特征提取。
语调特征提取方法主要基于基频和基频变化率的计算。
3. 能量:能量是指声音信号的强度。
不同个体的声音在能量上也存在差异,因此能量特征可以用于声纹识别。
能量特征提取方法一般通过计算声音幅度的均方差或绝对值来得到。
二、频域特征提取方法频域特征提取方法基于声音信号在频域上的表现,常用的特征包括音谱、倒谱、Mel频谱等。
1. 音谱:音谱是指声音信号在频域上的幅度谱。
音谱特征提取方法通过对声音信号进行傅里叶变换,将其转换为频域表示,然后提取幅度谱信息。
2. 倒谱:倒谱是将音频信号的频域表示转换为倒谱表示的方法。
倒谱特征提取方法先将声音信号进行傅里叶变换得到音谱,然后进行对数变换和逆傅里叶变换得到倒谱。
3. Mel频谱:Mel频谱是一种对音频信号频域表示进行处理的方法。
Mel频谱特征提取方法通过将频谱映射到Mel频率刻度上,再进行对数变换。
三、时频域特征提取方法时频域特征提取方法是将时域特征和频域特征结合起来,综合考虑声音信号的时序和频率特征。
1. 小波变换:小波变换是一种时频分析方法,可以将声音信号分解为不同尺度和频带的子信号。
语音基音周期估计基础
![语音基音周期估计基础](https://img.taocdn.com/s3/m/c3be7e68178884868762caaedd3383c4bb4cb4e8.png)
语⾳基⾳周期估计基础先说下为什么要检测语⾳基⾳周期(1)基⾳决定了语⾳的⾳调。
汉语是⼀种有调的语⾳,同⼀句话,语调不同,意义差别⾮常⼤,准确的检测语⾳的基⾳周期,有利于“理解”话语中的意思。
(2)语⾳合成、声调控制等⾳效果制作的需要。
再说下什么是基⾳周期按照经典的语⾳激励模型,声带周期性的张开和闭合所需要的时间,就是指基⾳的周期(假如声带某次从开启到闭合的时间为4ms,那么,它的基⾳频率为250Hz)。
很显然,要准确的检测基⾳周期,需要尽可能的先去掉声道模型和辐射模型的⼲扰。
⼀般来说,男性的基⾳频率约为50Hz~250Hz,⼥性的基⾳频率约为:100Hz~500Hz,所以我们通常把基⾳频率的上限限制为500Hz,同时,⼜由于50Hz对应的是交流电的⼯频频率,难以去掉它的噪声⼲扰,所以这个频率检测时也不予考虑。
综上,基⾳频率的检测范围在60Hz~500Hz或者70Hz~500Hz⽐较好。
基⾳周期检测的困难(1)有些⾳的发⾳不具有声带的震动,通常这些⾳为过渡⾳。
(2)基波的分量往往不是最强的分量,容易把⼀些浊⾳的谐波当做基波(这是因为经过声道激励后,⼀些谐波分量变的⽐较强)(3)基⾳周期变化范围⼤,从⽼年男⼈的50Hz到⼉童和⼥性的500Hz,给检测带来了⼀定的困难。
基⾳周期检测预处理(1)端点检测(多媒体核⼼技术群中在2015-04-18⽇已经讲过了)(2)带通滤波(60Hz~500Hz),尽可能去掉声道模型和辐射模型的⼲扰(去掉50Hz是为了避免⼯频噪声的⼲扰)基⾳周期估计的⽅法(1)平均幅度差法 语⾳的浊⾳,通常会呈现出⼀定的周期性,这个周期性与基⾳的周期⼀致,通过计算平均幅度差,来找到这个周期,就可以得到基⾳的周期。
(2)相关法 同样的道理,通过计算语⾳信号的⾃相关特性,并寻找相应的周期性,也可以得到语⾳的基⾳周期(3)倒谱法 使⽤倒谱处理,使得脉冲激励与声道响应进⾏分离,再查找最⼤值,就可以得到语⾳的基⾳周期(4)线性预测法 这类⽅法是先利⽤线性预测法,得到预测系数,再⽤这些系数去重建信号,这样就弱化了声道响应的影响。
利用平均幅度差函数法进行基音周期估计-Read
![利用平均幅度差函数法进行基音周期估计-Read](https://img.taocdn.com/s3/m/6f8d3b78f01dc281e53af07b.png)
Speech Pitch Period Estimation Based on AMDF Abstract:Pitch period is a key parameter in speech compression , synthesis andrecognition. The well-known AMDF is often used to determine this parameter.But it is easy to make the estimated pitch doubled.According to the conventional speech- generating mode AMDF, the paper refers to a new speech pitch determination algor- ithm which bases on AMDF. The new method can resolve both the error by searching "the first trough" and the reduplication by searching "the minimal trough". It can win more accurate results by forecasting the range of the rough value, making and linear- transformation.The algorithm not only simplifies the pitch detection ,but also efficie- ntly decreases the estimation errors and improves the precision of estimated values.Key words:average magnitude difference function(AMDF);pitch period estimation 1 引言基音是指发浊音时声带振动起的周期性, 而基音周期是指声带振动频率的倒数。
自相关函数的应用——语音周期检测
![自相关函数的应用——语音周期检测](https://img.taocdn.com/s3/m/b1c84245336c1eb91a375dc6.png)
基音周期检测——自相关函数法一、基音周期相关知识简介人在发音时,根据声带是否震动可以将语音信号分为清音跟浊音两种。
浊音又称有声语言,携带着语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。
发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。
这种声带振动的频率称为基音频率,相应的周期就成为基音周期[4]。
通常,基音频率与个人声带的长短、薄厚、韧性、劲度和发音习惯等有关系,在很大程度上反应了个人的特征。
此外,基音频率还跟随着人的性别、年龄不同而有所不同。
一般来说,男性说话者的基音频率较低,大部分在70~200Hz 的范围内,而女性说话者和小孩的基音频率相对较高,在200~450Hz 之间。
基音周期的估计称谓基音检测,基音检测的最终目的是为了找出和声带振动频率完全一致或尽可能相吻合的轨迹曲线。
基因周期作为语音信号处理中描述激励源的重要参数之一,在语音合成、语音压缩编码、语音识别和说话人确认等领域都有着广泛而重要的问题,尤其对汉语更是如此。
汉语是一种有调语言,而基因周期的变化称为声调,声调对于汉语语音的理解极为重要。
因为在汉语的相互交谈中,不但要凭借不同的元音、辅音来辨别这些字词的意义,还需要从不同的声调来区别它,也就是说声调具有辨义作用;另外,汉语中存在着多音字现象,同一个字的不同的语气或不同的词义下具有不同的声调。
因此准确可靠地进行基音检测对汉语语音信号的处理显得尤为重要。
二、自相关函数法原理能量有限的语音信号}{()s n 的短时自相关函数[10][11]定义为:10()[()()][()()]N n m R s n m w m s n m w m ττττ--==++++∑(2.1)其中,τ为移位距离,()w m 是偶对称的窗函数。
短时自相关函数有以下重要性质:①如果}{()s n 是周期信号,周期是P ,则()R τ也是周期信号,且周期相同,即()()R R P ττ=+。
FB41参数说明
![FB41参数说明](https://img.taocdn.com/s3/m/e6f1264302d8ce2f0066f5335a8102d276a261e8.png)
FB41参数说明FB41是一个用于处理语音的参数,主要用于声码器和超声波评测中。
FB41参数可以分为两大类,声码器的参数和评测的参数。
下面将详细介绍这些参数。
1.声码器参数:-基音周期(F0):基音周期是指声音波形的一个周期的持续时间,用于确定语音的基频。
FB41使用F0参数来估计语音的基音周期。
-语音质量参数(Q):语音质量参数是用来控制声码器生成的语音质量的一个参数。
通过调整Q参数的值,可以改变生成语音的清晰度和自然度。
-频谱包络参数(LSF):频谱包络参数用于描述声音频谱的特点,可以控制声音的音调和音色。
FB41使用15个LSF参数来估计声音的频谱包络。
-激励强度参数(G):激励强度参数用于控制声音的强度和音量。
通过调整G参数的值,可以改变声音的响度和音量。
2.评测参数:-错误检测参数(ER):错误检测参数用于评估声码器生成语音和原始语音之间的差异。
通过比较两个语音信号之间的差异,可以评估声码器的性能。
-自然度评测参数(NAT):自然度评测参数用于评估声码器合成语音的自然度。
通过比较合成语音和自然语音之间的差异,可以评估声码器生成语音的自然度。
-相似度评测参数(SIM):相似度评测参数用于评估合成语音和原始语音之间的相似度。
通过比较两个语音信号之间的相似程度,可以评估声码器生成语音的相似度。
-语音品质评估参数(MOS):语音品质评估参数用于评估声码器合成语音的品质。
通过主观评价的方式,对合成语音的品质进行评估。
除了以上参数之外,FB41还包括一些其他参数,如语音长度参数、语音时长参数、语音能量参数等,这些参数在声码器和评测中都发挥着重要的作用。
总之,FB41参数是用于处理语音的一组参数,包括声码器参数和评测参数。
通过调整这些参数的值,可以控制声音的基频、质量、频谱包络和激励强度,并对声码器生成的语音进行错误检测、自然度评测、相似度评测和语音品质评估。
基于随机共振的基音周期估计方法
![基于随机共振的基音周期估计方法](https://img.taocdn.com/s3/m/3f05c18dec3a87c24028c414.png)
所 谓 基 音 周 期 就 是 指 当发 浊 音 时 , 流 通 过 声 门 时 使 声 带 发 生 振 动 , 生 的准 周 期 激 励 脉 冲 串 的周 期 , 倒 数 称 为 “ 音 频 气 产 其 基
率 ” 1 实 际 中 , 话 人 努 力保 持 基 音 和 声道 形 状 的情 况 下 , 音 周 期也 都 不 能 够保 持 固定 , 是 随 时 间随 机 的 变化 的 , 一 特性 称 。[ l 在 说 基 而 这 为基 音 的 “ 动 ” 此 外 , 抖 ; 在一 个 音 中 , 邻 的几 个 基 音 周 期 的 声 门 波 幅度 也 会 有 变 化 , 一 特 性 称 为 幅度 “ 烁 ” 相 这 闪 。在 语音 分 析 中 , 为 了解 释 连 续 的周 期 声 门 波 的变 化 会按 周 期 交 替 出现 或 者 近 似 随 机 的 出 现 , 音 的 “ 动 ” “ 烁 ” 象 被 推 测 为 由一 个 潜 在 的 稳 定 基 抖 和 闪 现
系 统或 混 沌 系统 引 起 的 非线 性 行 为 。{ 2 1
根 据 基 音 的这 些 特 点 , 者考 虑 利 用 非线 性 随 机 共 振原 理 估 计语 音 信 号的 基音 周 期 。实现 随机 共 振需 要 三 个 基本 条 件 , 作 即非 线
性 系统 、 入 信 号 和 噪声 , 输 它分 利 用 信 号 、 噪声 与非 线 性 系统 的协 同作 用 实 现 弱周 期 信 号 频 率 的提 取 。进 一 步 的研 究 发现 , 用 参 数 利 调 节 可检 测 大信 号 的 频 率 。从语 音 产 生 的 机 理 出发 , 1 我们 知 道 产 生 语 音 的 生 源 主要 分 为 三种 : 期 性 、 周 噪声 和 冲击 性 生 源 , 且 这 而
常用的基音周期检测的方法有哪些
![常用的基音周期检测的方法有哪些](https://img.taocdn.com/s3/m/682a2a8fd4d8d15abe234e3d.png)
常用的基音周期检测的方法有哪些?它们的基本原理是什么?自相关法、平均幅度差函数法、并行处理法、倒谱法、简化逆滤波法自相关法的基本原理是浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。
因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。
平均幅度差函数法的基本原理是对周期性的浊音语音,Fn(k)呈现与浊音语音周期相一致的周期特性,Fn(k)在周期的各个整数倍点上具有谷值特性,因而通过Fn(k)的计算可以来确定基音周期。
而对于清音语音信号,Fn(k)却没有这种周期特性。
利用Fn(k)的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。
倒谱(CEP)法利用语音信号的倒频谱特征,检测出表征声门激励周期的基音信息。
采取简单的倒滤波方法可以分离并恢复出声门脉冲激励和声道响应,根据声门脉冲激励及其倒谱的特征可以求出基音周期。
简述时域分析的技术(最少三项)及其在基因检测中的应用。
短时能量及短时平均幅度分析、短时过零率分析、短时相关分析、短时平均幅度差函数基音检测中的应用:基音检测的提取。
二、名词解释(每题3分,共15分)端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。
共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。
语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义公示,用最少的搜素和计算失真的运算量。
语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量。
语音信号的自相关基音周期检测
![语音信号的自相关基音周期检测](https://img.taocdn.com/s3/m/93f11a353968011ca30091c2.png)
学
院
学
报
2011 年
( 2 ) 取样模块 从频率为 8 000 Hz 的语音信 号中截取 Length( 样点数 ) 长的个样点值, 一般取 样点数设计成帧长度的整数倍; ( 3 ) 分帧模块 主要将语音去样点分割为若 干个语音帧, 语音信号属于短时平稳信号, 一般认 为在 10 ~ 30 ms 内语音特性基本上是不变的, 或 者变化缓慢, 因此可从中截取一段进行频谱分析 , 在范例中取一帧信号的长度为 30 ms, 即每帧为 240 点; ( 4 ) 短时能量分析 对分割好的语音帧信号 进行清浊音的判断, 知道浊音变清音的时刻, 提取 浊音段; ( 5 ) 自相关分析 计算浊音段信号的自相关 函数, 根据自相关函数的周期性计算语音信号的 基音周期.
本文利用信号的自相关运算实现了两个语音 信号的基音周期检测. 在检测过程中采用极性相 关和峰值估计法, 一方面可降低相关计算中乘法 的计算量, 另一方面也降低了进行自相关运算的 点数, 从而提高了基因周期检测的效率 . 这种极性
( 编辑
吴寿林)
檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿 . [2001 - 12 - 12] . http: / / proach for Webbased CRM [J / OL] ( 上接第 296 页) 函数截取结果.
基音周期的估计称为基音周期检测, 基音周 期检测的最终目的是得到与声音振动频率吻合较 好的基音周期变化轨迹曲线. 在语音信号的处理 中只有准确捕获语音信号参数, 才能高效地识别 语音. 而在这些语音信号参数中, 基音周期提取的 精确性和效率直接影响到合成语音能否真实快速 地再现原始语音信号. 本文在基音周期检测一般 方法的基础上, 对自相关运算过程加以修改, 并给 出使用该种方法对两段语音信号进行基音周期检 测的结果.
两种基音周期检测方法
![两种基音周期检测方法](https://img.taocdn.com/s3/m/fc4c771052d380eb62946d2d.png)
基音周期中两种算法常用的基音周期检测方法-自相关函数法、倒谱法、平均幅度差函数法都属于非基于事件基音检测方法,都先将语音信号分为长度一定的语音帧,然后对每一帧语音求平均基音周期,它们的优点是比较简单,主要应用于只需要平均基音周期作为参数的语音编解码,语音识别等。
自相关函数具有很好的抗噪性,但易受半频、倍频错误影响。
平均幅度差函数只需加法、减法和取绝对值等计算,算法简单;它们在无背景噪声情况下可以精确地提取的语音基音周期,但在语音环境较恶劣、信噪比较低时,检测的结果很差,难以让人满意。
2.1 基于短时自相关函数的方法能量有限的语音信号}{()s n 的短时自相关函数[10][11]定义为:10()[()()][()()]N n m R s n m w m s n m w m ττττ--==++++∑ (2.1)其中,τ为移位距离,()w m 是偶对称的窗函数。
短时自相关函数有以下重要性质:①如果}{()s n 是周期信号,周期是P ,则()R τ也是周期信号,且周期相同,即()()R R P ττ=+。
②当τ=0时,自相关函数具有最大值;当0,,2,3P P P τ=+++…处周期信号的自相关函数达到极大值。
③自相关函数是偶函数,即()()R R ττ=-。
短时自相关函数法基音检测的主要原理是利用短时自相关函数的第二条性质,通过比较原始信号和它移位后的信号之间的类似性来确定基音周期,如果移位距离等于基音周期,那么,两个信号具有最大类似性。
在实际采用短时自相关函数法进行基音检测时,使用一个窗函数,窗不动,语音信号移动,这是经典的短时自相关函数法。
窗口长度N 的选择至少要大于基音周期的两倍,N 越大,短时自相关函数波形的细节就越清楚,更有利于基音检测,但计算量较大,近年来由于高速数字信号处理器(DSP )的使用,从而使得这一算法简单有效,而不再采用结构复杂的快速傅里叶变换法、递归计算法等;N越小,误差越大,但计算量较小。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验一离散数字信号的产生及其时域处理学习实现实验1的内容,并且编制一个程序(m文件)产生5种信号,函数需要的参数可输入确定,并绘出其图形1、单位抽样序列在MATLAB中可以利用函数实现,%单位抽样序列函数%X=0:10;Y=[0 1 zeros(1,9)];stem(X,Y,'r');axis([-1,10,0,1]);title('单位抽样序列');xlabel('n');ylabel('δ*n+');图形如右:2、单位阶越序列在MATLAB中可以利用函数实现, 实现过程如下:%单位阶跃序列函数K=-8:8;H=[zeros(1,8),ones(1,9)];stem(K,H,'r');axis([-8,8,0,2]);title('单位阶跃序列');xlabel('n');ylabel('u[n]');图形如下:3、正弦序列,在MATLAB中实现过程如下:%正弦序列函数sin(2*pi*D/5+pi/4)%D=-1:0.1*pi:8*pi;C=sin(2*pi*D/5+pi/4);stem(D,C,'filled');axis([-1,10,-2,2]);title('正弦序列');xlabel('n');ylabel('sin(2*pi*D/5+pi/4)')图形如下:4、复指数序列,从幅度和相位进行分析,在MATLAB中实现过程如下:%复指数序列函数%n=[0:10];x1=2*exp((-0.2+0.7*j)*n);x2=abs(x1);x3=angle(x1);subplot(2,3,4);stem(n,x2);title('复指数序列幅值'); xlabel('n');ylabel('x2');stem(n,x3);title('复指数序列相位'); xlabel('n');ylabel('x3');图形如下:5、指数序列,在MATLAB中实现过程如下:% 实指数序列%L=0:20;x4=(1.4).^(L/3);stem(L,x4);title('实指数序列');xlabel('n');ylabel('x4');图形如下:编制一个完整的程序(m文件)产生以上5种信号,图形如下:m文件程序如下:function F1%单位抽样序列函数%X=0:10;Y=[0 1 zeros(1,9)];subplot(2,3,1);stem(X,Y,'r');axis([-1,10,0,1]);title('单位抽样序列 ');xlabel('n');ylabel('δ[n]');%单位阶跃序列函数K=-8:8;H=[zeros(1,8),ones(1,9)];subplot(2,3,2);stem(K,H,'r');axis([-8,8,0,2]);title('单位阶跃序列 ');xlabel('n');ylabel('u[n]');%正弦序列函数sin(2*pi*D/5+pi/4)%D=-1:0.1*pi:8*pi;C=sin(2*pi*D/5+pi/4);subplot(2,3,3);stem(D,C,'filled');axis([-1,10,-2,2]);title('正弦序列 ');xlabel('n');ylabel('sin(2*pi*D/5+pi/4)');%复指数序列函数2*exp((-0.2+0.7*j)*n),从相位和幅值角度来分开讨论其图形%n=[0:10];x1=2*exp((-0.2+0.7*j)*n);x2=abs(x1);x3=angle(x1);subplot(2,3,4);stem(n,x2);title('复指数序列幅值');xlabel('n');ylabel('x2');subplot(2,3,5);stem(n,x3);title('复指数序列相位');xlabel('n');ylabel('x3');% 实指数序列(1.4)^(L/3)%L=0:20;x4=(1.4).^(L/3);subplot(2,3,6);stem(L,x4);title('实指数序列 ');xlabel('n');ylabel('x4');%在MATLAB 中产生5种信号,所需参数预先设定%语音基音周期估计语音基音周期估计的实现方法: 自相关函数法能量有限的语音信号}{()s n 的短时自相关函数定义为:10()[()()][()()]N n m R s n m w m s n m w m ττττ--==++++∑其中,τ为移位距离,()w m 是偶对称的窗函数。
短时自相关函数有以下重要性质:①如果}{()s n 是周期信号,周期是P ,则()R τ也是周期信号,且周期相同,即()()R R P ττ=+。
②当τ=0时,自相关函数具有最大值;当0,,2,3P P P τ=+++…处周期信号的自相关函数达到极大值。
③自相关函数是偶函数,即()()R R ττ=-。
短时自相关函数法基音检测的主要原理是利用短时自相关函数的第二条性质,通过比较原始信号和它移位后的信号之间的类似性来确定基音周期,如果移位距离等于基音周期,那么,两个信号具有最大类似性。
在实际采用短时自相关函数法进行基音检测时,使用一个窗函数,窗不动,语音信号移动,这是经典的短时自相关函数法。
窗口长度N 的选择至少要大于基音周期的两倍,N 越大,短时自相关函数波形的细节就越清楚,更有利于基音检测,但计算量较大,近年来由于高速数字信号处理器(DSP )的使用,从而使得这一算法简单有效,而不再采用结构复杂的快速傅里叶变换法、递归计算法等;N 越小,误差越大,但计算量较小。
自相关函数在基音周期处表现为峰值,自相关函数在基音周期处表现为峰值,这些峰值点之间的间隔的平均值就是基音周期中值滤波: 为了平滑噪声,君安邪恶基因周期前,需要对各自的声音文件进行中值滤波处理,并比较前后语音的差别。
对采样信号进行滤波处理,这里用截至频率为500Hz 的低通滤波器,阻带衰减20dB ,程序如下:[x,fs,bits]=wavread ('E:\A.wav');%读取输入语音信号的频率及波形figure(1);stem(x,'.');%做原始语音信号的时域图形title('原始语音信号');fc1=500;N1=2*pi*0.9/(0.1*pi)wc1=2*pi*fc1/fs;if rem(N1,2)==0N1=N1+1;endWindow= boxcar (N1+1); %长度为N1的矩形窗Windowb1=fir1(N1,wc1/pi,Window);figure(2);freqz(b1,1,512);title('低通滤波器的频率响应');y= filter(b1,1,x1);%对信号进行低通滤波figure(3);plot(y);title('信号经过低通滤波器后');经过中值滤波后,对信号用自相关函数法进行基音周期的检测。
语音信号需分帧处理,20ms一帧(160个样点),程序如下:n=160; %取20ms的声音片段,即160个样点for m=1:length(x)/n; %对每一帧求短时自相关函数for k=1:n;Rm(k)=0;for i=(k+1):n;Rm(k)=Rm(k)+x(i+(m-1)*n)*x(i-k+(m-1)*n);endendp=Rm(10:n); %防止误判,去掉前边10个数值较大的点[Rmax,N(m)]=max(p); %读取第一个自相关函数的最大点end %补回前边去掉的10个点N=N+10;T=N/8; %算出对应的周期figure(4);stem(T,'.');axis([0 length(T) 0 10]);xlabel('帧数(n)');ylabel('周期(ms)');title('各帧基音周期');得到各帧基音周期如图:可以看到,该信号有48000个样点,一共有300帧(每帧160个样点)由图中可以看出基音周期大约为4.2ms.但是图中存在野点,为此,需要对此进行进一步的处理,即去除野点。
运行以下程序:T1= medfilt1(T,5); %去除野点figure(3);stem(T1,'.');axis([0 length(T1) 0 20]);xlabel('帧数(n)');ylabel('周期(ms)');title('各帧基音周期');从图可以看到野点被消除,可以读出基音周期约为4.2ms.完整程序如下:[x,fs,bits]=wavread('E:\A.wav');figure(1);plot(x);%做原始语音信号的时域图形title('原始语音信号');fc1=500;N1=2*pi*0.9/(0.1*pi)wc1=2*pi*fc1/fs;if rem(N1,2)==0N1=N1+1;endWindow= boxcar (N1+1); %长度为N1的矩形窗Windowb1=fir1(N1,wc1/pi,Window);figure(2);freqz(b1,1,512);title('低通滤波器的频率响应');y= filter(b1,1,x1);%对信号进行低通滤波figure(3);plot(y);title('信号经过低通滤波器(时域)');n=160; %取20ms的声音片段,即160个样点for m=1:length(x)/n; %对每一帧求短时自相关函数for k=1:n;Rm(k)=0;for i=(k+1):n;Rm(k)=Rm(k)+x(i+(m-1)*n)*x(i-k+(m-1)*n);endendp=Rm(10:n); %防止误判,去掉前边10个数值较大的点[Rmax,N(m)]=max(p); %读取第一个自相关函数的最大点end %补回前边去掉的10个点N=N+10;T=N/8; %算出对应的周期figure(4);stem(T,'.');axis([0 length(T) 0 10]);xlabel('帧数(n)');ylabel('周期(ms)');title('各帧基音周期');T1= medfilt1(T,5); %去除野点figure(6);stem(T1,'.');axis([0 length(T1) 0 10]);xlabel('帧数(n)');ylabel('周期(ms)');title('各帧基音周期');。