基音及提取方法
自相关函数法基音周期提取(matlab版)
function nmax=find_maxn(r)
%maxn,为峰值最大的n
zer=find(r==0); %找第一个零点如果存在
jiaocha=0; %找第一近零点
ii=1;
while (jiaocha<=0)
if(r(ii)>0 && r(ii+1)<0 && (ii+1)
jiaocha=ii;
end
ii=ii+1;
if ii==length(r) %没有找到符合要求的点
jiaocha=1;
end
end
if length(zer)>0 %检查是否存在零点
if zer(1)
end
end
r(1:jiaocha)=0; %祛除影响
maxn=max(r); %找最大值
temp=find(r==maxn);%返回第一个最大值
nmax=temp(1);
function jiyinzhouqi(filename,shift)
%短时自相关分析
%filename语音文件*.wav
%zhouqi基音周期
shift=10;
[signal,fs]=wavread('f:/mywork/1.wav');
shift=round(fs*shift); %帧移
n1=fix(fs*0.97)+1; %分析起点970ms,帧长30ms
n2=fix(fs*1)+1;
ii=1;
for ii=1:(length(signal)-n1)/shift %分析次数
if n2
data=signal(n1:n2);
N=n2-n1+1;
R=zeros(1,N); %基音周期(n)多次分析数组
for k=1:N-1
for jj=1:N-k
语音信号特征提取技术
它可以用来区分静音和清音;
将两种检测结合起来,就可以检测出语音段(清音与 浊音)与静音段,从而识别出语音信号的端点。
2.自相关法
语音信号xn(m)短时自相关函数Rn(k)的计算公式:
含噪语音和纯噪声语音的自相关函数的波形图:
根据噪音情况,设置两个阈值T1和T2,当相关函数最大值大于T2时,判定为 语音;当相关函数最大值大于或小于T1时,判定为语音信号的端点。
3.共振峰估计
共振峰:共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰 不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。声音 在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重 新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减, 得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于 能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。 频带宽度:简称为“带宽”,有时称必要带宽,是传送模拟信号时的 信号最高频率与最低频率之差。
4.比例法
在噪声情况下,信号的短时能量和短时过零率会发生变化,严重时会影响端点 检测性能。
实验表明,在语音中,说话区间能量的数值大,而过零率数值低;在噪声区间能 量的数值小,而过零率数值大; 所以,把能量值除以过零率的值,则可以更突出说话区间,从而更容易检测出语 音端点;
2.基音周期估计
基音:一般的声音都是由发声体发出的一系列频率、振幅各不相同的振动复合 而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为 泛音; 基音周期:声带振动频率的倒数; 由于汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具 有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是 一个十分重要的问题。
简述基音的概念
简述基音的概念
基音是声音的一种基本特征,它是声音波形中最低音高的成分。基音的高低决定了声音的音调,一般来说,频率越高,音调就越高。基音的概念在音乐、语言学、声学等领域中都有着重要的应用。
在音乐中,基音是乐音的基础,它决定了乐曲的音调和音高。基音的音高是音乐中最低的音高,其他音高都是以它为基准来判断的。例如,在一个C大调的乐曲中,C音是基音,所有其他音符的音高都是相对于C来确定的。基音的音高在音乐中扮演着十分重要的角色,它给人们带来了音乐的基本感觉和音乐的结构。
在语言学中,基音也是语音的基础。基音的高低、音调的升降决定了语句的语气和情感。通过对基音的分析,可以了解说话人的情绪、语气和语调。同时,基音也与语音的重音和语调有关,它可用来区分词义的不同,例如在汉语中,“妈妈”和“麻麻”的意思相同,但基音的不同使得它们在语音上有所区别。
在声学中,基音是声音的基本构成单元。声波是由一系列的压力波构成的,其中包含了许多频率和振幅的成分,而基音就是其中的最低频率成分。在分析声音时,通常会将声波分解为不同频率的谐波,基音即为最低频率的谐波。通过分析声音的频谱,可以确定声音的基音频率,从而了解声音的音高。
除了音乐、语言学和声学,基音在许多其他领域也有重要的应用。例如,在语音合成中,基音是合成自然音调的关键,根据基音的频率和强度来控制声音的产生。
在音频处理中,提取基音可以去除噪声和杂音,使得音频质量得到提高。在音乐研究中,基音的分析可以帮助研究音乐的节奏和和弦,进一步理解音乐的结构和演奏技巧。
总之,基音是声音波形中最低音高的成分,它在音乐、语言学、声学等领域中都有着重要的应用。通过对基音的分析,可以了解声音的音调和音高,进一步理解音乐、语言和声音的本质。基音的研究不仅有助于音乐和语言的理解,还可以帮助改进声音的合成、降噪和音频处理等技术。因此,研究基音对于人类的音乐文化和语言交流有着深远的影响。
基于语音的抑郁识别方法及关键技术研究
基于语音的抑郁识别方法及关键技术研究
基于语音的抑郁识别方法及关键技术研究
概述:
随着抑郁症患者数量的逐年增加,如何快速准确地识别患者的抑郁症状成为精神健康领域的研究热点。语音识别技术作为一种新兴的生物特征识别方法,逐渐引起了研究者们的关注。本文将探讨基于语音的抑郁识别方法及其关键技术,旨在提供一种可行的思路和方法来准确识别抑郁症状,为抑郁症的早期干预和治疗提供参考。
一、语音特征提取方法
语音信号中包含丰富的信息,因此需要对语音信号进行特征提取以便进行分类和识别。目前常用的语音特征提取方法有基于声学模型的Mel频率倒谱系数(MFCC)和基于韵律模型的基音频率、共振峰等。
1.1 MFCC特征提取
MFCC是一种在语音信号处理中广泛使用的特征提取方法。它通过将语音信号分解成多个频带,计算每个频带的能量,然后将能量值转换为对数形式,最后通过倒谱变换得到频谱特征。MFCC能够较好地表达语音音色特征,对于抑郁症的识别具有一定的参考价值。
1.2 基音频率特征提取
基音频率是语音信号中反映周期性的重要特征之一,通过分析语音信号的周期性,可以得到基音频率的信息。基于韵律模型的抑郁识别方法通过测量患者语音中的基音频率变化,可以得到患者在情绪上和心理上的变化,从而进一步判断是否患有抑郁症。
1.3 共振峰特征提取
共振峰是语音信号中反映声道形状的重要特征之一,语音信号在声道中传播时会受到共振峰的影响而产生共振。通过提取语音信号中的共振峰信息,可以反映出患者的情绪状态和抑郁症状。因此,共振峰特征也可以用于抑郁症的识别。
语音识别技术中的声纹特征提取方法
语音识别技术中的声纹特征提取方法声纹识别技术是一种基于人声信号的生物识别技术,通过分析声音
中独特的声纹特征,实现对个体身份的准确识别。声纹特征提取方法
是声纹识别技术中的核心环节,决定了识别性能的优劣。本文将介绍
几种常用的声纹特征提取方法,并对其原理和优缺点进行分析。
一、时域特征提取方法
时域特征提取方法主要基于声音信号的时序特点,常用的特征包括
基音周期、语调、能量等。
1. 基音周期:基音周期是指声音波形中基音振动周期的长度,具有
很强的个体差异性。基于基音周期的特征提取方法主要包括自相关法
和互相关法。自相关法通过计算信号与其自身在不同时间偏移下的互
相关系数,来提取基音周期信息。互相关法则是通过计算两个不同信
号之间的互相关系数,来提取基音周期信息。
2. 语调:语调是指声音信号的音高。不同个体的音高存在一定差异,可以用于声纹特征提取。语调特征提取方法主要基于基频和基频变化
率的计算。
3. 能量:能量是指声音信号的强度。不同个体的声音在能量上也存
在差异,因此能量特征可以用于声纹识别。能量特征提取方法一般通
过计算声音幅度的均方差或绝对值来得到。
二、频域特征提取方法
频域特征提取方法基于声音信号在频域上的表现,常用的特征包括
音谱、倒谱、Mel频谱等。
1. 音谱:音谱是指声音信号在频域上的幅度谱。音谱特征提取方法
通过对声音信号进行傅里叶变换,将其转换为频域表示,然后提取幅
度谱信息。
2. 倒谱:倒谱是将音频信号的频域表示转换为倒谱表示的方法。倒
谱特征提取方法先将声音信号进行傅里叶变换得到音谱,然后进行对
一种综合的基音提取方法
收稿日期:2003-01-06。本项目得到上海市科学技术委员会基础
研究项目基金资助(01JC14033)。章文义,硕士生,主研领域:语音识别,语言信号处理。
一种综合的基音提取方法
章文义 朱 杰
(上海交通大学 上海交通大学与贝尔实验室通信与网络联合实验室 上海200030)
摘 要 本文提出了一种综合的基音提取算法,综合运用了平均幅度差法、自相关函数法和简单逆滤波器跟踪法等多种算法对候
选的基音频率点进行打分,最后再用动态搜索的算法找出一条全局最优路径。从而避免了单一方法的局限性,取得了很好的性能。关键词 基音 平均幅度差函数 自相关函数 简单逆滤波器跟踪法
A NEW COMPOSITE PITCH EXTRACTION AL G ORITH M
Zhang Wenyi Zhu Jie
(Shanghai Jiaotong University and Bell Labs Communications and Network Joint Laboratory ,Shanghai 200030)
Abstract This article proposes a composite pitch extraction alg orithm ,which integrates AM DF ,Autocorrelation Function and SIFT together ,scores the candidate pitch frequency ,then searches for a global optimized path using dynamic programming.The composite alg orithm abstains the limitation exists in single alg orithm and shows g ood performance in multi 2conditions.K eyw ords Pitch AM DF Autocorrelation function SIFT
语言学中的语音信号分析
语言学中的语音信号分析
语音信号是人类信息传递中最重要的方式之一。语音信号分析是语音学研究的
重要基础,也是许多领域如语音识别、语音合成、说话人识别等研究的关键环节。本文将详细介绍语音信号分析的概念、步骤、方法和应用,以及目前存在的问题和未来的发展方向。
一、语音信号分析的概念和步骤
语音信号分析是指将语音信号转变为可被计算机处理和识别的形式。其步骤一
般包括分帧、加窗、时域特征提取、频域特征提取等。下面将逐一介绍。
1.分帧
语音信号是一系列时域波形,随着时间的推移,其幅度和频率也在不断变化。
为了方便后续计算处理,需要将长时域的语音信号分割成短时域的小段,每一段称为一帧。帧的长度一般在20~40ms之间,相邻帧之间一般有20~50%的重叠。
2.加窗
由于分帧后的语音信号段末端的数值不完整,会造成分析和处理的困难。为了
消除边界效应,在每一帧的两端加上窗函数。窗函数的目的是将信号逐渐减小到零,避免过度的数据扰动,同时使得相邻帧之间的信号光滑连续,减小处理误差。
3.时域特征提取
时域特征是指每一帧中的语音信号的幅度、能量、过零率、基音周期等,一般
通过数字信号处理方法计算得到。这些特征可以反映语音信号的时域变化情况,如音高、音强、音长等。
4.频域特征提取
语音信号在频域上的特征也非常重要。FFT算法可以将时域信号转换为频域信号,得到语音信号的频谱。从频谱中可以提取出如功率谱密度、倒谱系数、线性预测系数等频域特征。这些特征可以反映语音信号的谐波结构和共振峰分布。
二、语音信号分析的方法
语音信号分析方法有很多种,下面介绍几种常用的方法。
汉语语音基频检测与提取算法
汉语语音基频检测与提取算法
汉语语音的基频检测与提取算法是语音信号处理领域的一个重
要研究课题。基频,也称为声音的基音频率或者声音的基本频率,
是指语音信号中重复出现的基本频率成分。基频检测与提取算法的
目标是从语音信号中准确地提取出基频信息,以便后续的语音分析、合成和识别等应用。
一种常用的基频检测与提取算法是基于自相关函数的方法。该
方法首先计算语音信号的自相关函数,然后通过分析自相关函数的
峰值来确定基频。另一种常见的方法是基于短时傅里叶变换(STFT)的算法,它将语音信号分解成多个时域上重叠的窗口,并对每个窗
口进行傅里叶变换,然后通过分析频谱信息来提取基频。
除了以上提到的方法,还有很多其他基频检测与提取算法,比
如基于互相关函数、线性预测编码(LPC)、自适应滤波器等。这些
算法在实际应用中各有优劣,需要根据具体的情况选择合适的算法。
另外,需要注意的是,基频检测与提取算法在面对不同说话人、不同语音情感状态、不同噪声环境等情况下的稳定性和鲁棒性也是
一个重要的研究方向。研究人员还在不断探索新的算法和技术,以
提高基频检测与提取的准确性和鲁棒性。
总的来说,基频检测与提取算法是语音信号处理领域的一个复杂而重要的问题,需要综合考虑信号处理、数学建模、机器学习等多个领域的知识,以实现对语音信号中基频信息的准确提取。
一种基于基音周期和MFCC的融合特征参数提取方法[发明专利]
专利名称:一种基于基音周期和MFCC的融合特征参数提取方法
专利类型:发明专利
发明人:何兴高,张效藩,李蝉娟
申请号:CN201611215760.X
申请日:20161223
公开号:CN106782500A
公开日:
20170531
专利内容由知识产权出版社提供
摘要:本发明提出了一种融合基音周期和Mel倒谱参数的融合特征参数PITCHMFCC。通过增加Mel倒谱参数的维度来提高声纹识别效率的方法。基音周期是基于人体发声结构提出,而Mel倒谱参数通过人耳听觉结构提出,结合这两种特征得到的混合特征参数更符合人体生理结构。方法是通过每一帧语音数据获得该帧语音的Mel倒谱参数,Mel倒谱参数的一阶差分参数,二阶差分参数以及该帧的说话人基音周期参数。将这四个参数结合成一个(3L+1)维的特征矢量。这样更逼近语音的动态特征和人体的生理结构,可以提高声纹识别的效率。
申请人:电子科技大学
地址:611731 四川省成都市高新西区西源大道2006号
国籍:CN
更多信息请下载全文后查看
乐音特征识别技术的发展和应用研究
乐音特征识别技术的发展和应用研究作者:***
来源:《现代信息科技》2020年第06期
摘要:乐音是构成音乐的核心元素。乐音识别是音乐识别的核心工作。首先对“声音”“音频”“音乐”“乐音”等若干概念进行了定义,然后从狭义和广义两个方面分析了乐音识别的主要任务和基本流程,无论是狭义还是广义的乐音识别,单音基本特征的提取和识别,都是基础内容。重点展望了乐音识别技术的发展趋势,其三种基本脉络分别为提高非复调单音基本特征的识别效率、优化非复调多音符特征的提、拓展复调的识别和提取。最后在音乐喷泉控制器中实现了乐音特征的自动提取。研究结果可为乐音识别技术研究与系统应用提供参考。
关键词:乐音识别;特征提取;机器听觉;音符分割
中图分类号:TN912.34 文献标识码:A 文章编号:2096-4706(2020)06-0001-04
Abstract:Musical sound is the core element of music. Music recognition is the core of music recognition. Firstly,some concepts such as “sound”,“audio”,“music” and “musical sound” are defined,then the main tasks and basic processes of musical sound recognition are analyzed from the narrow sense and the broad sense. No matter the narrow sense or the broad sense of musical sound recognition,the extraction and recognition of the basic features of single sound are the basic contents. This paper focuses on the development trend of music recognition technology,and its three basic venation are to improve the recognition efficiency of the basic features of non polyphonic single tone,optimize the extraction of non polyphonic multi note features,and expand the recognition and extraction of polyphony. Finally,the automatic extraction of music features is realized in the music fountain controller. The research results can provide a reference for the research and system application of music recognition technology.
语音信号的基音周期提取方法研究
语音信号的基音周期提取方法研究
摘要
自从人类发明了语言以后,它便成为了人们交流思想和沟通感情最便捷和有效的工具。当下,人类已经进入了一个电子信息化的时代,用更加现代化的手段来处理和研究语音,能够使人们更有效率的生成、传递、储存、获得和运用语音信息,这一点对与促进时代的进步与科技的发展具有十分重要的意义。语音信号的频率域特征分析是语音识别的基础,其中基音周期则是最重要的特征参数,基音周期是指人们发出浊音时声带振动的周期,基音周期是语音信号研究的基础,也是语音信号处理的第一步。本文对基音周期的提取方法进行了研究,同时也对频率参数和倒谱的用途以及提取方法进行详细的介绍。用Microsoft Visual Studio2012设计了一个绘制语音波形、计算频谱和倒谱并能显示频谱图和倒谱图的程序,实验结果表明倒谱法能很好的提取语信号的基音周期。关键词语音信号频率域特征分析基音周期倒谱法
Abstract
TitleStudy on the extraction method of pitch of speech signalAbstractSince man invented the language, it has become the most convenient and effective tool for people to exchange ideas and communicate feelings. Today, mankind has entered the era of electronic information, with more modern means to process and study of speech, can make people more efficient generation, transfer, storage, access, and use of voice information, this to have and to promote the progress of science and technology in the era of the development of a very important significance.Frequency domain characteristics of the speech signal analysis is the basis of speech recognition, the pitch is the most important characteristic parameters, the pitch is refers to the people a voiced sound when the vocal fold vibration cycle, and Chinese pitch changes of different patterns of tone. Cepstrum extraction method is the most effective method of pitch. In this paper, several frequency domain parameters and their uses are described in detail. With VS 2012 designed a rendering speech waveform, calculate the spectrum and display spectrum and calculation of Cepstrum and display the cepstrum program. Experimental results show that the pitch period of the cepstrum method of extraction of speech signals.Keywords: Speech signalFrequency domain feature
常用的基音周期检测的方法有哪些
常用的基音周期检测的方法有哪些?它们的基本原理是什么?
自相关法、平均幅度差函数法、并行处理法、倒谱法、简化逆滤波法
自相关法的基本原理是浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。
平均幅度差函数法的基本原理是对周期性的浊音语音,Fn(k)呈现与浊音语音周期相一致的周期特性,Fn(k)在周期的各个整数倍点上具有谷值特性,因而通过Fn(k)的计算可以来确定基音周期。而对于清音语音信号,Fn(k)却没有这种周期特性。利用Fn(k)的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。
倒谱(CEP)法利用语音信号的倒频谱特征,检测出表征声门激励周期的基音信息。采取简单的倒滤波方法可以分离并恢复出声门脉冲激励和声道响应,根据声门脉冲激励及其倒谱的特征可以求出基音周期。
简述时域分析的技术(最少三项)及其在基因检测中的应用。
短时能量及短时平均幅度分析、短时过零率分析、短时相关分析、短时平均幅度差函数基音检测中的应用:基音检测的提取。
二、名词解释(每题3分,共15分)
端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义公示,用最少的搜素和计算失真的运算量。语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量。
实验三 语音信号的基频提取
实验三语音信号的基频提取
一、实验目的
1.掌握语音信号基频的概念,加深对基频刻画声调特征作用的理解。
2.掌握语音信号基频特征的典型求解方法
二、仪器设备
HP计算机、Matlab软件
三、实验原理
浊音信号的自相关函数在基因周期的整数倍位置上出现峰值,而清音的自相关函数没有明显的峰值出现。因此检测自相关函数是否有峰值就可以判断是清音还是浊音,而峰-峰值之间对应的就是基音周期
四、实验内容
实验程序:
function pitch
x=wavread('w1.wav');
figure(1);
stem(x,'.');
n=180;
for m=1:length(x)/n;
for k=1:n;
Rm(k)=0;
for i=(k+1):n;
Rm(k)=Rm(k)+x(i+(m-1)*n)*x(i-k+(m-1)*n);
end
end
p=Rm(10:n);
[Rmax,N(m)]=max(p);
end
N=N+10;
T=N/8;
figure(2);stem(T,'.');axis([0 length(T) 0 10]);
xlabel('帧数(n)');ylabel('周期(ms)');title('各帧基音周期');
T1= medfilt1(T,5);
figure(3);stem(T1,'.');axis([0 length(T1) 0 10]);
xlabel('帧数(n)');ylabel('周期(ms)');title('各帧基音周期');
五、实验结果
结果分析:图二正常就可以提取出基音周期了,但是还需要有滤波处理使其变得平滑一些,所以才会有图三。图三则是最后的基音周期的图。
F0及FH值计算公式
F0及FH值计算公式
F0(Fundamental Frequency)值是指声音波形中最基本的频率成分,它代表了说话者声音的基调高低。FH(Formant Frequency)值是声音波
形中特定频率谐振的峰值,它代表了声音的共振特征。
F0值通常用于声音分析中,对于语音、音乐以及其他语言表达形式
都有重要意义。它是通过测量波形的波峰和波谷的时间间隔来计算的。具
体的计算公式如下:
1.预处理:首先需要对输入的声音波形进行预处理,包括采样率转换、平滑、滤波等。
2.提取基音周期:利用自相关函数方法或者模型拟合等技术,可以得
到基音周期。自相关函数方法是基于信号在时间上的相似性,通过计算波
形与其自身延迟一段时间后的波形之间的相关性来得到基音周期。
3.计算基音频率:通过将基音周期的倒数转换为基音频率来计算F0值。基音频率的单位通常是赫兹(Hz),代表每秒震荡的周期数。
FH值是用于描述声音共振情况的,它与声道的形状和共振特性有关。常见的计算FH值的方法是通过使用倒谱分析(Cepstrum Analysis)、线
性预测编码(Linear Predictive Coding)等技术。具体的计算公式如下:
1.预处理:与计算F0值类似,首先需要对输入的声音波形进行预处理,包括采样率转换、平滑、滤波等。
2.分析频谱:通过应用傅里叶变换或其他频谱分析技术,将声音信号
从时域转换到频域。
3.计算倒谱:倒谱是指将频谱的对数幅度谱进行傅里叶逆变换,得到
时域表示的倒谱信号。
4.求取倒谱峰值:在倒谱信号中,通过选择合适的峰值算法,找到表
两种基音周期检测方法
基音周期中两种算法
常用的基音周期检测方法-自相关函数法、倒谱法、平均幅度差函数法都属于非基于事件基音检测方法,都先将语音信号分为长度一定的语音帧,然后对每一帧语音求平均基音周期,它们的优点是比较简单,主要应用于只需要平均基音周期作为参数的语音编解码,语音识别等。
自相关函数具有很好的抗噪性,但易受半频、倍频错误影响。平均幅度差函数只需加法、减法和取绝对值等计算,算法简单;它们在无背景噪声情况下可以精确地提取的语音基音周期,但在语音环境较恶劣、信噪比较低时,检测的结果很差,难以让人满意。
2.1 基于短时自相关函数的方法
能量有限的语音信号}{()s n 的短时自相关函数[10][11]定义为:
10()[()()][()()]N n m R s n m w m s n m w m τ
τττ--==++++∑ (2.1)
其中,τ为移位距离,()w m 是偶对称的窗函数。
短时自相关函数有以下重要性质:
①如果}{()s n 是周期信号,周期是P ,则()R τ也是周期信号,且周期相同,即()()R R P ττ=+。
②当τ=0时,自相关函数具有最大值;当0,,2,3P P P τ=+++…处周期信号的自相关函数达到极大值。
③自相关函数是偶函数,即()()R R ττ=-。
短时自相关函数法基音检测的主要原理是利用短时自相关函数的第二条性质,通过比较原始信号和它移位后的信号之间的类似性来确定基音周期,如果移位距离等于基音周期,那么,两个信号具有最大类似性。
在实际采用短时自相关函数法进行基音检测时,使用一个窗函数,窗不动,语音信号移动,这是经典的短时自相关函数法。窗口长度N 的选择至少要大于基音周期的两倍,N 越大,短时自相关函数波形的细节就越清楚,更有利于基音检测,但计算量较大,近年来由于高速数字信号处理器(DSP )的使用,从而使得这一算法简单有效,而不再采用结构复杂的快速傅里叶变换法、递归计算法等;
语音信号基音频率的提取
语音信号基音频率的提取
一、综述
此matlab程序用于提取基音频率的提取。 人在发浊音时,气流通过声门使声带产生张驰振荡式振动, 产生一股准周期脉冲气流,这一气流激励声道就产生浊音, 又称有声语音,它携带着语音中的大部分能量。这种声带 振动的频率称为基频。 在语音信号处理中,语音信号参数提取的准确性非常重要。 只有获得准确的参数,才能利用这些参数进行高效的处理, 而在许多参数提取中,基音周期的提取尤为重要,广泛地 应用于语音压缩编码、语音分析合成以及语音识别等方面, 所以,准确可靠地估计并提取基音周期对语音信号处理至 关重要 。它直接影响到合成语音是否真实再现原始语音 信号,影响到语音识别的识别率,影响到语音压缩编码的 正确率。
%输入一个序列,如果 相邻两个点异号,统计 数字加1 %这个结果可以作为判 断是否是噪音的一个依 据 %当count足够大时就可 以认为是噪音
谢谢观赏
Happy Labor Day
@WPS官方微博 @kingsoftwps
首先求出序列s的最大值maxvalue然后如果序列中的一个点比相邻两个点都大而且还大于maxvalue的t倍就把这个点的位置存放在序列mi中在序列mi最后再补上序列的最后一个点考虑到第一个点和最后一个点有可能满足要求但这两个点都不能跟旁边的比较所以还是把这两个点保留了放在mi序列的第一个和最后一个functionzczerocrossllengths
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
小波变换法
组合方法
❖ 贺前华,Sam Kwong, 高性能基音检测新方 法,华南理工大学学报(自然科学版), Vol.27, No.1,1999.
❖ 时频域基音检测很少同时出错,时域快,频 域慢、准确性高
❖ 性能优于大多数流行的基音检测器,比倒谱 法快8倍
组合方法:基音计算流程
s(n) LPF 0-900Hz
❖ 正如在3.5小节介绍的,语音s(n)是由声门脉冲激励e(n)经 声道响应v(n)滤波而得。即: s(n)=e(n)*v(n)
❖ 设三者的倒谱分别为s^(n)、e^(n)及v^(n),则有: s^(n)=e^(n)+v^(n)
❖ 可见,倒谱域中基音信息与声道信息可以认为是相对分离的。 采取简单的倒滤波方法可以分离并恢复出e(n)和v(n),根据 激励e(n)及其倒谱的特征可以求出基音周期。
❖ 应用广泛:语音识别、说话人识别、语音分析与综 合以及低码率语音编码、发音系统疾病诊断、听觉 残障者的语言指导等
❖ 声调:基音的变化模式。携带着非常重要的具有辨 意作用的信息,有区别意义的功能
基音周期?
PK1
pitch period PK2
80
60
40
20
0
-20
-40
-60
-800
50
100
150
❖ 与短时自相关函数一样,对周期性的浊音语音,Fn(k)也呈 现与浊音语音周期相一致的周期特性
❖ Fn(k)在周期的各个整数倍点上具有谷值特性而不是峰值特 性,因而通过Fn(k)的计算同样可以来确定基音周期。
❖ 对于清音语音信号,Fn(k)却没有这种周期特性。利用Fn(k) 的这种特性,可以判定一段语音是浊音还是清音,并估计出 浊音语音的基音周期。
合各类人群、各类应用和不同环境
典型基音周期估计方法
❖ 半自动基音检测器(SAPD)
Carol A. McGONEGAL, Lawrence R. Rabiner, and Aaron E. Rosenberg. A Semiautomatic Pitch Detector (SAPD). IEEE Transactions on Acoustics, Speech and Signal Processing ,Vol. ASSP.23, No. 6, 1975
简化逆滤波法(SIFT)
❖ 简化逆滤波器的原理框图如图3-26所示。其工作过程为:
❖ ①语音信号经过10kHz取样后,通过0-900Hz的数字低通 滤器,其目的是滤除声道谱中声道响应部分的影响,使峰值 检测更加容易。然后降低取样率5倍(因为激励序列的宽度 小于1 kHz,所以用2kHz取样就足够了);当然,后面要进 行内插。
❖ ②提取降低取样率后的信号模型参数(LPC参数),检测出 峰值及其位置就得到基音周期值。
❖ ③最后进行有/无声判别。此处与倒谱法类似,有一个无声 检测器,以减少运算量。
简化逆滤波法(SIFT)
小波变换法
❖ 一个信号的小波变换具有这样的性质:信号小波变换的极值 点对应于信号的锐变点或不连续点。语音的产生过程实际上 是气流通过声门再经声道响应后变成声音。对于浊音语,它 是由气流冲击声门,使声门发生周期性的开启或闭合,这种 周期性的气流经声道响应就形成了浊音语音。声门的这种开 启与闭合,在语音信号中引起一个锐变。对语音信号作小波 变换则其极值点对应于声门的开启或闭合点,相邻极值点之 距离就对应着基音周期。因而,采用音信号的小波变换可以 检测基音周期。
N k 1
Rn (k) Sn (m)Sn (m k) m0
❖ Rn(k)不为零的范围为是k=(-N+1)~(N—1),且为偶函数。 ❖ 浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;
而清音的自相关函数没有明显的峰值出现。因此检测是否有 峰值就可判断是清音或浊音,检测峰值的位置就可提取基音 周期值。
yes unvoiced
基音检测的后处理
❖ 无论采用哪一种基音检测算法都可能产生基音检测错误,使 求得的基音周期轨迹中有一个或几个基音周期估值偏离了正 常轨迹(通常是偏离到正常值的2倍或1/2),此情况如图 3-18所示。并称这种偏离点为基音轨迹的“野点”。
为了去除这些野点,可以采用各种平滑算法,其中最常用的 是中值平滑算法和线性平滑算法。
的冲激,差值为负,输出为0 ❖ m4(n):在每一个谷点处产生一个等于谷值的绝对值冲激 ❖ m5(n):在每一个谷点处产生一个谷值绝对值加前一峰值的冲
激 ❖ m6(n):在每一个谷点处产生一个等于谷值绝对值加前一谷值
点的冲激,若为负,输出0
6个冲激产生示意图
倒谱(CEP)法
❖ 倒谱法是传统的基音周期检测算法之一,它利用语音信号的 倒频谱特征,检测出表征声门激励周期的基音信息。
简化逆滤波法(SIFT)
❖ 简化的逆滤波跟踪(SIFT)算法是相关处理法进行基音提取的 一种现代化的版本。该方法的基本思想是:先对语音信号进 行LPC分析和逆滤波,获得语音信号的预测残差,然后将残 差信号通过自相关滤波器滤波,再作峰值检测,进而获得基 音周期。语音信号通过线性预测逆滤波器后达到频谱的平坦 化,因为逆滤波器是一个使频谱子坦化的滤波器,所以它提 供了一个简化的(亦即廉价的)频谱平滑器。预测误差是自 相关器的输入,通过与门限的比较可以确定浊音,通过辅助 信息可以减少误差。
estim ated p itch
period P pk
no
P pk-P ref
P ref/5
ye s
s(n )
re-calculate the pitch period P c by cepstrum w ith the orignalsignal
sile n ce
pitch selection logic
no
voiced yes
Is the section periodic ?
no
unvoiced
time-domain periodicity
analysis by finding all
principle cycles in the no processed section
PK1-PK2 > Td4
3.组合平滑处理
❖ 为了改善平滑的效果可以将两个中值平滑串接,图3-29a所 示是将一个5点中值平滑和一个3点中值平滑串接.另一种方 法是将中值平滑和线性平滑组合,如图3-29b所示。为了使平 滑的基音轨迹更贴近,还可以采用二次平滑的算法,全部算 法的框图如图3-29c所示。由于中值平滑和线性平滑都会引 入延时,所以在实现上述方案时应考虑到它的影响。3-29d 是一个采用裣延时的可实现二次平滑方案。其中的延时大小 可由中值平滑的点数和线性平滑的点数来决定。
2.线性平滑处理
❖ 线性平滑是用滑动窗进行线性滤波处理,即:
L
y(n) s(n m) (m) mL
❖ 其中{ω(m),m = -L,-L+1,…,0,1,2,…,L}为 2L+1点平滑窗,满足:
L
(m) 1
mL
❖ 例如三点窗的权值可取为{0.25,0.5,0.25}。线性平滑在 纠正输入信号中不平滑处样点值的同时,也使附近各样点的 值做了修改。所以窗的长度加大虽然可以增强平滑的效果, 但是也可能导致两个平滑段之间阶跃的模糊程度加重。以上 两种平滑技术可以结合起来使用。
基音及提取方法
2014.3
内容提要
❖ 概念列表 ❖ 基音(基音周期)概念 ❖ 基音周期估计的难点 ❖ 基音周期估计方法 ❖ 基音周期估计后处理
❖ 基音 ❖ 基频 ❖ 基音周期 ❖ 声调
概念列表
基音周期
❖ 基音是指发浊音时声带振动所引起的周期性 ❖ 基音周期是指声带振动频率的倒数
语音信号最重要的参数之一,描述了语音激励源的一个 重要特征
1.中值平滑处理 ❖ 中值平滑处理的基本原理是:设x(n)为输入信号,y(n)为中
值滤波器的输出,采用一滑动窗,则n0处的输出值y(n0)就 是将窗的中心移到n0处时窗内输入样点的中值。即在n0点的 左右各取L个样点。连同被平滑点共同构成一组信号采样值 (共(2L+1)个样值),然后将这(2L+1)个样值按大小次序排 成一队,取此队列中的中间者作为平滑器的输出。L值一般 取为1或2,即中值平滑的“窗口”一般套住3或5个样值, 称为3点或5点中值平滑。中值平滑的优点是既可以有效地去 除少量的野点,又不会破坏基音周期轨迹中两个平滑段之间 的阶跃性变化。
并行处理技术(PPROC)方法
❖ 基本思想:对经过预处理的语音信号实施一系列的基音初步 检测,或分别对原始信号和经处理后的信号实施系列检测, 然后根据系列检测的初步结果,综合判定基音周期。
❖ 图3-21所示的是一个并行处理法的实现框图,它是一种时域 方法,检测器找出语音波形的六个测度,而这六个测度应用 于六个独立的基音检测器。由六个检测器驱动“服从多数” 逻辑电路而进行最终的基音判决。
❖ 自相关函数(ACF)法 ❖ 平均幅度差函数(AMDF)法 ❖ 峰值提取算法(PPA) ❖ 并行处理技术 ❖ 倒谱法:精度较高 ❖ 数据缩减法(DARD):速率最快 ❖ 小波法 ❖ 组合方法 ❖ ……
自相关法
❖ 语音信号s(m)经窗长为N的窗口截取为一段加窗语音信号 Sn(m)后,定义Sn(m)的自相关函数(ACF)Rn(k)(亦即语音信 号s(m)的短时自相关函数)为:
vo ice -
u n vo ice
d e cisio n
T0
lo g ic
清浊音判断流程
Voiced yes
Pk1>Td1 and Pk2>Td2
unvoiced yes
no
PK2<Td3
Calculate R[0] and R[Ppre]
voiced yes
R[Ppre]/R[0] > 0.3
❖ 找出的基音测度与经过检验确定的基音测度相当吻合,而且 处理过程具有抗噪声能力。
并行处理技术(PPROC)方法
基音周期并行处理法
❖ m1(n):在每一个峰点处产生一个等于峰值的冲激 ❖ m的2冲(n激):在每一个峰点处产生一个等于峰值减去前一个谷值点 ❖ m3(n):在每一个峰点处产生一个等于峰值减去前一个峰点值
pitch detection
T0
帧基音计算
F ind tw o co n se cu tive
p rin cip le cycles near to the m iddle
o f th e p ro ce sse d
se ctio n
sile n ce d e te ctio n
ca lcu la te th e
倒谱(CEP)法
❖ 然而,反应信息的倒谱峰,在过渡音和含噪语音中将会变得 不清晰甚至完全消失。其原因当然主要是因为过渡音中周期 激励信号能量降低和类噪激励信号干扰或含噪语音中的噪声 干扰所致。对于一帧典型的浊音语音的倒谱,其倒谱域中基 音信息与声道信息并不是完全分离的,在周期激励信号能量 较低的情况下,声道响应(特别是其共振峰)对基音倒谱峰的 影响就不可忽略。如果设法除去语音信号中的声道响应信息, 对类噪激励和噪声加以适当抑制,倒谱基音检测算法的检测 结果将有所改善,特别对过渡语音的检测结果将有明显改善。
200
250
300
cycle
40
30
the ending section
20
10
0
-10
-20
-300
100
200
300
400
500
600
精确基音周期估计困难
❖ 声门激励信号并不是完全的周期信号 ❖ 声道共振峰的影响 ❖ 变化范围广:50Hz(老人)~450Hz(女性、
小孩) ❖ 环境噪声的影响 ❖ 目前已有上百种,但没有一个完善的方法适
自相关法—需要考虑的问题
❖ 矩形窗 ❖ 窗长:至少两个基音周期 ❖ 声道共振峰特性造成的“干扰”
低通滤波:高端900Hz 中心削波:低幅度部分包含大量共振峰信息 残差信号的ACF
平均幅度差函数法(AMDF)
❖ 语音信号的短时平均幅度差函数(AMDF) Fn(k)定义为:
N k 1
Fn (k) Sn (m k) Sn (m) m0
syllable detection
源自文库
section into 40 msec sections
(right to left)
pitch detection
T0
calculate pitch period s(n) of a voiced section
by cepstrum
(left to right)