语谱图
语谱图

基于信号分析与处理的语谱图显示1 语谱图语音的发音过程中, 声道通常都是处于运动状态的, 因此它的共振峰特性也是时变的。
不过这个时变过程比起振动过程来说要缓慢得多, 因此一般可以假定它是短时平稳的, 每一时刻我们都可以用这时刻附近的一短段( 例如15ms) 语音信号分析得到一种频谱。
对语音信号连续地进行频谱分析就可以得到一种二维图谱, 其横坐标表示时间, 纵坐标表示频率, 而每像素的灰度值大小反映相应时刻和相应频率的信号能量密度。
这种时频图称为语谱图( Sonogram 或Spectrogam), 这种反映语音信号动态频谱特性的时频图在语音分析中有重要实用价值, 被视为可视语言。
从语谱图上不仅能看出任一时刻发音器官的共振峰特征,而且可以看出语音的基音频率, 是否清音、爆破音等。
语谱分析在语音识别、合成及编码中很有意义。
1.1 语谱图的产生基理语音信号是一种典型的非平稳信号, 但是其非平稳性是由发音器官的物理运动过程而产生的, 此过程与声波振动的速度相比较缓慢, 可以假定在10~30ms这样的短时间内是平稳的。
傅立叶分析是分析线性系统和平稳信号稳态特性的强有力的手段, 而短时傅里叶分析, 也叫时间依赖傅立叶变换, 就是在短时平稳的假定下, 用稳态分析方法处理非平稳信号的一种方法。
设离散时域采样信号为x(n), n=0,1,⋯,N- 1, 其中n 为时域采样点序号, N 是信号长度。
然后对信号进行分帧处理, 则x(n)表示为xn(m), n=0,1,⋯,N- 1, 其中n 是帧序号, m 是帧同步的时间序号, N 为帧长( 一帧内的采样点数) 。
信号{x(n)}短时傅里叶变换为:其中{w(n)}为窗序列, 则信号x(n)的离散时域傅里叶变换(DTFT) 为:采用离散傅里叶变换(DFT)得:则P(n,k)是二维的非负实值函数, 并且不难证明它是信号x(n)的短时自相关函数的傅里叶变换。
用时间n 作为横坐标, k 作纵坐标, 将P(n,k)的值表示为灰度级所构成的二维图像就是语谱图。
基于MATLAB的语谱图显示与分析

技{术f创l蒯厘豳圈曩壅豳圜塑豳西lil圈中文核心期刊《微计算机信息》(管控一体化)2005年第21卷第10.3期基于MATLAB的语谱图显示与分析TheDisplayandAnalysisofSonogramBasedonMATLAB(1郑卅『大学;2.郑州解放军信息工程大学)李富强1万红1,2黄俊杰1Li,FuqiangWan,HongHuang,Junjie摘要:文章给出了一种基于MATLAB的语谱图显示原理及实现方法。
该法可对语音信号f或其它类型的似平稳信号1进行频谱图的伪彩色映射及显示。
语谱图的类型有宽带和窄带两种.可按需求设置伪彩色显示的映射。
文中介绍了语谱图显示的原理.MATLAB的相关功能函数.并给出了一个程序实例及其实验结果。
在MATLAB中进行了仿真。
结果表明宽带及窄带语谱图对时间分辨率和频率分辨率的不同反映,并且该法对设备要求低.编程简单.可以在普通通用计算机上实现。
关键字:语谱图;宽带语谱图;窄带语谱图;伪彩色显示;MAT—LAB中图分类号:TN911.72文献标识码:A文章编号:1008—0570(2帅5)10…3017203Abstract:Thisarticleintroducesthedisplayprincipleandreal-izationofspectrogrambasedMATLAB.Thespectrogramofspeechsignalsandothersimilarquasi—stationarybedonebythismethod.Theretwokindsofspectrogram:wide—bandandBaITOW—bandspectrograms.Inaddition.difierentpseu—do-color—mappingdisplaysoptional.Itthedisplayprincipleofspectrogram,thecorrelativefunctionsofMATLABandtheprogram,aswelltheexperimentalresults.ThesinmlationinMATLABtHinSoutthatwide—bandandnarrow—bandspectrogramsrepresentdifferentdegreesoftimeandfre—quencyresolution,respectively.ThismethodbeimplementedeasilywithoutcomplicatedprogrammingbaseduniversalPC.Keywords:spectrogram;wide—-bandspectrogram;narrow—-bandspectrogram;pseudo-colordisplay;MATLAB1语谱图语音的发音过程中,声道通常都是处于运动状态的.因此它的共振峰特性也是时变的。
基于语谱图统计特征的说话人识别方法

基于语谱图统计特征的说话人识别方法随着新一代信息技术的发展,智能交互应用正以蓬勃发展的势头迅速扩大着市场份额。
当前,说话人识别技术已经成为媒体交互应用的重要组成部分,其主要功能在于辨认某个人在任何语言环境中的声音。
这是一种发达的声纹识别技术,它可以依据语谱图的特征来判断说话人的声音。
本文中,将介绍一种基于语谱图统计特征的说话人识别方法。
将提出一种新的语谱图建模方法和降维方法,以提高非结构化数据的统计分析能力,并用于分类和识别说话人。
一、说话人识别技术说话人识别技术是最近应用于信息技术的一项关键技术。
它的主要功能是根据声波来识别说话者的身份。
它采用声纹识别技术,可以从语音信号中提取出声纹特征,从而完成识别的功能。
语谱图是说话人识别中最常用的分析技术。
它采用两个不同尺度的采样音频信号,并将其转换为二维频率响度空间,以实现声音分类和识别。
二、语谱图建模方法语谱图建模方法是根据声音信号的时频特征来构建语谱图的一种方法。
它通过以下步骤完成:1.据采集:对声音信号进行采样,将采样频率设置为8kHz;2.音识别:将采集的数据经过语音识别算法处理,从而提取出语谱图所需的特征信息;3.谱图建模:基于所提取的特征信息,在时间频率域中建立语谱图模型;4.谱图统计特征:对语谱图进行统计分析,提取出语谱图的频率特征;5.别说话人:基于统计特征,实现说话人识别和分类。
三、降维技术语谱图统计特征提取是一种非结构化数据统计分析,它包含了大量的时频信息。
因此,语谱图统计特征提取需要对大量数据进行分析,这对计算资源和运行时间是一种极大的挑战。
为此,开发了一种高效的降维技术来解决这一问题。
该降维技术将从语谱图统计特征中提取出最重要的特征,并将其转换成低维度空间,以降低计算复杂度。
它采用主成分分析(PCA)和独立成分分析(ICA)两种常用的降维技术,通过对语谱图统计特征提取出的特征信息进行降维,来实现对说话人识别的高精度识别。
四、总结本文介绍了一种基于语谱图统计特征的说话人识别方法。
第二章语谱图分析.

语谱图在1941年由贝尔实验室研究人员发明,它试图用三 维的方式显示语音频谱特性, 纵轴表示频率,横轴表示 时间,颜色的深浅表示特定频带的能量大小,语谱图的发 明是语音研究的一个里程碑,它将语音的许多特征直观的 呈现出来。
(3)时间分辨率高,可以清楚的看 到浊音共振峰时变过程
N=256
你 好 ” 窄 带 语 谱 图 灰 度 显 示 图
特点:(1)窗长长,可以 获得较高的频率分辨率。 (2)滤波器的带宽能在浊 音区分辨出每个谐波。(3) 语谱的谐波形式的结构在频 率方向清晰可见,并能看到 基音频率的时变过程。 22
N=2048
5
二、宽带语谱图的典型谱型
宽带语谱图的典型谱型: 宽横杠(Bar):代表元音的共振峰位置,表现为 图中与水平时间轴平行的较宽的黑杠,不同元音的 共振峰位置不同,根据宽带语谱图上各横杠的位置 可以区分不同的元音,不同人发音的第一共振峰位 置会不同,但其分布结构是相似的。
竖直条(spike)代表塞音(b,d,g,p,t,k)或塞 擦音(z,zh,j,c,ch,q),表现为图中与垂直频率轴 平行的较宽的黑条,在时间上持续时间很短,在频 率轴上集中区位置随不同的辅音而不同
Wideband spectrogram:给出共振峰频率 Narrowband spectrogram:基音周期及其谐波1112 13600500
400
300
200
100
0 0
10
20
30
40
50
60
70
N=1024 hamming window 幅度谱
600 500 400 300 200 100
用matlab实现录音以及语谱图的绘制

《语音信号处理》仿真作业院系电气与电子工程学院专业班级姓名学号指导教师2020 年3 月作业题目:语音采集与读写一、目的(1)了解matlab采集语音信号的原理与采用命令;(2)掌握基于matlab的语音文件的创建、读写等操作。
二、要求(1)利用matlab程序实现录音语音信号“你好,武汉欢迎你”,并保存为wuhan.wav文件。
(2)使用waveread函数读取wuhan.wav文件,并使用plot函数显示出来。
要求:横纵坐标带有标注,横轴的单位为秒(s),纵轴显示归一化后的数值。
三、具体步骤(包含原理、具体实现、结果对比等)1、基本原理利用matlab的语音工具箱进行录音,用电脑声卡进行声音捕获。
利用matlab打开录音的wav文件,对录音进行分析和归一化,并生成语谱图。
2、具体实现(步骤、代码)第一步,用matlab软件实现录音,并存储为wav文件,同时绘制语音数据波形,代码如下:recObj = audiorecorder;disp('Start speaking.')recordblocking(recObj, 5);%设置录音时间disp('End of Recording.');% 回放录音数据play(recObj);% 获取录音数据myRecording = getaudiodata(recObj);% 绘制录音数据波形plot(myRecording);%存储语音信号filename = 'G:\Desktop\专业学习教程\语音信号处理\wuhan.wav'; audiowrite(filename,myRecording,12000);第二步,读取wav文件并生成语谱图,代码如下:clear all;[x,sr]=audioread(' G:\Desktop\专业学习教程\语音信号处理\wuhan.wav'); %#ok<DWVRD> %sr为采样频率if (size(x,1)>size(x,2))x=x';ends=length(x);w=round(44*sr/1000); %窗长,取离44*sr/100最近的整数 n=w; %fft 的点数 ov=w/2; %50%的重叠 h=w-ov;% win=hanning(n)'; %哈宁窗 win=hamming(n)'; %汉明窗 c=1;ncols=1+fix((s-n)/h); %fix 函数是将(s-n)/h 的小数舎去 d=zeros((1+n/2),ncols); for b=0:h:(s-n)u=win.*x((b+1):(b+n)); t=fft(u);d(:,c)=t(1:(1+n/2))'; c=c+1; endtt=[0:h:(s-n)]/sr; ff=[0:(n/2)]*sr/n;imagesc(tt/1000,ff/1000,20*log10(abs(d))); colormap(gray); axis xy xlabel('时间/s'); ylabel('频率/kHz'); 3、实验结果说明语音数据波形 语谱图四、总结这次做了一些准备工作所以比较顺利,在语谱图的绘制过程中曾经忘了添加先前wav录音文件的具体位置导致编译失败,在matlab报错后可以仔细看看弹出的关于相关语句的解析,十分有助于更改错误并提高对语句的熟练程度。
语谱图分析 PPT

彩色语谱图
发 “ah、”时得单元音 /a/
发 “eye”时得双元音 /ai/
发音 “real”
发音 “mean” 26
同一个人得语谱图
不同得讲话者 得语谱图具有 不同得“声 纹”。据此可 以区别说话人, 这与不同得人 有不同得指纹, 根据指纹可以 区别不同得人 就是一个道理。
27
5个不同发音者发音“0”得语谱图
分析中具有重要得实用价值,被称为“可视语言”
语谱图分析
语谱图中得花纹有横杠、乱纹与竖直条等
横杠就是与时间轴平行得几条黑色带纹,它们 就是共振峰,从横杠对应得频率与带宽可以确 定相应得共振峰频率与带宽
在一个语音段得语谱图中,有没有横杠出现就 是判断它就是否就是浊音得重要标志。
竖直条(又叫冲直条)就是语谱图中出现与时 间轴垂直得一条窄黑条。
语谱图在1941年由贝尔实验室研究人员发明,它试图用三 维得方式显示语音频谱特性, 纵轴表示频率,横轴表示时 间,颜色得深浅表示特定频带得能量大小,语谱图得发明就 是语音研究得一个里程碑,它将语音得许多特征直观得呈 现出来。
语谱图中显示了大量得与语音得语句特性有关得信息,它 综合了频谱图与时域波形得特点,明显地显示出语音频谱 随时间得变化情况,或者说就是一种动态得频谱。
31
汉语拼音“sou ke”得时间波
32
形
元音[ou]得频谱图
33
语音特性分析实例:Ten above in suburbs
34
35
36
37
38
39
辅音[s]得频谱
40
语音波形及特性
女声“她去无锡市”得时域波形图
41
对上段语音信号得分析:
❖ 这段语音得频率带宽为300-3400Hz ❖ 横轴为时间,纵轴为语音得幅度。 ❖ 采样频率为8kHz,持续时间为4s。 ❖ 时间轴压缩很短,只能瞧清该段语音得轮廓,
实验一显示语音信号的语谱图

实验一显示语音信号的语谱图一、实验目的综合信号频谱分析和滤波器功能,对语音信号的频谱进行分析,并对信号含进行高通、低通滤波,实现信号特定处理功能。
加深信号处理理论在语音信号中的应用;理解语谱图与时频分辨率的关系。
二、实验原理语谱图分析语音又称语谱分析,语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的优点,明显的显示出语音频谱随时间的变化情况。
语谱图实际上是一种动态的频谱。
窄带语谱图有良好的频率分辨率及较差的时间分辨率;而宽带语谱图具有良好的时间分辨率及较差的频率分辨率。
三、实验内容实验数据为工作空间ex3M2.mat中数组we_be10k是单词“we”和“be”的语音波形(采样率为10000点/秒)。
1、听一下we_be10k(可用sound)2、使用函数specgram_ex3p19.显示语谱图和语音波形。
对比调用参数窗长20ms(200点)、帧间隔1ms(10点)和参数窗长5ms(50点)、帧间隔1ms(10点);再对比窗长>20ms或小于5ms,以及帧间隔>1ms时的语谱图说明宽带语谱图、窄带语谱图与时频分辨率的关系及如何得到时频折中。
3、生成高通和低通滤波器,观察其频谱;对语音信号we_be进行滤波,听一下对比其效果。
四、实验结果实验程序语谱图和语音波形低通滤波器频谱高通滤波器频谱结论:1、因频率分辨率随窗口宽度的增加而提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,但时间分辨率提高。
由以上图可知:窄带语谱图有良好的频率分辨率及较差的时间分辨率,而宽带语谱图具有良好的时间分辨率及较差的频率分辨率。
窄带语谱图中的时间坐标方向表示的基因及其各次谐波;而宽带语谱图给出语音的共振峰平率及清辅音的能量汇集区。
2、因加窗的目的是要限制分析的时间以使其中的波形特性没有显著变化,因此想要得到时频折中,选用的窗函数应尽量满足a、频率分辨率高b、卷积后其他的频率成分产生的频谱泄露少。
第二章语谱图

汉语拼音“sou ke”的时间波形
元音[ou]的频谱图
语音特性分析实例:Ten above in suburbs
辅音[s]的频谱
语音波形及特性 女声“他去无锡市”的时域波形图
对上段语音信号的分析:
❖ 这段语音的频率带宽为300-3400Hz ❖ 横轴为时间,纵轴为语音的幅度。 ❖ 采样频率为8kHz,持续时间为4s。 ❖ 时间轴压缩很短,只能看清该段语音的轮廓,无法辨识语音波形的具体细节。
10
20
30
40
50
60
70
N=1024 hamming window 幅度谱
600 500 400 300 200 100
0 0
10
20
30
40
50
60
70
1200 1000
800 600 400 200
0 0
10
20
30
40
50
60
70
N=2048 hamming window 幅度谱
1200 1000
“受用”语谱图
“ “
语谱图分析
你 好 ” 宽 带 语 谱 图 灰 度 显 示 图
你 好 ” 窄 带 语 谱 图 灰 度 显 示 图
特点:(1)窗长短,可以获得较高的时间分辨 率;(2)功率谱的谐波结构在频率轴方向被平 滑掉了,谐波间隙被填平了,因此在频域看不 出基音频率和频谱的谐波形式结构,但可以明 显的看成共振峰结构和语谱包络
彩色语谱图 发 “ah.”时的单元音 /a/
发音 “real”
发 “eye”时的双元音 /ai/ 发音 “mean”
同一个人的语谱图
不同的讲话者的语谱图 具有不同的“声纹”。 据此可以区别说话人, 这与不同的人有不同的 指纹,根据指纹可以区 别不同的人是一个道理。
基于注意力机制语谱图特征提取的语音识别

第62卷第2期吉林大学学报(理学版)V o l.62 N o.2 2024年3月J o u r n a l o f J i l i nU n i v e r s i t y(S c i e n c eE d i t i o n)M a r2024d o i:10.13413/j.c n k i.j d x b l x b.2023080基于注意力机制语谱图特征提取的语音识别姜囡1,庞永恒1,高爽2(1.中国刑事警察学院公安信息技术与情报学院,沈阳110854;2.东北大学信息科学与工程学院,沈阳110819)摘要:针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率.关键词:语音识别;C T C模型;循环神经网络;注意力机制中图分类号:T P391文献标志码:A 文章编号:1671-5489(2024)02-0320-11S p e e c hR e c o g n i t i o nB a s e d o nA t t e n t i o n M e c h a n i s ma n dS p e c t r o g r a mF e a t u r eE x t r a c t i o nJ I A N G N a n1,P A N G Y o n g h e n g1,G A OS h u a n g2(1.S c h o o l o f P u b l i cS e c u r i t y I n f o r m a t i o nT e c h n o l o g y a n dI n t e l l i g e n c e,C r i m i n a l I n v e s t i g a t i o nP o l i c eU n i v e r s i t y o f C h i n a,S h e n y a n g110854,C h i n a;2.C o l l e g e o f I n f o r m a t i o nS c i e n c e a n dE n g i n e e r i n g,N o r t h e a s t e r nU n i v e r s i t y,S h e n y a n g110819,C h i n a)A b s t r a c t:A i m i n g a tt h e p r o b l e m t h a tt h ec o n n e c t e dt e m p o r a lc l a s s i f i c a t i o n m o d e ln e e d e dt oh a v e o u t p u t i n d e p e n d e n c ea s s u m p t i o n,a n dt h e r e w a ss t r o n g d e p e n d e n c eo nl a n g u a g e m o d e la n dl o n g t r a i n i n gp e r i o d,w e p r o p o s e da s p e e c hr e c o g n i t i o n m e t h o db a s e do nc o n n e c t e d t e m p o r a l c l a s s i f i c a t i o n m o d e l.F i r s t l y,b a s e do n t h e f r a m e w o r ko f t r a d i t i o n a l a c o u s t i cm o d e l,s p e c t r o g r a mf e a t u r e e x t r a c t i o n n e t w o r k b a s e d o na t t e n t i o n m e c h a n i s m w a st r a i n e d b y u s i n g p r i o rk n o w l e d g e,w h i c he f f e c t i v e l y i m p r o v e d t h ed i s c r i m i n a t i o na n dr o b u s t n e s so fs p e e c hf e a t u r e s.S e c o n d l y,t h es p e c t r o g r a m f e a t u r e e x t r a c t i o nn e t w o r kw a ss p l i c e d i nt h e f r o n to f t h ec o n n e c t e dt e m p o r a l c l a s s i f i c a t i o n m o d e l,a n dt h e n u m b e r o f l a y e r s o f t h e r e c u r r e n tn e u r a l n e t w o r k i nt h em o d e lw a s r e d u c e d f o r r e t r a i n i n g.T h e t e s t a n a l y s i s r e s u l t s s h o wt h a t t h e i m p r o v e dm o d e l s h o r t e n s t h e t r a i n i n g t i m e,a n d e f f e c t i v e l y i m p r o v e s t h e a c c u r a c y o f s p e e c h r e c o g n i t i o n.K e y w o r d s:s p e e c h r e c o g n i t i o n;C T C m o d e l;r e c u r r e n t n e u r a l n e t w o r k;a t t e n t i o nm e c h a n i s m收稿日期:2023-03-08.第一作者简介:姜囡(1979 ),女,汉族,博士,教授,从事智能识别的研究,E-m a i l:z g x j_j i a n g n a n@126.c o m.基金项目:教育部重点研究项目(批准号:E-A Q G A B Q20202710)㊁辽宁省自然科学基金(批准号:2019-Z D-0168)㊁辽宁省科技厅联合开放基金机器人学国家重点实验室开放基金(批准号:2020-K F-12-11)㊁中国刑事警察学院重大计划培育项目(批准号: 3242019010)㊁公安学科基础理论研究创新计划项目(批准号:2022X K G J0110)和证据科学教育部重点实验室(中国政法大学)开放基金(批准号:2021K F K T09).近年来,在信息处理㊁通信与电子系统㊁自动控制等领域相继出现了不同用途的语音识别系统,低信噪比下语音识别已显露强大的技术优势和生命力,但仍面临诸多问题需要完善.环境噪音和杂音对语音识别的效果影响不容忽视;在多语言混合㊁无限词汇识别和自适应方面需要进一步改进,以达到不受口音㊁方言和特定人影响的要求[1-3].传统基于GMM -HMM (G a u s s i a nm i x t u r em o d e l -h i d d e nM a r k o vm o d e l )的语音识别框架得到广泛使用和研究[4-5],提出了语音识别声学模型的区分性训练准则,有效提升了语音识别的准确率和识别速率.基于声学模型的区分性训练(d i s c r i m i n a t i v et r a i n i n g,D T )准则和最大似然估计训练GMM -HMM ,根据区分性准则对模型参数进行更新,可以显著提升模型的性能[6-8].文献[9-10]将深层神经网络用于语音的声学建模,在音素识别T I M I T (声学-音素连续语音语料库,T h eD A R P AT I M I Ta c o u s t i c -p h o n e t i c c o n t i n u o u s s p e e c hc o r p u s )任务上获得成功,但由于T I M I T 是一个小词汇量的数据库,连续语音识别任务更关注的是词组和句子的正确率,识别效果并不理想.文献[11]提出了在C D -D N N -HMM 框架下利用混合带宽训练数据,提高宽带语音识别精度的策略,D N N (d e e p ne u r a l n e t w o r k)提供了使用任意特性的灵活性.随着基于GMM -HMM 的语音识别框架被打破,文献[12]考虑卷积提供了一种改进的混响建模能力,将C N N (c o n v o l u t i o n a l n e u r a l n e t w o r k )与全连接的D N N 相结合,可以在参数小于D N N 的特征向量中建立短时间相关性模型,从而更好地泛化未发现的测试环境.文献[13]提出一种具有规则化自适应性的基于长短时记忆(l o n g a n d s h o r t t e r m m e m o r y ,L S T M )循环神经网络的声学模型.在混合模型中,D N N /C N N /R N N (r e c u r r e n t n e u r a l n e t w o r k )与隐M a r k o v 模型(HMM )是分开优化的,又由于语音识别中存在序列识别问题,因此联合优化模型中的所有组件会有效提升识别率,因而端到端的处理方式被引入到语音识别系统中.文献[13]提出了一种基于G a mm a t o n e 频率倒谱系数(G F C C )的特征提取方法,弥补了M e l 频率倒谱系数(M F C C )特征的局限性.文献[14-18]提出了混合式C T C (c o n n e c t e d t e m p o r a l c l a s s i f i c a t i o n )/注意端到端的语音识别技术,这是一种用于语音识别㊁文本识别等任务的深度学习模型,它可以直接从时序数据中学习并预测出整段序列的标签.C T C 模型的基本架构是一个由多个循环神经网络(R N N )单元组成的双向网络,该网络在输入时序数据后,可以输出整段序列的标签概率分布,通过反向传播算法进行训练,最终得到的模型可以对新的未知序列进行标签预测,有效利用了训练和译码的优点,采用多任务学习框架提高鲁棒性,可以实现快速收敛.本文提出一种基于连接时序分类模型的语音识别方法.充分利用先验知识,基于注意力机制训练语谱图特征提取网络,有效提升提取特征的区分性和鲁棒性.最终保证模型训练时间有效降低,提升语音识别准确率.1 端到端模型的语音识别框架1.1语音识别系统流程图1 语音识别系统原理框架F i g .1 P r i n c i p l e f r a m e w o r ko f s p e e c h r e c o g n i t i o n s y s t e m 语音识别系统包括声学特征提取㊁语言和声学模型㊁发音词典和解码器5个模块,如图1所示.从语音信号中提取到的声学特征经过统计训练到声学模型,把该声学模型作为识别单元的模板,结合发音词典和语言模型,经过解码器处理得到识别结果.1.2 基于C T C 的端到端语音识别框架C T C 的连续语音识别系统主要包括循环神经网络和C T C 函数计算层,其中循环神经网络包含4层L S T M 单元,如图2所示,其作用主要是提取输入特征中的有效时序信息,提升特征的区分性能和表达能力.C T C 函数计算层则可以直接计算输出序列后验概率.123 第2期 姜 囡,等:基于注意力机制语谱图特征提取的语音识别图2 基于C T C 的端到端语音识别系统框架F i g .2 E n d -t o -e n d s p e e c h r e c o g n i t i o n s ys t e mf r a m e w o r kb a s e do nC T C L S T M 模型是R N N 的一种变形.R N N 存在梯度消失的问题,即后面时间节点对前面时间节点的感知力下降,网络深度过大无法训练.图3为循环神经网络模型的结构.由图3可见,X t 是网络在t 时刻的输入,经过网络结构处理得到h t ,它可以进行输出,也可以传递给下一时刻.y t +1为t +1时刻网络得到的输出结果,包含了当前时刻和所有历史时刻共同作用的结果,以此可以对时间序列建模.其中隐含层状态计算公式为h t =f (W h x x t +W h h h t -1);(1)输出和隐含层状态的关系为y t =g (W h yh t ),(2)其中f (㊃)是隐含层激活函数,g (㊃)是输出层激活函数,W h x ,W h y 和W hh 是权重矩阵.L S T M 在R N N 的基础上,增加了一个存储单元㊁一个输入门㊁一个输出门和一个遗忘门,如图4所示.图3 循环神经网络模型的结构F i g.3 S t r u c t u r e o f r e c u r r e n t n e u r a l n e t w o r km o d el 图4 L S T M 模型的内部结构F i g.4 I n t e r n a l s t r u c t u r e o fL S T M m o d e l 在C T C 算法中,同一个实际音素序列可由基于帧的音素序列转换,多个基于帧的音素序列的后验概率相加可得到实际音素序列的后验概率.通常C T C 算法在进行计算前,都要在识别音素集合中加入空白符 和序列映射函数Γ,其中空白符不但代表连续语音中的静音区间,也可作为两个音素之间的分隔符.加入空白符后新的音素集合A ={c 1,c 2, ,c m , }元素数量为m +1,因此需要把模型中S o f t m a x 层单元数调整至m +1.序列映射函数Γ定义为:A T ңA ɤT ,即把基于帧的音素序列映射成长度较短的实际音素序列.基于C T C 和文本对齐的音频示例如图5所示.由图5可见,分帧式方法需要做每个音素的标记,而C T C 只是预测一系列的峰值和紧接着一些可能的空白符用于区分字母,分帧式的方法可能出现对齐错误,因为相邻两帧的标签概率分布图太接近,如在d h ,a x 有明显的重叠,而C T C 却没有出现这种情况.虽然基于C T C 的端到端语音识别模型摒弃了传统HMM 框架,输出可以达到音素甚至更小的状态,但其仍存在一些不足:223 吉林大学学报(理学版) 第62卷1)C T C 损失函数训练时间较长,优化空间相对复杂,损失函数的数值敏感较易出现波动,越接近优化目标,优化空间变得越小,易导致反优化;2)有输出独立性的假设,对于语言模型的依赖性较强;3)循环神经网络在时域上呈递归结构,不能同时处理多帧数据.图5 分帧式与C T C 对语音信号进行文本对齐F i g .5 T e x t a l i g n m e n t o f s p e e c h s i g n a l sw i t h f r a m i n g an dC T C 2 基于注意力机制语谱图特征提取模型针对C T C 的端到端语音识别模型的局限性,研究者已提出在端到端模型的前端增加一个基于注意力机制的语谱图特征提取模型.基于语谱图提取声学特征相当于对原始语音非线性特征进行压缩变换,相比常规M F C C 等特征维度更低,同时对背景噪声㊁信道和说话人的鲁棒性和区分度也更强.利用端到端可以实现直接建模,将特征提取模型拼接到识别模型的前端,对融合后的识别模型进行联合训练,并微调参数,可有效提升识别准确率.2.1 利用语谱图提取发音特征语音帧长通常是20~50m s ,为准确获取说话人音质㊁音色的信息,选择单个完整音节作为语谱图的最小单位,时间为50~200m s .考虑通常自然发音的频率范围在100~3000H z ,设置纵坐标的频率标尺范围.下面用一段语音的语谱图进行分析.图6 语音信号语谱图F i g .6 S p e c t r o g r a mo f s p e e c h s i gn a l 图6为一个灰度窄带语谱图,灰度值深浅渐变的像素值可精确反映不同时间点频率分布的动态变化.语音信号在低频处分布较多,高频处分布较少,且含有许多不同的花纹,如横杠㊁竖直条和乱纹等,其中横杠与时间轴平行,表示共振峰,深色条纹呈周期性均匀分布,从它对应的纵轴频率和宽度可确定相应的共振峰频率和带宽.共振峰的个数㊁走向以及带宽都是重要的特征参数.为更清晰直观地说明语谱图特征参数的优越性.将语音信号的各特征参数进行对比,结果列于表1.表1 语音信号各特征参数对比T a b l e 1 C o m p a r i s o no f e a c h c h a r a c t e r i s t i c p a r a m e t e r o f s p e e c h s i gn a l现在大多数语音识别系统都采用M F C C 参数,但它的抗噪性和稳定性较差,因此本文采用在语谱图上提取特征,具有较强的稳定性和鲁棒性,能进一步提升语音识别的准确率.323 第2期 姜 囡,等:基于注意力机制语谱图特征提取的语音识别2.2 注意力机制模型注意力机制模拟人类视觉机制忽略无关特征,将注意力分配在特征序列的部分相关区域,从特征序列中提取有效特征.在序列到序列模型中,将特征序列(h 1,h 2, ,h T )映射成一个目标向量c t o ,计算输出序列的元素y o .为便于后端模式分类,将序列中压缩后的重要信息变换为固定长度向量,再将c t o 作为注意力子网络后的解码网络输入,依次计算出循环神经网络隐含层状态序列(s 1,s 2, ,s O )和输出序列(y 1,y 2, ,yO ).注意力模型结构如图7所示.图7 注意力模型结构F i g.7 S t r u c t u r e o f a t t e n t i o nm o d e l 输出序列位置o ɪ{1,2, ,O }所对应的目标向量为c t o ,根据注意力机制其计算过程如下.输出序列位置o -1的隐含层状态为s o -1,首先计算其与t 时刻的特征关联度:e o ,t =a (s o -1,h t ),(3)其中a (㊃)为只含一个隐含层的多层感知机.注意力子网络表示为e o ,t =ωT t a n h (W [s o -1,h t ]+b ),(4)其中W 为输入层到隐含层的权重矩阵,b 为偏置向量,ω为隐含层到输出层的权重矩阵.将对所有时刻特征的关联度进行指数归一化后的数值作为注意力系数:αo ,t =e x p {e o ,t }ðTt =1e x p {e o ,t },(5)其中αo ,t 为权重,针对全部时刻的特征加权求和,利用注意力机制,得到输出序列位置o 对应的目标向量c t o 为c t o =ðTt =1αo ,t h t .(6)采用注意力机制计算目标向量的过程可记为c t o =a t t e n t i o n ((h 1,h 2, ,h T ),s o -1).(7)2.3 基于语谱图特征提取模型的训练由于模型中注意力子网络和解码网络的连接为环状结构,所有变量均可导,因此可针对目标函数进行最优化训练模型参数.数据集{(x 1,x 2, ,x T n ),(p 1,p 2, ,p O n )n ɪ[1,N ],n ɪℤ}包含N 张语谱图,利用梯度下降法求解下式中目标函数的最小值:^θ=a r g m i n θ1N ðNn -1[-l o g P (p n 1,p n 2, ,p n O n x n 1,x n 2, ,x n T n,θ)],(8)423 吉林大学学报(理学版) 第62卷其中n 为语谱图编号,p n 1,p n 2, ,p n O n 为正确音素标记序列,x n 1,x n 2, ,x nT 为语音的特征序列,θ为模型中全部的权重矩阵和偏置向量.考虑对序列进行建模,针对单段语音的序列计算方式为P (p n 1,p n 2, ,p n O x n 1,x n 2, ,x n T ,q )=P (p n 1x n 1,x n 2, ,x n T n ,q )P (p n 2x n 1,x n 2, ,x nT n ,q)ˑP (p n O x n 1,x n 2, ,x nT n ,q )=y p11y p22 y po o y pOO ny <e o s>O n +1,(9)其中y p o o (o ɪ{1,2, ,O })表示模型解码网络生成输出序列中第o 个输出向量中表示音素p o 出现的概率,y <e o s>O n +1表示输出序列第O n +1个输出向量中表示序列终止符<e o s >出现概率的分量.3 基于语谱图特征提取模型的语音识别3.1 匹配相似度定义引入更灵活的方式比较两个序列之间的相似度:最长公共子串(l o n g e s t c o mm o ns u b s t r i n g ,L C S )和编辑距离匹配法(e d i t d i s t a n c em a t c h i n g).3.2 注意力机制端到端语音识别设计在语谱图利用注意力模型提取高维特征,在基于C T C 的端到端模型上进行语音识别.步骤如下:1)样本输入.基于自适应门限的分形维数算法对音频进行语音端点检测,然后转化成灰度语谱图X i (i =1,2, ,n ),作为系统的输入.2)训练基于注意力的模型.首先引入不同的函数和计算机制,根据输入序列X 和目标序列P ,计算两者的相似性或者相关性,点积为S i m i l a r i t y(X ,P )=X ㊃P ,(10)余弦相似性为S i m i l a r i t y(X ,P )=X ㊃P X ㊃ P,(11)M L P 网络为ML P (X ,P ).(12)引入S o f t m a x 的计算方式对第一步的得分进行值转换,采用如下公式计算:a i =S o f t m a x (S i m i )=eS i m i ðL xj =1eS i m j.(13)计算特征V a l u e i 对应的权重系数,然后加权求和即可得到At t e n t i o n 数值:A t t e n t i o n (X ,P )=ðL Xi =1a i ㊃V a l u e i .(14)3.3 注意力模型提取语谱图特征由于注意力输出序列未知,同时考虑注意力模型中解码网络位置输出对计算结果的影响,基于带序列终止符的B e a m S e a r c h 算法在注意力模型解码网络的输出中,将负概率最低的序列作为输出.按照序列的长度逐步枚举解码结果,并将其存储在一个容量为b e a m _s i z e 序列集合中.根据集合中元素,在进行每次搜索时序列输入和解码网络将序列长度拓展1位,能同时得到多个候选结果和对应的得分.从中可筛选出最好的b e a m _s i z e 个序列保留在集合中,根据此流程循环运行.3.4 基于C T C 端到端模型的训练和识别在注意力模型中从语谱图上得到高维特征,输入到L S T M 神经网络,继续经过一层全连接神经网络,将最后一个维度映射作为所有可能的类标.同时数据会进入C T C 模块和计算损失函数,经反向传播神经网络,预测输入数据所对应的序列.综上,基于注意力机制的端到端语音识别算法的系统框图如图8所示.523 第2期 姜 囡,等:基于注意力机制语谱图特征提取的语音识别图8 基于注意力机制的端到端语音识别系统框图F i g .8 F l o wc h a r t o f e n d -t o -e n d s p e e c h r e c o g n i t i o n s ys t e mb a s e do na t t e n t i o nm e c h a n i s m 4 实验分析4.1 实验配置在P y C h a r m 软件T e n s o r F l o w 框架下进行语音识别实验.使用的语料库是t h c h s -30语音库,该数据库设计的目的是作为863数据库的补充,尽可能提高中文发音的涵盖率.t h c h s -30语音库是使用单个碳粒麦克风在安静的办公室环境下录制的,总时长约30h ,参与录音的人员为会说流利普通话的大学生,设置采样频率为16k H z ,其文本选取自大容量的新闻和文章,全部为女声.表2列出了该数据集包含的全部内容.其中开发集的作用是调整参数㊁选择特征,与训练集进行交叉验证.训练和测试的目标数据可分为词和音素两类.表3列出了训练t h c h s 语料库的一些基本信息.表2 t h c h s 语料库包含的全部内容T a b l e 2 A l l c o n t e n t s c o n t a i n e d i n t h c h s c o r pu s表3 t h c h s 语料库的基本信息T a b l e 3 B a s i c i n f o r m a t i o no f t h c h s c o r pu s 加载训练样本样本数词汇表大小最长句子字数最长语音/s2022-10-188911266675673在语音识别中,常用的评价指标除有识别的准确率,还有词错误率(w o r de r r o r r a t e ,W E R ).为保持识别的词序列和目标序列的一致性,需要进行替换㊁删除或插入等操作,错误率用W E R 表示,其计算公式为W E R =S +D +INˑ100%,(15)其中S 表示替换,D 表示删除,I 表示插入,N 为单词数目.语音识别结构如图9所示,分别提取M F C C 特征,用C N N 和A t t e n t i o n 在语谱图上提取特征,再分别输入到HMM ,R N N 和L S T M +C T C 模型中进行语音识别,对比分析,以验证改进算法的有效性.4.2 基于M F C C 特征的语音识别模型分析选取t h c h s 语料库中一段名为 A 2_46.w a v 的音频文件,该音频内容为 换句话说,一个氯原子只能和一个钠原子结合,而两个氯原子才能和一个镁原子化合. 音频时长为8s ,提取的时域波形如图10所示.对音频进行端点检测,由于音频中含有多段短语音段,用红色竖线标记过于杂乱.因此对检测出的短语音段,用红色覆盖,静音部分用灰色标记,得到的语音波形如图11所示.623 吉林大学学报(理学版) 第62卷图9 语音识别结构F i g .9 S t r u c t u r e o f s p e e c h r e c o gn i t i on 图10 语音波形F i g .10 S pe e c hw a v ef o rm 图11 端点检测的语音波形F i g .11 S p e e c hw a v e f o r mf o r e n d po i n t d e t e c t i o n 提取特征维度为12维的语音M F C C 特征,并对其逐帧提取.各语音的长度不同,所得特征矩阵的大小也不同,例如当一段语音的帧数为n ,则对应提取的特征是一个n ˑ12的特征矩阵,因此无法统一模型输入的尺度.因此,计算全部帧的M F C C 向量均值,并将其作为整段语音的M F C C 特征,按列求取特征矩阵的平均值,归一化后可得到1ˑ12的M F C C 特征向量.将M F C C 特征分别输入到D N N -HMM ,R N N 和L S T M +C T C 三个模型中,对比平均迭代周期和识别错误率,以证明L S T M+C T C 模型的优越性.采用三音素的状态作为D N N 网络的标签信息.整个网络包括1个输入层㊁6个隐含层和1个输出层.T a n h 函数作为隐含层的激活函数,输出层分类用S o f t m a x 函数,以最小化交叉熵为目标函数,权重学习率为0.001.整个R N N 网络包括1层输入层,输入层的节点数为300;3个隐含层每层有2048个节点;一个输出层,对应36016个节点.S i g m o i d 函数作为隐含层的激活函数,输出层分类用S o f t m a x 函数.采用最小化交叉熵作为目标函数,学习率初始值为0.001.针对L S T M 单元训练神经网络的隐含层,设置状态维度为300,L S T M 堆叠的层数为4,隐藏节点为40个,1个全连接层.C T C 为目标损失函数,学习率为0.001.表4列出了基于M F C C 特征的语音识别模型对比结果.由表4可见,L S T M+C T C 语音识别模型在训练时间和识别性能上都优于其他模型,平均迭代周期降低到37m i n ,识别的错误率仅为7.5%.723 第2期 姜 囡,等:基于注意力机制语谱图特征提取的语音识别表4 基于M F C C 特征的语音识别模型对比结果T a b l e 4 C o m p a r i s o n r e s u l t s o f s p e e c h r e c o gn i t i o nm o d e l b a s e do n M F C Cf e a t u r e 语音识别模型平均迭代周期/m i n词错误率(W E R )/%D N N -HMM 7018.1R N N5311.2L S TM+C T C377.54.3 基于语谱图特征的语音识别模型分析图12 A 2_46.w a v音频的语谱图F i g .12 S p e c t r o gr a mo f A 2_46.w a v a u d i o 继续采用 A 2_46.w a v 音频,转化成语谱图如图12所示.图12为灰度窄带语谱图,通过灰度值渐变的像素值可精确反应不同时间点频率分布的动态变化情况.图13为灰度统计直方图的实例及原图.由图13可得到各种像素所占的比例,同时可对应语谱图中的频率信息.因为语音信号频率本身具有高频部分不明显㊁低频处明显的特征,并且图中显示低频部分颜色较深,且颜色的覆盖率也相对较大,这与人类的发音特点一致.图13 灰度统计直方图的实例及原图F i g .13 E x a m p l e o f h i s t o g r a mo f g r a y s c a l e s t a t i s t i c s a n do r i g i n a l d r a w i n gs 图14 两种网络模型识别错误率的对比F i g .14 C o m p a r i s o no f r e c o gn i t i o n e r r o r r a t e s o f t w on e t w o r km o d e l s将语谱图分别输入到C N N 网络和注意力模型中,再拼接在L S T M+C T C 模型中,对比并证明注意力机制的优越性.针对C N N 网络中的每个卷积层,采用3ˑ3的小卷积核,并在多个卷积层后加上池化层,增强了C N N 的表达能力.但它与注意力网络相比,不能很好地表达语音的长时相关性,鲁棒性也较差.图14为两种网络模型识别错误率的对比.由图14可见,用C N N 在语谱图上提取特征得到识别错误率平均约为4.9%,而基于注意力模型得到的识别错误率约维持在4.0%,识别效果得到了有效提升.4.4 实验结果对比分析针对下面选取的9段中文音频文件分别进行识别分析验证.进行端点检测后,基于注意力机制的语音识别模型的识别结果列于表5.由表5可见,只有第4段和第7段语音识别结果出现明显的局部错误.基于注意力机制的端到端的语音识别模型识别的错误率可降低到约5%.表6统计了不同特征在不同模型下语音识别的词错误率.823 吉林大学学报(理学版)第62卷表5 9段中文音频的识别结果T a b l e 5 R e c o gn i t i o n r e s u l t s o f 9C h i n e s e a u d i o 序号音频名称音频内容识别结果识别准确度1A 2_46.w a v换句话说,一个氯原子只能和一个钠原子结合,而二个氯原子才能和一个镁原子化合换句话说一个氯原子只能和一个钠原子结合而二个氯原子才能和一个镁原子化合内容准确2A 2_135.w a v 一定还有别样的生活,有城市㊁有音乐㊁有遥望远方事物的等待,有令人狂喜的发现一定还有别样的生活有城市有音乐有遥望远方事物的等待有令人狂喜的发现内容准确3A 4_221.w a v 韩国的基本目标是射箭3块金牌,柔道3块金牌,羽毛球2块金牌以及举重等12块金牌韩国的基本目标是射箭3块金牌柔道3块金牌羽毛球2块金牌以及举重等12块金牌内容准确4A 6_19.w a v 现年58岁的切尔诺梅尔金是从1992年12月开始担任俄罗斯政府总理职务的现年(5)18岁(的)切尔诺梅尔金是从1992年12力开战担任俄罗斯政理总总职务的内容部分准确5A 7_53.w a v 于是黑白颠倒,鸡鸭鱼肉受冷落,野菜窝头成了餐桌的宠儿于是黑白颠倒鸡鸭鱼肉受冷落野菜窝头成了餐桌上的宠儿内容大致准确6A 7_243.w a v 有353户人家在洱海网箱养鱼85亩,产鱼400多吨,平均亩产5450公斤有353户人家在洱海网箱养鱼85亩产鱼400多吨平均亩产达到5450公斤内容大致准确7A 8_249.w a v每日下午三四点钟,陪得志大海的游泳池畔太阳伞下坐坐,吹海风,欣赏游泳人的风姿每日下午(三四点)钟陪得志到大海(的)我游泳池畔太阳伞坐(坐)求吹吹(海风),欣赏游泳人的风姿内容部分准确8A 12_91.w a v 西安东㊁南㊁北城门前有许多宣传牌,挂一块一年要花2万元,我们也挂了一块西安东(南)北城(门)前门有许多宣传牌挂一块牌一年要花2万元我们也挂了一块内容大致准确9A 22_117.w a v我曾足迹遍布海内外,但我始终萦绕不能忘怀的却是这生我养我的中原故土我曾足迹遍及海内外但使我始终萦不能忘怀的却是这生养我的中原故土内容大致准确表6 不同特征在不同模型下语音识别的错误率T a b l e 6 E r r o r r a t e s o f s p e e c h r e c o g n i t i o n f o r d i f f e r e n t f e a t u r e s u n d e r d i f f e r e n tm o d e l s %特征D N N -HMMR N NL S TM+C T CM F C C18.111.29.5语谱图+C N N15.410.65.4语谱图+A t t e n t i o n12.99.34.2由表6可见:从特征的角度,用注意力机制提取语谱图得到的错误率要低于M F C C 特征和利用C N N 提取语谱图特征的错误率;从模型的角度,L S T M+C T C 语音识别模型明显要优于D N N -HMM 和R N N 模型.因此,基于注意力机制的L S T M+C T C 模型能有效降低识别错误率,缩短了训练时间.综上所述,本文以t h c h s 语料库为样本集,提取了M F C C 特征,用C N N 和A t t e n t i o n 在语谱图上提取特征,通过输入到HMM ,R N N 和L S T M+C T C 模型的识别分析对比,基于注意力机制的L S T M +C T C 模型能同时弥补其他两种模型的缺陷,缩短了训练周期,并有效提高了语音识别的准确率.参考文献[1] 王建荣,张句,路文焕.机器人自身噪声环境下的自动语音识别[J ].清华大学学报(自然科学版),2017,57(2):153-157.(WA N GJR ,Z HA N GJ ,L U W H.A u t o m a t i cS p e e c h R e c o gn i t i o n w i t h R o b o tN o i s e [J ].J o u r n a l o fT s i n g h u aU n i v e r s i t y (S c i e n c e a n dT e c h n o l o g y),2017,57(2):153-157.)[2] 姚庆安,张鑫,刘力鸣,等.融合注意力机制和多尺度特征的图像语义分割[J ].吉林大学学报(理学版),2022,923 第2期 姜 囡,等:基于注意力机制语谱图特征提取的语音识别033吉林大学学报(理学版)第62卷60(6):1383-1390.(Y A O Q A,Z HA N G X,L I U L M,e t a l.I m a g eS e m a n t i cS e g m e n t a t i o nB a s e do nF u s i n gA t t e n t i o n M e c h a n i s ma n d M u l t i-s c a l eF e a t u r e s[J].J o u r n a l o f J i l i n U n i v e r s i t y(S c i e n c eE d i t i o n),2022,60(6):1383-1390.)[3]苟鹏程,宗群.车载语音识别及控制系统的设计与实现[J].计算机应用与软件,2017,34(5):129-134.(G O U PC,Z O N G Q.D e s i g na n dR e a l i z a t i o no fV e h i c l eS p e e c hR e c o g n i t i o na n dC o n t r o l S y s t e m[J].C o m p u t e rA p p l i c a t i o n s a n dS o f t w a r e,2017,34(5):129-134.)[4] HA NL H,WA N G B,D U A N S F.D e v e l o p m e n to f V o i c e A c t i v i t y D e t e c t i o n T e c h n o l o g y[J].A p p l i c a t i o nR e s e a r c ho fC o m p u t e r s,2010,27(4):1220-1226.[5]金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件,2018,35(2):200-205.(J I NC,G O N GC,L IH.S p e a k e rA d a p t a t i o nR e s e a r c ho fN e u r a lN e t w o r kaC o u s t i c M o d e l i nS p e e c h R e c o g n i t i o n[J].C o m p u t e rA p p l i c a t i o n s a n dS o f t w a r e,2018,35(2):200-205.)[6]陶勇,朱媛.基于深度神经网络声学模型及其改进的语音识别研究[J].吉林大学学报(理学版),2021,59(4):539-546.(T A O Y,Z HU Y.R e s e a r c ho nS p e e c hR e c o g n i t i o nB a s e d o nD e e p N e u r a lN e t w o r kA c o u s t i cM o d e l a n dI t s I m p r o v e m e n t[J].J o u r n a l o f J i l i nU n i v e r s i t y(S c i e n c eE d i t i o n),2021,59(4):539-546.)[7] C A O D Y,G A O X,G A O L.A nI m p r o v e dE n d p o i n tD e t e c t i o n A l g o r i t h m B a s e do n M F C C C o s i n eV a l u e[J].W i r e l e s sP e r s o n a l C o mm u n i c a t i o n s,2017,95(3):2073-2090.[8] K H E L I F A O M,E L HA D JY M,Y A H Y A M.C o n s t r u c t i n g A c c u r a t ea n dR o b u s tHMM/GMM M o d e l s f o ra nA r a b i cS p e e c hR e c o g n i t i o nS y s t e m[J].I n t e r n a t i o n a l J o u r n a l o f S p e e c hT e c h n o l o g y,2017,20:937-949.[9]陈爱月,徐波,申子健.基于高斯混合模型及T I M I T语音库的说话人身份识别[J].信息通信,2017,7:51-52.(C H E N A Y,X U B,S H E N ZJ.S p e a k e rR e c o g n i t i o nB a s e do n G a u s s i a n M i x t u r e M o d e la n d T I M I T S p e e c hD a t a b a s e[J].I n f o r m a t i o na n dC o mm u n i c a t i o n,2017,7:51-52.)[10] L A N J E WA R R B,MA T HU R K A R S,P A T E L N.I m p l e m e n t a t i o n a n d C o m p a r i s o n o f S p e e c h E m o t i o nR e c o g n i t i o nS y s t e m U s i n g G a u s s i a n M i x t u r e M o d e l(GMM)a n d K-N e a r e s tN e i g h b o r(K N N)T e c h n i q u e s[J].P r o c e d i aC o m p u t e r S c i e n c e,2015,49(1):50-57.[11] C U IX D,J I N G H,C H I E N J T.M u l t i-v i e w a n d M u l t i-o b j e c t i v eS e m i-s u p e r v i s e d L e a r n i n g f o r HMM-B a s e dA u t o m a t i cS p e e c hR e c o g n i t i o n[J].I E E E T r a n s a c t i o n so nA u d i oS p e e c h&L a n g u a g eP r o c e s s i n g,2012,20(7):1923-1935.[12] MA A SAL,Q IP,X I EZ,e t a l.B u i l d i n g D N N A c o u s t i cM o d e l s f o rL a r g eV o c a b u l a r y S p e e c hR e c o g n i t i o n[J].C o m p u t e r S p e e c h&L a n g u a g e,2017,41(7):195-213.[13]邵玉斌,陈亮,龙华,等.基于改进G F C C特征参数的广播音频语种识别[J].吉林大学学报(理学版),2022,60(2):417-424.(S HA O Y B,C H E N L,L O N G H,e ta l.B r o a d c a s tA u d i oL a n g u a g eI d e n t i f i c a t i o nB a s e do nI m p r o v e dG F C CF e a t u r eP a r a m e t e r s[J].J o u r n a l o f J i l i nU n i v e r s i t y(S c i e n c eE d i t i o n),2022,60(2):417-424.)[14] H I N T O N G,D E N GL,D O N G Y,e t a l.D e e p N e u r a lN e t w o r k s f o rA c o u s t i c M o d e l i n g i nS p e e c hR e c o g n i t i o n:T h eS h a r e dV i e w s o fF o u rR e s e a r c hG r o u p s[J].I E E ES i g n a l P r o c e s s i n g M a g a z i n e,2012,29(6):82-97. [15] Y I JY,W E N Z Q,T A O J H,e ta l.C T C R e g u l a r i z e d M o d e lA d a p t a t i o nf o rI m p r o v i n g L S TM R N N B a s e dM u l t i-a c c e n tM a n d a r i nS p e e c hR e c o g n i t i o n[J].J o u r n a l o f S i g n a l P r o c e s s i n g S y s t e m s,2017,90(2):1-13. [16] WA T A N A B E S,HO R I T,K I M S,e t a l.H y b r i d C T C/A t t e n t i o n A r c h i t e c t u r e f o r E n d-t o-E n d S p e e c hR e c o g n i t i o n[J].I E E EJ o u r n a l o f S e l e c t e dT o p i c s i nS i g n a l P r o c e s s i n g,2017,11(8):1240-1253. [17]张宇,张鹏远,颜永红.基于注意力L S TM和多任务学习的远场语音识别[J].清华大学学报(自然科学版),2018,58(3):249-253.(Z HA N G Y,Z HA N GP Y,Y A N Y H.L o n g S h o r t-T e r m M e m o r y w i t hA t t e n t i o na n d M u l t i t a s kL e a r n i n g f o rD i s t a n t S p e e c hR e c o g n i t i o n[J].J o u r n a l o f T s i n g h u aU n i v e r s i t y(S c i e n c e a n dT e c h n o l o g y), 2018,58(3):249-253.)[18]龙星延,屈丹,张文林.结合瓶颈特征的注意力声学模型[J].计算机科学,2019,46(1):260-264.(L O N G X Y,Q U D,Z HA N G W L.A t t e n t i o n-B a s e dA c o u s t i c M o d e lw i t hB o t t l e n e c kF e a t u r e s[J].J o u r n a l o fC o m p u t e r S c i e n c e,2019,46(1):260-264.)(责任编辑:韩啸)。
《语谱图分析》课件

语谱图分析方法需要具备一定的语音学和语言学知识,对于非专业人 士来说可能存在一定的门槛。
未来研究方向与展望
01
研究方向
02 深入研究语谱图分析方法在不同语言和方言中的 应用,提高其通用性和适应性。
03 加强语谱图分析方法与其他语音分析技术的融合 ,提高语音分析的精度和可靠性。
未来研究方向与展望
画图
将频域数据绘制成二维图形, 形成语谱图。
语谱图解读方法
观察ห้องสมุดไป่ตู้强分布
通过观察语谱图上的音强分布,可以了解语 音信号中各个频带的能量状况。
识别音段
通过观察语谱图上的音段特征,可以识别出 不同的音素或音节。
提取特征
从语谱图中提取出音高、音强、音长等语音 特征,用于后续的分析和处理。
语音合成
基于语谱图进行语音合成,生成与原始语音 相似的语音信号。
通过对语谱图的观察和分析,可以深入了解语音信号的特性,为语音处理和语音识别等领域的研究提供 有力支持。
音乐信号的语谱图分析
音乐信号的语谱图分析是语谱图分析中另一种重要的应用 ,通过对音乐信号进行傅里叶变换,得到音乐信号的频域 表示。
在音乐信号的语谱图中,可以观察到音乐的旋律、和声、 节奏以及音色等特征,这些特征对于音乐分类、音乐检索 以及音乐推荐等应用具有重要意义。
03
在环境监测领域中,通过对环境信号进行语谱图分析,可以了解环境中的噪声 、振动等特征,为环境保护和治理提供有力支持。
04 语谱图分析在语音识别中的应用
CHAPTER
语音识别的基本原理
语音信号的采集
01
通过麦克风等设备将声音转化为电信号,再经过数字化处理,
将连续的模拟信号转换为离散的数字信号。
窄带语谱的名词解释

窄带语谱的名词解释窄带语谱(Narrowband Speech Spectrogram)是一种用于分析和表示语音信号的技术。
在理解窄带语谱之前,先需了解语谱图(Spectrogram)的概念。
语谱图是将语音信号在时域和频域上进行展示的图像,用来描述不同时间段内语音信号的频率分布情况。
它是语音信号处理的重要工具,被广泛应用于语音识别、语音合成以及语言研究等领域。
通常情况下,语谱图通过将语音信号切割成一小段一小段的短时片段,然后对这些片段进行傅里叶变换来得到频谱信息。
然后,将这些频谱信息绘制到二维图像上,横轴表示时间,纵轴表示频率,而图像的颜色或亮度则表示该时刻该频率的强度。
然而,常见的语谱图通常无法有效地展现高频和短时变化的声音特征。
这是因为一些语音信号,例如爆破音(如/p/、/t/、/k/)和摩擦音(如/f/、/s/、/sh/)等,具有很高的频率,并且在时间上变化非常迅速。
而常规的语谱图在时频分辨率上受到限制,无法很好地捕捉到这些高频和短时变化的特征。
因此,为了更好地分析和理解语音信号,窄带语谱这一概念应运而生。
窄带语谱是对语谱图进行了参数调整,以增加时频分辨率,更加准确地呈现高频和短时变化的语音特征。
窄带语谱通常以一小段一小段的窗函数对语音信号进行切割,并使用快速傅里叶变换来获得频域信息。
与常规语谱图不同的是,窄带语谱在每个时间段内使用更短的窗口长度,从而提高了频率分辨率;同时,窄带语谱绘制时,使用亮度或颜色更加细致的尺度,以便更好地显示不同频率的强度。
使用窄带语谱,研究人员和工程师能够更加准确地分析语音信号的频谱特性。
窄带语谱可以帮助我们更好地观察和理解发音,发现不同音素之间的共性和区别。
它还可以用于语音识别技术中,提取音频特征,辅助机器识别和理解语音。
此外,窄带语谱也被广泛应用于许多语音处理任务中,如声音改变、说话人识别、语音转换等。
需要注意的是,窄带语谱并非唯一的语音分析工具,还存在其他参数提取方法,如倒谱(Cepstrum)、MFCC(Mel-Frequency Cepstral Coefficients)等。
Matlab语谱图(时频图)绘制与分析

Matlab语谱图(时频图)绘制与分析Matlab 语谱图(时频图)绘制与分析语谱图:先将语⾳信号作傅⾥叶变换,然后以横轴为时间,纵轴为频率,⽤颜⾊表⽰幅值即可绘制出语谱图。
在⼀幅图中表⽰信号的频率、幅度随时间的变化,故也称“时频图”。
%matlab 2016a%需要先安装语⾳处理⼯具箱(matlab_voicebox)[Y,FS,WMODE,FIDX]=readwav('sound0_10','s',-1,-1);%Y为读到的双声道数据%FS为采样频率%这⾥的输⼊参数sound0_10为双声道数字0到10的声⾳⽂件(sound0_10.wav)%其它参数的功能忘了Y1 = Y(:,1); %Y为双声道数据,取第2通道plot(Y1); %画Y1波形图grid on;specgram(Y1,2048,44100,2048,1536);%Y1为波形数据%FFT帧长2048点(在44100Hz频率时约为46ms)%采样频率44.1KHz%加窗长度,⼀般与帧长相等%帧重叠长度,此处取为帧长的3/4图1 数字0-10波形图图2 数字0-10语谱图图3语谱图简单分析1、san(1),si(4),shi(2)声母相同,图2中3,4,10三个⾳的头部相似。
(从图中还能看出读⾳不准,4、10平卷⾆不分。
本⼈普通话三级甲等, )2、语谱图中低频部分频率幅值随时间的变化趋势⾮常清楚地显⽰了声调。
3、从图3可以预测,结合时域和频域数据,中⽂的⼩词汇量孤⽴词语⾳识别,应该没有太⼤难度。
** 相关⽂件可参考: **。
语谱图傅里叶变换的二字汉语词汇语音识别

语谱图傅里叶变换的二字汉语词汇语音识别潘迪;梁士利;魏莹;许廷发;王双维【摘要】A speech recognition algorithm of two-word Chinese vocabulary is proposed,which takes the spectrogram of speech signals as a processed object,and is based on binary width zoning-band projection feature fusion of the broad-band and narrow-band spectrogram images in Fourier transform domain.First,the image significance of Fourier transform domain image in the broad-band and narrow-band spectrogram and their corresponding speech characteristics are analyzed.Then,the binary width zoning-band column projection and line projection of the broad-band and narrow-band spectrogram frequency domain image are carried out respectively.The projected value is taken as the first and second feature parameter sets for speech recognition.The above two feature sets are fuzed according their features as the feature value of two-word vocabulary speech recognition.Taking the support vector machine (SVM) as a classifier to realize the speech recognition of two-word Chinese vocabulary.The experiment results show that the recognition rate of this method can reach to 96.8% for specific persons and 98.8% for non-specific persons.The proposed method provides a new way for vocabulary recognition.%以语音信号的语谱图作为处理对象,提出一种基于宽窄带语谱图傅里叶变换频域图像二进宽度分带投影特征融合的二字汉语词汇语音识别算法.首先,对宽窄语谱图傅里叶变换频城图的图像意义以及相应的语音特性进行分析;然后,分别对宽窄带语谱图频域图像进行二进宽度分带列投影和行投影,将投影值作为语音识别的第一个特征参数集合和第二个特征参数集合,将以上两个特征集进行特征融合作为二字词汇语音识别的特征量,以支持向量机为分类器实现二字汉语词汇语音识别.实验结果表明,该方法对特定人二字汉语词汇语音的识别率可达96.8%,对非特定人二字汉语词汇语音的识别率可达98.8%,为解决汉语词汇整体语音识别提供了一种新的思路.【期刊名称】《现代电子技术》【年(卷),期】2017(040)016【总页数】6页(P13-18)【关键词】傅里叶变换;语谱图;特征融合;支持向量机【作者】潘迪;梁士利;魏莹;许廷发;王双维【作者单位】东北师范大学物理学院,吉林长春 130024;东北师范大学物理学院,吉林长春 130024;东北师范大学物理学院,吉林长春 130024;北京理工大学光电成像与信息工程研究所,北京 100081;东北师范大学物理学院,吉林长春 130024【正文语种】中文【中图分类】TN912-34语音识别技术就是让相应的设备通过识别和理解两个过程把语音信号转变为相应的命令或文件的高科技技术。
听觉注意模型的语谱图语音情感识别方法

思路。听觉注意模型来源于生物学原理, 它模拟了
9 ] 。在模型研究中, 获得 人类听觉系统运行的进程 [
1 ] 点[ 。相比语音识别成百上千小时的语音库, S E R
基金项目:国家自然科学基金项目( 6 1 2 7 3 2 6 6 ,6 1 3 7 5 0 2 8 ) ;教育部博士点专项基金( 2 0 1 1 0 0 9 2 1 3 0 0 0 4 ) ;山东省自然科学基金( Z R 2 0 1 4 F Q 0 1 6 )
1 引言
在人工 智 能 和 模 式 识 别 领 域, 语音情感识别 ( S E R ) 能够为人机交互提供自然而基本的媒介。随
收稿日期:2 0 1 5 - 1 2 - 2 3 ;修回日期:2 0 1 6 - 0 3 - 2 1
着实用计算机性能的爆炸式进步和语音技术的显 著提高, 在目前 S E R技术研究中, 如何得到大量实 用的语音情感数据, 即跨数据库问题成为关注的热
1 3 ] 要的情感能力 [ 。
本文安排如下: 第一部分关于跨库 S E R进行简 要说明, 讨论有效的情感特征并引入基于视觉显著 性的新特征类型; 第二部分提出基于时频原子和语 谱图特征的声学注意模型, 并将其用于 S E R系统; 据此, 第三部分在跨数据的语音情感库上进行仿真 实验并针对结果分析; 最后第四部分对提出的听觉 注意 S E R系统进行了讨论和总结。
第3 2卷 第 9期 2 0 1 6年 9月
文章编号: 1 0 0 3 - 0 5 3 0 ( 2 0 1 6 ) 0 9 - 1 1 1 7 - 0 9
汉语方言语音信号的语谱图分析

汉语方言语音信号的语谱图分析
柏文展;程汪鑫
【期刊名称】《电声技术》
【年(卷),期】2022(46)4
【摘要】语谱图主要用于研究语音信号不同频段的信号强度随时间变化的关系。
分析语谱图时,需要利用Python语言和相关库进行仿真,得到语音信号的伪彩色映射并将结果直观地显示出来,便于进一步分析、研究语音信号的特征。
本文讨论语音信号的声学基础和有关特征,分析语音信号处理的发展及应用,用声卡采集湖南三个地方的方言语音信号,利用Python语言对方言语音信号语谱图进行显示,分析不同汉语方言之间的差异。
该方法具有编程简单、相关功能库丰富、对设备要求低、显示结果直观等特点,为分析处理不同地区的方言语音信号提供了一种简洁高效的方法。
调用Python进行仿真,能清晰地分辨出宽带信号与窄带信号的不同特性,因此可通过对频谱图的分析来识别不同地方的方言。
【总页数】6页(P41-46)
【作者】柏文展;程汪鑫
【作者单位】武警广西总队
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.渝东南酉水流域方言土语中的某些古音及其区域色彩研究——以"瓦乡话"、汉语方言、土家语、苗语等为例
2.基于MATLAB的语音信号采集和语谱图分析
3.基于语谱图和深度置信网络的方言自动辨识与说话人识别
4.汉语共同语处置句与方言处置句句型比较──兼谈汉语方言语法的价值
5.基于语谱图的江西境内赣方言自动分区研究
因版权原因,仅展示原文概要,查看原文内容请购买。
0-Python实现语谱图生成(修改版)

0-Python实现语谱图⽣成(修改版)1"""Python绘制语谱图"""23# 导⼊相应的包4import matplotlib.pyplot as plt5import matplotlib.mlab as mlab6import numpy as np7import wave8import os91011 filepath = 'E:/普⽶/2/'# 添加路径12for root, dirs, files in os.walk(filepath):13for i in range(len(files)):14 label = np.array(int(files[i].split('-')[0][3:]))15 Time = np.array(int(files[i].split('-')[1][:1]))1617 f = wave.open(root + "/" + files[i], 'rb') # 调⽤wave模块中的open函数,打开语⾳⽂件。
18 params = f.getparams() # 得到语⾳参数19 nchannels, sampwidth, framerate, nframes = params[:4] # nchannels:⾳频通道数,sampwidth:每个⾳频样本的字节数,framerate:采样率,nframes:⾳频采样点数20 strData = f.readframes(nframes) # 读取⾳频,字符串格式21 wavaData = np.fromstring(strData, dtype=np.int16) # 得到的数据是字符串,将字符串转为int型22 wavaData = wavaData * 1.0/max(abs(wavaData)) # wave幅值归⼀化23 wavaData = np.reshape(wavaData, [nframes, nchannels]).T # .T 表⽰转置24 f.close()2526# 绘制语谱图27 spec, freqs, t = mlab.specgram(x=wavaData[0], Fs=framerate, scale_by_freq=True, mode='psd', sides='default', NFFT=320)28 spec = 10. * np.log10(spec)29 spec = np.flipud(spec)30 plt.imsave('E:/prim/2/Prim{}_Time{}_Person2.jpg'.format(label, Time), spec)Python绘制语谱图绘制结果展⽰:2020-07-12 08:38:59普⽶语语谱图。
语谱图中冲直条代表 _或赛擦音。

语谱图中冲直条代表 _或赛擦音。
窄带语谱图“窄带”,顾名思义,频率带宽小,短时窗长,窄带语谱图就是长窗条件下画出的语谱图。
窄带语谱图的带宽窄,那么在频率上就“分得开,更细致”,即能将语音各次谐波“看得很清楚”,即表现为“横线”。
“横”就体现出了频率分辨率高。
分辨率可以直观的看做“分开能力”。
“频率分辨率”高就是在频率上将各次谐波分开的能力高,表现为能分辨出各次谐波的能力高,频率分辨率越高,越容易分辨各次谐波。
基频和共振峰分析基音周期表示声带的震动周期,每隔这么长时间(震动周期),有一个气流通过,“每隔”就体现了周期性,这就是基音周期,那么谱图上就应该有这个频率的信号分量,而且这个频率的幅度(能量)不应该很小,因为每隔一段时间“就有”一团能量通过声带。
所以基音频率所在的成分在窄带语谱图上应该是所有横条纹中频率范围最低的那条。
在上图中,用虚线框框住的部分就表示基音频率成分,与其在同一水平线上的条纹都表示该时刻的基音频率成分,这条条纹对应的纵轴刻度值就表示基音频率。
从放大小图可估计基音频率大约在250Hz左右,基音频率略有波动,0.5s处大约是240Hz。
其他横条纹就是各次谐波,这些谐波中有些地方颜色比同时刻其附近其他横条纹颜色要深,这些颜色深的条纹表示共振峰。
有些时刻,颜色较局部附近深的条纹不止一条,这些深色条纹组成了各次共振峰,如第一、第二、第三共振峰。
窄带语谱图上基本上可以发现,低频部分,横条纹比较直,而高频部分,条纹变“弯”了,这表示什么?放大小图可明显看到,基音频率也不是不变的,其也具有波动,我们可以人为的将基频线连接起来为一条曲线,这称为基音跟踪。
共振峰表示“谐振”,频谱上表示为频谱包络(其实是上包络)的峰值,那么频谱下包络的谷值点就表示“反谐振”。
每个峰之点就代表一个系统极点,谷值点就是零点。
宽带语谱图“宽带”,正好相反。
至于“横竖条纹”,类似的,宽带语谱图的时宽窄,那么在时间上就“分得开”,即能将语音在时间上重复的部分“看得很清楚”,即表现为“竖线”。
音频处理中的时域和频域分析技术

音频处理中的时域和频域分析技术音频处理是指对声音信号进行调整、增强、去噪等操作的过程。
在音频处理中,时域和频域分析技术是两个重要的方法。
本文将分别介绍时域和频域分析技术,并探讨它们在音频处理中的应用。
一、时域分析技术时域分析是对声音信号在时间上的变化进行分析的方法。
它是一种基于时间的分析方法,通过观察声音信号在时间轴上的波形变化来研究其特征和特性。
1. 时域波形图时域波形图是一种常用的时域分析方法,它将声音信号的振幅随时间的变化以波形图的形式展示出来。
通过观察波形图的上升和下降趋势、峰值和谷值等特征,可以分析声音信号的音调、音量、持续时间等信息。
2. 自相关函数自相关函数是一种用于衡量声音信号周期性的时域分析方法。
它通过计算信号与自身在不同时间延迟下的相关性来分析信号的周期性特征,从而可以判断声音信号是否具有明显的循环重复特征。
3. 音谱图音谱图是一种时频分析方法,可以将声音信号在不同频率上的能量分布以图形的方式展示出来。
通过观察音谱图,可以得到声音信号在不同频率上的能量分布情况,进而分析声音信号的频谱特性。
二、频域分析技术频域分析是对声音信号在频率上的变化进行分析的方法。
它是一种基于频率的分析方法,通过观察声音信号在频率域上的特性,揭示声音信号的频谱信息和频率成分。
1. 傅里叶变换傅里叶变换是一种将时域信号转换为频域信号的数学方法。
通过傅里叶变换,可以将声音信号从时域转换为频域,得到声音信号在不同频率上的能量分布。
2. 音谱分析音谱分析是一种频域分析方法,通过对声音信号进行频谱分析,可以得到声音信号的谱线分布情况。
常用的音谱分析方法包括快速傅里叶变换(FFT)和短时傅里叶变换(STFT)。
音谱分析可以用于分析声音信号的频率成分和频谱特性。
3. 语谱图语谱图是一种将声音信号的频谱信息以图形的方式展示出来的方法。
它将声音信号在频率和时间上的变化以二维图形的形式展示出来,可以清晰地显示声音信号的频率分布和变化规律。
matlab绘制语谱图

matlab绘制语谱图1.读取⾳频⽂件[cleanAudio,fs] = audioread('SA1W.WAV');%cleanAudio 为⾳频⽂件按照采样频率fs存储在计算机的数字信号(⼀维数据),其值代表幅度值。
2.设置窗⼝函数、帧长、帧移windowLength = 256;%帧长win = hamming(windowLength,'periodic');%窗⼝函数(汉明窗)overlap = 128; %帧移(⼀般为帧长的⼀半)ffTLength = windowLength; %做DFT的点数,⼀般和帧长⼀样3.计算时间t = (1/fs) * (0:numel(cleanAudio)-1);%波形图的时间(单位为秒)4.绘图subplot(2,1,1)plot(t,cleanAudio);%利⽤读取的⾳频信号绘制波形图title('波形图')grid on;subplot(2,1,2)spectrogram(cleanAudio,win,overlap,ffTLength,fs,'yaxis');%绘制语谱图 'yaxis'代表频率轴在Y轴title('语谱图')5.解释1. spectrogram的返回值[S,F,T,P]=spectrogram(cleanAudio,win,overlap,nfft,fs,'yaxis');S:是⾳频经过加窗、分帧、傅⾥叶变化得到的⼀个矩阵。
时间分辨率是矩阵的列,频率分辨率为矩阵的⾏。
这⾥cleanAudio如果是实值并且nfft是偶数,则S有 (nfft/2 + 1) ⾏,cleanAudio如果是实值并且nfft是奇数,则S有 (nfft + 1)/2 ⾏。
这⾥的信号是实值,nfft为256,所以S的⾏是129。
F: S的⾏,也就是频率分辨率,这⾥的值为129.T: S的列,也就是时间分辨率,其中的每个值为各段的中点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于信号分析与处理的语谱图显示
1 语谱图
语音的发音过程中, 声道通常都是处于运动状态的, 因此它的共振峰特性也是时变的。
不过这个时变过程比起振动过程来说要缓慢得多, 因此一般可以假定它是短时平稳的, 每一时刻我们都可以用这时刻附近的一短段( 例如15ms) 语音信号分析得到一种频谱。
对语音信号连续地进行频谱分析就可以得到一种二维图谱, 其横坐标表示时间, 纵坐标表示频率, 而每像素的灰度值大小反映相应时刻和相应频率的信号能量密度。
这种时频图称为语谱图( Sonogram 或Spectrogam), 这种反映语音信号动态频谱特性的时频图在语音分析中有重要实用价值, 被视为可视语言。
从语谱图上不仅能看出任一时刻发音器官的共振峰特征,而且可以看出语音的基音频率, 是否清音、爆破音等。
语谱分析在语音识别、合成及编码中很有意义。
1.1 语谱图的产生基理
语音信号是一种典型的非平稳信号, 但是其非平稳性是由发音器官的物理运动过程而产生的, 此过程与声波振动的速度相比较缓慢, 可以假定在10~30ms这样的短时间内是平稳的。
傅立叶分析是分析线性系统和平稳信号稳态特性的强有力的手段, 而短时傅里叶分析, 也叫时间依赖傅立叶变换, 就是在短时平稳的假定下, 用稳态分析方法处理非平稳信号的一种方法。
设离散时域采样信号为x(n), n=0,1,⋯,N- 1, 其中n 为时域采样点序号, N 是信号长度。
然后对信号进行分帧处理, 则x(n)表示为xn(m), n=0,1,⋯,N- 1, 其中n 是帧序号, m 是帧同步的时间序号, N 为帧长( 一帧内的采样点数) 。
信号{x(n)}短时傅里叶变换为:
其中{w(n)}为窗序列, 则信号x(n)的离散时域傅里叶变换(DTFT) 为:
采用离散傅里叶变换(DFT)得:
则P(n,k)是二维的非负实值函数, 并且不难证明它是信号x(n)的短时自相关函数的傅里叶变换。
用时间n 作为横坐标, k 作纵坐标, 将P(n,k)的值表示为灰度级所构成的二维图像就是语谱图。
通过变换10log10(P(n,k))能得到语谱图的dB 表示。
2.1 用于短时频谱分析的功能函数
1) 分帧加窗函数: 下面程序中采用的是hanning窗。
根据要求还可选用hamming(N),blackman(N)及bartlett(N), 其中N 为窗长( 帧长) 。
2) 快速傅里叶变换函数: fft(s)。
s 为加窗后的一帧信号。
因为实时信号FFT 的频域样值关于中点(即采样频率的1/2)对称, 所以fft(s)给出的矩阵数据只有前半部分有用。
3) 复数取共扼函数: conj(z)。
2.2 伪彩色映射和语谱图显示的功能函数
1) 伪彩色映射函数: colormap(MAP)。
其中MAP 是所采用的伪彩色映射矩阵, 默认值为JET, 可以通过MAP=colormap 获得当前的伪彩色映射矩阵, 它可以是一个任意行的矩阵, 但其必须有且只有三列, 并分别表示红色、绿色和蓝色的饱和度。
2) 频谱图显示函数: imagesc(t, f, L)。
当数据比例映射使用整个色域时使用该函数, 其它情况下与image()函数作用相同。
其中t 是时间坐标, f 是频率坐标,L 则是从功率谱值经伪彩色映射后的彩色电平值。
3 流程图及实现程序
3.1流程示意图:
3.2源程序:
function sogram(Winsiz,Shift,Base,Mode,Gray)
Winsiz=1024;
Shift=64;
Base=0;
Mode=1;
Gray=64;
[Sg,Fs]=wavread('E:\大家好.wav');
n=floor((length(Sg)-Winsiz)/Shift)+1;
A=zeros(Winsiz/2+1,n);
for i=1:n
n1=(i-1)*Shift+1;
n2=n1+(Winsiz-1);
Sg=Sg(:,1);
s=Sg(n1:n2);
s=s.*hanning(Winsiz);
z=fft(s);
z=z(1:(Winsiz/2)+1);
z=z.*conj(z);
z=10*log10(z);
A(:,i)=z;
end
L0=(A>Base);
L1=(A<Base);
B=A.*L0+Base*L1;
L=(B-Base)./(max(max(B))-Base);
y=[0:Winsiz/2]*Fs/Winsiz;
x=[0:n-1]*Shift;
if Mode==1
colormap('default');
else
mymode=gray;
mymode=mymode(Gray:-1:1,:);
colormap(mymode);
end
imagesc(x,y,L);
axis xy;
3.3 程序中参数说明
Wavnam: 定义待分析信号的路径及文件名。
语音信号由计算机声卡录制, 以.wav 格式存储。
程序中wavread(Wavnam)读入的语音信号样值赋给矩阵Sg, 也即待分析信号x(n), 采样频率赋给Fs。
Winsiz: 定义帧长, 一般应取2 的幂次, 其目的是适合FFT 的要求。
通过对Winsiz 的选值可实现宽带频谱或窄带频谱的选择。
Shift: 定义帧移值。
一般此值小于或等于Winsiz。
Shift 值越小, 时域分辨率越高。
Base: 基准电平值。
注意, 此值的设定需根据实际经验, 可以通过在多次运行此程序中给出不同的Base 值, 观察所获得的频图的视觉和分辨率效果, 选择一个合适的Base 值, 如果没有特别要求, 可取默认值Base=0。
Mode: 定义显示模式。
1 伪彩色映射, 0 为灰度映射。
上述程序中, 伪彩色映射采用默认值' default' 也即jet, 可选的其它映射还有: bone, cool , copper, flag, hot,hsv, pink, prism。
Gray: 灰度显示层数, 当Mode=0 时有效, 且Gray 只能在1~64 间取值, 为了获得较好灰度显示效果, 一般取值64。
4 语谱图显示与分析
语谱图中的花纹有横杠、乱纹和竖直条等。
横杠是与时间轴平行的几条深黑色带纹, 它们是共振峰。
从横杠对应的频率和宽度可以确定相应的共振峰频率和带宽。
在一个语音段的语谱图中, 有没有横杠出现是判断它是否是浊音的重要标志。
竖直条( 又叫冲直条) 是语谱图中出现与时间轴垂直的一条窄黑条。
每个竖直条相当于一个基音, 条纹的起点相当于声门脉冲的起点, 条纹之间的距离表示基音周期。
条纹越密表示基音频率越高。
此图为‘大家好’的语谱图显示。
Winsiz=1024,Shift=64, Base=0, Mode=1, Gray=64。
此图为灰度映射图, 且窗长较短, 可以获得较高的时间分辨率。
结论:本文叙述了语谱图的产生, 以及如何在MATLAB中编程绘出它的伪彩色图及灰度图的方法。
当Mode=1时为伪彩色映射,Mode=0时为灰度映射。
语谱图的高度表示其频率,宽度表示采样点长度。
通过计算机声卡, 可以很方便的完成语音录制, 又由于MATLAB有很丰富的功能函数和方便的绘图功能, 通过编程很容易在普通PC 机上快速实现语谱图显示, 为进一步语音信号处理提供便利条件。