第5章 语音信号的频域分析
语音信号处理实验报告2
实验二语音信号的频域特性一、实验目的(1)结合汉语语音信号的各类音素和复元音的特点分析其频域性质;(2)熟悉语音信号的各类音素和复元音的频域参数;(3)熟悉声音编辑软件PRAAT的简单使用和操作。
二、实验记录与思考题1. 观察语音信号的频域特点,总结其规律。
浊音段:其谱线结构是与浊音信号中的周期信号密切相关。
具有与基音及其谐波对应的谱线。
频谱包络中有几个凸起点,与声道的谐振频率相对应。
这些凸起点为共振峰。
清音段:清音的频谱无明显的规律,比较平坦。
2.总结清音/b/p/m/f/d/t/n/l/g/k/h/j/q/x/z/c/s/zh/ch/sh/r/共21个的语谱图的规律,给出辅音的能量集中区;语谱图中的花纹有横杠、乱纹和竖直条。
横杠是与时间轴平行的几条深黑色带纹,它们是共振峰。
从横杠对应的频率和宽度可以确定相应的共振峰频率和带宽。
在一个语音段的语谱图中,有没有横杠出现是判断它是否是浊音的重要标志。
竖直条是语谱图中出现于时间轴垂直的一条窄黑条。
每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期,条纹越密表示基音频率越高。
b,p……清音的语谱图为乱纹。
辅音的能量集中区为:高频区3. 总结浊音/a/o/e/i/u/ü/ao/ai/ei/ou/ie /an/en/in/ang/eng/ong/ing/共18个的语谱图的规律,提取这18个浊音的基频、前三个共振峰频率4./r/、/m/、/n/、/l/ 从这几个音素的的基频、共振峰频率5.分析宽带语谱图和窄带语谱图的不同之处,请解释原因;语谱图中的花纹有横杠、乱纹和竖直条等。
横杠是与时间轴平行的几条深黑色带纹,它们是共振峰。
从横杠对应的频率和宽度可以确定相应的共振峰频率和带宽。
在一个语音段的语谱图中,有没有横杠出现是判断它是否是浊音的重要标志。
竖直条(又叫冲直条)是语谱图中出现与时间轴垂直的一条窄黑条。
每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期。
实验二基于MATLAB分析语音信号频域特征
实验二 基于MATLAB 分析语音信号频域特征一、实验目的信号的傅立叶表示在信号的分析与处理中起着重要的作用。
因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。
另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项物理现象。
由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。
输出频谱是声道系统频率响应与激励源频谱的乘积。
声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。
由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。
本实验要求掌握傅里叶分析原理,会利用已学的知识,编写程序估计短时谱、倒谱,画出语谱图,并分析实验结果,在此基础上,借助频域分析方法所求得的参数分析语音信号的基音周期或共振峰。
二、实验原理1、短时傅立叶变换由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为:()()()jwjwmn m X e x m w n m e∞-=-∞=-∑ (1.1)其中w(n-m)是实窗口函数序列,n 表示某一语音信号帧。
令n-m=k',则得到(')'()(')(')jwjw n k n k X e w k x n k e∞--=-∞=-∑ (1.2)于是可以得到()()()jw jwnjwkn k X e ew k x n k e∞-=-∞=-∑ (1.3)假定()()()jwjwkn k X e w k x n k e∞=-∞=-∑ (1.4)则可以得到()()jw jwn jw n n X e e X e -= (1.5)同样,不同的窗口函数,将得到不同的傅立叶变换式的结果。
由上式可见,短时傅立叶变换有两个变量:n 和ω,所以它既是时序n 的离散函数,又是角频率ω的连续函数。
语音信号的频域分析
实验二:语音信号的频域分析实验目的:以MATLAB 为工具,研究语音信号的频域特性,以及这些特性在《语音信号处理》中的应用情况。
实验要求:利用所给语音数据,分析语音的频谱、语谱图、基音频率、共振峰等频域参数。
要求会求取这些参数,并举例说明这些参数在语音信号处理中的应用。
实验内容:1、 语音信号的频谱分析1.1加载“ma1_1”语音数据。
基于DFT 变换,画出其中一帧数据(采样频率为8kHz ,帧长为37.5ms ,每帧有300个样点)的频域波形(对数幅度谱)。
load ma1_1;x = ma1_1 (4161:4460); plot (x)N = 1024; k = - N/2:N/2-1;X = fftshift (fft (x.*hann (length (x)),N));plot (k,20*log10 (abs(X))), axis ([0 fix(N/2) -inf inf ])已知该帧信号的时域波形如图(a )所示,相应的10阶LPC 谱如图(b )所示。
问题1:这帧语音是清音还是浊音?基于DFT 求出的对数幅度谱和相应的LPC 谱相比,两者有什么联系和区别?问题2:根据这帧基于DFT 的对数幅度谱,如何估计出共振峰频率和基音周期?问题3:时域对语音信号进行加窗,反映在频域,其窗谱对基于DFT 的对数幅度谱有何影响?如何估计出窗谱的主瓣宽度?1.2对于浊音语音,可以利用其频谱)(ωX 具有丰富的谐波分量的特点,求出其谐波乘积谱:∏==R r r X HPSx 1)()(ωω式中,R 一般取为5。
在谐波乘积谱中,基频分量变得很大,更易于估计基音周期。
1.3加载“vowels.mat”语音数据,分别画出一帧/i/和一帧/u/(采样频率为10kHz,帧长为30ms,每帧有300个样点)的基于DFT的对数幅度谱。
其Matlab代码如下:load vowelsx = vowels.i_1(2001:2300);N = 1024; k= -N/2:N/2-1;X = fftshift (fft (x.*hann (length(x)),N));plot (k,20*log10(abs(X))), axis([0 fix(N/2) 0 100])x = vowels.u_1(2001:2300);N= 1024; k = -N/2:N/2-1;X = fftshift (fft (x.*hann(length(x)),N));plot (k,20*log10(abs(X))), axis([0 fix(N/2) 0 100])1.4画出一帧清音语音的基于DFT的对数幅度谱。
《语音数字信号处理》课程介绍与教学大纲
《语音数字信号处理》课程简介课程编号:06044008课程名称:语音数字信号处理/ Speech Digital Signal Processing学分:2学时:32 (实验:0 上机:0 课外实践:0 )适用专业:电子信息工程建议修读学期:7开课单位:电气与信息工程学院电子信息与通信工程系先修课程:《数字信号处理》、《MATLAB及应用》、《随机信号处理》考核方式与成绩评定标准:作业、考试(闭卷)教材与主要参考书目:主要教材:《语音信号处理》主编:赵力机械工业出版社2011-6T参考书目:《离散时间语音信号处理》主编:夸特尔瑞电子工业出版社2004-87内容概述:《语音数字信号处理》是电子信息工程专业本科生的专业必修课程。
它系统地介绍了语音信号处理涉及的主要内容和方法,讲述语音信号的应用前景、语音信号处理流程及流程中涉及到的相关知识点,每个知识点通过案例仿真讲述其应用的结果。
主要内容分四部分:(1)基础部分:语音信号基础知识、人的发音原理、人的听觉原理、语音的数学模型;(2)语音信号分析方法:时域分析、频域分析、同态处理和线性预测分析;(3)语音信号涉及的新技术:矢量量化和隐马尔可夫模型;(4)语音的四个方面应用:语音编码、语音识别、语音合成和语音增强;通过《语音数字信号处理》学习,使学生掌握语音信号发音和听觉原理、语音信号的数字模型; 语音的时域、频域、倒谱、线性预测的分析方法;矢量量化;隐马尔可夫模型;语音波形编码、参数编码、混合编码;语音的合成;语音识别和语音增强的原理和技术,为学生毕业后从事语音处理工作和进一步研究相关课题打下一定的基础。
《嵌入式系统及应用》教学大纲课程编号:06044008课程名称:语音数字信号处理/ Speech Digital Signal Processing学分:2学时:32 (实验:0 上机:0 课外实践:0 )适用专业:电子信息工程建议修读学期:7开课单位:电气与信息工程学院电子信息与通信工程系先修课程:《数字信号处理》、《MATLAB及应用》、《随机信号处理》一、课程性质、目的与任务《语音数字信号处理》是电子信息工程专业本科生的专业必修课程。
语音信号的频域分析概述
第3页
2021年12月8日星期三
从广义上讲,语音信号的频域分析包括语音信号的 频谱、频谱包络、功率谱、倒频谱等。常用的频域分析 方法有带通滤波器组法、傅里叶变换法、线性预测法等 几种。本节介绍语音信号的傅里叶分析法。
短时傅里叶变换最重要的应用是语音分析与合成系 统,因为由短时博里叶变换可以精确地恢复语音波形。
第4页
2021年12月8日星期三语音信号及单片机处理语音信号及单片机处理
语音信号的频域分析概述
在语音信号处理中,傅里叶表示一直起主要作用。 其原因在于:一方面,稳态语音的生成模型由线性系统 组成,此系统由一个随时间周期变化或随机变化的源所 激励,因而系统输出频谱反映了激励与声道频率响应特 性;另一方面,语音信号的频谱具有非常明显的语言声 学意义,可以获得某些重要的语音特征(如共振峰频率 和带宽等)。
第2页
2021年12月8日星期三
语音信号是非平稳信号,其非平稳性是由发音器官 的物理运动过程而产生的。这个运动过程与声波振动 的速度比起来要缓慢得多,因此可以假定它在10~30 ms这样短的时间段内是平稳的。所以对语音信号处理 来说,短时分析的方法是有效的。短时分析应用于频 域分析就是短时傅里叶变换,相应的频谱称为“短时 谱”,即有限长度的傅里叶变换。
语音信号采集与时频域分析正文
第一章引言语音信号是一种非平稳的时变信号,它携带着各种信息。
在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。
语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。
语音信号分析可以分为时域和频域等处理方法。
语音信号可以认为在短时间内(一般认为在 10~30ms 的短时间内)近似不变,因而可以将其看作是一个准稳态过程, 即语音信号具有短时平稳性。
任何语音信号的分析和处理必须建立在“短时”的基础上, 即进行“短时分析”。
时域分析:直接对语音信号的时域波形进行分析,提取的特征参数有短时能量,短时平均过零率,短时自相关函数等。
频域分析:对语音信号采样,并进行傅里叶变换来进行频域分析。
主要分析的特征参数:短时谱、倒谱、语谱图等。
本文采集作者的声音信号为基本的原始信号。
对语音信号进行时频域分析后,进行加白噪声处理并进行了相关分析,设计滤波器并运用所设计的滤波器对加噪信号进行滤波, 绘制滤波后信号的时域波形和频谱。
整体设计框图如下图所示:图1.1时频域分析设计图图1.2加噪滤波分析流程图第二章 语音信号时域分析语音信号的时域分析可直接对语音信号进行时域波形分析,在此只只针对语音信号的短时能量、短时平均过零率、短时自相关函数进行讨论。
2.1窗口选择由人类的发生机理可知,语音信号具有短时平稳性,因此在分析讨论中需要对语音信号进行加窗处理进而保证每个短时语音长度为10~30ms 。
通常选择矩形窗和哈明窗能得到较理想的“短时分析”设计要求。
两种窗函数的时域波形如下图2.1所示:samplew (n )samplew (n )图2.1 矩形窗和Hamming 窗的时域波形矩形窗的定义:一个N 点的矩形窗函数定义为如下{1,00,()n Nw n ≤<=其他(2.1)哈明窗的定义:一个N 点的哈明窗函数定义为如下0.540.46cos(2),010,()n n NN w n π-≤<-⎧⎨⎩其他= (2.2)这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图2.2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;哈明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。
实验二 语音信号的频域分析
2021/10/10
1
一、实验目的
理解语音信号的频谱特点; 理解语音信号的频谱分析方法; MATLAB实现语音信号的频域分析。
2021/10/10
2
二、实验原理
语音信号本质上是非平稳信号。但我们可以假设语 音信号在一个短时间内是平稳的,这样我们用稳态分析 方法处理非平稳信号。 应用在傅立叶分析就是短时傅立叶变换。
23
2021/10/10
15
倒谱和复倒谱
clear
a=wavread('beijing1.wav');
a=a(39000:39999);
N=1000;
h=hamming(N);
for m=1:N
b(m)=a(m)*h(m);
end
c=cceps(b);
c=fftshift(c);
d=rceps(b);
for m=1:N
b(m)=a(m)*h(m);
end
y=20*log(abs(fft(b)));
subplot(2,1,2)
plot(y);
title('短时谱');
grid
2021/10/10
14
语谱图
clear [x,fs,n,bits]=wavread('beijing1.wav'); subplot(2,1,1) plot(x) subplot(2,1,2) specgram(x,512,fs,100); xlabel('时间(s)') ylabel('频率(Hz)') title('语谱图')
语音的频域分析:包括语音信号的频谱、功率谱、 倒频谱、频谱包络等.
语音信号的短时频域分析
语音信号的短时频域分析目录一、内容简述 (2)二、基础知识 (2)2.1 语音信号处理基础 (3)2.1.1 语音信号的特点 (5)2.1.2 语音信号的数字表示 (6)2.2 频域分析介绍 (7)三、短时傅里叶变换 (8)3.1 STFT的基本原理 (9)3.2 STFT的应用场景 (10)3.3 窗函数的选择和影响 (11)四、短时傅里叶变换的变体 (12)4.1 连续小波变换 (13)4.1.1 CWT的基本概念 (14)4.1.2 CWT与STFT的比较 (15)4.2 离散小波变换 (16)4.2.1 DWT的基本概念 (18)4.2.2 DWT在语音信号处理中的应用 (19)五、短时频域特征提取 (20)5.1 梅尔频率倒谱系数 (21)5.1.1 MFCC的计算过程 (23)5.1.2 MFCC在语音识别中的作用 (24)5.2 谐波和基频估计 (26)5.2.1 基本周期分析与提取 (26)5.2.2 基频和共振峰的定位 (28)六、短时频域分析在实际中的应用 (29)6.1 语音增强 (30)6.2 语音去噪 (32)6.3 说话人识别与语音合成 (33)七、总结 (35)7.1 短时频域分析方法总结 (36)7.2 语音信号处理领域的发展趋势 (37)7.3 下一步研究方向与思考 (38)一、内容简述语音信号的短时频域分析是语音处理领域中一项重要的技术,该技术主要通过对语音信号进行短时的时间窗口划分,然后在每个时间窗口内进行频域分析,从而提取语音信号的频率特性。
这种分析方法有助于我们理解语音信号在不同时间段的频率变化,对于语音识别、语音合成、音频信号处理等领域具有广泛的应用价值。
本文将详细介绍短时频域分析的基本原理、方法、步骤以及在实际应用中的效果评估。
通过本文的阅读,读者将能够了解如何对语音信号进行短时频域分析,从而深入理解和掌握这一技术的实际应用。
二、基础知识信号是信息传递的一种形式,可以是模拟的或数字的。
语音信号的时域和频域特征
24
25
4.2.2. 频域上的基音检测方法
在频域中,常常是用谐波分析法,即对浊音信号的谱线结 构进行分析来计算得到基音周期。
[注意] 在频域上可能不存在与基频对应的谱线。
26
4.3. 基音的平滑
由于在基音的提取过程中不可避免地要产生误差,主要是 基音周期减半或加倍的现象(根据方法的不同,误差的现象会 有所不同) 。一般情况下 90%左右的基音周期都会被准确提取, 但是总有少部分的基音是提取不准确的。因此需要采取平滑的 方法去掉这些奇异点。 在语音编码和汉语四声识别中,基音平滑直接影响到系统 的性能。
R (l ) =
N − l −1 n=0
∑S
w
(n + l ) ⋅ S w ( n)
当 l = n ⋅ T , n = 1,2 ,L 时, R(l) 函数接近局部极大值。 自相关法特点:在这个算法中使用了乘-累加操作。在数字
21
信号处理器中有专门的硬件指令来快速完成(只要一个周期) 这种乘-累加运算。因此这种算法在 DSP 中得到了普遍的应用。 无论是使用 AMDF 法或是自关法求语音信号的基音周期, 都要在基音周期 T 的范围内 [Tmin , Tmax ] 搜索 γ (l ) 或 R(l) 的极 值点位置。一般取 0.5 ⋅ Tmin < l < 1.5 ⋅ Tmax ,先计算所有的 γ (l ) 或 R(l) 值,然后再搜索得到基音。
3.3.2. 浊音谱的共振峰结构
频谱包络中有几个凸起点,与声道的谐振频率相对应。这 些凸起点称为共振峰(Formant) 。其频率称为共振峰频率。按 频率由低到高依次为第一共振峰、第二共振峰…。相应频率用 F1、F2、F3…来表示。
14
实验一语音信号的时域特性和频域特性
实验一、语音信号的时域特性和频域特性学院:信息与通信工程学院专业:通信工程班级:104学号:2010026410姓名:黄余芳指导教师:崔艳秋1.实验名称语音信号的时域特性和频域特性2.实验类型验证性实验3.实验目的观察并验证语音信号的时域特性和频域特性,理解并掌握典型的语音信号时域分析方法和频域分析方法,为深入学习数字语音信号处理的相关理论奠定基础。
4.实验设备安装有MATLAB的计算机5.实验内容1.输入并运行MATLAB代码。
2.观察语音信号的时域特性(1)发一个清音和一个浊音,由麦克风采集语音数据,参考实验内容1中的程序将这些数据分别存成两个“.wav”文件(例如[a]的语音存为“a.wav”,要求采样率为8000),存在本人的文件夹中。
(2)读取WA V文件,显示语音波形,观察清音和浊音波形的差异。
(3)读取WA V文件,计算并显示语音的短时能量(要求分帧加窗的帧长为256,帧移为128),观察并分析清音和浊音短时能量的差异。
(4)读取WA V文件,计算并显示语音的短时过零率(要求分帧加窗是的帧长为256,帧移为128),观察并分析清音和浊音短时过零率的差异。
3. 观察语音信号的频域特性(1)读取WA V文件,计算并显示一帧语音的原始信号、加窗信号、短时频谱(要求分帧加窗的窗函数为汉明窗、帧长为256,帧移为128),观察并分析清音和浊音短时频谱的差异。
(2)读取WA V文件,计算并显示不同窗函数情况下一帧语音的加窗信号、短时频谱(要求分帧加窗的窗函数分别为矩形窗和汉明窗、帧长为256,帧移为128),观察并分析不同的窗函数对短时谱分析的影响。
6.相关函数wavread、plot、fft7.MATLAB程序代码1. 输入并运行以下MATLAB代码。
(1) 短时能量clear;close all;Fs=11025;y=wavrecord(5*Fs,Fs,'double'); wavwrite(y,'f:\\a');soundview(y,Fs);x = wavread('f:\\a.wav');x = double(x);x = filter([1 -0.9375], 1, x); % 预加重FrameLen = 256;FrameInc = 128;s = enframe(x, FrameLen, FrameInc); energy = sum(abs(s), 2);figure;subplot(2,1,1);plot(x);title('语音信号时域波形');xlabel('样点数');ylabel('幅度');subplot(2,1,2);plot(energy);title('语音信号的短时能量');xlabel('帧数');ylabel('短时能量');legend('帧长FrameLen = 240');(2) 短时过零率clear;close all;x = wavread('f:\\a.wav');x = double(x);FrameLen = 256;FrameInc =128;tmp1 = enframe(x(1:end-1), FrameLen, FrameInc);tmp2 = enframe(x(2:end) , FrameLen, FrameInc);signs = (tmp1.*tmp2)<0;diffs = (tmp1 -tmp2)>0.02;zcr = sum(signs.*diffs, 2);figure;subplot(2,1,1);plot(x);title('语音信号时域波形');xlabel('样点数');ylabel('幅度');subplot(2,1,2);plot(zcr);xlabel('帧数');ylabel('短时过零率');title('语音信号的短时过零率');(3) 短时傅里叶变换clear;close all;x = wavread('f:\\a.wav');x = double(x);FrameLen =256;FrameInc =128;s = enframe(x, FrameLen, FrameInc);ss=s(50,:); %选取一帧语音信号(可以通过观察短时能量的分布来判断哪一帧是清音段还是浊音段)f=ss'.*hamming(length(ss));r=fft(f,512);r1=abs(r);r1=r1/max(r1);yuanlai=20*log10(r1);signal(1:256)=yuanlai(1:256);pinlv=(0:1:255)*11025/512;figure;subplot(3,1,1);plot(ss);axis([0,256,-1,1])title('截取的语音段');xlabel('样点数');ylabel('幅度');subplot(3,1,2);plot(f);axis([0,256,-1,1])title('窗选语音信号');xlabel('样点数');ylabel('幅度');subplot(3,1,3);plot(pinlv,signal);xlabel('频率/Hz');ylabel('对数幅度/dB');title ('加Hamming窗时语音频谱');(4) 显示清音短时过零率clear;close all;x = wavread('f:\\k.wav');x = double(x);FrameLen = 256;FrameInc =128;tmp1 = enframe(x(1:end-1), FrameLen, FrameInc); tmp2 = enframe(x(2:end) , FrameLen, FrameInc); signs = (tmp1.*tmp2)<0;diffs = (tmp1 -tmp2)>0.02;zcr = sum(signs.*diffs, 2);figure;subplot(2,1,1);plot(x);title('语音信号时域波形');xlabel('样点数');ylabel('幅度');subplot(2,1,2);plot(zcr);xlabel('帧数');ylabel('短时过零率');title('语音信号的短时过零率');2:语音信号的频域分析1.加汉明窗的浊音clear;close all;x = wavread('f:\\a.wav');x = double(x);FrameLen =256;FrameInc =128;s = enframe(x, FrameLen, FrameInc);ss=s(125,:); %选取一帧语音信号(可以通过观察短时能量的分布来判断哪一帧是清音段还是浊音段)f=ss'.*hamming(length(ss));r=fft(f,512);r1=abs(r);r1=r1/max(r1);yuanlai=20*log10(r1);signal(1:256)=yuanlai(1:256);pinlv=(0:1:255)*11025/512;figure;subplot(3,1,1);plot(ss);axis([0,256,-1,1])title('截取的语音段');xlabel('样点数');ylabel('幅度');subplot(3,1,2);plot(f);axis([0,256,-1,1])title('窗选语音信号');xlabel('样点数');ylabel('幅度');subplot(3,1,3);plot(pinlv,signal);xlabel('频率/Hz');ylabel('对数幅度/dB');title ('加Hamming窗时语音频谱2.加汉明窗的清音clear;close all;x = wavread('f:\\k.wav');x = double(x);FrameLen =256;FrameInc =128;s = enframe(x, FrameLen, FrameInc);ss=s(90,:); %选取一帧语音信号(可以通过观察短时能量的分布来判断哪一帧是清音段还是浊音段)f=ss'.*hamming(length(ss));r=fft(f,512);r1=abs(r);r1=r1/max(r1);yuanlai=20*log10(r1);signal(1:256)=yuanlai(1:256);pinlv=(0:1:255)*11025/512;figure;subplot(3,1,1);plot(ss);axis([0,256,-1,1])title('截取的语音段');xlabel('样点数');ylabel('幅度');subplot(3,1,2);plot(f);axis([0,256,-1,1])title('窗选语音信号');xlabel('样点数');ylabel('幅度');subplot(3,1,3);plot(pinlv,signal);xlabel('频率/Hz');ylabel('对数幅度/dB');title ('加Hamming窗时语音频谱3.加矩形窗的浊音clear;close all;x = wavread('f:\\a.wav');x = double(x);FrameLen =256;FrameInc =128;s = enframe(x, FrameLen, FrameInc);ss=s(125,:); %选取一帧语音信号(可以通过观察短时能量的分布来判断哪一帧是清音段还是浊音段)f=ss'.*rectwin(length(ss));r=fft(f,512);r1=abs(r);r1=r1/max(r1);yuanlai=20*log10(r1);signal(1:256)=yuanlai(1:256);pinlv=(0:1:255)*11025/512;figure;subplot(3,1,1);plot(ss);axis([0,256,-1,1])title('截取的语音段');xlabel('样点数');ylabel('幅度');subplot(3,1,2);plot(f);axis([0,256,-1,1])title('窗选语音信号');xlabel('样点数');ylabel('幅度');subplot(3,1,3);plot(pinlv,signal);xlabel('频率/Hz');ylabel('对数幅度/dB');title ('加矩形窗时语音频谱)8.实验结果及其分析浊音(1) 短时能量0.51 1.52 2.53 3.54x 104-1012语音信号时域波形样点数幅度050100语音信号的短时能量帧数短时能量(2) 短时过零率0.511.52 2.533.54x 104-1-0.500.51语音信号时域波形样点数幅度102030帧数短时过零率语音信号的短时过零率(3) 短时傅里叶变换01截取的语音段样点数幅度5010015020025001窗选语音信号样点数幅度-1000频率/Hz对数幅度/d B加Hamming 窗时语音频谱清音(1) 短时能量x 104012语音信号时域波形样点数幅度0204060语音信号的短时能量帧数短时能量(2) 短时过零率x 104-1-0.500.51语音信号时域波形样点数幅度5010015020025030035005101520帧数短时过零率语音信号的短时过零率(3) 短时傅里叶变换01截取的语音段样点数幅度01窗选语音信号样点数幅度5001000150020002500300035004000-1000频率/Hz对数幅度/d B加Hamming 窗时语音频谱(4) 显示清音短时过零率x 10401语音信号时域波形样点数幅度05101520帧数短时过零率语音信号的短时过零率加窗(1)加汉明窗的浊音50100150200250-101截取的语音段样点数幅度50100150200250-101窗选语音信号样点数幅度100020003000400050006000-100-500频率/Hz对数幅度/d B加Hamming 窗时语音频谱(2)加汉明窗的清音-101截取的语音段样点数幅度50100150200250-101窗选语音信号样点数幅度-100-500频率/Hz对数幅度/d B加Hamming 窗时语音频谱(3)加矩形窗的浊音50100150200250-101截取的语音段样点数幅度-101窗选语音信号样点数幅度-100-500频率/Hz对数幅度/d B加矩形窗时语音频谱分析:(1)对于浊音与清音,浊音的幅值比较明显,有一个的波动,能清楚的看清楚它的周期;而清音类似于白噪声,没有明显的幅值,很平缓。
语音信号的频域特性
实验二语音信号的频域特性1.观察语音信号的频域特点,总结其规律。
答:不同的浊音,其共振峰的数值都不一样。
清音的频谱比较平坦。
2. 总结清音/b/p/m/f/d/t/n/l/g/k/h/j/q/x/z/c/s/zh/ch/sh/r/共21个的语谱图的规律,给出辅音的能量集中区;答:清音段幅度小,其能量集中于高频段,语谱图没有明显的周期规律,波动变化较小。
浊音段幅度较大,其能量集中于低频段。
3.总结浊音/a/o/e/i/u/ü/ao/ai/ei/ou/ie /an/en/in/ang/eng/ong/ing/共18个的语谱图的规律,提取这18个浊音的基频、前三个共振峰频率和共振峰处的功率(dB);a 基频(Hz)共振峰(Hz) 757.2 1388 3108124.6 功率(dB) 74.3 72.1 54.9o 基频(Hz)共振峰(Hz) 581.8 1038 3108120.9 功率(dB) 77.0 78.2 31.3e 基频(Hz)共振峰(Hz) 476.6 1248 3000124 功率(dB) 74.2 71.2 44.1i 基频(Hz)共振峰(Hz) 371.3 2625 3494125.3 功率(dB) 75.8 71.3 36.5u 基频(Hz)共振峰(Hz) 687 2722 3494123.3 功率(dB) 75.3 70.2 45.2ü基频(Hz)共振峰(Hz) 231 2371 3283124.1 功率(dB) 76.8 66.7 54.1ao 基频(Hz)共振峰(Hz) 789 2637 3095125.1 功率(dB) 76.87 70.64 41.9ai 基频(Hz)共振峰(Hz) 810 2553 3464127.2 功率(dB) 75.7 70.9 36.0ei 基频(Hz)共振峰(Hz) 278.8 2487 3010123.1 功率(dB) 75.7 75.9 45.8ou 基频(Hz)共振峰(Hz) 336.0 1689 3093122.1 功率(dB) 75.7 66.8 46.9ie 基频(Hz)共振峰(Hz) 241.4 2228 3487120.1 功率(dB) 75.3 70.2 45.8an 基频(Hz)共振峰(Hz) 681.1 1765 3073128.3 功率(dB) 75.1 65.5 36.4en 基频(Hz)共振峰(Hz) 283.3 1817 3029128.3 功率(dB) 74.8 65.0 35.3in 基频(Hz)共振峰(Hz) 230.1 2580 3038130.1 功率(dB) 74.7 70.2 45.2ang 基频(Hz)共振峰(Hz) 821 2073 3383129.1 功率(dB) 76.3 75.7 47.0eng 基频(Hz)共振峰(Hz) 382.7 2011 3080130.1 功率(dB) 75.4 71.0 36.9ong 基频(Hz)共振峰(Hz) 444.6 2520 1019131.2 功率(dB) 76.3 66.6 36.6ing 基频(Hz)共振峰(Hz) 211.0 2711 3396135.1 功率(dB) 74.3 74.4 35.94./r/、/m/、/n/、/l/ 从这几个音素的的基频、共振峰频率和共振峰处的功率(dB);r 基频(Hz)共振峰(Hz) 734 1338 3114127.3 功率(dB) 74.1 64.0 44.1m 基频(Hz)共振峰(Hz) 450 980 3291130.2 功率(dB) 77.3 67.1 47.7n 基频(Hz)共振峰(Hz) 379.5 1161 3256130.5 功率(dB) 77.0 66.8 37.0l 基频(Hz)共振峰(Hz) 486 1303 3143127 功率(dB) 73.6 53.2 32.65. 分析宽带语谱图和窄带语谱图的不同之处,请解释原因;宽带语谱图的时域分辨率高、可以看见语谱图上的纵的线条;窄带语谱图的频域分辨率高、语谱图上横的线条明显。
浅析语音信号频谱分析方法
浅析语音信号频谱分析方法摘要:语音信号的频域分析就是分析语音信号的频域持征。
从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换法、线件预测法等几种。
下面着重介绍前两种分析方法。
关键词:频谱分析、带通滤波器组法、傅里叶变换法傅里叶分析法因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。
利用短时博里叶变换求语音的短时谱对第n 帧语音信号Xn(m)进行傅里叶变换(离散时域傅里叶变换,DTFT),可得到短时傅里叶变换,其定义如下:10()()N j w j w n n n m X e x m e --==∑(3-7)由定义可知,短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。
这里,窗w(n-m)是一个“滑动的”窗口,它随n 的变化而沿着序列X(n)滑动。
由于窗口是有限长度的,满足绝对可和条件,所以这个变换是存在的。
当然窗口函数不同,博里叶变换的结果也将不同。
设语音信号序列和窗口序列的标准傅早叶变换均存在。
当n 取固定值时,w(n-m)的傅里叶变换为:()()jw n jw n jw m w n m e e W e ∞---=-∞-=⋅∑(3-8)根据卷积定理,有:()()()jw jw jwn jw n X e X e e W e --⎡⎤=⋅⋅⎣⎦ (3-9) 因为上式右边两个卷积项均为关于角频率w 的以2π为周期的连续函数,所以也可将其写成以下的卷积积分形式:()-1()()()2jw j jn j w n X e W e e X e d θθθθ∏+∏⎡⎤⎡⎤=⋅⎣⎦⎣⎦∏⎰ (3-10) 即,假设x(m)的DTFT 是()jw X e ,且()w m 的DTFT 是()jw W e ,那么()jw n X e 是()jw X e 和()jw W e 的的周期卷积。
第03讲 语音信号变换域(频域+倒谱)分析
际上是Xn e j
在频域的取样,如下所示
j2k
N 1
j 2 km
Xn e N X n k xn m e N , 0 k N 1
m0
在语音信号数字处理中,都是采用 xn m 的离散傅立叶
变换 Xn k 代替 Xn e
变换(FFT)算法完成由
j , 并且可以用高效的快速傅立叶 xn m 至 Xn k 的转换。当然,
W e j 必须是一个冲激函数。窗长越长W,e j 的主瓣越狭
窄尖锐,则Xn e j
越接近X e j
。 但窗长太大时
,窗选信号已经不满足语音的短时平稳特性,此X时n e j
已不能正确反映短时语音的频谱了。为此,必须要折中选
择窗长。
▪ 令角频率 2 k n 则得到离散的短时傅立叶变换,它实
150
200
250
300
讨论:窗口形状对短时谱的影响
下面给出采样率8kHz,窗长400点(50ms)情况下 ,分别用矩形窗与汉明窗选取同一段浊音信号, 求得其对数幅度谱。简单分析一下不同的窗函数 对语音信号短时谱的影响。
矩形窗加窗的浊音波形及其短时频谱 汉明窗加窗的浊音波形及其短时频谱
由上图可看出:
(第二讲)
1 语音信号的频域分析
2 语音信号的倒谱分析
§3.4 语音信号的频域分析
▪ 语音信号的频域分析就是分析语音信号的频域特征。 从广义上讲,语音信号的频域分析包括语音信号的频 谱、功率谱、倒频谱、频谱包络分析等。
▪ 常用的频域分析方法有带通滤波器组法、傅里叶变换 法、线性预测法等几种。
▪ 本节介绍的是语音信号的傅里叶分析法。
“短时谱”
▪ 短时分析将语音流分为一段一段来处理,每一段称为一“帧” ;
第03讲 语音信号变换域(频域+倒谱)分析
由图可见:
由于窗长很短,所选出的语音段甚至不到一个基音周期长度, 因此语音段丢失了关于基音周期的信息,表现在短时谱上 就是反映基音频率和谐波的快速变化特点消失了,短时谱 中只保留着慢速变化的特点,也就是还保持着声道滤波器
的共振峰。由于矩形窗具有更高的频谱分辨率,因此其短
时频谱不如汉明窗平滑。
从以上对窗函数和短时频谱的讨论可以得出以下结论: • 1)矩形窗和汉明窗的主瓣狭窄且旁瓣衰减较大,具有低 通的性质。窗越长,主瓣越窄,加窗后的频谱能更好地逼 近短时语音的频谱。 • 2)窗长越长,频谱分辨率越高,但由于长窗的时间平均 作用导致时间分辨率相应下降,如共振峰在不同的基音周 期是要发生变化,但如果使用较长的窗则会模糊这种变化。 • 3)窗长越短,时间分辨率越高,但频率分辨率相应降低。 如采用短窗可以清楚地观察到共振峰在不同基音周期的变 化情况,但是基频以及谐波的精细结构在短时频谱图上消 失了。 • 4)由于时间分辨率和频谱分辨率的相互矛盾关系,在进 行短时傅里叶变换时,应根据分析的目的来折中选择窗长。
X n (e j ) xn (m)e jm
m 0 N 1
m
x m w n m e jm
m
x m e jm w n m
当w固定不变时, X n (e j ) 可视为信号 x m e jm 与窗函数 w n 的卷积,此时,短时傅立叶变换可看作线性滤波.
• 在语音信号数字处理中,功率谱具有重要意义,在一些语音 应用系统中,往往都是利用语音信号的功率谱。根据功率谱 定义,可以写出短时功率谱与短时傅里叶变换之间的关系:
S n (e ) X n (e ) X (e ) X n (e )
语音信号时域和频域通俗理解_概述及解释说明
语音信号时域和频域通俗理解概述及解释说明1. 引言1.1 概述语音是人类最基本、也是最常用的沟通方式之一。
人们通过声音来传递信息和表达情感。
对于语音信号的分析和处理,时域和频域是两个重要的角度。
时域分析主要关注声音信号在时间上的变化规律,而频域分析则关注声音信号在频率上的成分组成。
1.2 文章结构本文将以通俗易懂的方式,对语音信号的时域和频域进行解释和说明。
首先,我们将介绍时域和频域分析的基本概念及其重要性,然后详细讨论时域与频域分析中涉及到的关键点和方法。
最后,我们将总结观点并给出读者一些启示和建议。
1.3 目的本文旨在帮助读者理解语音信号时域与频域这两个概念,并且能够清晰明了地认识到它们在语音信号处理中所起到的作用。
通过对时域与频域分析方法的说明,读者可以更好地理解并应用这些知识于实际问题中。
同时,本文也希望能够引发读者对语音信号处理的更深层次的思考和探索。
2. 语音信号时域与频域通俗理解:2.1 语音信号时域分析:语音信号的时域分析是对声音在时间上的变化进行研究和处理。
时域分析主要关注声音的振幅和时间之间的关系。
在时域中,我们可以观察到声音振动的波形图。
当我们录制一段语音时,在录制过程中,麦克风会将声音转换为电信号,并按照一定的采样率记录下来。
这些记录的电信号就是我们所说的波形图。
波形图横坐标表示时间,纵坐标表示振幅。
通过观察波形图,我们可以获得很多有用的信息。
例如,振幅可以告诉我们声音的强度或者说响度,而波形图上不同部分振幅大小和模式的变化可以揭示出不同语音特征(如元音、辅音等)以及语速、语调等信息。
2.2 语音信号频域分析:语音信号的频域分析是对声音中各种频率成分进行研究和处理。
频域分析更注重声音中各个频率成分之间的关系以及它们在声谱上呈现出来的特征。
通过傅里叶变换的方法,我们可以将时域中记录的波形图转换为频谱图。
频谱图显示了声音中不同频率成分在整个录制时间内的存在情况。
横坐标表示频率,纵坐标表示声音强度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
◆因 Xn(ejω) 是 x(m)w(n-m) 的 Fourier 变换, 则 Xn(ejω) 是 X(ejω) 与 ejωnW(e-jω) 的卷积,即
X n (e
j
)
1 2 1 2
e
j n
W (e
-j
) X (e
j( )
)d )d
e
-j n
x(n)
w(n) e-jωn 图5.5
Xn(ejωn)
STFT的线性滤波实现 赵晓群 教授
第5章
语音信号的频域分析
5.4
STFT 的实现
图5.5:STFT 的线性滤波实现
图5.6:图5.5方案的实数运算 ◆图5.6方案原理:
设:
X n (e
j
) a n ( ) j b n ( )
同济大学电子与信息工程学院
- 7 -
赵晓群 教授
第5章
语音信号的频域分析
5.3
短时 Fourier 变换(STFT)的定义和性质
根据 STFT,恢复原语音信号 x(m) 的方法:
式
X n (e
j
)
m
x ( m ) w ( n m )e
-j m
的逆变换为:
x(m )w (n m ) 1 2
同济大学电子与信息工程学院 - 11 赵晓群 教授
第5章
语音信号的频域分析
5.3
短时 Fourier 变换(STFT)的定义和性质
分析窗宽对短时频谱的影响:
图5.4(a):元音 [i] 的波形和短时频谱图。 ◆窗宽 6.4 ms,元音 [i] 的基音周期大约是 13 ms;
◆窗选语音段长不到一个基音周期,
第5章
语音信号的频域分析
5.3
短时 Fourier 变换(STFT)的定义和性质
5.3.2 窗函数及窗宽对STFT的影响 图5.3a:元音 [i] 的波形和短时频谱图。 ◆元音 [i] 的基音周期大约是 13 ms; 短时频谱图有两种变化: ◆快变化:周期性激励引起, 原始语音 基音频率的各次谐波; ◆慢变化:声道共振特性引起, 窗选语音 各共振峰的频率和带宽。 两个频谱图间的差别: 加矩形窗时语音谱 ◆矩形窗时:谐波各峰较尖锐, 谱图较破碎(类似于噪声), 加Hamming窗时语音谱 主瓣较窄(较高频率分辨率); 旁瓣较高, “泄漏”严重; ◆Hamming 窗时:短时频谱平滑些。 图5.3a 元音[i]的波形和短时频谱图 (10 kHz取样,窗长256) 短时谱分析,Hamming 窗较普遍。
丢失了基音周期的信息; ◆频的快变化(谐波频率)消失。 ◆频的慢变化(较宽的峰)保留, 是声道的共振特性。 矩形窗比 Hamming 时, 呈现较多的细致结构, ◆由于矩形窗比 Hamming 窗
加Hamming窗时语音谱
窗选语音
原始语音
加矩形窗时语音谱
具有更高的频率分辨率。
同济大学电子与信息工程学院 - 12 -
由STFT的谱 Xn(ejω) 求解 x(m) 的 Fourier 变换 X(ejω) 方法。 假设 x(m) 和 w(m) 的 Fourier 变换都存在,即:
X (e
j
)
m
x ( m )e
-j m
,
W (e
j
)
m
w ( m )e
-j m
X n (e
j
)e
j m
d
若w(0)≠0,由上式得:
x(n)
2 w (0 )
1
X n (e
j
)e
j n
d
◆准确地恢复原信号的唯一约束条件是 w(0)≠0 。
同济大学电子与信息工程学院
- 8 -
赵晓群 教授
第5章
语音信号的频域分析
5.3
短时 Fourier 变换(STFT)的定义和性质
x ( m ) w ( n m )e
-j m
式中, w(n)是窗函数。 ◆为位于 n 处的窗口观察到的窗选语音短段的 Fourier 变换; ◆ n 取不同值时,取出不同的语音短段;
◆ Xn(ejω) 是频率ω 和时间 n 的函数;有时-频性。
要求: STFT 存在,则对所有 n 值,一定绝对可和。 ◆因窗宽有限,或无限冲激响应窗函数,其有效宽度有限, 故满足绝对可和。
越宽逼近效果越好。
同济大学电子与信息工程学院
- 14 -
赵晓群 教授
第5章
语音信号的频域分析
5.4
STFT 的实现
第5章 语音信号的频域分析
5.4 STFT的实现 j -j m X n (e ) x ( m ) w ( n m )e STFT的定义: m ◆将窗函数的位置参数 n 看成是参变量, ◆给定 n,是连续变量ω 的函数,为语音段的标准Fourier 变换 从不同角度来解释 STFT,可得不同的实现方法。 线性滤波的角度:ω 为参变量,给定 ω 时,是 n 的函数。 ◆重写定义式: X n (e )
a ( ) n 则可计算: b n ( )
m m
x ( m ) c o s ( m ) w ( n m ) x ( m ) s in ( m ) w ( n m )
cosωn x(n)
x(n)
w(n)
e-jωn 图5.5
m
w ( n m ) x ( m )e
-j m
将 m 用 m 表示,得:
X n (e ) e
m
x ( n m ) w ( m )e
j m
◆上式可用图5.7方案实现; 图5.8:图5.7方案的实数运算(推导略)
cosωn w(n)cosωn x(n) w(n) ejωn e-jωn w(n)sinωn 图5.7 STFT分析线性滤器的另一种形式 图5.8 同济大学电子与信息工程学院 - 17 Xn (ejω) x(n)
Xn
(ejω)
sinωn
w(n) w(n)
an(ω)
bn(ω)
STFT的线性滤波实现 - 16 -
图5.6
STFT分析用线性滤波实现 赵晓群 教授
同济大学电子与信息工程学院
第5章
语音信号的频域分析
5.4
STFT 的实现
令 m n m ,代入式
X n (e
j j
)
-j n
语音是非平稳信号,源于发声器官的物理运动过程。
◆在短时间段(如10 ~ 30 ms)内可认为是平稳的; ◆用时间依赖处理方法分析处理。
同济大学电子与信息工程学院 - 3 赵晓群 教授
第5章
语音信号的频域分析
5.1
概述பைடு நூலகம்
短时 Fourier 分析(时间依赖 Fourier 变换):
用稳态分析处理非平稳信号的一种方法 语音的频域分析:包括语音信号的频谱、功率谱、倒频谱、 频谱包络等, 常用频域分析方法:带通滤波器组法、Fourier 变换法、
国家“十一五”规划教材
《数字语音编码》讲议
同济大学电子与信息工程学院
赵晓群 编著
机械工业出版社,2007年
第5章 语音信号的频域分析
5.1 概述 5.2 5.3 5.4 5.5 5.6 5.7 5.8 基于滤波器组的频域分析 短时 Fourier 变换(STFT)的定义和性质 STFT 的实现 短时 Fourier 谱的取样 语音的短时合成技术 基于 FFT 的短时 Fourier 分析 频域基音检测
同态分析、线性预测法等。
本章:带通滤波器组法、Fourier 变换法、频域基音检测、 时-频表示
同济大学电子与信息工程学院
- 4 -
赵晓群 教授
第5章
语音信号的频域分析
5.2
基于滤波器组的频域分析
第5章 语音信号的频域分析
5.2 基于滤波器组的频域分析 最早的频谱分析:滤波器组来实现。
特点:简单、实时性好、受外界影响小。
j
m
w ( n m ) x ( m )e
-j m
表明:◆卷积实现,w(n) 与 x(n)e-jωn, ◆序列 x(n)e-jωn 通过冲激响应为 w(n) 的线性滤波器的输出 ◆此时,ω 看成是固定值。 图5.5:STFT 的线性滤波实现
同济大学电子与信息工程学院 - 15 -
图5.4a
元音[i]的波形和短时频谱图 (10 kHz取样,窗长64) 赵晓群 教授
第5章
语音信号的频域分析
5.3
短时 Fourier 变换(STFT)的定义和性质
图5.3,5.4(b):清辅音 [j] 短时频谱图。 ◆图5.3(b):窗较长,频率分辨率高,许多快变化, 反映了激励源的白噪声特性——随机起伏。 ◆矩形窗时,快变化尤为突出。 ◆仍然看出声道滤波器的共振特性。
第5章
语音信号的频域分析
5.3
短时 Fourier 变换(STFT)的定义和性质
5.3.3 结论 长窗具有较高的频率分辨率,较低的时间分辨率;
短窗具有较低的频率分辨率,较高的时间分辨率;
窗宽的选择需折衷考虑;
◆语音的基音周期值范围很大,窗宽选择应考虑该因素。 矩形窗和 Hamming 窗的频谱特性都具有低通的性质。 ◆截止频率处都较尖锐, ◆当通带较窄时(窗较宽),频谱能很好逼近短时语音谱。窗
n
w(n m)
m
图5.2 同济大学电子与信息工程学院 - 6 -