语音信号时域分析
语音信号的短时时域分析
实验2 语音信号的短时时域分析一、实验目的语音信号是一种非平稳的时变信号,它携带着各种信息。
在语音编码、语音合成、语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息。
语音处理的目的是对语音信号进行分析,提取特征参数,用于后续处理;加工语音信号。
总之,语音信号分析的目的就在于方便有效的提取并表示语音信号所携带的信息。
根据所分析的参数类型,语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。
其中时域分析方法是最简单、最直观的方法,它直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。
二、实验要求本实验要求掌握语音信号的短时时域分析方法,会利用已学的知识,编写程序计算语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。
三、实验设备PC 微机一台四、实验原理1语音信号的预处理在对语音信号进行数字处理之前,首先要将模拟语音信号s(t) 离散化为s(n). 实际中获得数字语音的途径一般有两种,正式的和非正式的。
正式的是指大公司或语音研究机构发布的被大家认可的语音数据库,非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。
语音信号的频率范围通常是300~3400Hz,一般情况下取采样率为8kHz 即可。
本实验的数字语音处理对象为语音数据文件,是已经数字化了的语音。
有了语音数据文件后,对语音的预处理包括:预加重、加窗分帧等。
1.1语音信号的预加重处理预加重目的:为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。
可通过一阶FIR 高通数字滤波器来实现:1()1H z z α-=-设n 时刻的语音采样值为x(n) ,经过预加重处理后的结果为:()()(1)y n x n x n α=--高通滤波器的幅频特性和相频特性如下:图1预加重前和预加重后的一段语音信号时域波形:图2预加重前和预加重后的一段语音信号频谱:图3例一:语音信号预加重clear all;fid=fopen('voice2.txt','rt') %打开文件e=fscanf(fid,'%f'); %读数据ee=e(200:455);%选取原始文件e的第200到455点的语音,也可选其他样点r=fft(ee,1024); %对信号ee进行1024点傅立叶变换r1=abs(r); %对r取绝对值 r1表示频谱的幅度值pinlv=(0:1:255)*8000/512 %点和频率的对应关系yuanlai=20*log10(r1) %对幅值取对数signal(1:256)=yuanlai(1:256);%取256个点,目的是画图的时候,维数一致[h1,f1]=freqz([1,-0.98],[1],256,4000);%高通滤波器pha=angle(h1); %高通滤波器的相位H1=abs(h1); %高通滤波器的幅值r2(1:256)=r(1:256)u=r2.*h1' % 将信号频域与高通滤波器频域相乘相当于在时域的卷积u2=abs(u) %取幅度绝对值u3=20*log10(u2) %对幅值取对数un=filter([1,-0.98],[1],ee) %un为经过高频提升后的时域信号figure(1);subplot(211);plot(f1,H1);title('高通滤波器的幅频响应');xlabel('频率/Hz');ylabel('幅度');subplot(212);plot(pha);title('高通滤波器的相位响应');xlabel('频率/Hz');ylabel('角度/radians');figure(2);subplot(211);plot(ee);title('原始语音信号');xlabel('样点数');ylabel('幅度');axis([0 256 -3*10^4 2*10^4]);subplot(212);plot(real(un));title('经高通滤波后的语音信号');xlabel('样点数');ylabel('幅度');axis([0 256 -1*10^4 1*10^4]);figure(3);subplot(211);plot(pinlv,signal);title('原始语音信号频谱');xlabel('频率/Hz');ylabel('幅度/dB');subplot(212);plot(pinlv,u3);title('经高通滤波后的语音信号频谱'); xlabel('频率/Hz');ylabel('幅度/dB');1.2语音信号的加窗处理由于发音器官的惯性运动,可以认为在一小段时间里(一般为10ms~30ms)语音信号近似不变,即语音信号具有短时平稳性。
语音信号处理第3章 语音信号分析方法
如果aN~=0,则IIR滤波器的阶数为N。
IIR滤波器的差分方程表示为:
y ( n)
m 0
bm x(n m) am y(n m)
m 1
M
N
设计经典数字滤波器的步骤:
(1)将设计指标归一化处理,即通带截止频率Wp 和阻带截止频率Ws。
(2)根据归一化频率,确定最小阶数N 和频率参数 Wn。可供选用的阶数选择函数有:buttord, cheb1ord,cheb2ord,ellipord 等。
(3)运用最小阶数N 设计模拟低通滤波器原型,用 到的函数有:butter, chebyl,cheby2, ellip 。
(4)用freqz(b,a,N,fs) 函数验证设计结果。
(5)用filter(b,a,x)函数实现滤波功能。
直接设计数字滤波器的MATLAB函数: [N,wn]=buttord(wp,ws,Rp,Rs) %数字频率采用标 准化频率,取值范围为0~1之间,标准化频率1对 应的数字频率为π,对应的模拟频率为采样频率 的一半。设计带通滤波器时,wp=[wp1,wp2]; ws=[ws1,ws2] [b,a]=butter(N,wn,’ftype’) %N为滤波器的阶数, wn为滤波器的截止频率(0~1),“ftype”为滤 波器的类型:‘high’为高通,‘stop’为带阻, 截止频率为wn=[w1,w2];缺省时为低通和带通滤 波器
[N,Wn]=buttord(wp1,ws1,Rp,Rs);
[b,a] = butter(N,Wn);%确定传递函数的分子、分母系数
[h,f]=freqz(b,a,Nn,Fs);
plot(f,20*log(abs(h)))
%生成频率响应参数
第02讲 语音信号的数字化和预处理+时域分析
频谱泄露 较严重
矩形窗与汉明窗的比较
频谱分辨率高
窗类型
矩形窗
旁瓣峰值
• 假设语音信号的幅度符合Laplacian分布,此时信号幅度超过 4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则 • 上式表明量化器中的每bit字长对SNR的贡献为6dB。
SNR(dB) 6.02 B 7.2
对重构的语音波形的高次谐波起平滑作用,去掉高次谐波失真。
• 汉明窗: (n) 0.54 0.46 cos[2n /( N 1)], 0 n ( N 1) 0, n else
矩 形 窗 2 1.8 1.6 1.4 1.2 1 0.9 0.8 0.7 0.6
hanming窗
w(n)
1 0.8 0.6 0.4 0.2 0
如下:
En x ( m)
m 0 2 n
N 1
• En是一个度量语音信号幅度值变化的函数,但它有一个缺陷, 即它对高电平非常敏感(因为它计算时用的是信号的平方)。
• 为此,可采用另一个度量语音信号幅度值变化的函数,即短
时平均幅度函数Mn,它定义为:
M n xn ( m)
m 0
N 1
0.7
0.8
0.9
1
0
幅度 /dB
-50
-100
0
0.1
0.2
0.3
0.4 0.5 0.6 归 一 化 频 率 (f/fs)
语音信号时域和频域通俗理解
语音信号时域和频域通俗理解语音信号是一种广泛使用的信号类型,它包含了人类声音的各种特征。
在理解语音信号时域和频域的表现时,首先需要理解这两个概念的基本含义。
时域:在时间域中,信号是按照时间顺序排列的一组值。
对于语音信号,每一帧或每个样本点都代表了声音在不同时刻的强度或幅度。
在语音信号处理中,时域分析通常涉及对这些样本点进行各种操作,如加权、过滤、卷积等。
时域分析可以揭示信号的瞬态特性,如声音的起始和结束,但其对频率成分的敏感性较低。
频域:在频域中,信号被转换成了频率成分的形式。
这意味着我们将信号分解为一系列不同频率的分量,每个分量都有其特定的幅度和相位。
在语音信号中,这些频率成分反映了声音的各个部分(如基频、谐波等)如何由不同的振动模式产生。
频域分析提供了对信号的全面理解,因为它能够揭示信号的能量如何分布在不同的频率上。
现在,让我们更深入地理解语音信号在时域和频域的表现:时域中的语音:当我们说话时,我们的声带会振动并产生声音。
这些振动会产生一系列的样本点,这些点在时间上按顺序排列。
如果我们观察这些样本点,我们可能会注意到声音的起始和结束,以及一些明显的变化。
但是,如果我们想了解更多关于声音的内容,比如它的基频或谐波结构,我们需要在频域中进行分析。
频域中的语音:当我们观察语音信号的频谱时,我们会看到一系列的频率成分。
这些成分可以代表基频、谐波以及其他声音特征。
例如,如果一个声音的主要成分是基频,那么我们可能会看到一个明显的峰值在低频区域。
如果一个声音包含多个谐波,我们可能会看到一系列更高或更低的频率成分。
了解这些频率成分可以帮助我们更好地理解声音的特征,比如音调、音量等。
总之,理解语音信号时域和频域的表现对于语音处理和通信等领域非常重要。
在时域中,我们关注声音的瞬态特性;而在频域中,我们关注声音的频率成分。
通过将信号从一种表示转换到另一种表示,我们可以更全面地了解和处理语音信号。
语音信号采集与时频域分析正文
第一章引言语音信号是一种非平稳的时变信号,它携带着各种信息。
在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。
语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。
语音信号分析可以分为时域和频域等处理方法。
语音信号可以认为在短时间内(一般认为在 10~30ms 的短时间内)近似不变,因而可以将其看作是一个准稳态过程, 即语音信号具有短时平稳性。
任何语音信号的分析和处理必须建立在“短时”的基础上, 即进行“短时分析”。
时域分析:直接对语音信号的时域波形进行分析,提取的特征参数有短时能量,短时平均过零率,短时自相关函数等。
频域分析:对语音信号采样,并进行傅里叶变换来进行频域分析。
主要分析的特征参数:短时谱、倒谱、语谱图等。
本文采集作者的声音信号为基本的原始信号。
对语音信号进行时频域分析后,进行加白噪声处理并进行了相关分析,设计滤波器并运用所设计的滤波器对加噪信号进行滤波, 绘制滤波后信号的时域波形和频谱。
整体设计框图如下图所示:图1.1时频域分析设计图图1.2加噪滤波分析流程图第二章 语音信号时域分析语音信号的时域分析可直接对语音信号进行时域波形分析,在此只只针对语音信号的短时能量、短时平均过零率、短时自相关函数进行讨论。
2.1窗口选择由人类的发生机理可知,语音信号具有短时平稳性,因此在分析讨论中需要对语音信号进行加窗处理进而保证每个短时语音长度为10~30ms 。
通常选择矩形窗和哈明窗能得到较理想的“短时分析”设计要求。
两种窗函数的时域波形如下图2.1所示:samplew (n )samplew (n )图2.1 矩形窗和Hamming 窗的时域波形矩形窗的定义:一个N 点的矩形窗函数定义为如下{1,00,()n Nw n ≤<=其他(2.1)哈明窗的定义:一个N 点的哈明窗函数定义为如下0.540.46cos(2),010,()n n NN w n π-≤<-⎧⎨⎩其他= (2.2)这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图2.2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;哈明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。
语音信号处理课件__第03章时域分析
x
xmax
)
(3-11)
3.1 语音信号的短时处理方法 脉冲编码调制
若是xmax取为4倍方差(δx)
SNRdB 6.02B 7.27
取样之位数 8 16 24
(3-12)
数字信号的信噪比 41 dB 89 dB 137 dB
3.1 语音信号的短时处理方法 脉冲编码调制
一个数字信号取样之后,变成离散时间信号,接下来就是要用数字 方式来表示这个离散时间信号上的每个取样值。 一个电位波形会有固定的电压范围,一个取样值可以是在此电压范 围内的任何电位。如果只能用固定数目的位来表示这些取样值,那 么这些二进数字就只能代表固定的几个电位值,这个转换就是量化 (quantization),而转换之后只允许存在的几个电位值就是量化阶 数(quantization level)。 执行量化转换的硬件电路,就是量化器(quantizer)。以二进数字 表示的信号就是数字信号(digital signal),而这种将信号波形转 变成二进数字的方法,就叫脉冲编码调制(pulse code modulation, PCM)。
3.1 语音信号的短时处理方法
预处理 平滑滤波器:D/A后面的低通滤波器是平滑滤 波器,对重构的语音波形的高次谐波起平滑 作用,以去除高次谐波失真。 预加重:
现象:由于语音信号的平均功率谱受声门激励和口 鼻辐射的影响,高频端大约在800 Hz以上按6dB/ 倍频程跌落,为此要在预处理中进行预加重。 目的:提升高频部分,使信号的频谱变得平坦,以 便于进行频谱分析或声道参数分析。 位置:预加重可在A/D变换前的反混叠滤波之前进行, 这样不仅能够进行预加重,而且可以压缩信号的动 态范围,有效地提高信噪比。
实验二 语音信号的时域分析
实验二 语音信号的时域分析1 实验目的通过Matlab 编程实现语音信号的时域波形图,并观察清音、浊音信号的时域特点。
掌握语音信号的时域分析技术,如短时平均能量、短时平均幅度、短时平均过零率分析、短时平均自相关、短时平均幅度差。
2 实验原理语音信号的时域分析就是分析和提取语音信号的时域参数。
时域分析通常用于最基本的参数分析及应用,此方法表示语音信号比较直观,物理意义明确,实现起来比较简单,运算量少。
3 实验过程1)观察浊音信号波形图2)观察清音信号波形图3)计算语音信号的短时能量、短时平均幅度并画图120()N n n m E x m -==∑10|()|N n n m M x m -==∑4)计算信号的短时平均过零率并画图 11{|sgn[()]sgn[(1)]|}2N n n m Zn x m x m -==--∑ 5)计算语音信号的短时自相关函数并画图10()()()N k n n n m R k x m x m k --==+∑6)计算语音信号的短时平均幅度差函数并画图10()|()()|N k n n nm F k x m x m k --==-+∑一.短时能量[x,fs,bits]=wavread('c:\WINDOWS\Media\chimes.wav') x=x(:,1);c=x;x=x';N=256;M=N/2;k=1:N;w=0.54-0.46*cos(2*pi/N*k);Fn=fix((L-N)/M)+1;y=[];for i=1:Fnbeg=(i-1)*M+1;ed=beg+N-1;temp=x(beg:ed);temp=temp.*w;y=[y;temp];endEn=[];k=0;for i=1:Fnx=y(i,:);temp=sum(x.*x,2);En=[En,temp];endEn=sum(y.*y,2);subplot(211);plot(c);subplot(212);plot(En);xlabel('time');ylabel('amplitude');title('picture');二.短时自相关函数[x,fs,bits]=wavread('c:\WINDOWS\Media\chimes.wav') x=x(:,1);x=x';N=256;M=N/2;k=1:N;w=0.54-0.46*cos(2*pi/N*k);Fn=fix((L-N)/M)+1;y=[];for i=1:Fnbeg=(i-1)*M+1;ed=beg+N-1;temp=x(beg:ed);temp=temp.*w;y=[y;temp];endZn=sum(abs(sign(y(2:N))-sign(y(1:N-1))),2)*0.5N=256;K=128;for i=1:Fnr=[];x=y(i,:);for k=1:Kr(k)=sum(x(1:N-k).*x(k+1:N),2);endendplot(r);三.短时平均过零率[x,fs,bits]=wavread('c:\WINDOWS\Media\chimes.wav') x=x(:,1);c=x;x=x';N=256;M=N/2;k=1:N;w=0.54-0.46*cos(2*pi/N*k);Fn=fix((L-N)/M)+1;y=[];for i=1:Fnbeg=(i-1)*M+1;ed=beg+N-1;temp=x(beg:ed);temp=temp.*w;y=[y;temp];endfor i=1:Fnx=y(i,:);Zn1=[0];for k=2:NZ=0.5*abs(sign(x(k))-sign(x(k-1)));Zn1=Zn1+Z;endZn=[Zn,Zn1];endsubplot(211);plot(c);subplot(212);plot(Zn);xlabel('time');ylabel('amplitude');title('picture');四.短时平均幅度[x,fs,bits]=wavread('c:\WINDOWS\Media\chimes.wav') x=x(:,1);c=x;x=x';N=256;M=N/2;w=0.54-0.46*cos(2*pi/N*k); Fn=fix((L-N)/M)+1;y=[];for i=1:Fnbeg=(i-1)*M+1;ed=beg+N-1;temp=x(beg:ed);temp=temp.*w;y=[y;temp];endEn=[];k=0;for i=1:Fnx=y(i,:);temp=sum(abs(x),2);En=[En,temp];endEn=sum(y.*y,2);subplot(211);plot(c);subplot(212);plot(En);xlabel('time');ylabel('amplitude');title('picture');五.短时平均幅度差函数[x,fs,bits]=wavread('c:\WINDOWS\Media\chimes.wav') x=x(:,1);x=x';N=256;M=N/2;k=1:N;w=0.54-0.46*cos(2*pi/N*k);Fn=fix((L-N)/M)+1;y=[];for i=1:Fnbeg=(i-1)*M+1;ed=beg+N-1;temp=x(beg:ed);temp=temp.*w;y=[y;temp];endZn=sum(abs(sign(y(2:N))-sign(y(1:N-1))),2)*0.5N=256;K=128;for i=1:Fnr=[];x=y(i,:);for k=1:KF1(k)=abs(x(M)-x(M+k));endendplot(F1);。
语音信号处理-第03章 语音信号的时域分析方法
1 2 − 3x 2σ x
PL ( x) =
− 1 e 2σ x 2σ x
2x
二、零均值 三、非平稳时变信号;短时平稳:10~30ms
§3.2语音信号短时分析方法
语音信号的开窗分析技术: (1)均匀窗: (2)非均匀窗:各种国际标准 (3)重叠窗(Overlap) 设:语音信号为S(n),加窗语音记为 Sw(n) = W[S(n)] = S(n) w(n-m),n=0~(N-1) 则语音处理系统可表示为
5
基于能量和过零率的双门限法检测法
首先用短时能量做第一次判断,然后在此基础上 用短时平均过零率做第二次判断。 这种方法端点的确定与以后的判决无关,因此称 为显式法。
三、短时相关分析
短时自相关函数性质 • 1. R w( −l ) = R w(l ) 为偶函数; • 2. 在-N+1~N-1之间有值; • 3. R ( 0 ) = ∑ s ( n ) ≥ R ( k ) 为最大值。 • 4.当时域信号为周期信号时,自相关函 数也是周期性函数,两者周期相同。 浊音:呈现‘准’周期性、逐渐衰减
300
350
400
450
女声汉语拼音a的一帧信号(在采样频率为 22050Hz的情况下,取20ms作为一帧),短 时过零率为46。
0 .3
0 .2
0 .1
0
-0 . 1
-0 . 2
-0 . 3
-0 . 4
0
50
100
150
200
250
300
350
400
450
男声汉语拼音s的一帧信号(在采样频率为 22050Hz的情况下,取20ms作为一帧),短 时过零率为183。
第2篇语音信号分析
第2篇语音信号分析第3章时域分析3.1 概述语音信号处理包括语音通信、语音合成、语音识别、说话人识别和语音增强等方面,但其前提和基础是对语音信号的分析。
只有将语音信号分析成表示其本质特性的参数,才有可能利用这些参数进行高效的语音通信,才能建立用于语音合成的语音库,也才可能建立用于识别的模板或知识库。
而且,语音合成的音质好坏、语音识别率的高低,都取决于对语音信号分析的准确性和精度。
语音信号是非平稳、时变、离散性大、信息量大的复杂信号,处理难度很大。
语音信号携带着各种信息。
在不同应用场合下,人们感兴趣的信息是不同的。
那些与应用目的的不相干或影响不大的信息,应当去掉;而需要的信息不仅应当提取出来,有时还需要加强。
这涉及到语音信号中各种信息如何表示的问题。
语音信息表示方法的选择原则是使之最方便和最有效。
语音信号可以用语音的抽样波形来描述,也可以用一些语音信号的特征来描述。
提取少量的参数有效地描述语音信号,即语音信号的参数表示,是语音处理领域共用性的关键技术之一。
根据所分析的参数不同,语音信号分析可分为时域、频域、倒谱域等方法。
时域分析具有简单、运算量小、物理意义明确等优点;但更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起着很小的作用。
另一方面,按照语音学观点,可将语音的特征表示和提取方法分为模型分析法和非模型分析法两种。
其中模型分析法是指依据语音产生的数学模型,来分析和提取表征这些模型的特征参数;共振峰模型分析及声管模型(即线性预测模型)分析即属于这种分析方法。
而不进行模型化分析的其他方法都属于非模型分析法,包括上面提到的时域分析法、频域分析法及同态分析法等。
基于语音产生模型的多种参数表示法已在语音识别、合成、编码和说话人识别研究的大量实践中证明是十分有效的。
贯穿于语音分析全过程的是“短时分析技术”。
语音信号特性是随时间而变化的,是一个非平稳的随机过程。
但是,从另一方面看,虽然语音信号具有时变特性,但在一个短时间范围内其特性基本保持不变。
实验1语音信号的时域和频域分析
N太大,能量随时间变化很小,不能反映语音信号的 幅度变化,波形的变化细节就看不出来;
N太小,滤波器的通带变宽,短时能量随时间有剧烈 变化,不能得到平滑的能量函数。
窗口的选择(长度的确定)又需相对不同的基 音周期来选择。通常情况下,一个语音帧内应 含有1—7个基音周期。然而不同的人其基音周 期变化范围很大,因此窗口宽度(N)的选择 有一个折衷选择为100—200(即10—20ms持续 时间)。
Z 2 f0 fs
借助平均过零数及取样频率可精确算出频率。
对于语音信号序列是宽带信号,所以不能简单地用上 面的公式计算频率。但是,可借助短时平均过零数来
得到其频谱的粗略估计。
语音信号的短时平均过零数定义为
Zn|sgn[x(m)]sgn[x(m1)]|w(nm)
|sgn[x(m)]sgn[x(m1)]|*w(n)
当选择不同长度的窗时的短时能量
[x,fs]=wavread('c:\wang.wav'); FrameLen1 = 51; FrameLen2 = 101; FrameLen3 = 201; FrameLen4 = 401; FrameInc = 80; subplot(5,1,1);plot(x);title('原波形图') amp = sum(abs(enframe(filter([1 -0.9375], 1,
四、实验报告要求
1、简述实验目的和实验原理; 2、matlab程序清单及结果图形; 3、实验结果分析
添加:VOICEBOX工具箱
解压voicebox.zip, 将整个目录voicebox复制到MATLAB的安
语音信号时域和频域通俗理解_概述及解释说明
语音信号时域和频域通俗理解概述及解释说明1. 引言1.1 概述语音是人类最基本、也是最常用的沟通方式之一。
人们通过声音来传递信息和表达情感。
对于语音信号的分析和处理,时域和频域是两个重要的角度。
时域分析主要关注声音信号在时间上的变化规律,而频域分析则关注声音信号在频率上的成分组成。
1.2 文章结构本文将以通俗易懂的方式,对语音信号的时域和频域进行解释和说明。
首先,我们将介绍时域和频域分析的基本概念及其重要性,然后详细讨论时域与频域分析中涉及到的关键点和方法。
最后,我们将总结观点并给出读者一些启示和建议。
1.3 目的本文旨在帮助读者理解语音信号时域与频域这两个概念,并且能够清晰明了地认识到它们在语音信号处理中所起到的作用。
通过对时域与频域分析方法的说明,读者可以更好地理解并应用这些知识于实际问题中。
同时,本文也希望能够引发读者对语音信号处理的更深层次的思考和探索。
2. 语音信号时域与频域通俗理解:2.1 语音信号时域分析:语音信号的时域分析是对声音在时间上的变化进行研究和处理。
时域分析主要关注声音的振幅和时间之间的关系。
在时域中,我们可以观察到声音振动的波形图。
当我们录制一段语音时,在录制过程中,麦克风会将声音转换为电信号,并按照一定的采样率记录下来。
这些记录的电信号就是我们所说的波形图。
波形图横坐标表示时间,纵坐标表示振幅。
通过观察波形图,我们可以获得很多有用的信息。
例如,振幅可以告诉我们声音的强度或者说响度,而波形图上不同部分振幅大小和模式的变化可以揭示出不同语音特征(如元音、辅音等)以及语速、语调等信息。
2.2 语音信号频域分析:语音信号的频域分析是对声音中各种频率成分进行研究和处理。
频域分析更注重声音中各个频率成分之间的关系以及它们在声谱上呈现出来的特征。
通过傅里叶变换的方法,我们可以将时域中记录的波形图转换为频谱图。
频谱图显示了声音中不同频率成分在整个录制时间内的存在情况。
横坐标表示频率,纵坐标表示声音强度。
3第三章 语音信号分析---时域分析 语音信号处理 课件
4/25/2021
32/66
存在的问题
短时能量函数一个主要的问题是En对信号电平值 过于敏感。由于需要计算信号样值的平方和,在实 际应用中(如定点设备)很容易溢出。因此,一般 用平均幅度函数Mn来代替En。但这时,清音和浊 音、有声和无声的幅度差不如短时能量明显。
4/25/2021
33/66
二、短时过零率分析
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
4/25/2021
xa(t) t
xa(nT) n
5/66
• Ideal sampling and real sampling
4/25/2021
6/66
3. A/D转换
对离散时间信号进行量化,在每一时刻对xa(nT) 独立进行量化,把给定的幅度连续的信号变成为有限 多个幅度的集合中某个幅度值的过程。
4/25/2021
37/66
1 0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
-1 0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号(在采样频 率为22050Hz的情况下,取20ms作为一 帧),短时过零率为46。
4/25/2021
第4章语音信号的时域分析
的基础知识。
第4章 语音信号的时域分析
4.2 语音信号的数字化和预处理
第4章 语音信号的时域分析
4.2 语音信号的数字化和预处理 ?信号数字化:放大、增益控制、反混叠滤波、取样、
A/D变换及编码(PCM 编码); ?预处理:预加重、加窗、分帧、端点检测等; ?图4.1:语音信号数字分析或处理的系统框图。
?数字化的反过程是从数字化语音中重构语音波形。 ?必须在D/A后加平滑滤波器,对重构的语音波形的高次谐波起
平滑作用,以去除高次谐波失真。 ?预滤波、取样、A/D和D/A变换、平滑滤波等许多功能可以用
一块芯片完成,在市场上有多种这样的集成芯片供选用。
第4章 语音信号的时域分析
4.2 语音信号的数字化和预处理
? ? Mn ?
?? x(m)w(n ? m) ?
m ???
n? N ?1 x(m)w(n ? m)
m?n
? ? 或 Mn ?
?? x(m) h(n ? m) ?
m???
n? N ?1 x(m) h(n ? m) ? x(n) ? h(n)
m? n
式中,h(n) =∣w(n)︳通常窗函数w(n)≥0 ,所以h(n) = w(n)。
?
x2k / 2
? ??0
I0(? )
——零阶贝塞尔函数,
k ?0 (k !)2
0? n? N?1 其他
第4章 语音信号的时域分析
?图4.3、 4.4 :窗函数的波形 ◆矩形窗主瓣最窄,频率分辨度
最高,频率泄漏最大; ◆ Blackman 窗频率分辨度最低,
频率泄漏最小。 ◆常用矩形窗、Hamming 窗。
【语音处理】4个基本的时域信号特征分析技术
【语音处理】4个基本的时域信号特征分析技术上一节主要介绍了关于加窗函数的相关内容。
对语音的时域信号进行分析是最直观的分析方式。
本文将介绍语音信号处理中四种时域特征,分别是短时能量、短时过零率、短时自相关函数以及短时平均幅度差。
作者&编辑 | 小米粥编辑 | 言有三1. 短时能量由于语音信号具有短时平稳性,我们通常对语音进行分帧处理。
首先定义矩形窗为w(m),那么对于语音信号x(t),其加窗分帧后第n 帧语音信号 xn(m)为矩形窗的是最直观、简单的窗函数,我们以其为例进行说明。
矩形窗的表达式为:在该计算式中,n=0,T,2T,...,N为帧长,T为帧移长度。
第n 帧语音信号 xn(m)的短时能量En为使用幅值平方将对高幅值信号具有较大的敏感度,为了降低敏感度,定义短时平均幅度函数Mn为短时能量En和短时平均幅度函数Mn的主要用途:1.浊音相比较于清音的En具有较大的数值,因而可用于区分浊音和清音。
2.利用短时能量区分有声段和无声段,也可对声母和韵母分界,对无间隙的连字分界。
3.在语音识别任务中作为特征,表示能量特征和超音频信息。
2. 短时过零率短时过零率表示一帧语音中波形信号穿过零值的次数。
对于连续信号,过零意味着波形通过时间轴,而对于离散信号,过零意味着相邻采样点的符号改变。
首先定义符号函数sgn[·]为则第n帧语音信号 xn(m)的短时过零率Zn为由于短时过零率容易受到低频干扰,可设置相关门限T,将过零修改为穿过正负门限的次数,即门限的存在使得短时过零率Zn具有一定的扛干扰能力,避免随机噪声导致的虚假过零。
短时过零率的主要用途:1.浊音能量集中于3kHz内的低频率段,清音能量集中于高频率段,而短时过零率可以一定程度反映频率高低,因而浊音段相对于清音段,其短时过零率减低。
2.将短时过零率和短时能量结合实现端点检查。
短时能量适用于背景噪声较小的情况,而短时过零率适用于背景噪声较大的情况。
实验二 语音信号的时域分析
实验二语音信号的时域分析一、实验名称语音信号的时域分析二、实验目的1)掌握时域特征分析原理。
2)掌握短时过零率、短时能量等分析方法。
三、实验设备Matlab 软件计算机四、实验步骤1、短时能量的求取。
用cooledit软件打开a或e波形文件,并进行剪切选取0.2秒左右,并另存为shiyu.wav。
用Matlab软件察看语音文件shiyu.wav波形,并记录波形。
参考程序:》a=wavread(‘shiyu.wav’);》plot(a);求取短时能量前要先对语音信号进行加窗处理,然后再求取短时能量。
参考程序:(建立M文件)function [En1 En2]=Enenergy(N,a)h1=linspace(1,1,N);En1=conv(h1,a.*a);h2=hamming(N);En2=conv(h2,a.*a);subplot(2,1,1);plot(En1);i=N/32;if (i==1) legend('加32点矩形窗');elseif(i==2) legend('加64点矩形窗');elseif(i==4) legend('加128点矩形窗');elseif(i==8) legend('加512点矩形窗');endsubplot(2,1,2);plot(En2);if (i==1) legend('加32点hamming窗');elseif(i==2) legend('加64点hamming窗');elseif(i==4) legend('加128点hamming窗');elseif(i==8) legend('加512点hamming窗');end程序的调用方法:》a=wavread(shiyu.wav);》N=128;》[A B]=Enenergy(N,a);取N=32及N=128,分别记录对应的图形,并比较分析所得结果。
语音信号时域分析
基于MATLAB 分析语音信号时域特征钱平(信号与信息处理 s101904010)一、时域特征实验原理及实验结果分析1.窗口的选择通过对发声机理的认识,语音信号可以认为是短时平稳的。
在5~50ms 的范围内,语音频谱特性和一些物理特性参数基本保持不变。
我们将每个短时的语音称为一个分析帧。
一般帧长取10~30ms 。
我们采用一个长度有限的窗函数来截取语音信号形成分析帧。
通常会采用矩形窗和汉明窗。
图1给出了这两种窗函数在帧长N=50时的时域波形。
0.20.40.60.811.21.41.61.82矩形窗samplew (n )0.10.20.30.40.50.60.70.80.91hanming 窗samplew (n )图1 矩形窗和Hamming 窗的时域波形矩形窗的定义:一个N 点的矩形窗函数定义为如下()⎩⎨⎧<≤=其他001Nn n whamming 窗的定义:一个N 点的hamming 窗函数定义为如下()⎪⎩⎪⎨⎧<≤--=其他00)12cos(46.054.0Nn N n n w π 这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;汉明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。
因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。
表1对比了这两种窗函数的主瓣宽度和旁瓣峰值。
00.10.20.30.40.50.60.70.80.91-80-60-40-200矩形窗频率响应归一化频率(f/fs)幅度/d B00.10.20.30.40.50.60.70.80.91-100-50Hamming 窗频率响应归一化频率(f/fs)幅度/d B图2 矩形窗和Hamming 窗的频率响应表1 矩形窗和hamming 窗的主瓣宽度和旁瓣峰值2.短时能量由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于MATLAB 分析语音信号时域特征钱平(信号与信息处理 s101904010)一、时域特征实验原理及实验结果分析1.窗口的选择通过对发声机理的认识,语音信号可以认为是短时平稳的。
在5~50ms 的范围内,语音频谱特性和一些物理特性参数基本保持不变。
我们将每个短时的语音称为一个分析帧。
一般帧长取10~30ms 。
我们采用一个长度有限的窗函数来截取语音信号形成分析帧。
通常会采用矩形窗和汉明窗。
图1给出了这两种窗函数在帧长N=50时的时域波形。
0.20.40.60.811.21.41.61.82矩形窗samplew (n )0.10.20.30.40.50.60.70.80.91hanming 窗samplew (n )图1 矩形窗和Hamming 窗的时域波形矩形窗的定义:一个N 点的矩形窗函数定义为如下()⎩⎨⎧<≤=其他001Nn n whamming 窗的定义:一个N 点的hamming 窗函数定义为如下()⎪⎩⎪⎨⎧<≤--=其他00)12cos(46.054.0Nn N n n w π 这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;汉明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。
因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。
表1对比了这两种窗函数的主瓣宽度和旁瓣峰值。
00.10.20.30.40.50.60.70.80.91-80-60-40-200矩形窗频率响应归一化频率(f/fs)幅度/d B00.10.20.30.40.50.60.70.80.91-100-50Hamming 窗频率响应归一化频率(f/fs)幅度/d B图2 矩形窗和Hamming 窗的频率响应表1 矩形窗和hamming 窗的主瓣宽度和旁瓣峰值2.短时能量由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。
因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。
定义短时能量为:221[()()][()()]nn m m n N E x m w n m x m w n m ∞=-∞=-+=-=-∑∑,其中N 为窗长特殊地,当采用矩形窗时,可简化为:2()n m E xm ∞=-∞=∑图3和图4给出了不同矩形窗和hamming 窗长的短时能量函数,我们发现:在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。
hamming 窗的效果比矩形窗略好。
但是,窗的长短影响起决定性作用。
窗过大(N 很大),等效于很窄的低通滤波器,不能反映幅度En 的变化;窗过小( N 很小),短时能量随时间急剧变化,不能得到平滑的能量函数。
在11.025kHz 左右的采样频率下,N 选为100~200比较合适。
短时能量函数的应用:1)可用于区分清音段与浊音段。
En 值大对应于浊音段,En 值小对应于清音段。
2)可用于区分浊音变为清音或清音变为浊音的时间(根据En 值的变化趋势)。
3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终止点)。
无信号(或仅有噪声能量)时,En 值很小,有语音信号时,能量显著增大。
024681012141618x 104-11x 1041020x 1041020x 1042040x 1045010024681012141618x 104050100图3 不同矩形窗长的短时能量函数x 104-101x 104510x 1041020x 1041020x 1042040x 104050图4 不同hamming 窗长的短时能量函数3.短时平均过零率过零率可以反映信号的频谱特性。
当离散时间信号相邻两个样点的正负号相异时,我们称之为“过零”,即此时信号的时间波形穿过了零电平的横轴。
统计单位时间内样点值改变符号的次数具可以得到平均过零率。
定义短时平均过零率:()()[][]()m n w m x m x Z---=∑∞∞-1sgn sgn n其中sgn[]为符号函数,()()()⎩⎨⎧<-≥=0101sgn n x n x n x ,在矩形窗条件下,可以简化为()()[][]∑+-=--=nN n m n m x m x NZ 11sgn sgn 21短时过零率可以粗略估计语音的频谱特性。
由语音的产生模型可知,发浊音时,声带振动,尽管声道有多个共振峰,但由于声门波引起了频谱的高频衰落,因此浊音能量集中于3KZ 以下。
而清音由于声带不振动,声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高频率上。
高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系。
.图5为某一语音在矩形窗条件下求得的短时能量和短时平均过零率。
分析可知:清音的短时能量较低,过零率高,浊音的短时能量较高,过零率低。
清音的过零率为0.5左右,浊音的过零率为0.1左右,但两者分布之间有相互交叠的区域,所以单纯依赖于平均过零率来准确判断清浊音是不可能的,在实际应用中往往是采用语音的多个特征参数进行综合判决。
短时平均过零率的应用:1)区别清音和浊音。
例如,清音的过零率高,浊音的过零率低。
此外,清音和浊音的两种过零分布都与高斯分布曲线比较吻合。
2)从背景噪声中找出语音信号。
语音处理领域中的一个基本问题是,如何将一串连续的语音信号进行适当的分割,以确定每个单词语音的信号,亦即找出每个单词的开始和终止位置。
3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。
语音图时间/s 信号幅度短时能量时间/s短时能量E n00.51 1.52 2.53 3.54 4.5短时平均幅度时间/s 短时平均幅度短时过零率时间/s短时过零率图5 矩形窗条件下的短时平均过零率 4、短时自相关函数自相关函数用于衡量信号自身时间波形的相似性。
清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。
浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。
因此,我们用短时自相关函数来测定语音的相似特性。
短时自相关函数定义为:()()()()()k m n w k m x m n w m x k m R --+-=∑∞-∞=n令m n m +=,并且()()m m w w *=-,可以得到:()()()[]()()[]()()[]()()[]k m k m n x m m n x k m k m n x m m n x k w w w w R kN m m n++++=++++=∑∑--=∞-∞=*10***图6给出了清音的短时自相关函数波形,图7给出了不同矩形窗长条件下(窗长分别为N=70,N=140,N=210,N=280)浊音的短时自相关函数波形。
由图6、图7短时自相关函数波形分析可知:清音接近于随机噪声,清音的短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时k 的增大迅速减小;浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期,根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。
浊音语音的周期可用自相关函数中第一个峰值的位置来估算。
所以在语音信号处理中,自相关函数常用来作以下两种语音信号特征的估计:1)区分语音是清音还是浊音;2)估计浊音语音信号的基音周期。
延时kR (k )图6 清音的短时自相关函数延时kR (k )延时kR (k )延时kR (k )延时kR (k )图7 不同矩形窗长条件下的浊音的短时自相关函数二、时域分析参考程序1) 短时能量 (1)加矩形窗a=wavread('beifeng.wav'); subplot(6,1,1),plot(a); N=32; for i=2:6h=linspace(1,1,2.^(i-2)*N);%形成一个矩形窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if (i==2) legend('N=32'); elseif (i==3) legend('N=64'); elseif (i==4) legend('N=128'); elseif (i==5) legend('N=256'); elseif (i==6) legend('N=512'); end end(2)加汉明窗a=wavread('beifeng.wav');subplot(6,1,1),plot(a);N=32;for i=2:6h=hanning(2.^(i-2)*N);%形成一个汉明窗,长度为2.^(i-2)*NEn=conv(h,a.*a);% 求短时能量函数Ensubplot(6,1,i),plot(En);if(i==2) legend('N=32');elseif(i==3) legend('N=64');elseif(i==4) legend('N=128');elseif(i==5) legend('N=256');elseif(i==6) legend('N=512');endend2)短时平均过零率a=wavread('beifeng.wav');n=length(a);N=320;subplot(3,1,1),plot(a);h=linspace(1,1,N);En=conv(h,a.*a); %求卷积得其短时能量函数Ensubplot(3,1,2),plot(En);for i=1:n-1if a(i)>=0b(i)= 1;elseb(i) = -1;endif a(i+1)>=0b(i+1)=1;elseb(i+1)= -1;endw(i)=abs(b(i+1)-b(i)); %求出每相邻两点符号的差值的绝对值endk=1;j=0;while (k+N-1)<nZm(k)=0;for i=0:N-1;Zm(k)=Zm(k)+w(k+i);endj=j+1;k=k+N/2; %每次移动半个窗endfor w=1:jQ(w)=Zm(160*(w-1)+1)/(2*N); %短时平均过零率endsubplot(3,1,3),plot(Q),grid;3)自相关函数N=240Y=WAVREAD('beifeng.wav');x=Y(13271:13510);x=x.*rectwin(240);R=zeros(1,240);for k=1:240for n=1:240-kR(k)=R(k)+x(n)*x(n+k);endendj=1:240;plot(j,R);grid;三、时域分析方法的应用1)基音频率的估计首先可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音有效的清音和浊音段;其次,针对浊音段,可直接利用短时自相关函数估计基音频率,其方法是:估算浊音段第一最大峰的位置,再利用抽样率计算基音频率,举例来说,若某一语音浊音段的第一最大峰值约为35个抽样点,设抽样频率为11.025KHZ,则基音频率为11025/35=315 HZ。