语音信号采集与时频域分析正文
语音信号的采集和频谱分析
语音信号的采集和频谱分析:[y,fs,bits]=wavread('voice'); %读取音频信息(双声道,16位,频率44100Hz)sound(y,fs,bits); %回放该音频Y=fft(y,4096); %进行傅立叶变换subplot(211);plot(y);title('声音信号的波形');subplot(212)plot(abs(Y));title('声音信号的频谱');窗函数设计低通滤波器:fp=1000;fc=1200;as=100;ap=1;fs=22000;wp=2*fp/fs;wc=2*fc/fs;N=ceil((as-7.95)/(14.36*(wc-wp)/2))+1;beta=0.1102*(as-8.7);window=Kaiser(N+1,beta);b=fir1(N,wc,window);freqz(b,1,512,fs);结果:滤波:[y,fs,bits]=wavread('voice');d=filter(b,a,y);D=fft(d);subplot(211)plot(d);title('滤波后的声音波形')subplot(212)plot(abs(D))title('滤波后的声音频谱')回放:sound(d,fs,bits)与滤波之前相比,噪音明显降低了许多。
过零率的计算要用下面的代码:zcr = zeros(size(y,1)1);delta= 0.02;for i=1:size(y,1)x=y(i,:);for j=1;length(x)-1if x(j)*x(j+1)<0 &abs(x(j)-x(j+1))>deltazcr(i)=zcr(i)+1;endendend其中设置了门限delta=0.02。
这是个经验值,可以进行细微的调整。
语音信号处理实验报告实验二
语音信号处理实验报告实验二一、实验目的本次语音信号处理实验的目的是深入了解语音信号的特性,掌握语音信号处理的基本方法和技术,并通过实际操作和数据分析来验证和巩固所学的理论知识。
具体而言,本次实验旨在:1、熟悉语音信号的采集和预处理过程,包括录音设备的使用、音频格式的转换以及噪声去除等操作。
2、掌握语音信号的时域和频域分析方法,能够使用相关工具和算法计算语音信号的短时能量、短时过零率、频谱等特征参数。
3、研究语音信号的编码和解码技术,了解不同编码算法对语音质量和数据压缩率的影响。
4、通过实验,培养我们的动手能力、问题解决能力和团队协作精神,提高我们对语音信号处理领域的兴趣和探索欲望。
二、实验原理(一)语音信号的采集和预处理语音信号的采集通常使用麦克风等设备将声音转换为电信号,然后通过模数转换器(ADC)将模拟信号转换为数字信号。
在采集过程中,可能会引入噪声和干扰,因此需要进行预处理,如滤波、降噪等操作,以提高信号的质量。
(二)语音信号的时域分析时域分析是对语音信号在时间轴上的特征进行分析。
常用的时域参数包括短时能量、短时过零率等。
短时能量反映了语音信号在短时间内的能量分布情况,短时过零率则表示信号在单位时间内穿过零电平的次数,可用于区分清音和浊音。
(三)语音信号的频域分析频域分析是将语音信号从时域转换到频域进行分析。
通过快速傅里叶变换(FFT)可以得到语音信号的频谱,从而了解信号的频率成分和分布情况。
(四)语音信号的编码和解码语音编码的目的是在保证一定语音质量的前提下,尽可能降低编码比特率,以减少存储空间和传输带宽的需求。
常见的编码算法有脉冲编码调制(PCM)、自适应差分脉冲编码调制(ADPCM)等。
三、实验设备和软件1、计算机一台2、音频采集设备(如麦克风)3、音频处理软件(如 Audacity、Matlab 等)四、实验步骤(一)语音信号的采集使用麦克风和音频采集软件录制一段语音,保存为常见的音频格式(如 WAV)。
语音信号的时域及频域特征
( 3)
6
3. 语音信号的短时谱特征
3.1. 短时傅立叶谱分析
对于能量受限的时域信号 f (t ) ,它的傅立叶变换可以写成
ˆ f ( )
f (t ) e
j t
dt
( 4)
以上这个傅立叶变换, 在 “宏观上” 给出信号 f (t ) 的频谱信息, 但是却无法确定某个 “局 部”时间段频谱的确切信息。在语音信号中,信息是按照特定的时间序列方式出现的。 如果谱分析不能确定这种时间序列的次序(即位置) ,那么这种信号分析的手段在应用 上就会受到限制。同时我们也希望能够通过观测到的局部时域信号的频谱信息来了解 (构造)整个 f (t ) 的频谱信息。为此我们引入了所谓的短时傅立叶谱分析技术。 有许多技术都可以用来完成信号的短时谱分析。 最典型的就是小波变换和我们现在 常采用的傅立叶短时谱分析技术。
第一章 语音信号的时域及频域特征
1. 语音信号的主要特点
1.1. 语音信号带宽
语音信号的带宽约为 5KHz , 主要能量集中在低频段。 上图为一段语音信号语谱图。
1
1.2. 语音信号是典型的随机信号
1)人的每次发音过程都是一个随机过程。很难得到两次完全相同的发音样本。 2)在信号处理中,通常假设语音信号是短时平稳的。例如,可以认为在语音的浊 音段部分,语音的二阶矩统计量是平稳的(在 5~10mS 内),即二阶矩平稳,或称为宽平 稳。
对于时域离散信号 x (n) ,短时傅立叶变换定义:
X n (e j )
m
x(m) w(n m) e
1, 0 n N 1 n 其它 0,
jm
这里 w( n) 为窗函数。例如,常用的窗函数有 矩形窗: w( n)
语音信号采样和频谱分析
语音信号采样和频谱分析一.实验目的(1)掌握傅里叶变换的物理意义,深刻理解傅里叶变换的内涵;(2)了解MATLAB 对声音信号的处理指令;(3)了解计算机存储信号的方式及语音信号的特点;(4)加深对采样定理的理解;(5)加深学生对信号分析工程应用的理解,拓展学生在信号分析领域的综合应用能力。
二.实验内容本实验利用MATLAB 指令录制一段语音信号,观察其时域波形并进行傅里叶变换,观察其频域的频谱。
根据该信号的频谱构成,选择三种不同的采样频率重新录制该语音信号,并试听回放效果,进行比较,以验证采样定理,并了解MATLAB 对声音信号的处理指令,加深对采样定理的理解。
关键词:傅里叶变换 信号采样三、实验原理语音信号是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字信号,因此,由自然音而得的音频信号必须用计算机的声音编辑工具,先进行语音采样,然后利用了计算机上的A/D 转换器,将模拟的声音信号变成离散的量化了的数字信号量化和编码,变成二进制数据后才能送到计算机进行再编辑和存储。
语音信号输出时,量化了的数字信号又通过D/A 转换器,把保存起来的数字数据恢复成原来的模拟的语音信号。
(1)应用MATLAB 进行声音的录制 (2)应用MATLAB 进行声音的播放 (3)语音信号的频谱分析 。
傅里叶变换建立了信号频谱的概念。
所谓傅里叶分析即分析信号的频谱(频率构成)、频带宽度等。
对语音信号的分析也不例外,也必须采用傅里叶变换这一工具。
对于连续时间信号)(t f ,其傅里叶变换)(ωF 为:⎰∞∞--=dt e t f F t j ωω)()(四、实验任务(1)应用MATLAB 进行声音的录制在MATLAB 命令窗口中键入“y=wavrecord(8000,8000,1)”,并按回车键,此时刻以后的1(8000/8000)秒时段内的声音信号将以y 为文件名,以数字声音信号.wav 格式存储在MATLAB 的工作空间里。
语音信号的采集与频谱分析(附代码)
After that,two noise signals are added to the original signal respectively and let them pass a filter to analyse it.In the two process mentioned before,I make comparison between the before and after frequency domain.
本设计给信号加了两种噪声并通过观察加噪后的频谱和试听回放效果比较加噪前后的差别,
最后,设计了FIR数字低通滤波器和带通滤波器,分析滤波前后的频谱。再次试听回放效果,得出结论。
关键词:语音、FFT、频谱图、噪声、滤波器
Abstract
This design is based on the general function of Matlaband Adobeedition to deal with Audio signals. The original signals are collected by iPhone’s built-in recording equipment.
Sampling Theorem is the base of my design.It is by sampling we can get discrete signals from the original one and draw the image in time domain.Also,fast fourier transform is employed(FFT)to get the signals in frequency domain.The ayalysis of frequency domain is the highlight of this design.
语音信号采集和分析报告
语音信号的采集与分析一、背景介绍1、语音信号处理的相关内容通过语音相互传递信息是人类最重要的基本功能之一.语言是人类特有的功能.声音是人类常用工具,是相互传递信息的最重要的手段.虽然,人可以通过多种手段获得外界信息,但最重要,最精细的信息源只有语言,图像和文字三种.与用声音传递信息相比,显然用视觉和文字相互传递信息,其效果要差得多.这是因为语音中除包含实际发音内容的话言信息外,还包括发音者是谁及喜怒哀乐等各种信息.所以,语音是人类最重要,最有效,最常用和最方便的交换信息的形式.另一方面,语言和语音与人的智力活动密切相关,与文化和社会的进步紧密相连,它具有最大的信息容量和最高的智能水平。
语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,处理的目的是用于得到某些参数以便高效传输或存储;或者是用于某种应用,如人工合成出语音,辨识出讲话者,识别出讲话内容,进行语音增强等.语音信号处理是一门新兴的学科,同时又是综合性的多学科领域,是一门涉及面很广的交叉学科.虽然从事达一领域研究的人员主要来自信息处理及计算机等学科.但是它与语音学,语言学,声学,认知科学,生理学,心理学及数理统计等许多学科也有非常密切的联系.语音信号处理是许多信息领域应用的核心技术之一,是目前发展最为迅速的信息科学研究领域中的一个.语音处理是目前极为活跃和热门的研究领域,其研究涉及一系列前沿科研课题,巳处于迅速发展之中;其研究成果具有重要的学术及应用价值.2、工作流程:相关的信号与系统知识:傅里叶变换在信号处理中具有十分重要的作用,它通常能使信号的某些特性变得很明显,而在原始信号中这些特性可能含糊不清或至少不明显.在语音信号处理中,傅里叶表示在传统上一直起主要作用.其原因一方面在于稳态语音的生成模型由线性系统组成,此系统被一随时间作周期变化或随机变化的源所激励.因而系统输出频谱反映了激励与声道频率响应特性.另一方面,语音信号的频谱具有非常明显的语音声学意义,可以获得某些重要的语音特征(如共振峰频率和带宽等).根据语音信号的产生模型,可以将其用一个线性非时变系统的输出表示,即看作是声门激励信号和声道冲激响应的卷积.在语音信号数字处理所涉及的各个领域中,根据语音信号求解声门激励和声道响应具有非常重要的意义.例如,为了求得语音信号的共振蜂就要知道声道传递函数(共振峰就是声道传递函数的各对复共轭极点的频率).又如,为了判断语音信号是清音还是浊音以及求得浊音情况下的基音频率,就应知道声门激励序列.在实现各种语音编码,合成,识别以及说话人识别时无不需要由语音信号来求得声门激励序列和声道冲激响应. 3、相关MATLAB知识:MATLAB 语言是一种数据分析和处理功能十分强大的计算机应用软件 ,它可以将声音文件变换为离散的数据文件 , 然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等, 信号处理是MATLAB 重要应用的领域之一。
语音信号的采集与时频域分析系统的设计
燕山大学课程设计说明书题目:语音信号的采集与时频域分系统的设计学院(系):电气工程学院年级专业: 09精仪一班学号: 0901********学生姓名:乔召杰指导教师:刘永红教师职称:副教授目录引言 (2)第1章语音信号时域分析 (3)1、1 窗口选择 (3)1、2 短时能量 (4)1、3短时平均过零率 (5)1、4 短时自相关函数 (6)1、5 时域分析方法的应用 (7)第2章语音信号频域分析 (8)2、1 短时傅里叶变换 (8)2、2 语谱图 (9)2、3 复倒谱和倒谱 (9)第3章加噪与滤波处理 (11)3、1 原始信号加噪处理 (11)3、2 加噪信号滤波处理 (12)第4章总结 (13)参考文献 (14)附录 (15)引言语音信号是一种非平稳的时变信号,它携带着各种信息。
在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。
语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。
语音信号分析可以分为时域和频域等处理方法。
语音信号可以认为在短时间内(一般认为在 10~30ms 的短时间内)近似不变,因而可以将其看作是一个准稳态过程, 即语音信号具有短时平稳性。
任何语音信号的分析和处理必须建立在“短时”的基础上, 即进行“短时分析”。
时域分析:直接对语音信号的时域波形进行分析,提取的特征参数有短时能量,短时平均过零率,短时自相关函数等。
频域分析:对语音信号采样,并进行傅里叶变换来进行频域分析。
主要分析的特征参数:短时谱、倒谱、语谱图等。
本文采集作者的声音信号为基本的原始信号。
对语音信号进行时频域分析后,进行加白噪声处理并进行了相关分析,设计滤波器并运用所设计的滤波器对加噪信号进行滤波, 绘制滤波后信号的时域波形和频谱。
整体设计框图如下图所示:图0.1时频域分析设计图图0.2加噪滤波分析流程图第一章 语音信号时域分析语音信号的时域分析可直接对语音信号进行时域波形分析,在此只只针对语音信号的短时能量、短时平均过零率、短时自相关函数进行讨论。
第5章 语音信号的频域分析
◆因 Xn(ejω) 是 x(m)w(n-m) 的 Fourier 变换, 则 Xn(ejω) 是 X(ejω) 与 ejωnW(e-jω) 的卷积,即
X n (e
j
)
1 2 1 2
e
j n
W (e
-j
) X (e
j( )
)d )d
e
-j n
x(n)
w(n) e-jωn 图5.5
Xn(ejωn)
STFT的线性滤波实现 赵晓群 教授
第5章
语音信号的频域分析
5.4
STFT 的实现
图5.5:STFT 的线性滤波实现
图5.6:图5.5方案的实数运算 ◆图5.6方案原理:
设:
X n (e
j
) a n ( ) j b n ( )
同济大学电子与信息工程学院
- 7 -
赵晓群 教授
第5章
语音信号的频域分析
5.3
短时 Fourier 变换(STFT)的定义和性质
根据 STFT,恢复原语音信号 x(m) 的方法:
式
X n (e
j
)
m
x ( m ) w ( n m )e
-j m
的逆变换为:
x(m )w (n m ) 1 2
同济大学电子与信息工程学院 - 11 赵晓群 教授
第5章
语音信号的频域分析
5.3
短时 Fourier 变换(STFT)的定义和性质
分析窗宽对短时频谱的影响:
图5.4(a):元音 [i] 的波形和短时频谱图。 ◆窗宽 6.4 ms,元音 [i] 的基音周期大约是 13 ms;
声音信号的采集与时域、频域分析
信号与系统实验报告实验二:声音信号的采集与时域、频域分析一、实验目的:1、熟悉MATLAB软件环境及界面组成;2、掌握运用傅里叶级数,在MATLAB里,通过运用傅里叶级数的展开,进行编写程序;3、用matlab实现采集到的WA V文件播放、显示其波形,并对男生女生的时域图、频谱图进行分析;4、能够在理论学习的基础上,进一步地理解和掌握语音信号的时域、频域特性。
二、实验原理:语音波形是时间的连续函数,所以语音信号的特性是随时间而变化的,其幅值随着时间有很显著的变化,即使是传递相同信息的语音信号,其基音频率也是不同的,语音信号的这些时变特性在波形图中都能很明显地观察出来,其中一定时宽的语音信号,男生发音时,其语音能量约集中于较低频率,而女生发音时,多数能量出现在较高频率上。
三、实验仪器:微型计算机Matlab软件环境麦克风四、实验内容:1、用麦克风录制一段自己的声音以及一位男同学声音,录制声音为“谢谢”(使用windows的录音机录制,并存储为WA V文件)2、用Matlab语言完成采集到的语音信号的读写程序3、用Matlab语言编写录制的女生声音信号、男生声音信号的频谱图程序4.依据时域以及频域曲线对语音进行比较分析,得出结论。
五、实验前准备1.预习课本有关内容,理解和掌握语音信号的时域、频域特性。
2.参考Matlab有关资料,设计并编写出具有上述功能的程序。
六、运行结果七、实验程序[x]=wavread('C:\ matlab6p5\work\girl.wav');N=size(x);figure;subplot(2,2,1);plot(x);ylabel('幅度');legend('女生生语音信号时域波形');y=abs(fft(x));subplot(2,2,2)plot(y)ylabel('频谱');legend('女生语音信号频谱图');hold on;[y]=wavread(' C:\ matlab6p5\work\boy.wav');N=size(y);figure;subplot(2,2,3);plot(x);ylabel('幅度');legend('男生生语音信号时域波形');y=abs(fft(y));subplot(2,2,4)plot(y)ylabel('频谱');legend('男生语音信号频谱图');hold off;八、实验分析实验的声音信号为“谢谢”,从上图中可以看出,其对称性很高,主要的差别在于时域的幅度以及频域的频率。
基于MATLAB的语音信号的时、频域分析课程设计
摘要用MATLAB对于语音信号进行分析和处理,采集语音信号后,在MATLAB软件平台进行频谱分析;并对所采集的语音信号加入干扰噪声,对加入噪声的信号进行频谱分析,设计合适的滤波器滤除噪声,恢复原信号。
本次设计介绍了基于MATLAB的对语音信号的采集,处理及滤波器的设计,并使之实现的过程。
关键词:MATLAB;语音信号;滤波器;加噪;除噪目录摘要 (1)1 设计原理 (1)1.1 理论原理 (1)1.1.1采样频率 (1)1.1.2采样位数 (1)1.1.3采样定理 (1)1.1.4时域信号的FFT分析 (2)1.1.5数字信号的滤波器原理和方法 (2)1.1.6 各种不同类型滤波器的性能比较 (3)1.1.7离散傅立叶变换 (3)2 信号采集及读取 (4)3 构造受干扰信号并对其进行FFT频谱分析 (6)4 数字滤波器设计 (8)4.1 用窗函数法设计IIR带通滤波器 (8)4.2 用窗函数法设计FIR低通滤波器 (10)5信号处理 (12)5.1 IIR带通滤波 (12)5.2 FIR低通滤波 (14)6心得体会 (16)7 参考文献: (16)1设计原理1.1 理论原理1.1.1 采样频率也称为采样速度或者采样率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。
采样频率只能用于周期性采样的采样器,对于非周期性采样的采样器没有规则限制。
通俗的讲采样频率是指计算机每秒钟采集多少个声音样本,是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准。
采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确。
1.1.2采样位数即采样值或取样值,用来衡量声音波动变化的参数,是指声卡在采集和播放声音文件时所使用数字声音信号的二进制位数。
1.1.3采样定理在进行模拟/数字信号的转换过程中,当采样频率fs.max 大于信号中最高频率fmax的2倍时(fs.max>=2fmax),采样之后的数字信号完整地保留了原始信号中的信息,一般实际应用中保证采样频率为信号最高频率的5~10倍;采样定理又称奈奎斯特定理。
语音信号的短时频域分析
语音信号的短时频域分析目录一、内容简述 (2)二、基础知识 (2)2.1 语音信号处理基础 (3)2.1.1 语音信号的特点 (5)2.1.2 语音信号的数字表示 (6)2.2 频域分析介绍 (7)三、短时傅里叶变换 (8)3.1 STFT的基本原理 (9)3.2 STFT的应用场景 (10)3.3 窗函数的选择和影响 (11)四、短时傅里叶变换的变体 (12)4.1 连续小波变换 (13)4.1.1 CWT的基本概念 (14)4.1.2 CWT与STFT的比较 (15)4.2 离散小波变换 (16)4.2.1 DWT的基本概念 (18)4.2.2 DWT在语音信号处理中的应用 (19)五、短时频域特征提取 (20)5.1 梅尔频率倒谱系数 (21)5.1.1 MFCC的计算过程 (23)5.1.2 MFCC在语音识别中的作用 (24)5.2 谐波和基频估计 (26)5.2.1 基本周期分析与提取 (26)5.2.2 基频和共振峰的定位 (28)六、短时频域分析在实际中的应用 (29)6.1 语音增强 (30)6.2 语音去噪 (32)6.3 说话人识别与语音合成 (33)七、总结 (35)7.1 短时频域分析方法总结 (36)7.2 语音信号处理领域的发展趋势 (37)7.3 下一步研究方向与思考 (38)一、内容简述语音信号的短时频域分析是语音处理领域中一项重要的技术,该技术主要通过对语音信号进行短时的时间窗口划分,然后在每个时间窗口内进行频域分析,从而提取语音信号的频率特性。
这种分析方法有助于我们理解语音信号在不同时间段的频率变化,对于语音识别、语音合成、音频信号处理等领域具有广泛的应用价值。
本文将详细介绍短时频域分析的基本原理、方法、步骤以及在实际应用中的效果评估。
通过本文的阅读,读者将能够了解如何对语音信号进行短时频域分析,从而深入理解和掌握这一技术的实际应用。
二、基础知识信号是信息传递的一种形式,可以是模拟的或数字的。
MATAB课程设计 语音信号的时域频域分析
1.语音信号的采集为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。
取样是将时间上连续的语音信号离散化为一个样本序列。
根据取样定理,当取样频率大于信号的两倍带宽时,取样过程不会丢失信息,且从取样信号中可以精确地重构原始信号波形。
经过预滤波和采样后,由A/D变换器变换为二进制数字码。
这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。
市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字语音信号。
实际工作中,我们可以通过很多种方式录制语音信号,如手机、电脑、MP3、录音笔等,然后通过转换工具将音频格式转换为MATLAB可以识别的音频文件格式,这里的转换工具可以是千千静听或者其它的专用音频文件格式转换软件,可以获得任何我们想要的音频格式。
本设计中我们利用windows自带的录音机录制语音文件,图1-1是基于PC机的语音信号录制过程,声卡可以完成语音波形的A/D转换,获得WAV文件,为后续的处理储备原材料。
图1-1 基于PC机的语音信号录制过程本设计先用电脑自带的录音机录制自己的一段语音,保存在MATLAB软件的工作目录下,命名为“abc.wav”,然后经过MATLAB软件绘制出其时域波形图和频谱图。
之后通过rand随机函数产生一个噪声,叠加到原信号中去,作为滤波器的输入。
2.语音信号的时、频域分析2.1 语音信号的时域分析语音信号的时域分析就是分析和提取语音信号的时域参数。
进行语音分析时,最先接触到并且也是最直观的是它的时域波形。
语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。
时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。
这种分析方法的特点是:①表示语音信号比较直观、物理意义明确。
实验1 语音信号时域与频域分析
例: 任选一段语音信号 ,对其进行采样 , 画出采 样以后的时域波形。
[x1,fs]=wavread ( "c :\wang .wav ") ; %读取语音信 号
x),FrameLen4, FrameInc)), 2) ; subplot (5, 1,5) ;plot (amp) ; title ( " 短 时 平 均 能 量 图 "
四 、实验报告要求
1 、简述实验目的和实验原理; 2 、matlab程序清单及结果图形; 3 、实验结果分析
添加:VOICEBOX工具箱
MATLAB\r2007b\toolbox\ voicebox")) • 检验是否成功设置的方法:
which activlev.m
N太小 , 滤波器的通带变宽 , 短时能量随时间有剧烈 变化 , 不能得到平滑的能量函数。
• 窗口的选择(长度的确定)又需相对不同的基 音周期来选择 。通常情况下 , 一个语音帧内应 含有1—7个基音周期 。然而不同的人其基音周 期变化范围很大 , 因此窗口宽度(N) 的选择 有一个折衷选择为100—200(即10—20ms持续 时间) 。
语音信号特性是随时间而变化的 , 是一个非平稳 的随机过程 。但从另一方面 , 在一个相对短时间范 围内其特性基本保持不变 。对于这种特点是语音信 号处理的一个重要出发点 。 因此我们可以采用平稳 过程的分析处理方法来处理语音。
时域分析
• 时域分析是语音分析中最早使用 ,应用范围最 广的一种方法。
x),FrameLen 1, FrameInc)), 2) ; subplot (5, 1,2) ;plot (amp) ; title ( " 短 时 平 均 能 量 图 "
实验一语音信号的时域特性和频域特性
实验一、语音信号的时域特性和频域特性学院:信息与通信工程学院专业:通信工程班级:104学号:2010026410姓名:黄余芳指导教师:崔艳秋1.实验名称语音信号的时域特性和频域特性2.实验类型验证性实验3.实验目的观察并验证语音信号的时域特性和频域特性,理解并掌握典型的语音信号时域分析方法和频域分析方法,为深入学习数字语音信号处理的相关理论奠定基础。
4.实验设备安装有MATLAB的计算机5.实验内容1.输入并运行MATLAB代码。
2.观察语音信号的时域特性(1)发一个清音和一个浊音,由麦克风采集语音数据,参考实验内容1中的程序将这些数据分别存成两个“.wav”文件(例如[a]的语音存为“a.wav”,要求采样率为8000),存在本人的文件夹中。
(2)读取WA V文件,显示语音波形,观察清音和浊音波形的差异。
(3)读取WA V文件,计算并显示语音的短时能量(要求分帧加窗的帧长为256,帧移为128),观察并分析清音和浊音短时能量的差异。
(4)读取WA V文件,计算并显示语音的短时过零率(要求分帧加窗是的帧长为256,帧移为128),观察并分析清音和浊音短时过零率的差异。
3. 观察语音信号的频域特性(1)读取WA V文件,计算并显示一帧语音的原始信号、加窗信号、短时频谱(要求分帧加窗的窗函数为汉明窗、帧长为256,帧移为128),观察并分析清音和浊音短时频谱的差异。
(2)读取WA V文件,计算并显示不同窗函数情况下一帧语音的加窗信号、短时频谱(要求分帧加窗的窗函数分别为矩形窗和汉明窗、帧长为256,帧移为128),观察并分析不同的窗函数对短时谱分析的影响。
6.相关函数wavread、plot、fft7.MATLAB程序代码1. 输入并运行以下MATLAB代码。
(1) 短时能量clear;close all;Fs=11025;y=wavrecord(5*Fs,Fs,'double'); wavwrite(y,'f:\\a');soundview(y,Fs);x = wavread('f:\\a.wav');x = double(x);x = filter([1 -0.9375], 1, x); % 预加重FrameLen = 256;FrameInc = 128;s = enframe(x, FrameLen, FrameInc); energy = sum(abs(s), 2);figure;subplot(2,1,1);plot(x);title('语音信号时域波形');xlabel('样点数');ylabel('幅度');subplot(2,1,2);plot(energy);title('语音信号的短时能量');xlabel('帧数');ylabel('短时能量');legend('帧长FrameLen = 240');(2) 短时过零率clear;close all;x = wavread('f:\\a.wav');x = double(x);FrameLen = 256;FrameInc =128;tmp1 = enframe(x(1:end-1), FrameLen, FrameInc);tmp2 = enframe(x(2:end) , FrameLen, FrameInc);signs = (tmp1.*tmp2)<0;diffs = (tmp1 -tmp2)>0.02;zcr = sum(signs.*diffs, 2);figure;subplot(2,1,1);plot(x);title('语音信号时域波形');xlabel('样点数');ylabel('幅度');subplot(2,1,2);plot(zcr);xlabel('帧数');ylabel('短时过零率');title('语音信号的短时过零率');(3) 短时傅里叶变换clear;close all;x = wavread('f:\\a.wav');x = double(x);FrameLen =256;FrameInc =128;s = enframe(x, FrameLen, FrameInc);ss=s(50,:); %选取一帧语音信号(可以通过观察短时能量的分布来判断哪一帧是清音段还是浊音段)f=ss'.*hamming(length(ss));r=fft(f,512);r1=abs(r);r1=r1/max(r1);yuanlai=20*log10(r1);signal(1:256)=yuanlai(1:256);pinlv=(0:1:255)*11025/512;figure;subplot(3,1,1);plot(ss);axis([0,256,-1,1])title('截取的语音段');xlabel('样点数');ylabel('幅度');subplot(3,1,2);plot(f);axis([0,256,-1,1])title('窗选语音信号');xlabel('样点数');ylabel('幅度');subplot(3,1,3);plot(pinlv,signal);xlabel('频率/Hz');ylabel('对数幅度/dB');title ('加Hamming窗时语音频谱');(4) 显示清音短时过零率clear;close all;x = wavread('f:\\k.wav');x = double(x);FrameLen = 256;FrameInc =128;tmp1 = enframe(x(1:end-1), FrameLen, FrameInc); tmp2 = enframe(x(2:end) , FrameLen, FrameInc); signs = (tmp1.*tmp2)<0;diffs = (tmp1 -tmp2)>0.02;zcr = sum(signs.*diffs, 2);figure;subplot(2,1,1);plot(x);title('语音信号时域波形');xlabel('样点数');ylabel('幅度');subplot(2,1,2);plot(zcr);xlabel('帧数');ylabel('短时过零率');title('语音信号的短时过零率');2:语音信号的频域分析1.加汉明窗的浊音clear;close all;x = wavread('f:\\a.wav');x = double(x);FrameLen =256;FrameInc =128;s = enframe(x, FrameLen, FrameInc);ss=s(125,:); %选取一帧语音信号(可以通过观察短时能量的分布来判断哪一帧是清音段还是浊音段)f=ss'.*hamming(length(ss));r=fft(f,512);r1=abs(r);r1=r1/max(r1);yuanlai=20*log10(r1);signal(1:256)=yuanlai(1:256);pinlv=(0:1:255)*11025/512;figure;subplot(3,1,1);plot(ss);axis([0,256,-1,1])title('截取的语音段');xlabel('样点数');ylabel('幅度');subplot(3,1,2);plot(f);axis([0,256,-1,1])title('窗选语音信号');xlabel('样点数');ylabel('幅度');subplot(3,1,3);plot(pinlv,signal);xlabel('频率/Hz');ylabel('对数幅度/dB');title ('加Hamming窗时语音频谱2.加汉明窗的清音clear;close all;x = wavread('f:\\k.wav');x = double(x);FrameLen =256;FrameInc =128;s = enframe(x, FrameLen, FrameInc);ss=s(90,:); %选取一帧语音信号(可以通过观察短时能量的分布来判断哪一帧是清音段还是浊音段)f=ss'.*hamming(length(ss));r=fft(f,512);r1=abs(r);r1=r1/max(r1);yuanlai=20*log10(r1);signal(1:256)=yuanlai(1:256);pinlv=(0:1:255)*11025/512;figure;subplot(3,1,1);plot(ss);axis([0,256,-1,1])title('截取的语音段');xlabel('样点数');ylabel('幅度');subplot(3,1,2);plot(f);axis([0,256,-1,1])title('窗选语音信号');xlabel('样点数');ylabel('幅度');subplot(3,1,3);plot(pinlv,signal);xlabel('频率/Hz');ylabel('对数幅度/dB');title ('加Hamming窗时语音频谱3.加矩形窗的浊音clear;close all;x = wavread('f:\\a.wav');x = double(x);FrameLen =256;FrameInc =128;s = enframe(x, FrameLen, FrameInc);ss=s(125,:); %选取一帧语音信号(可以通过观察短时能量的分布来判断哪一帧是清音段还是浊音段)f=ss'.*rectwin(length(ss));r=fft(f,512);r1=abs(r);r1=r1/max(r1);yuanlai=20*log10(r1);signal(1:256)=yuanlai(1:256);pinlv=(0:1:255)*11025/512;figure;subplot(3,1,1);plot(ss);axis([0,256,-1,1])title('截取的语音段');xlabel('样点数');ylabel('幅度');subplot(3,1,2);plot(f);axis([0,256,-1,1])title('窗选语音信号');xlabel('样点数');ylabel('幅度');subplot(3,1,3);plot(pinlv,signal);xlabel('频率/Hz');ylabel('对数幅度/dB');title ('加矩形窗时语音频谱)8.实验结果及其分析浊音(1) 短时能量0.51 1.52 2.53 3.54x 104-1012语音信号时域波形样点数幅度050100语音信号的短时能量帧数短时能量(2) 短时过零率0.511.52 2.533.54x 104-1-0.500.51语音信号时域波形样点数幅度102030帧数短时过零率语音信号的短时过零率(3) 短时傅里叶变换01截取的语音段样点数幅度5010015020025001窗选语音信号样点数幅度-1000频率/Hz对数幅度/d B加Hamming 窗时语音频谱清音(1) 短时能量x 104012语音信号时域波形样点数幅度0204060语音信号的短时能量帧数短时能量(2) 短时过零率x 104-1-0.500.51语音信号时域波形样点数幅度5010015020025030035005101520帧数短时过零率语音信号的短时过零率(3) 短时傅里叶变换01截取的语音段样点数幅度01窗选语音信号样点数幅度5001000150020002500300035004000-1000频率/Hz对数幅度/d B加Hamming 窗时语音频谱(4) 显示清音短时过零率x 10401语音信号时域波形样点数幅度05101520帧数短时过零率语音信号的短时过零率加窗(1)加汉明窗的浊音50100150200250-101截取的语音段样点数幅度50100150200250-101窗选语音信号样点数幅度100020003000400050006000-100-500频率/Hz对数幅度/d B加Hamming 窗时语音频谱(2)加汉明窗的清音-101截取的语音段样点数幅度50100150200250-101窗选语音信号样点数幅度-100-500频率/Hz对数幅度/d B加Hamming 窗时语音频谱(3)加矩形窗的浊音50100150200250-101截取的语音段样点数幅度-101窗选语音信号样点数幅度-100-500频率/Hz对数幅度/d B加矩形窗时语音频谱分析:(1)对于浊音与清音,浊音的幅值比较明显,有一个的波动,能清楚的看清楚它的周期;而清音类似于白噪声,没有明显的幅值,很平缓。
语音信号地采集与频谱分析报告(附代码)
《信号与系统》大作业语音信号的采集与频谱分析——基于Matlab的语音信号处理学生某某:学号:专业班级:电子工程学院卓越班指导教师:2015年6月22日摘要本设计用苹果手机自带的录音设备采集了原始语音,并导入了电脑转成wav格式,然后用MATLAB和Adobe audition对其进展时域分析。
接着利用傅里叶变换进展了频域分析,绘制频谱图,再录制一段加上歌曲的伴奏的语音与原唱进展了比照分析,得出了我与歌星在频域上的差异。
本设计给信号加了两种噪声并通过观察加噪后的频谱和试听回放效果比拟加噪前后的差异,最后,设计了FIR数字低通滤波器和带通滤波器,分析滤波前后的频谱。
再次试听回放效果,得出结论。
关键词:语音、FFT、频谱图、噪声、滤波器AbstractThis design is based on the general function of Matlab and Adobe edition to deal with Audio signals. The original signals are c ollected by iPhone’s built-in recording equipment.First,I pare the file generated by myself with that of thesame song sang by a famous singer.The emphasis is generally laid on analysing the difference in frequncy domain,but time domain will be included too.After that,two noise signals are added to the original signal respectively and let them pass a filter to analyse it.In the two process mentioned before,I make parison between the before and after frequency domain.Sampling Theorem is the base of my design.It is by sampling we can get discrete signals from the original one and draw the image in time domain.Also,fast fourier transform is employed(FFT)to get the signals in frequency domain.The ayalysis of frequency domain is the highlight of this design.Through this design,I can deepen my prehension of principles of audio signals and I have learnt how to deal with it.Through met with much hindrance,I improved my skills finally.Keywords: audio signal、TTT、noise、filter1 绪论语音信号处理属于信息科学的一个重要分支,它是研究用数字信号处理技术对语音信号进展处理的一门新兴学科,同时又是综合性的多学科领域和涉与面很广的交叉学科,因此我们进展语言信号处理具有时代的意义。
语音信号的采集与时频域分析系统的设计
语音信号的采集与时频域分析系统的设计目录1. 内容简述 (2)1.1 研究背景与意义 (3)1.2 国内外研究现状 (4)1.3 本文的研究内容与结构安排 (5)2. 语音信号的特点 (6)2.1 语音信号的物理性质 (7)2.2 语音信号的时域特性 (8)2.3 语音信号的频域特性 (9)3. 语音信号的采集 (10)3.1 采样的原理与方法 (13)3.2 麦克风的类型与选择 (14)3.3 采样的设备与系统设计 (16)3.4 采样的常见问题与解决方案 (16)4. 语音信号与时频域的分析 (17)5. 时频分析方法 (19)5.1 短时能量分析 (20)5.2 短时傅里叶变换 (21)5.3 连续倒谱分析 (22)5.4 线性预测 (23)5.5 波束形成 (24)6. 系统实现 (26)6.1 硬件设计 (27)6.2 软件设计 (29)6.3 数据处理流程 (31)6.4 误差分析与优化 (31)7. 应用实例 (33)7.1 语音识别系统 (34)7.2 语音增强系统 (35)7.3 语音情绪分析系统 (36)7.4 语音信号处理的其他应用 (37)8. 展望与结论 (38)8.1 本文研究的不足之处 (40)8.2 未来的研究方向 (42)8.3 对相关领域的启示与建议 (43)1. 内容简述在本文档中,我们将详细探索及设计一个专门用于语音信号采集及其随后的时频域分析的系统。
该系统旨在通过精确的信号采集和深入的数据分析,提供丰富且准确的语音信息,为进一步的语音识别、情感分析或其他语音处理任务奠定坚实基础。
该文档首先会介绍语音信号采集的基本原理,涵盖麦克风的选择、采样频率及噪声控制等关键因素。
通过这些基础环节的详细说明,读者能理解如何保证采集到的语音信号质量。
接下来,我们将深入探讨语音信号的时频域分析。
时域分析是一种直接分析语音信号随时间变化的分析方法,允许研究人员直接观察信号的瞬态和稳态特性。
音频处理中的时域和频域分析
音频处理中的时域和频域分析音频处理是指对声音信号进行采集、录制、编辑、处理和输出的一系列操作。
在音频处理的过程中,时域和频域分析是两个重要的概念和技术。
一、时域分析时域分析是指对声音信号在时间上的变化进行分析。
它以时间为自变量,声音的振幅为因变量,通过绘制波形图来展示声音信号在时间轴上的变化情况。
时域分析可以获得声音信号的很多信息,例如信号的幅值、相位、周期等。
通过观察波形图,可以了解声音的起伏、频率的变化以及各个频率成分在不同时间点的强弱情况。
在音频处理中,常用的时域分析方法包括以下几种:1. 波形显示:绘制声音信号的波形图,展示声音在时间轴上的振幅变化。
可以通过观察波形的起伏、波峰和波谷的形状来判断声音的音量和波动情况。
2. 能量分析:通过对声音信号的能量进行分析,可以了解信号的强度和频率的分布。
常用的方法有短时能量和长时能量的计算,以及能量谱的绘制。
3. 自相关分析:自相关分析用于确定信号的周期和重复性。
通过计算信号与其自身的相关性,可以找到信号的周期性和重复性部分。
二、频域分析频域分析是指对声音信号在频率上的变化进行分析。
它将声音信号转换为频谱图或频谱分布图,以展示声音信号在不同频率上的能量分布情况。
频域分析可以用来研究声音信号中各个频率成分的强弱、走势和间隔,以及声音信号的谱线特征。
常用的频域分析方法包括以下几种:1. 快速傅里叶变换(FFT):将时域信号转换为频域信号的一种常用方法。
通过FFT,可以将声音信号分解为不同频率的分量,并将其表示为频谱图。
2. 频谱显示:绘制声音信号的频谱图,可以清晰展示声音在不同频率上的能量分布。
通过观察频谱的峰值、宽度和间隔,可以判断声音的音调、音质和谐波情况。
3. 谱线分析:对频谱上的峰值进行分析,可以确定声音信号的主要频率成分和其相对强度。
常用的方法有频率计算、谱线提取和频谱平滑等。
三、时域和频域分析的应用时域和频域分析在音频处理中广泛应用,对于声音信号的分析、处理和改善具有重要意义。
语音信号的频谱分析实验报告
综合设计实验语音信号的频谱分析一、实验内容录制一段个人自己的语音信号,并对录制的信号进行采样;画出采样后语音信号的时域波形和频谱图;在语音信号中增加正弦噪声信号(自己设置几个频率的正弦信号),对加入噪声信号后的语音信号进行频谱分析;给定滤波器的性能指标,采用窗函数法和双线性变换设计数字滤波器,并画出滤波器的频率响应;然后用自己设计的滤波器对采集的信号进行滤波,画出滤波后信号的时域波形和频谱,并对滤波前后的信号进行对比试听,分析信号的变化。
二、实现步骤1.语音信号的采集利用Windows下的录音机,录制一段自己的话音(“信号与系统”),时间在3s内。
然后在Matlab软件平台下,利用函数wavread对语音信号进行采样,采样频率设置为4kHz。
[y,fs,bits]=wavread('j.wav',[1024 63500]);sound(y,fs,bits);2.语音信号的频谱分析要求首先画出语音信号的时域波形;然后对语音号进行傅里叶变换,得到信号的频谱特性。
在采集得到的语音信号中加入正弦噪声信号(频率为10kHz),然后对加入噪声信号后的语音号进行傅里叶变换,得到信号的频谱特性。
并利用sound试听前后语音信号的不同。
3. 设计滤波器设计一个理想低通滤波器,滤除正弦噪声信号,得到信号的频谱特性。
要求采样卷积计算的方式滤除噪声,并利用sound试听滤波前后语音信号的不同。
1、语音信号的采集[y,fs,bits]=wavread('j.wav',[1024 63500]);sound(y,fs,bits);2、语音信号的频谱分析Y=fft(y,4096);figure(1);plot(y);title('语音信号的时域波形');figure(2);plot(abs(Y));title('语音信号的频谱特性');IIR 数字滤波器低通clear;close all;[y,fs,bits]=wavread('j.wav',[1024 63500]);Y=fft(y,4096);fb=1000;fc=1200;As=100;Ap=1;fs=22050;wc=2*fc/fs; wb=2*fb/fs;[n,wn]=ellipord(wc,wb,Ap,As);[b,a]=ellip(n,Ap,As,wn);figure(1);freqz(b,a,512,fs);x=filter(b,a,y);X=fft(x,4096);figure(2);subplot(2,2,1);plot(y);title('滤波前信号波形');subplot(2,2,2);plot(abs(Y));title('滤波前信号频谱');Subplot(2, 2 ,3);plot(x);title('滤波后信号波形');Subplot(2, 2 ,4);plot(abs(X));title('滤波后信号频谱');sound(x,fs,bits);IIR 高通wp=2*pi*4800/18000;wr=2*pi*5000/18000;Ap=1;Ar=15;T=1[N,wn]=buttord(wp/pi,wr/pi,Ap,Ar);[b,a]=butter(N,wn,'high');[db,mag,pha,grd,w]=freqz_m(b,a);subplot(211);plot(w/pi,mag);title('数字巴特沃茨高通滤波器幅度响应|Ha(J\Omega)|'); subplot(212);plot(w/pi,db);title('数字巴特沃茨高通滤波器幅度响应(db)');[y,Fs,nbite]=wavread('j.wav',[1024 63500]);Y=fft(y,4096);x=filter(b,a,y);X=fft(x,4096);figure(3)subplot(211);plot(y);title('原时域波形');subplot(212);plot(x);title('滤波后信号波形');figure(4)subplot(211);plot(abs(Y));title('原频谱频谱');subplot(212);plot(abs(X));title('滤波后信号频谱');sound(x,Fs);IIR 带通wp=[1200*pi*2/9000,3000*2*pi/9000];wr=[1000*2*pi/9000,3200*2*pi/9000];Ap=1;Ar=10 0;[N,wn]=buttord(wp/pi,wr/pi,Ap,Ar);[b,a]=butter(N,wn,'bandpass');[db,mag,pha,grd,w]=freqz_m(b,a);subplot(211);plot(w/pi,mag);title('数字巴特沃茨带通滤波器幅度响应|Ha(J\Omega)|');subplot(212);plot(w/pi,db);title('数字巴特沃茨带通滤波器幅度响应(db)');[y,Fs,nbite]=wavread('j.wav');Y=fft(y,4096);x=filter(b,a,y);X=fft(x,4096);figure(3)subplot(211);plot(y);title('原时域波形');subplot(212);plot(x);title('滤波后信号波形');figure(4)subplot(211);plot(abs(Y));title('原频谱频谱');subplot(212);plot(abs(X));title('滤波后信号频谱');sound(x,Fs);FIR 数字滤波器FIR 低通fsamp=8000;rp=1;rs=100;fcuts=[1000 1200];d1=(10^(rp/20)-1)/(10^(rp/20)+1);d2=10^(-rs/20);mags=[1 0];devs=[d1 d2];[n,wn,beta,ftype]=kaiserord(fcuts,mags,devs,fsamp); hh=fir1(n,wn,ftype,kaiser(n+1,beta),'noscale'); freqz(hh);[y,Fs,nbite]=wavread('j.wav');Y=fft(y,4096);x=fftfilt(hh,y);X=fft(x,4096);figure(2)subplot(211);plot(y);title('原时域波形');subplot(212);plot(x);title('滤波后信号波形'); figure(3)subplot(211);plot(abs(Y));title('原频谱频谱'); subplot(212);plot(abs(X));title('滤波后信号频谱'); sound(x,Fs);FIR 高通wc=2*pi*4800;wp=5000*2*pi/18000;f=[0.5333,0.5556]; m=[0,1];rp=1;rs=100;d1=(10^(rp/20)-1)/(10^(rp/20)+1);d2=10^(-rs/20); rip=[d2,d1];[N,fo,mo,w]=remezord(f,m,rip);N=N+2;hn=remez(N,fo,mo,w);[hw,w]=freqz(hn,1);plot(w/pi,20*log10(abs(hw)));[y,Fs,nbite]=wavread('j.wav');Y=fft(y,4096);x=fftfilt(hn,y);X=fft(x,4096);figure(2)subplot(211);plot(y);title('原时域波形');subplot(212);plot(x);title('滤波后信号波形');figure(3)subplot(211);plot(abs(Y));title('原频谱频谱');subplot(212);plot(abs(X));title('滤波后信号频谱');sound(x,Fs);FIR 带通wp1=2*pi*1200/8000;wp2=3000*2*pi/8000;wc1=2*pi*1000/8000;wc2=2*pi*3200*8000; f=[0.25,0.30,0.75,0.80][n,wn,bta,ftype]=kaiserord([0.25,0.30,0.75,0.80],[0 1 0],[0.01 0.1087 0.01]);h1=fir1(n,wn,ftype,kaiser(n+1,bta),'noscale');[hh1,w1]=freqz(h1,1,256);figure(1);plot(w1/pi,20*log10(abs(hh1)));grid;[y,Fs,nbite]=wavread('j.wav');Y=fft(y,4096);x=fftfilt(h1,y);X=fft(x,4096);figure(2)subplot(211);plot(y);title('原时域波形');subplot(212);plot(x);title('滤波后信号波形');figure(3)subplot(211);plot(abs(Y));title('原频谱频谱');subplot(212);plot(abs(X));title('滤波后信号频谱');sound(x,Fs);设计结果分析(1)语音分析图1图2Fs=22050; n=4096(2)IIR 低通图3滤波器在通带内平滑,通带截止频率为 1000hz,最大衰减 0dB;阻带起始频率为1200hz,最小衰减 100dB;相位不是线性变化, 基本满足性能要求.图4语音信号经过低通滤波器后,基本没发生变化(3) IIR 高通图5数字滤波器在通带内平滑,通带截止频率为0. 5π,最大衰减 0dB;阻带起始频率为 0. 48π,最小衰减 100dB;相位不是线性变化, 基本满足性能要求.语言信号经过高通滤波器后,低频分量基本被衰减。
语音信号时域和频域通俗理解_概述及解释说明
语音信号时域和频域通俗理解概述及解释说明1. 引言1.1 概述语音是人类最基本、也是最常用的沟通方式之一。
人们通过声音来传递信息和表达情感。
对于语音信号的分析和处理,时域和频域是两个重要的角度。
时域分析主要关注声音信号在时间上的变化规律,而频域分析则关注声音信号在频率上的成分组成。
1.2 文章结构本文将以通俗易懂的方式,对语音信号的时域和频域进行解释和说明。
首先,我们将介绍时域和频域分析的基本概念及其重要性,然后详细讨论时域与频域分析中涉及到的关键点和方法。
最后,我们将总结观点并给出读者一些启示和建议。
1.3 目的本文旨在帮助读者理解语音信号时域与频域这两个概念,并且能够清晰明了地认识到它们在语音信号处理中所起到的作用。
通过对时域与频域分析方法的说明,读者可以更好地理解并应用这些知识于实际问题中。
同时,本文也希望能够引发读者对语音信号处理的更深层次的思考和探索。
2. 语音信号时域与频域通俗理解:2.1 语音信号时域分析:语音信号的时域分析是对声音在时间上的变化进行研究和处理。
时域分析主要关注声音的振幅和时间之间的关系。
在时域中,我们可以观察到声音振动的波形图。
当我们录制一段语音时,在录制过程中,麦克风会将声音转换为电信号,并按照一定的采样率记录下来。
这些记录的电信号就是我们所说的波形图。
波形图横坐标表示时间,纵坐标表示振幅。
通过观察波形图,我们可以获得很多有用的信息。
例如,振幅可以告诉我们声音的强度或者说响度,而波形图上不同部分振幅大小和模式的变化可以揭示出不同语音特征(如元音、辅音等)以及语速、语调等信息。
2.2 语音信号频域分析:语音信号的频域分析是对声音中各种频率成分进行研究和处理。
频域分析更注重声音中各个频率成分之间的关系以及它们在声谱上呈现出来的特征。
通过傅里叶变换的方法,我们可以将时域中记录的波形图转换为频谱图。
频谱图显示了声音中不同频率成分在整个录制时间内的存在情况。
横坐标表示频率,纵坐标表示声音强度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章引言语音信号是一种非平稳的时变信号,它携带着各种信息。
在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。
语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。
语音信号分析可以分为时域和频域等处理方法。
语音信号可以认为在短时间内(一般认为在 10~30ms 的短时间内)近似不变,因而可以将其看作是一个准稳态过程, 即语音信号具有短时平稳性。
任何语音信号的分析和处理必须建立在“短时”的基础上, 即进行“短时分析”。
时域分析:直接对语音信号的时域波形进行分析,提取的特征参数有短时能量,短时平均过零率,短时自相关函数等。
频域分析:对语音信号采样,并进行傅里叶变换来进行频域分析。
主要分析的特征参数:短时谱、倒谱、语谱图等。
本文采集作者的声音信号为基本的原始信号。
对语音信号进行时频域分析后,进行加白噪声处理并进行了相关分析,设计滤波器并运用所设计的滤波器对加噪信号进行滤波, 绘制滤波后信号的时域波形和频谱。
整体设计框图如下图所示:图1.1时频域分析设计图图1.2加噪滤波分析流程图第二章 语音信号时域分析语音信号的时域分析可直接对语音信号进行时域波形分析,在此只只针对语音信号的短时能量、短时平均过零率、短时自相关函数进行讨论。
2.1窗口选择由人类的发生机理可知,语音信号具有短时平稳性,因此在分析讨论中需要对语音信号进行加窗处理进而保证每个短时语音长度为10~30ms 。
通常选择矩形窗和哈明窗能得到较理想的“短时分析”设计要求。
两种窗函数的时域波形如下图2.1所示:samplew (n )samplew (n )图2.1 矩形窗和Hamming 窗的时域波形矩形窗的定义:一个N 点的矩形窗函数定义为如下{1,00,()n Nw n ≤<=其他(2.1)哈明窗的定义:一个N 点的哈明窗函数定义为如下0.540.46cos(2),010,()n n NN w n π-≤<-⎧⎨⎩其他= (2.2)这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图2.2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;哈明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。
因此在语音频谱分析时常使用哈明窗,在计算短时能量和平均幅度时通常用矩形窗。
表2.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。
图2.2 矩形窗和哈明窗的频率响应 表2.1 矩形窗和哈明窗的主瓣宽度和旁瓣峰值2.2短时能量短时能量主要分析语音信号能量随时间的变化,由于语音信号的清音和浊音之间能量有较大的差距,进而可通过短时能量对语音的清浊音进行分析。
定义短时能量为:221[()()][()()]nn m m n N E x m w n m x m w n m ∞=-∞=-+=-=-∑∑(2.3)其中N 为窗长,当选用矩形窗时则有:2()n m E xm ∞=-∞=∑ (2.4)由式(2.3)能量函数反应语音信号的幅度,同时由图2.3~2.4可知窗长对能量函数起着决定性作用。
窗长太大,不能反应能量n E 的变化,窗长太小,不能得到平滑的能量函数。
短时能量函数的应用:1)可用于区分清音段与浊音段。
n E 值大对应于浊音段,n E 值小对应于清音段。
2)可用于区分浊音变为清音或清音变为浊音的时间(根据n E 值的变窗函数主瓣宽度 旁瓣峰值 矩形窗4*pi/N 13.3dB 哈明窗 8*pi/N42.7dB化趋势)。
3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终止点)。
无信号(或仅有噪声能量)时,nE值很小,有语音信号时,能量显著增大。
图2.3 不同矩形窗长的短时能量函数图2.4 不同哈明窗长的短时能量函数2.3短时平均过零率短时过零率可以粗略估计语音的频谱特性。
高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系:清音的过零率高,浊音的过零率低。
定义短时平均过零率:sgn[[]sgn[(1)]()nmZ x m x m w n m∞=-∞=---∑(2.5)其中sgn[]为符号函数,{1,()01,()0sgn()x nx nx n≥-=p。
在矩形窗条件下,可以简化为:11sgn[()sgn[(1)]2nnm n NZ x m x mN=-+=--∑(2.6)图2.5 矩形窗(N=320)条件下的短时平均过零率由图2.5可知为某一语音在矩形窗条件下求得的短时能量和短时平均过零率。
分析可知:清音的短时能量较低,过零率高,浊音的短时能量较高,过零率低。
清音的过零率为0.5左右,浊音的过零率为0.1左右,两但者分布之间有相互交叠的区域,所以单纯依赖于平均过零率来准确判断清浊音是不可能的,在实际应用中往往是采用语音的多个特征参数进行综合判决短时平均过零率的应用:1)区别清音和浊音。
例如,清音的过零率高,浊音的过零率低。
此外,清音和浊音的两种过零分布都与高斯分布曲线比较吻合。
2)从背景噪声中找出语音信号。
语音处理领域中的一个基本问题是,如何将一串连续的语音信号进行适当的分割,以确定每个单词语音的信号,亦即找出每个单词的开始和终止位置。
3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。
2.4短时自相关函数自相关函数用于衡量信号自身时间波形的相似性。
浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。
因此,我们用短时自相关函数来测定语音的相似特性。
短时自相关函数定义为: ()()()()()n m R k x m w n m x m k w n m k ∞=-∞=-+--∑ (2.7)令'm n m =+´,并且'()()w m w m -=,可以得到:''()[()()][()()]n m R k x n m w m x n m k w m k ∞=-∞=++++∑ (2.8)进而则有:1''()[()()][()()]N kn m R k x n m w m x n m k w m k --==++++∑ (2.9)自相关函数常用来作以下两种语音信号特征的估计: 1) 区分语音是清音还是浊音:清音的短时自相关函数不具有周期性,浊音是周期信号 2)估计浊音语音信号的基音周期。
图2.6语音信号的自相关函数与平均过零率图(2.6)给出了语音采集信号N=460的短时自相关函数波形和平均过零率。
短时自相关函数波形分析可知:浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期,根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。
浊音语音的周期可用自相关函数中第一个峰值的位置来估算。
反之,清音接近于随机噪声,清音的短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时k 的增大迅速减小。
2.5时域分析方法的应用 1)基音频率的估计a) 可利用时域分析判定某一语音有效的清音和浊音段。
b) 针对浊音段,可直接利用短时自相关函数估计基音频率。
2)语音端点的检测与估计可利用时域分析判定某一语音信号的端点,尤其在有噪声干扰时,如何准确检测语音信号的端点,这在语音处理中是富有挑战性的一个课题。
第三章 语音信号频域分析语音信号的频域分析主要应用傅立叶变换来分析,由于语音信号是随着时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。
由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。
3.1 短时傅立叶变换由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为:()()()jwjwmn m X e x m w n m e∞-=-∞=-∑ (3.1)其中w(n-m)是实窗口函数序列,n 表示某一语音信号帧。
令n-m=k',则得到(')'()(')(')jwjw n k n k X e w k x n k e∞--=-∞=-∑ (3.2)于是可以得到:()()()jw jwnjwkn k X e ew k x n k e∞-=-∞=-∑ (3.3)假定:()()()jwjwkn k X e w k x n k e∞=-∞=-∑ (3.4)则可以得到:()()jw jwn jw n n X e e X e -= (3.5)同样,不同的窗口函数,将得到不同的傅立叶变换式的结果。
由上式可见,短时傅立叶变换有两个变量:n 和ω,所以它既是时序n 的离散函数,又是角频率ω的连续函数。
与离散傅立叶变换逼近傅立叶变换一样,如令ω=2πk/N ,则得离散的短时傅立叶吧如下:2/2/()()()(),(01)j k N n n j km Nm X e X k x m w n m ek N ππ∞-=-∞==-≤≤-∑ (3.6)3.2 语谱图语谱图反映了语音信号的动态频率特性,在语音分析中具有重要的实用价值。
被成为可视语言。
语谱图的时间分辨率和频率分辨率是由窗函数的特性决定的。
时间分辨率高,可以看出时间波形的每个周期及共振峰随时间的变化,但频率分辨率低,不足以分辨由于激励所形成的细微结构,称为宽带语谱图;而窄带语谱图正好与之相反。
宽带语谱图可以获得较高的时间分辨率,反映频谱的快速时变过程;窄带语谱图可以获得较高的频率分辨率,反映频谱的精细结构。
两者相结合,可以提供带两与语音特性相关的信息。
语谱图上因其不同的灰度,形成不同的纹路,称之为“声纹”。
声纹因人而异,因此可以在司法、安全等场合得到应用。
语音采集信号的的语谱图如下图(3.1)所示图3.1语音信号的语谱图3.3复倒谱和倒谱复倒谱^()x n 是()x n 的Z 变换取对数后的逆Z 变换,其表达式如下:^1[ln [()]]x Z Z x n -= (3.7)倒谱()c n 定义为()x n 取Z 变换后的幅度对数的逆Z 变换,即1()[ln |()|]c n z X z -= (3.8)在时域上,语音产生模型实际上是一个激励信号与声道冲激响应的卷积。
对于浊音,激励信号可以由周期脉冲序列表示;对于清音,激励信号可以由随机噪声序列表示。
声道系统相当于参数缓慢变化的零极点线性滤波器。
这样经过同态处理后,语音信号的复倒谱,激励信号的复倒谱,声道系统的复倒谱之间满足下面的关系:^^^()()()s n e n v n =+ (3.9) 由于倒谱对应于复倒谱的偶部,因此倒谱与复倒谱具有同样的特点,很容易知道语音信号的倒谱,激励信号的倒谱以及声道系统的倒谱之间满足下面关系:()()()sevn n n c c c =+ (3.10)浊音信号的倒谱中存在着峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。