语音信号的短时时域分析
语音信号处理实验报告实验二
语音信号处理实验报告实验二一、实验目的本次语音信号处理实验的目的是深入了解语音信号的特性,掌握语音信号处理的基本方法和技术,并通过实际操作和数据分析来验证和巩固所学的理论知识。
具体而言,本次实验旨在:1、熟悉语音信号的采集和预处理过程,包括录音设备的使用、音频格式的转换以及噪声去除等操作。
2、掌握语音信号的时域和频域分析方法,能够使用相关工具和算法计算语音信号的短时能量、短时过零率、频谱等特征参数。
3、研究语音信号的编码和解码技术,了解不同编码算法对语音质量和数据压缩率的影响。
4、通过实验,培养我们的动手能力、问题解决能力和团队协作精神,提高我们对语音信号处理领域的兴趣和探索欲望。
二、实验原理(一)语音信号的采集和预处理语音信号的采集通常使用麦克风等设备将声音转换为电信号,然后通过模数转换器(ADC)将模拟信号转换为数字信号。
在采集过程中,可能会引入噪声和干扰,因此需要进行预处理,如滤波、降噪等操作,以提高信号的质量。
(二)语音信号的时域分析时域分析是对语音信号在时间轴上的特征进行分析。
常用的时域参数包括短时能量、短时过零率等。
短时能量反映了语音信号在短时间内的能量分布情况,短时过零率则表示信号在单位时间内穿过零电平的次数,可用于区分清音和浊音。
(三)语音信号的频域分析频域分析是将语音信号从时域转换到频域进行分析。
通过快速傅里叶变换(FFT)可以得到语音信号的频谱,从而了解信号的频率成分和分布情况。
(四)语音信号的编码和解码语音编码的目的是在保证一定语音质量的前提下,尽可能降低编码比特率,以减少存储空间和传输带宽的需求。
常见的编码算法有脉冲编码调制(PCM)、自适应差分脉冲编码调制(ADPCM)等。
三、实验设备和软件1、计算机一台2、音频采集设备(如麦克风)3、音频处理软件(如 Audacity、Matlab 等)四、实验步骤(一)语音信号的采集使用麦克风和音频采集软件录制一段语音,保存为常见的音频格式(如 WAV)。
第02讲 语音信号的数字化和预处理+时域分析
频谱泄露 较严重
矩形窗与汉明窗的比较
频谱分辨率高
窗类型
矩形窗
旁瓣峰值
• 假设语音信号的幅度符合Laplacian分布,此时信号幅度超过 4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则 • 上式表明量化器中的每bit字长对SNR的贡献为6dB。
SNR(dB) 6.02 B 7.2
对重构的语音波形的高次谐波起平滑作用,去掉高次谐波失真。
• 汉明窗: (n) 0.54 0.46 cos[2n /( N 1)], 0 n ( N 1) 0, n else
矩 形 窗 2 1.8 1.6 1.4 1.2 1 0.9 0.8 0.7 0.6
hanming窗
w(n)
1 0.8 0.6 0.4 0.2 0
如下:
En x ( m)
m 0 2 n
N 1
• En是一个度量语音信号幅度值变化的函数,但它有一个缺陷, 即它对高电平非常敏感(因为它计算时用的是信号的平方)。
• 为此,可采用另一个度量语音信号幅度值变化的函数,即短
时平均幅度函数Mn,它定义为:
M n xn ( m)
m 0
N 1
0.7
0.8
0.9
1
0
幅度 /dB
-50
-100
0
0.1
0.2
0.3
0.4 0.5 0.6 归 一 化 频 率 (f/fs)
语音信号处理第3章-语音信号分析
0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
信息科学与工程学院 东南大学
预处理
窗函数的形状和长度对短时参数特征影响 很大 1.窗口形状
时域:要减小时间窗两端的坡度,使窗口边缘 两端不引起急剧变化而平滑过渡到零,这样可 以使截取出的语音波形缓慢降为零,减小语音 帧的截断效应; 频域:要有较窄的3dB带宽以及较大的旁瓣衰 减(较小的边带最大值)。这里只以典型的矩形 窗和汉明窗为例进行比较。
0
20
40
60
80
100
120
140
160
0.1 0.05 0 -0.05 -0.1
0
20
40
60
80 k = -21
100
120
140
160
信息科学与工程学院
东南大学
0.1 0.05 0 -0.05 -0.1
0
20
40
60
80
100
120
140
160
0.1 0.05 0 -0.05 -0.1
0
20
信息科学与工程学院 东南大学
矩形窗与汉明窗的比较
窗类型
矩形窗 汉明窗
旁瓣峰值
-13 -41
主瓣宽度
4π/N 8π/N
最小阻带衰减
-21 -53
汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增 加一倍,同时其带外衰减也比矩形窗大一倍多, 汉明窗比矩形窗更为合适。因此,对语音信号的 短时分析来说,窗口的形状是至关重要的。
信息科学与工程学院 东南大学
数字化和预处理
经过数字化和预处理过程,语音信号就已 经被分割成一帧一帧的加过窗函数的短时 平稳信号 对每一个短时语音帧,利用数字信号处理 技术来提取语音特征参数。
请描述短时自相关函数在语音信号时域处理的应用
请描述短时自相关函数在语音信号时域处理的应用短时自相关函数(Short-term autocorrelation
function,STAF)是描述语音信号时域特征的一种重要工具,通常用于分析语音信号的波形结构、频率特性等信息。
下面是STAF在语音信号时域处理中的应用:
1. 语音信号的频谱分析:通过计算短时自相关函数,可以确定语音信号在不同频率上的成分个数和强度分布情况。
这对于语音信号的频谱分析具有重要的参考意义。
2. 语音信号的滤波器设计:通过计算STAF,可以确定语音信号在不同频率上的系数,为语音信号的滤波器设计提供参考。
例如,使用快速傅里叶变换(FFT)进行频域分析,然后使用适当的滤波器来实现语
音信号的降噪、去基线等处理。
3. 短时功率谱密度分析(Short-term power spectrum density,SPD):通过计算短时自相关函数,可以得到语音信号在不同
频率上的功率谱密度分布情况。
这对于语音信号的功率谱分析具有重要的参考意义,可以用于语音信号的功率谱估计、功率限制等任务。
4. 语音信号的短时特征提取:通过计算短时自相关函数,可以得到语音信号的短时特征。
这些特征可以用于识别不同的说话人、区分不同的语音信号等任务。
例如,可以使用一些基于短时特征的语音分类算法,如基于语音谱聚类的算法。
短时自相关函数是语音信号时域处理中重要的工具,可以用于分析语音信号的波形结构、频率特性、滤波器设计、功率谱密度分析、
短时特征提取等任务,为语音信号的处理提供更好的参考和支持。
语音信号短时分析.ppt
Z01 2N n 0 1Sg (Sw n (n) )Sg (Sw n (n1))
将Z应用于语音信号分析中
❖ 发浊音时,声带振动,因而声门激励是以此音调频 率为基频来使声道共振;尽管有若干个共振峰,但 其能量的分布集中于低于3KHz的频率范围内。
❖ 发清音时声带不振动,声道某部分阻塞产生类白噪 声激励,通过声道后其能量集中在比浊音时更高的 频率范围内。
0
-50
-100
-150 0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
Frequency domain 40
30
20
10
0
-10
-20 0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
语音信号的短时能量(语音信号强度 的度量参数)
❖ 在语音识别中正确的决定所要识别语音的起点、终 点对于提高识别率往往是重要的。
❖ 对于数字移动通信的手持机编译码器,在较长的无 声段应降低发射功率以节约其电池的消耗。
Hale Waihona Puke 语音有声和无声❖ 对于已经判定为语音段的部分,尚需决定其清音或 浊音,无论对于语音识别还是低速语音编译码器这 都是很重要的。这些问题可以概括为无声/有声判决 以及更细致的S/U/V判决。
N 1
Hann
w (n ) 0 .5 (1 c 2 os n( )0 ) ,n N 1 N 1
❖ 不同的窗口选择(形状、长度),将决定短时平均能量的性质。什么 样的窗口,其短时平均能量才能更好的反映语音信号的振幅变化哪?
第三章_语音信号的特征分析
浊音和清音情况下典型的平均过零率的直方图
直方图的分布形状与高斯分布很吻合,而且浊音时 的短时平均过零率的均值为14过零/10ms,清音时 短时过零率的均值为47过零/10ms。注意到浊音和 清音有一个交叠区域,此时很难分清是浊音还是清 音,尽管如此,平均过零率仍可以粗略的判断清音 和浊音。
35语音信号的短时自相关函数假设一段加窗语音信号非零区间为n0n1的自相关函数称为语音信号的短时自相关函数自相关函数是偶函数在l0处取得最大值且值为短时能量如果sn是周期的则rl也是周期的且周期等于sn的周期36浊音和清音的自相关函数图浊音浊音清音37半周期错误2倍周期错误由自相关函数图判断浊音的周期38为了减少这种错误可以先将语音信号进行中心削波处理再求自相关函数39中心削波处理前后的语音信号及其自相关函数40短时自相关函数的特点浊音是周期信号浊音的短时自相关函数也呈现明显的周期性自相关函数的周期就是浊音信号的周清音接近于随机噪声请音的短时自相关函数不具有周期性且随着l的增大迅速减小
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
0
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择,将决定短时语音分析结果的好坏
数据率(kB/s) (未压缩)
频率范围
8
300~3400 Hz
语音信号的时域和频域特征
3.3.2. 浊音谱的共振峰结构
频谱包络中有几个凸起点,与声道的谐振频率相对应。这 些凸起点称为共振峰(Formant) 。其频率称为共振峰频率。按 频率由低到高依次为第一共振峰、第二共振峰…。相应频率用 F1、F2、F3…来表示。
14
浊音信号的傅立叶分析谱 15
3.3.3. 元音三角形图
所谓的元音三角形图就是指不同元音的 F1、F2 共振峰频 − m) ⋅ w(m) ⋅ e ω
∞
j m
w(n) ⋅ e jωn
X n (e jω )
e − jωn
12
3.2. 语谱图:
横轴表示时间,纵轴表示频率,用灰度表示对应频谱分量 的信号强度。
13
3.3. 浊音谱特征
3.3.1. 浊音谱的谱线结构
谱线结构是与浊音信号中的周期信号密切相关的。具有与 基音及其谐波相对应的谱线。
5
3. 语音信号的短时谱特征
3.1. 短时傅立叶谱分析
对于能量受限的时域信号 f (t ) , 它的傅立叶变换可以写成
∞
ˆ f (ω ) =
−∞
∫ f (t ) ⋅ e
− jωt
以上这个傅立叶变换, “宏观上” 在 给出信号 f (t ) 的频谱信息, 但是却无法确定某个“局部”时间段频谱的确切信息。或者也 可以说, 我们不能通过观测局部的时域信号来了解整个 f (t ) 的 频谱信息。为此我们引入了所谓的短时傅立叶谱分析技术。
在这里 S w(n) 是加窗截取的一段语音信号。 假设 T 为语音信号的基音周期,当 l = n ⋅ T , n = 1,2,L 时, γ (l ) 函数接近局部极小值。
20
AMDF 算法特点:只用到简单的加减法运算,没有使用乘 法运算。适合于早期普通的 CPU,因为这种 CPU 的乘法操作 要比加减法操作费时。 (2)自相关法 定义语音的自相关函数为:
《语音信号处理》课程笔记
《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。
在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。
随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。
到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。
近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。
1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。
(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。
(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。
1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。
声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。
听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。
1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。
语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。
这些模型为语音信号处理提供了理论基础和工具。
第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
数字语音处理知识点总结
绪论语音信号处理是一门新兴的边缘学科,它是语音学与数字信号处理两个学科相结合的产物。
语音信号处理的目的是要得到某种语音特征参数以便高效地传输或存储,或者是通过某种处理运算以达到某种用途的要求。
通常认为,语音信息的交换大致上可以分为三类:(1)人与人之间的语言通信:包括语音压缩与编码、语音增强等。
(2)第一类人机语言通信问题,指的是机器讲话、人听话的研究,即语音合成。
(3)第二类人际语言通信问题,指的是人讲话、机器听话的情况,即语音识别和理解。
自20世纪80年代末期至今,语音合成技术又有了新的进展,特别是1990年提出的基音同步叠加(PSOLA)方法,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。
语音编码的目的就是在保证一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源。
语音编码技术主要有两个努力方向:一是中低速率的语音编码的实用化及如何在实用化过程中进一步提高其抗干扰、抗噪声能力,另一个是如何进一步降低其编码速率。
语音信号的数字模型人类的语音是由人的发声器官在大脑的控制下的生理运动产生的,人的发声器官由3部分组成:(1)肺和气管产生气源,(2)喉和声带组成声门,(3)由咽腔、口腔、鼻腔组成声道。
肺的发声功能主要是产生压缩气体,通过气管传送到声音生成系统,气管连接着肺和喉,它是肺与声道联系的通道。
响度——这是频率和强度级的函数,通常用响度(单位为宋)和响度级(单位为方)来表示。
人耳刚刚能听到的声音强度,称为“听阈”,此时响度级定为零方。
响度与响度级是有区别的,60方响度级比30方响度级的声音要响,但没有响了一倍。
响度是刻划数量关系的,2宋响度要比1宋响度的声音响一倍,1宋响度被定义为1kHz纯音在声响级为40dB时(声强为10^-12W/cm^2)的响度。
音高也称基音,物理单位为赫兹,主观感觉的音高单位是美(Mel),当声强级为40dB(或响度级为40方)、频率为1kHz 时,设定的音高为1000美。
第1章-语音信号短时分析技术
罗森贝格(Rosenberg)在研究中发现,如果在发浊音时声门 脉冲取如图所示的形状,可以获得比较好的合成语音效果。
gn c1 2o 1 scnoN sn1//N21N ,2,
0
0nN1
N1nN1N2 其它
40
发浊音时的声门脉冲
2、声道模型
(一)声管模型
把声道视作截面积变化的管子,研究声音沿管道是怎样传播的。
1、言语的过程和作用
想说阶段————大脑中枢活动 说出阶段————发音器官的活动 传送阶段————传送信息的物理过程起作用 接收阶段————听觉系统活动 理解阶段————大脑中枢活动
14
2、一些基本概念 音素和音节
① 音素(phoneme):语音的最小单位,由音素构成音节。 ② 音节(Syllable):说话时一次发出的,具有一个响 亮的中心,并被明显感觉的语音片断。
10
70年代:
• 70年代开始,人工智能技术开始引入到语音识别中。美
国国防部ARPA组织了有CMU等五个单位参加的一项大规 模语音识别和理解研究计划;
•70年代中,日本学者提出的动态时间弯折算法对小词表的 研究获得了成功,从而掀起了语音识别的研究热潮;
•70年代末,基于矢量量化码本生成的LBG算法被提出,从 而使矢量量化技术广泛地应用于语音识别、语音编码和说 话人识别中;
基音的范围约为70~350 Hz左右。
28
声道(vocal tract) 17cm 由咽腔、口腔和鼻腔三个空气腔体组成。
声道是一个分布参数系统,它有许多自然谐振频率(在这 些频率上其传递函数具有极大值),所以声道是一谐振腔, 它放大某一频率而衰减其他频率分量。谐振频率由每一瞬 间的声道外形决定。 如果声道的截面是均匀的,谐振频率将发生在
语音信号_实验报告
一、实验目的1. 理解语音信号的基本特性及其在数字信号处理中的应用。
2. 掌握语音信号的采样、量化、编码等基本处理方法。
3. 学习语音信号的时域、频域分析技术。
4. 熟悉语音信号的增强、降噪等处理方法。
二、实验原理语音信号是一种非平稳信号,其特性随时间变化。
在数字信号处理中,我们通常采用采样、量化、编码等方法将语音信号转换为数字信号,以便于后续处理和分析。
三、实验内容1. 语音信号的采集与预处理- 使用麦克风采集一段语音信号。
- 对采集到的语音信号进行预加重处理,提高高频成分的幅度。
- 对预加重后的语音信号进行采样,采样频率为8kHz。
2. 语音信号的时域分析- 画出语音信号的时域波形图。
- 计算语音信号的短时能量和短时平均过零率,分析语音信号的时域特性。
3. 语音信号的频域分析- 对语音信号进行快速傅里叶变换(FFT)分析,得到其频谱图。
- 分析语音信号的频谱特性,提取关键频段。
4. 语音信号的增强与降噪- 在语音信号中加入噪声,模拟实际应用场景。
- 使用谱减法对加噪语音信号进行降噪处理。
- 对降噪后的语音信号进行主观评价,比较降噪效果。
5. 语音信号的回放与对比- 对原始语音信号和降噪后的语音信号进行回放。
- 对比分析两种语音信号的时域波形、频谱图和听觉效果。
四、实验步骤1. 采集语音信号- 使用麦克风采集一段时长为5秒的语音信号。
- 将采集到的语音信号保存为.wav格式。
2. 预处理- 使用Matlab中的preemphasis函数对采集到的语音信号进行预加重处理。
- 设置预加重系数为0.97。
3. 时域分析- 使用Matlab中的plot函数画出语音信号的时域波形图。
- 使用Matlab中的energy和zero crossing rate函数计算语音信号的短时能量和短时平均过零率。
4. 频域分析- 使用Matlab中的fft函数对语音信号进行FFT变换。
- 使用Matlab中的plot函数画出语音信号的频谱图。
语音信号处理-第03章 语音信号的时域分析方法
1 2 − 3x 2σ x
PL ( x) =
− 1 e 2σ x 2σ x
2x
二、零均值 三、非平稳时变信号;短时平稳:10~30ms
§3.2语音信号短时分析方法
语音信号的开窗分析技术: (1)均匀窗: (2)非均匀窗:各种国际标准 (3)重叠窗(Overlap) 设:语音信号为S(n),加窗语音记为 Sw(n) = W[S(n)] = S(n) w(n-m),n=0~(N-1) 则语音处理系统可表示为
5
基于能量和过零率的双门限法检测法
首先用短时能量做第一次判断,然后在此基础上 用短时平均过零率做第二次判断。 这种方法端点的确定与以后的判决无关,因此称 为显式法。
三、短时相关分析
短时自相关函数性质 • 1. R w( −l ) = R w(l ) 为偶函数; • 2. 在-N+1~N-1之间有值; • 3. R ( 0 ) = ∑ s ( n ) ≥ R ( k ) 为最大值。 • 4.当时域信号为周期信号时,自相关函 数也是周期性函数,两者周期相同。 浊音:呈现‘准’周期性、逐渐衰减
300
350
400
450
女声汉语拼音a的一帧信号(在采样频率为 22050Hz的情况下,取20ms作为一帧),短 时过零率为46。
0 .3
0 .2
0 .1
0
-0 . 1
-0 . 2
-0 . 3
-0 . 4
0
50
100
150
200
250
300
350
400
450
男声汉语拼音s的一帧信号(在采样频率为 22050Hz的情况下,取20ms作为一帧),短 时过零率为183。
语音信号处理课件-语音信号的特性分析_10
t
n
ZCR
对于语音信号,是宽带非平稳信号,应考察其短 时平均过零率。
Z n
1 2
N 1 m0
s
gn[xn
(m)]
s
gn[x
n
(m
1)]
sgn[.]为符号函数
sgn(x(n))=1 x(n)0 sgn(x(n))= -1 x(n)<0
3、短时平均过零的作用
1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。
T
-T
三、短时相关分析
1.相关分析的依据:
用于确定两个信号在时域内的相似性。常用的 物理量为自相关函数和互相关函数。当两个信号 的互相关函数大时,则说明一个信号可能是另一 个信号的时间滞后或提前;当互相关函数为0时, 则两个信号完全不同。
自相关函数用于研究信号本身,如波形的同步性 和周期性。
利用信号的相关性达到消除噪声的目的 主信号s+n0,为有用信号s(来自信号源)和一
减少这些干扰可以有两种方法:一种是采用带通滤 波器消除信号中的直流和50Hz低频分量;
x(n)
Hb(ejw) w
Bandpass filte Hb
y(n)
另一种是用过门限率来修改过零率,减少随机噪声 的影响。
过门限率反映了穿过正负门限的次数,如果存在随 机噪声,只要信号没有超过[-T,T]的范围,就没有有 过零率产生。
xn (m) w(m)x(n m) 0 m N 1 N为帧长
1 w(m) 0
0 m N 1 others
n 0,1T,2T,....,
T为帧移长度
N 1
En xn2 (m)
m0
N 1
语音信号的短时时域分析数字语音处理及MATLAB仿真教学课件
对于随机信号,R(0)对应于平均功率
36
数字语音处理及MATLAB仿真 张雪英编著
3.6.2 语音信号的短时自相关函数
采用短时分析方法,定义语音信号短时自相关函数为
Rn k x mw n m x m k w n k m
每 10ms 内的过零数
过零率概率分布
33
数字语音处理及MATLAB仿真 张雪英编著
端点检测
端点检测目的:从包含语音的一段信号中确 定出语音的起点及结束点。
有效的端点检测不仅能使处理时间减到最少, 而且能抑制无声段的噪声干扰,提高语音处理的 质量。
34
数字语音处理及MATLAB仿真 张雪英编著
3.6 短时自相关分析
3.2.1 语音信号的预加重处理
预加重目的:为了对语音的高频部分进行加重, 去除口唇辐射的影响,增加语音的高频分辨率。 可通过一阶FIR高通数字滤波器来实现:
H (z) 1 z1
设n时刻的语音采样值为x(n) ,经过预加重处理后 的结果为
y(n) x(n) x(n 1)
5
数字语音处理及MATLAB仿真 张雪英编著
几种常见的短时处理方法是: 1. T[x(m)] x2 (m),h(n) w2 (n) Qn 对应于能量; 2. T[x(m)] sgn[x(m,)]sgn[x(m1)],h(n) w(n)
Qn 对应于平均过零率;
3. T[x(m)] x(m)x(mk),hn wnwn k
Qn 对应于自相关函数 ;
3.6.1 短时自相关函数
时域离散确定信号的自相关函数定义为:
R(k)
∑ ∞
xm
xm
第3章时域分析
第三章时域分析刘健副教授liujian@课件下载地址:课件下载地址voicesp2013@/voicesp123456北京科技大学3.1 语音分析方法概述语音分析是语音合成及语音识别的基础。
短时分析技术——贯穿语音分析全过程语音分析的三种方法:(1)时域分析法——时域波形图。
(2)频域分析法——频谱图。
(2)频域分析法频谱图(3)语谱分析法——语谱图。
(1)时域分析法语音的时域分析采用时域波形图。
坐是,纵坐是。
横坐标是时间,纵坐标是幅值。
(2)频域分析法频域分析包含:语音信号的频谱、功率包含信的率谱、倒频谱、频谱包络、短时间谱等。
常用的频域分析方法有:a带通滤波器组法a.带通滤波器组法。
b.傅里叶变换法。
c.线性预测法等。
(3)语谱分析法语谱分析法是另种用于语音分析的有效方语谱分析法是另一种用于语音分析的有效方法。
语谱分析法始于20世纪40年代,当时研制成功语谱仪,能生成语谱图。
语谱图可以在二维(时间及频率)图上表示音强的关系,提供了有关不同时间不同频率的相对音强的有价值的信息。
对音强的有价值的信息3.2 语音的时域分析三种常用的时域分析方法:三种常用的时域分析方法(1)过零分析(2)幅度分析/能量分析(3)相关分析3.2 语音信号数字化-采样量化语音信号数字化采样量化采样:一个数字信号取样之后,变成离散时间信号,接下来就是要用数字方式来表示这个离散时间信号上的每个取样值的每个取样值。
量化:一个电位波形会有固定的电压范围,一个取样值可以是在此电压范围内的任何电位。
如果只能用固值可以是在此电压范围内的任何电位如果只能用固定数目的位来表示这些取样值,那么这些二进数字就只能代表固定的几个电位值,这个转换就是量化只能代表固定的几个电位值这个转换就是量化(quantization),而转换之后只允许存在的几个电位值(quantization level)就是量化阶数(quantization level)。
语音信号时域和频域通俗理解_概述及解释说明
语音信号时域和频域通俗理解概述及解释说明1. 引言1.1 概述语音是人类最基本、也是最常用的沟通方式之一。
人们通过声音来传递信息和表达情感。
对于语音信号的分析和处理,时域和频域是两个重要的角度。
时域分析主要关注声音信号在时间上的变化规律,而频域分析则关注声音信号在频率上的成分组成。
1.2 文章结构本文将以通俗易懂的方式,对语音信号的时域和频域进行解释和说明。
首先,我们将介绍时域和频域分析的基本概念及其重要性,然后详细讨论时域与频域分析中涉及到的关键点和方法。
最后,我们将总结观点并给出读者一些启示和建议。
1.3 目的本文旨在帮助读者理解语音信号时域与频域这两个概念,并且能够清晰明了地认识到它们在语音信号处理中所起到的作用。
通过对时域与频域分析方法的说明,读者可以更好地理解并应用这些知识于实际问题中。
同时,本文也希望能够引发读者对语音信号处理的更深层次的思考和探索。
2. 语音信号时域与频域通俗理解:2.1 语音信号时域分析:语音信号的时域分析是对声音在时间上的变化进行研究和处理。
时域分析主要关注声音的振幅和时间之间的关系。
在时域中,我们可以观察到声音振动的波形图。
当我们录制一段语音时,在录制过程中,麦克风会将声音转换为电信号,并按照一定的采样率记录下来。
这些记录的电信号就是我们所说的波形图。
波形图横坐标表示时间,纵坐标表示振幅。
通过观察波形图,我们可以获得很多有用的信息。
例如,振幅可以告诉我们声音的强度或者说响度,而波形图上不同部分振幅大小和模式的变化可以揭示出不同语音特征(如元音、辅音等)以及语速、语调等信息。
2.2 语音信号频域分析:语音信号的频域分析是对声音中各种频率成分进行研究和处理。
频域分析更注重声音中各个频率成分之间的关系以及它们在声谱上呈现出来的特征。
通过傅里叶变换的方法,我们可以将时域中记录的波形图转换为频谱图。
频谱图显示了声音中不同频率成分在整个录制时间内的存在情况。
横坐标表示频率,纵坐标表示声音强度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x=linspace(20,80,61); h=hamming(61); figure(1); subplot(1,2,1); plot(x,h,'k'); title('Hamming窗时域波形'); xlabel('样点数'); ylabel('幅度'); w1=linspace(0,61,61); w1(1:61)=hamming(61); w2=fft(w1,1024); w3=w2/w2(1); w4=20*log10(abs(w3)) w=2*[0:1023]/1024; subplot(1,2,2) plot(w,w4,'k') axis([0,1,-100,0]) title('Hamming窗幅度特性'); xlabel('归一化频率 f/fs'); ylabel('幅度/dB');
9
%读入语音文件
%一帧内各样点的能量 %求一帧能量 %定义画图数量和布局 %画 N=50 时的语音能量图 %横坐标 %纵坐标 %曲线标识 %定义横纵坐标范围
s2=s.^2; energy=sum(s2,2) subplot(2,2,2) plot(energy) xlabel('帧数') ylabel('短时能量 E') legend('N=100') axis([0,750,0,4*10^10]) %计算 N=400,帧移=400 时的语音能量 s=fra(400,400,x) s2=s.^2; energy=sum(s2,2) subplot(2,2,3) plot(energy) xlabel('帧数') ylabel('短时能量 E') legend('N=400') axis([0,190,0,1.5*10^11]) %计算 N=800,帧移=800 时的语音能量 s=fra(800,800,x) s2=s.^2; energy=sum(s2,2) subplot(2,2,4) plot(energy) xlabel('帧数') ylabel('短时能量 E') legend('N=800') axis([0,95,0,3*10^11]) %画 N=100 时的语音能量图
3
r1=abs(r); %对 r 取绝对值 r1 表示频谱的幅度值 pinlv=(0:1:255)*8000/512 %点和频率的对应关系 yuanlai=20*log10(r1) %对幅值取对数 signal(1:256)=yuanlai(1:256);%取 256 个点,目的是画图的时候,维数一致 [h1,f1]=freqz([1,-0.98],[1],256,4000);%高通滤波器 pha=angle(h1); %高通滤波器的相位 H1=abs(h1); %高通滤波器的幅值 r2(1:256)=r(1:256) u=r2.*h1' % 将信号频域与高通滤波器频域相乘 相当于在时域的卷积 u2=abs(u) %取幅度绝对值 u3=20*log10(u2) %对幅值取对数 un=filter([1,-0.98],[1],ee) %un 为经过高频提升后的时域信号 figure(1);subplot(211); plot(f1,H1);title('高通滤波器的幅频响应'); xlabel('频率/Hz'); ylabel('幅度'); subplot(212);plot(pha);title('高通滤波器的相位响应'); xlabel('频率/Hz'); ylabel('角度/radians'); figure(2);subplot(211);plot(ee);title('原始语音信号'); xlabel('样点数'); ylabel('幅度'); axis([0 256 -3*10^4 2*10^4]); subplot(212);plot(real(un)); title('经高通滤波后的语音信号'); xlabel('样点数'); ylabel('幅度'); axis([0 256 -1*10^4 1*10^4]); figure(3);subplot(211);plot(pinlv,signal);title('原始语音信号频谱 '); xlabel('频率/Hz'); ylabel('幅度/dB'); subplot(212);plot(pinlv,u3);title('经高通滤波后的语音信号频谱'); xlabel('频率/Hz'); ylabel('幅度/dB');
7
2 短时平均能量
短时平均能量的定义为,n 时刻某语音信号的短时平均能量 En 为:
En
m
[x(m)w(n m)]2
m n (N 1)
n
[x(m)w(n m)]2
当窗函数为矩形窗时,有:
En
2
m n (N 1)
n
x 2 (m)
若令: h( n) w ( n) ,则短时平均能量可以写成:
秒的帧数约为 33~100 帧。 分帧一般采用交叠分段的方法, 这是为了使帧与帧之间平滑过渡, 保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为 0~1/2。 下图给出了帧移与帧长示意图:
图4 加窗常用的两种方法——矩形窗与汉明(Hamming)窗。矩形窗的时域表达式分别如下: 矩形窗表达式、时域图形及其频谱如下:
H ( z ) 1 z 1
设 n 时刻的语音采样值为 x(n) ,经过预加重处理后的结果为:
y (n) x(n) x(n 1)
高通滤波器的幅频特性和相频特性如下:
图1 预加重前和预加重后的一段语音信号时域波形:
2
图2 预加重前和预加重后的一段语音信号频谱:
图3 例一:语音信号预加重
Qn
例二:矩形窗
m
T [ x(m)]h(n m)
%在 0~100 的横坐标间取 10001 个值 %为矩阵 h 赋 0 值 %前 2000 个值取为 0 值 %窗长 ,窗内值取为 1 %后 2000 个值取为 0 值 %定义图号 %画第一个子图 %画波形,横坐标为 x,纵坐标为 h,k 表示
1.2 语音信号的加窗处理
由于发音器官的惯性运动,可以认为在一小段时间里(一般为 10ms~30ms)语音信号 近似不变, 即语音信号具有短时平稳性。 这样, 可以把语音信号分为一些短段 (称为分析帧) 来进行处理。 语音信号的分帧实现方法采用可移动的有限长度窗口进行加权的方法来实现的。 一般每
4
En
m
x
2
(m)h(n m) x 2 (n) h(n)
En 反映语音信号的幅度或能量随时间缓慢变化的规律。窗的长短对于能否由短时能量 反映语音信号的幅度变化,起着决定性影响。如果窗选得很长,En 不能反映语音信号幅度 变化。窗选得太窄,En 将不够平滑。通常,当取样频率为 10kHz 时,选择窗宽度 N=100~200 是比较合适的。不同矩形窗长 N 时的短时能量函数如下:
8
图9 短时平均能量的主要用途如下: 可以作为区分清音和浊音的特征参数。 在信噪比较高的情况下,短时能量还可以作为区分有声和无声的依据。 可以作为辅助的特征参数用于语音识别中。
例四:短时能量
fid=fopen('zqq.txt','rt'); x=fscanf(fid,'%f'); fclose(fid); %计算 N=50,帧移=50 时的语音能量 s=fra(50,50,x) s2=s.^2; energy=sum(s2,2) subplot(2,2,1) plot(energy) xlabel('帧数') ylabel('短时能量 E') legend('N=50') axis([0,1500,0,2*10^10]) %计算 N=100,帧移=100 时的语音能量 s=fra(100,100,x)
%在20~80的横坐标间取61个值作为横坐标 %取61个点的哈明窗值为纵坐标值 %画图 %第一个子图 %横坐标为x,纵坐标为h,k表示黑色 %图标题 %横坐标名称 %纵坐标名称 %取窗长内的61个点 %加哈明窗 %对时域信号进行1024点傅立叶变换 %幅度归一化 %对归一化幅度取对数 %频率归一化 %画第二个子图 %画幅度特性图 %限定横、纵坐标范围 %图标题 %横坐标名称 %纵坐标名称
1 w(n) 0
0 n N 1 其它
图5 汉明(Hamming)窗表达式、时域图形及其频谱如下:
0.54 0.46 cos 0n N 2πn / N 1 , w(n) 其它 0
5
图6 加窗方法示意图:
图7 窗长一般选取 100~200。原因如下:当窗较宽时,平滑作用大,能量变化不大,故反 映不出能量的变化。当窗较窄时,没有平滑作用,反映了能量的快变细节,而看不出包络的 变化。 语音信号的分帧处理,实际上就是对各帧进行某种变换或运算。设这种变换或运算用 T[ ]表示,x(n)为输入语音信号,w(n)为窗序列,h(n)是与 w(n)有关的滤波器,则各帧经处理 后的输出可以表示为:
实验 2 语音信号的短时时域分析
一、实验目的
语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音 识别和语音增强等语音处理中都需要提取语音中包含的各种信息。 语音处理的目的是对语音 信号进行分析,提取特征参数,用于后续处理;加工语音信号。总之,语音信号分析的目的 就在于方便有效的提取并表示语音信号所携带的信息。 根据所分析的参数类型,语音信号分析可以分成时域分析和变换域(频域、倒谱域)分 析。其中时域分析方法是最简单、最直观的方法,它直接对语音信号的时域波形进行分析, 提取的特征参数主要有语音的短时能量和平均幅度、 短时平均过零率、 短时自相关函数和短 时平均幅度差函数等。