第三章语音信号的短时时域分析
【语音处理】4个基本的时域信号特征分析技术
【语音处理】4个基本的时域信号特征分析技术上一节主要介绍了关于加窗函数的相关内容。
对语音的时域信号进行分析是最直观的分析方式。
本文将介绍语音信号处理中四种时域特征,分别是短时能量、短时过零率、短时自相关函数以及短时平均幅度差。
作者&编辑 | 小米粥编辑 | 言有三1. 短时能量由于语音信号具有短时平稳性,我们通常对语音进行分帧处理。
首先定义矩形窗为w(m),那么对于语音信号x(t),其加窗分帧后第n 帧语音信号 xn(m)为矩形窗的是最直观、简单的窗函数,我们以其为例进行说明。
矩形窗的表达式为:在该计算式中,n=0,T,2T,...,N为帧长,T为帧移长度。
第n 帧语音信号 xn(m)的短时能量En为使用幅值平方将对高幅值信号具有较大的敏感度,为了降低敏感度,定义短时平均幅度函数Mn为短时能量En和短时平均幅度函数Mn的主要用途:1.浊音相比较于清音的En具有较大的数值,因而可用于区分浊音和清音。
2.利用短时能量区分有声段和无声段,也可对声母和韵母分界,对无间隙的连字分界。
3.在语音识别任务中作为特征,表示能量特征和超音频信息。
2. 短时过零率短时过零率表示一帧语音中波形信号穿过零值的次数。
对于连续信号,过零意味着波形通过时间轴,而对于离散信号,过零意味着相邻采样点的符号改变。
首先定义符号函数sgn[·]为则第n帧语音信号 xn(m)的短时过零率Zn为由于短时过零率容易受到低频干扰,可设置相关门限T,将过零修改为穿过正负门限的次数,即门限的存在使得短时过零率Zn具有一定的扛干扰能力,避免随机噪声导致的虚假过零。
短时过零率的主要用途:1.浊音能量集中于3kHz内的低频率段,清音能量集中于高频率段,而短时过零率可以一定程度反映频率高低,因而浊音段相对于清音段,其短时过零率减低。
2.将短时过零率和短时能量结合实现端点检查。
短时能量适用于背景噪声较小的情况,而短时过零率适用于背景噪声较大的情况。
第三章-语音信号的特征分析讲解讲解学习
Magnitude (dB)
40 20
0 -20 -40 -60 -80 -100
0 50
Frequency domain
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
1 0.8 0.6 0.4 0.2
0 0
rectangular hamming hanning bartlett
50
100
150
200
250
❖ 几种不同的窗函数波形与频谱的比较
1
Hamming 0.8 哈明窗 0.6
Amplitude
0.4
0.2
0
1
Hanning 0.8
汉宁窗
0.6
Amplitude
0.4
0.2
0
1
矩形窗
0.8
Amplitude
0.6
0.4
0.2
0
Time domain
10
20 Tim3e0domain40
50
60
Samples
10
20 Tim3e0domain40
50
60
Samples
10
20
30
40
50
பைடு நூலகம்
60
Samples
Magnitude (dB)
Magnitude (dB)
帧和加窗的概念
❖ 短时分析将语音流分为一段一段来处理,每一段称 为一“帧”;
语音信号的短时频域分析耿李广
本科毕业设计题目语音信号的短时频域分析学院信息工程学院专业电子信息工程班级081信工3班学号200883097姓名耿李广指导老师殷仕淑2012 年 5 月目录摘要 (1)第1章绪论 (3)1.1 课题的背景与意义 (3)1.2 国内外研究现状及发展趋势 (4)1.3 本文的仿真软件MATLAB (5)1.4 本文主要工作 (6)第2章语音信号的频域特点和抽样 (8)2.1 语音信号分析处理的一般流程 (8)2.2 语音信号的特点 (8)2.3 语音信号的抽样 (9)2.4 语音信号的分析技术 (11)第3章语音信号的频域分析 (12)3.1 语音信号分析的预处理 (12)3.2 利用短时博里叶变换求语音的短时谱 (13)3.3 语音信号的功率谱 (16)3.4 语音信号的语谱图 (17)3.5 复倒谱和倒谱 (19)第4章语音信号的综合仿真分析 (22)参考资料 (26)致谢 (27)附录 (28)语音信号的频域分析摘要语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。
其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。
将语音看为一种特殊的信号,即一种“复杂向量”来看待。
通过调用处理数字信号工具MA TLAB里的命令函数,利用数字信号处理的知识来解决问题。
像给一般信号做频谱分析一样,也分析了语音信号的频谱。
本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过PC机录制自己的一段声音,运用MATLAB进行仿真分析。
关键词:语音信号;频域分析;MA TLABSpeech signal analysis in frequency domainAbstractSpeech signal acquisition and analysis techniques are a wide range of cross-scientific,Its application and development of voice study, sound measurement study, electronic measuring technology, and digital signal processing disciplines, such as close contact. Collection and analysis of voice one of the small-scale equipment, intelligence, digital and multi-functional development of more and more quickly, faster than the previous analysis has been substantially high. The voice is taken as a special signal, a complex vector. By using the command functions in the digital signal processing tool-MATLAB, the digital signal processing can solve many problems. The spectrum of voice signals are analyzed, which is the same as the spectrum analysis of common signals. This paper introduces the voice signal acquisition and analysis of the history of the development, as well as the characteristics of speechsignal,Collection and analysis methods,Recording machine through the PC section of my own voices,the use of MA TLAB for simulation analysis.Keywords:audio signal,acquisition and analysis,MATLAB第1章绪论随着现代计算机技术的普及和发展,数字电子产品的使用越来越深入到人们的日常生活中。
3第三章 语音信号分析---时域分析 语音信号处理 课件
4/25/2021
32/66
存在的问题
短时能量函数一个主要的问题是En对信号电平值 过于敏感。由于需要计算信号样值的平方和,在实 际应用中(如定点设备)很容易溢出。因此,一般 用平均幅度函数Mn来代替En。但这时,清音和浊 音、有声和无声的幅度差不如短时能量明显。
4/25/2021
33/66
二、短时过零率分析
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
4/25/2021
xa(t) t
xa(nT) n
5/66
• Ideal sampling and real sampling
4/25/2021
6/66
3. A/D转换
对离散时间信号进行量化,在每一时刻对xa(nT) 独立进行量化,把给定的幅度连续的信号变成为有限 多个幅度的集合中某个幅度值的过程。
4/25/2021
37/66
1 0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
-1 0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号(在采样频 率为22050Hz的情况下,取20ms作为一 帧),短时过零率为46。
4/25/2021
第三章语音信号的数字分析
Pe
(e)
=
1 ∆
, − ∆ ≤ e(n) ≤ ∆
2
2
0 , 其它
在上述假设的统计模型下,量化噪声的均值和方差分别为:
∫ me
=
∆ 2
e( 1
)de
=
0
−∆2 ∆
∫ σ
2 e
=
∆ 2
−∆2
e2
(1 ∆
)de
=
∆2 12
信噪比:
∑∑ SNR
=
σ x2 σ e2
=
E[x 2 (n)] E[e 2 (n)]
(输入间距) (输出间距)
∆:量化阶距(间距)
例:3bit 均匀量化器
xˆ (输出)
7∆/2
011
5∆/2
010
3∆/2
001
∆/2 000
-4∆ -3∆ -2∆ -∆
∆ 2∆ 3∆ 4∆
100 101 110 111
-∆/2 -3∆/ 2 -5∆/ 2 -7∆/ 2
x (输入)
峰— 峰值范围 (a) “上升中点”型量化器
-120 0
(b)
0.1
0.2
0.3
0.4
0.5
归一化频率
图. 矩形窗(a)和哈明窗(b)的幅频特性
•哈明窗的带宽大约是同样宽度矩形窗带宽的两倍, •哈明窗通带外的衰减也比矩形窗大一倍多 •这两种窗的衰减基本上与窗的持续时间无关 •矩形窗的谱平滑较好,但波形细节丢失,而哈明窗则反之
2、窗口的长度
•无论窗口形状如何,窗口长度N将起决定性的作用
时域波形展开:
语音信号具有很强的“ 时变特性”,在有些段 落中它具有很强的周期 性,有些段落中又具有 噪声特性,而且周期性 语音和噪声语音的特征 也在不断变化之中,只 有在较短的时间间隔( 20~200ms)语音信号 的特征才基本保持不变
语音信号的短时分析
语音信号的短时分析一、实验目的1.在理论学习的基础上,进一步地理解和掌握语音信号短时分析的意义,短时时域分析的基本方法。
2.进一步理解和掌握语音信号短时平均能量函数及短时平均过零数的计算方法和重要意义。
二、实验原理及方法一定时宽的语音信号,其能量的大小随时间有明显的变化。
其中清音段(以清音为主要成份的语音段),其能量比浊音段小得多。
短时过零数也可用于语音信号分析中,发浊音时,其语音能量约集中于3kHz以下,而发清音时,多数能量出现在较高频率上,可认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数,因而,对一短时语音段计算其短时平均能量及短时平均过零数,就可以较好地区分其中的清音段和浊音段,从而可判别句中清、浊音转变时刻,声母韵母的分界以及无声与有声的分界。
这在语音识别中有重要意义。
三、实验仪器微型计算机,Matlab软件环境四、实验内容1.上机前用Matlab语言完成程序编写工作。
2.程序应具有加窗(分帧)、计算、以及绘制曲线等功能。
3.上机实验时先调试程序,通过后进行信号处理。
4.对录入的语音数据进行处理,并显示运行结果。
5.依据曲线对该语音段进行所需要的分析,并作出结论。
6.改变窗的宽度(帧长),重复上面的分析内容。
五、预习和实验报告要求1.预习课本有关内容,理解和掌握短时平均能量函数及短时平均过零数函数的意义及其计算方法。
2.参考Matlab有关资料,设计并编写出具有上述功能的程序。
六、上机实验报告要求:1.报告中,实验目的、实验原理、实验步骤、方法等格式和内容的要求与其它实验相同。
2.画出求得的、曲线,注明语音段和所用窗函数及其宽度。
阐述所作分析和判断的过程,提出依据,得出判断结论。
七、思考题1.语音信号短时平均能量及短时平均过零数分析的主要用途是什么?2.窗的宽度(帧长)的改变,对的特性产生怎样的影响?附:所用语音信号文件名为one.wavMatlab编程实验步骤:1.新建M文件,扩展名为“.m”,编写程序;2.选择File/Save命令,将文件保存在F盘中;3.在Command Window窗中输入文件名,运行程序;Matlab部分函数语法格式:读wav文件:x=wavread(`filename`)数组a及b中元素相乘: a.*b创建图形窗口命令:figure绘图函数:plot(x)坐标轴:axis([xmin xmax ymin ymax])坐标轴注解:xlabel(`…`) ylabel(`…`)图例注解:legend( `…`)一阶高通滤波器:y=filter([1-0.09375],1,x)分帧函数:f=enframe(x,len,inc)x为输入语音信号,len指定了帧长,inc指定帧移,函数返回为n×len的一个矩阵,每一行都是一帧数据。
语音信号短时分析.ppt
Z01 2N n 0 1Sg (Sw n (n) )Sg (Sw n (n1))
将Z应用于语音信号分析中
❖ 发浊音时,声带振动,因而声门激励是以此音调频 率为基频来使声道共振;尽管有若干个共振峰,但 其能量的分布集中于低于3KHz的频率范围内。
❖ 发清音时声带不振动,声道某部分阻塞产生类白噪 声激励,通过声道后其能量集中在比浊音时更高的 频率范围内。
0
-50
-100
-150 0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
Frequency domain 40
30
20
10
0
-10
-20 0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
语音信号的短时能量(语音信号强度 的度量参数)
❖ 在语音识别中正确的决定所要识别语音的起点、终 点对于提高识别率往往是重要的。
❖ 对于数字移动通信的手持机编译码器,在较长的无 声段应降低发射功率以节约其电池的消耗。
Hale Waihona Puke 语音有声和无声❖ 对于已经判定为语音段的部分,尚需决定其清音或 浊音,无论对于语音识别还是低速语音编译码器这 都是很重要的。这些问题可以概括为无声/有声判决 以及更细致的S/U/V判决。
N 1
Hann
w (n ) 0 .5 (1 c 2 os n( )0 ) ,n N 1 N 1
❖ 不同的窗口选择(形状、长度),将决定短时平均能量的性质。什么 样的窗口,其短时平均能量才能更好的反映语音信号的振幅变化哪?
语音信号处理PPT_第三章_语音信号分析
3.2 数字化和预处理
➢ 语音信号的数字化一般包括放大及增益控制、反混叠滤波、
采样、A/D变换及编码(一般就是PCM码);如下图:
语音信号
带通滤 波器
自动增益控制 (AGC)
模/数转换 (A/D)
脉冲编码 调 制 ( PCM )
存入计算机
➢ 预处理一般包括预加重、加窗和分帧等。 ➢ 分析和处理之前必须把要分析的要分析的语音信号部分从输
② R n (是k )偶函数 ,即 Rn(k)Rn(k)
③ 当k=0时,自相关函数有最大值,即 Rn(0)Rn(k)
并且 等R于n (确0 ) 定性信号序列的能量或随机序列的平均功率。
短时相关分析
右图中:N=401, Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。
但是在一个短时间范围内(一般认为在10-30ms的短时间内), 其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳 态过程,即语音信号具有短时平稳性。
不论是分析怎么样的参数以及采用什么分析方法,在按帧进 行语音分析,提取语音参数之前,有一些经常使用的、共同的短 时分析技术必须预先进行,如语音信号的数字化、语音信号的端 点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号 析的关键技术。
语音信号分析在语音信号处理中具有举足轻重的地位。
分类:
参数性质
时域分析 频域分析 倒谱域分析
分析方法
模型分析方法 非模型分析方法
简单、计算量小、 物理意义明确
感知特性 较好,更 为重要
依据语音信号 产生的数学模 型来分析和提 取表征这些模 型的特征参数
不进行模型化 分析
语音信号的短时频域分析
语音信号的短时频域分析目录一、内容简述 (2)二、基础知识 (2)2.1 语音信号处理基础 (3)2.1.1 语音信号的特点 (5)2.1.2 语音信号的数字表示 (6)2.2 频域分析介绍 (7)三、短时傅里叶变换 (8)3.1 STFT的基本原理 (9)3.2 STFT的应用场景 (10)3.3 窗函数的选择和影响 (11)四、短时傅里叶变换的变体 (12)4.1 连续小波变换 (13)4.1.1 CWT的基本概念 (14)4.1.2 CWT与STFT的比较 (15)4.2 离散小波变换 (16)4.2.1 DWT的基本概念 (18)4.2.2 DWT在语音信号处理中的应用 (19)五、短时频域特征提取 (20)5.1 梅尔频率倒谱系数 (21)5.1.1 MFCC的计算过程 (23)5.1.2 MFCC在语音识别中的作用 (24)5.2 谐波和基频估计 (26)5.2.1 基本周期分析与提取 (26)5.2.2 基频和共振峰的定位 (28)六、短时频域分析在实际中的应用 (29)6.1 语音增强 (30)6.2 语音去噪 (32)6.3 说话人识别与语音合成 (33)七、总结 (35)7.1 短时频域分析方法总结 (36)7.2 语音信号处理领域的发展趋势 (37)7.3 下一步研究方向与思考 (38)一、内容简述语音信号的短时频域分析是语音处理领域中一项重要的技术,该技术主要通过对语音信号进行短时的时间窗口划分,然后在每个时间窗口内进行频域分析,从而提取语音信号的频率特性。
这种分析方法有助于我们理解语音信号在不同时间段的频率变化,对于语音识别、语音合成、音频信号处理等领域具有广泛的应用价值。
本文将详细介绍短时频域分析的基本原理、方法、步骤以及在实际应用中的效果评估。
通过本文的阅读,读者将能够了解如何对语音信号进行短时频域分析,从而深入理解和掌握这一技术的实际应用。
二、基础知识信号是信息传递的一种形式,可以是模拟的或数字的。
第三章_语音信号的特征分析
浊音和清音情况下典型的平均过零率的直方图
直方图的分布形状与高斯分布很吻合,而且浊音时 的短时平均过零率的均值为14过零/10ms,清音时 短时过零率的均值为47过零/10ms。注意到浊音和 清音有一个交叠区域,此时很难分清是浊音还是清 音,尽管如此,平均过零率仍可以粗略的判断清音 和浊音。
35语音信号的短时自相关函数假设一段加窗语音信号非零区间为n0n1的自相关函数称为语音信号的短时自相关函数自相关函数是偶函数在l0处取得最大值且值为短时能量如果sn是周期的则rl也是周期的且周期等于sn的周期36浊音和清音的自相关函数图浊音浊音清音37半周期错误2倍周期错误由自相关函数图判断浊音的周期38为了减少这种错误可以先将语音信号进行中心削波处理再求自相关函数39中心削波处理前后的语音信号及其自相关函数40短时自相关函数的特点浊音是周期信号浊音的短时自相关函数也呈现明显的周期性自相关函数的周期就是浊音信号的周清音接近于随机噪声请音的短时自相关函数不具有周期性且随着l的增大迅速减小
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
0
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择,将决定短时语音分析结果的好坏
数据率(kB/s) (未压缩)
频率范围
8
300~3400 Hz
第三章 语音信号的特征分析讲解
电话语音(固网电话通信频带为300-3400Hz) 可以基本保持语义,不影响人对语音的感知 质量不是很好,有时候会有变音
宽带语音信号:fs =16000Hz
一般对语音质量要求较高的场合 再提高采样频率也不会对语音质量有太多贡献
量化精度
量化所用比特越大,声音质量越好 声音质量也跟量化算法有关,比如同样用8bit量化, 非均匀量化(µ-律或A-律)就比均匀量化好很多
对于语音识别系统而言,用于电话用户时要求技术指标与语音编码器相 同,如果对于更高的要求场合,则fH=4500Hz或8000Hz, fL=60Hz,
fs=10KHz或20KHz
帧和加窗的概念
短时分析将语音流分为一段一段来处理,每一段称 为一“帧”; 帧长:10~30; 帧移:0~1倍帧长,帧与帧之间的平滑过渡; 语音识别中常用的帧长为20~30ms,帧移为10ms
几种常见的窗函数的波形
Matlab中,可以通过help window命令来查看怎么产生不同的窗
1
0.8
rectangular hamming hanning bartlett
0.6
0.4
0.2
0
0
50
100
150
200
250
几种不同的窗函数波形与频谱的比较
Time domain 40 Frequency domain 1 20 0.8 0
1
Hanning
Amplitude
0.8
0
汉宁窗
0.6
Magnitude (dB)
Time domain 30 40 Samples
-50
0.4
-100 0.2
语音信号时域分析
基于MATLAB 分析语音信号时域特征钱平(信号与信息处理 s101904010)一、时域特征实验原理及实验结果分析1.窗口的选择通过对发声机理的认识,语音信号可以认为是短时平稳的。
在5~50ms 的范围内,语音频谱特性和一些物理特性参数基本保持不变。
我们将每个短时的语音称为一个分析帧。
一般帧长取10~30ms 。
我们采用一个长度有限的窗函数来截取语音信号形成分析帧。
通常会采用矩形窗和汉明窗。
图1给出了这两种窗函数在帧长N=50时的时域波形。
0.20.40.60.811.21.41.61.82矩形窗samplew (n )0.10.20.30.40.50.60.70.80.91hanming 窗samplew (n )图1 矩形窗和Hamming 窗的时域波形矩形窗的定义:一个N 点的矩形窗函数定义为如下()⎩⎨⎧<≤=其他001Nn n whamming 窗的定义:一个N 点的hamming 窗函数定义为如下()⎪⎩⎪⎨⎧<≤--=其他00)12cos(46.054.0Nn N n n w π 这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;汉明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。
因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。
表1对比了这两种窗函数的主瓣宽度和旁瓣峰值。
00.10.20.30.40.50.60.70.80.91-80-60-40-200矩形窗频率响应归一化频率(f/fs)幅度/d B00.10.20.30.40.50.60.70.80.91-100-50Hamming 窗频率响应归一化频率(f/fs)幅度/d B图2 矩形窗和Hamming 窗的频率响应表1 矩形窗和hamming 窗的主瓣宽度和旁瓣峰值2.短时能量由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。
语音信号处理-第03章 语音信号的时域分析方法
1 2 − 3x 2σ x
PL ( x) =
− 1 e 2σ x 2σ x
2x
二、零均值 三、非平稳时变信号;短时平稳:10~30ms
§3.2语音信号短时分析方法
语音信号的开窗分析技术: (1)均匀窗: (2)非均匀窗:各种国际标准 (3)重叠窗(Overlap) 设:语音信号为S(n),加窗语音记为 Sw(n) = W[S(n)] = S(n) w(n-m),n=0~(N-1) 则语音处理系统可表示为
5
基于能量和过零率的双门限法检测法
首先用短时能量做第一次判断,然后在此基础上 用短时平均过零率做第二次判断。 这种方法端点的确定与以后的判决无关,因此称 为显式法。
三、短时相关分析
短时自相关函数性质 • 1. R w( −l ) = R w(l ) 为偶函数; • 2. 在-N+1~N-1之间有值; • 3. R ( 0 ) = ∑ s ( n ) ≥ R ( k ) 为最大值。 • 4.当时域信号为周期信号时,自相关函 数也是周期性函数,两者周期相同。 浊音:呈现‘准’周期性、逐渐衰减
300
350
400
450
女声汉语拼音a的一帧信号(在采样频率为 22050Hz的情况下,取20ms作为一帧),短 时过零率为46。
0 .3
0 .2
0 .1
0
-0 . 1
-0 . 2
-0 . 3
-0 . 4
0
50
100
150
200
250
300
350
400
450
男声汉语拼音s的一帧信号(在采样频率为 22050Hz的情况下,取20ms作为一帧),短 时过零率为183。
语音信号处理课件-语音信号的特性分析_10
t
n
ZCR
对于语音信号,是宽带非平稳信号,应考察其短 时平均过零率。
Z n
1 2
N 1 m0
s
gn[xn
(m)]
s
gn[x
n
(m
1)]
sgn[.]为符号函数
sgn(x(n))=1 x(n)0 sgn(x(n))= -1 x(n)<0
3、短时平均过零的作用
1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。
T
-T
三、短时相关分析
1.相关分析的依据:
用于确定两个信号在时域内的相似性。常用的 物理量为自相关函数和互相关函数。当两个信号 的互相关函数大时,则说明一个信号可能是另一 个信号的时间滞后或提前;当互相关函数为0时, 则两个信号完全不同。
自相关函数用于研究信号本身,如波形的同步性 和周期性。
利用信号的相关性达到消除噪声的目的 主信号s+n0,为有用信号s(来自信号源)和一
减少这些干扰可以有两种方法:一种是采用带通滤 波器消除信号中的直流和50Hz低频分量;
x(n)
Hb(ejw) w
Bandpass filte Hb
y(n)
另一种是用过门限率来修改过零率,减少随机噪声 的影响。
过门限率反映了穿过正负门限的次数,如果存在随 机噪声,只要信号没有超过[-T,T]的范围,就没有有 过零率产生。
xn (m) w(m)x(n m) 0 m N 1 N为帧长
1 w(m) 0
0 m N 1 others
n 0,1T,2T,....,
T为帧移长度
N 1
En xn2 (m)
m0
N 1
第3章时域分析
第三章时域分析刘健副教授liujian@课件下载地址:课件下载地址voicesp2013@/voicesp123456北京科技大学3.1 语音分析方法概述语音分析是语音合成及语音识别的基础。
短时分析技术——贯穿语音分析全过程语音分析的三种方法:(1)时域分析法——时域波形图。
(2)频域分析法——频谱图。
(2)频域分析法频谱图(3)语谱分析法——语谱图。
(1)时域分析法语音的时域分析采用时域波形图。
坐是,纵坐是。
横坐标是时间,纵坐标是幅值。
(2)频域分析法频域分析包含:语音信号的频谱、功率包含信的率谱、倒频谱、频谱包络、短时间谱等。
常用的频域分析方法有:a带通滤波器组法a.带通滤波器组法。
b.傅里叶变换法。
c.线性预测法等。
(3)语谱分析法语谱分析法是另种用于语音分析的有效方语谱分析法是另一种用于语音分析的有效方法。
语谱分析法始于20世纪40年代,当时研制成功语谱仪,能生成语谱图。
语谱图可以在二维(时间及频率)图上表示音强的关系,提供了有关不同时间不同频率的相对音强的有价值的信息。
对音强的有价值的信息3.2 语音的时域分析三种常用的时域分析方法:三种常用的时域分析方法(1)过零分析(2)幅度分析/能量分析(3)相关分析3.2 语音信号数字化-采样量化语音信号数字化采样量化采样:一个数字信号取样之后,变成离散时间信号,接下来就是要用数字方式来表示这个离散时间信号上的每个取样值的每个取样值。
量化:一个电位波形会有固定的电压范围,一个取样值可以是在此电压范围内的任何电位。
如果只能用固值可以是在此电压范围内的任何电位如果只能用固定数目的位来表示这些取样值,那么这些二进数字就只能代表固定的几个电位值,这个转换就是量化只能代表固定的几个电位值这个转换就是量化(quantization),而转换之后只允许存在的几个电位值(quantization level)就是量化阶数(quantization level)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-
11
数字语音处理及MATLAB仿真 张雪英编著
3.2.2 语音信号的加窗处理
由于发音器官的惯性运动,可以认为在一小 段时间里(一般为10ms~30ms)语音信号近似不 变,即语音信号具有短时平稳性。这样,可以把 语音信号分为一些短段(称为分析帧)来进行处 理。
0
其 它
-
15
数字语音处理及MATLAB仿真 张雪英编著
矩形窗及其频谱如下
-
16
数字语音处理及MATLAB仿真 张雪英编著
汉明窗及其频谱如下
-
17
数字语音处理及MATLAB仿真 张雪英编著
思考:两种窗效果有何异同?
f 01
fs N
-
18
数字语音处理及MATLAB仿真 张雪英编著
加窗方法示意图:
Q n 对应于平均过零率;
3. T [ x ( m ) ] x ( m ) x ( m k ) , h n w n w n k
Q n 对应于自相关函数 ;
-
22
数字语音处理及MATLAB仿真 张雪英编著
3.3 短时平均能量
1.短时平均能量定义 定义n时刻某语音信号的短时平均能量En为:
n
语音信号的分帧处理,实际上就是对各帧进行 某种变换或运算。设这种变换或运算用T[ ]表示, x(n)为输入语音信号,w(n)为窗序列,h(n)是与w(n) 有关的滤波器,则各帧经处理后的输出可以表示为:
Qn T[x(m)]h(nm) m
-
21
数字语音处理及MATLAB仿真 张雪英编著
几种常见的短时处理方法是: 1. T [x (m )] x 2 (m ), h (n ) w 2 (n )Q n 对应于能量; 2. T [x (m ) ] s g n [x (m ,) ] s g n [x (m 1 ) ], h (n ) w (n )
化误差的大小:S
2
N dB 1 Rl0g x2 m e(a)x 6.0B 2 4.7 7 2l0o 1(0 g xm e)ax
-
7
数字语音处理及MATLAB仿真 张雪英编著
3.2.1 语音信号的预加重处理
有了语音数据文件后,对语音的预处理包括: 预加重、加窗分帧等。
预加重目的:为了对语音的高频部分进行加重, 去除口唇辐射的影响,增加语音的高频分辨率。 可通过一阶FIR高通数字滤波器来实现:
-
4
数字语音处理及MATLAB仿真 张雪英编著
图3-4 语音信号处理系统框图
-
5
数字语音处理及MATLAB仿真 张雪英编著
-
6
数字语音处理及MATLAB仿真 张雪英编著
语音信号的频率范围通常是300~3400Hz,一 般情况下取采样率为8kHz即可。
采样后的信号在进行量化的过程中不可避免
的产生量化误差,一般可用量化信噪比来表示量
3.1 概述
语音信号是一种非平稳的时变信号,它携带 着各种信息。在语音编码、语音合成、语音识别 和语音增强等语音处理中都需要提取语音中包含 的各种信息。
语音处理的目的:对语音信号进行分析,提 取特征参数,用于后续处理;加工语音信号。
总之,语音信号分析的目的就在于方便有效 的提取并表示语音信号所携带的信息。
-
19
数字语音处理及MATLAB仿真 张雪英编著
窗长的选择
一般选取100~200(应含1~7个基音周期)。原 因如下:
当窗较宽时,平滑作用大,能量变化不大, 故反映不出能量的变化。
当窗较窄时,没有平滑作用,反映了能量的 快变细节,而看不出包络的变化。
-
20
数字语音处理及MATLAB仿真 张雪英编著
-
3
数字语音处理及MATLAB仿真 张雪英编著
3.2 语音信号的预处理
在对语音信号进行数字处理之前,首先要将 模拟语音信号s(t) 离散化为s(n). 实际中获得数字 语音的途径一般有两种,正式的和非正式的。
正式的是指大公司或语音研究机构发布的被 大家认可的语音数据库,非正式的则是研究者个 人用录音软件或硬件电路加麦克风随时随地录制 的一些发音或语句。
-
2
数字语音处理及MATLAB仿真 张雪英编著
根据所分析的参数类型,语音信号分析可以 分成时域分析和变换域(频域、倒谱域)分析。 其中时域分析方法是最简单、最直观的方法,它 直接对语音信号的时域波形进行分析,提取的特 征参数主要有语音的短时能量和平均幅度、短时 平均过零率、短时自相关函数和短时平均幅度差 函数等。
-
13
数字语音处理及MATLAB仿真 张雪英编著
图3.3给出了帧移与帧长示意图。
-
14
数字语音处理及MATLAB仿真 张雪英编著
加窗常用的两种方法: 矩形窗,窗函数如下:
1 0nN1
w(n)0
其它
汉明(Hamming)窗,窗函数如下
w (n ) 0 .5 4 0 .4 6c o s 2 π n /N 1 , 0 n N
-
12
数字语音处理及MATLAB仿真 张雪英编著
语音信号的分帧实现方法: 采用可移动的有限长度窗口进行加权的方法 来实现的。一般每秒的帧数约为33~100帧。 分帧一般采用交叠分段的方法,这是为了使 帧与帧之间平滑过渡,保持其连续性。前一帧和 后一帧的交叠部分称为帧移,帧移与帧长的比值 一般取为0~1/2。
H(z)1z1
设n时刻的语音采样值为x(n) ,经过预加重处理后 的结果为
y(n )x(n ) x(n 1 )
-
8
数字语音处理及MATLAB仿真 张雪英编著
高通滤波器的幅频特性和相频特性如下
-
9
数字语音处理及MATLAB仿真 张雪英编著
预加重前和预加重后的一段语音信号时域波形
-
10
数字语音处理及MATLAB仿真 张雪英编著
数字语音处理及MATLAB仿真 张雪英编著
第三章 语音信号的短时时域分析
1 3.1 概述 2 3.2 语音信号的预处理 3 3.3 短时平均能量 4 3.4 短时平均幅度函数 5 3.5 短时平均过零率 6 3.6 短时自相关分析 7 3.7 基于能量处理及MATLAB仿真 张雪英编著
E n [x (m )w (n m )2 ] [x (m )w (n m )2 ]
m
m n (N 1 )
当窗函数为矩形窗时,有
n
En x2 (m) mn(N1)
-
23
数字语音处理及MATLAB仿真 张雪英编著
若令