第三章语音信号的短时时域分析
【语音处理】4个基本的时域信号特征分析技术

【语音处理】4个基本的时域信号特征分析技术上一节主要介绍了关于加窗函数的相关内容。
对语音的时域信号进行分析是最直观的分析方式。
本文将介绍语音信号处理中四种时域特征,分别是短时能量、短时过零率、短时自相关函数以及短时平均幅度差。
作者&编辑 | 小米粥编辑 | 言有三1. 短时能量由于语音信号具有短时平稳性,我们通常对语音进行分帧处理。
首先定义矩形窗为w(m),那么对于语音信号x(t),其加窗分帧后第n 帧语音信号 xn(m)为矩形窗的是最直观、简单的窗函数,我们以其为例进行说明。
矩形窗的表达式为:在该计算式中,n=0,T,2T,...,N为帧长,T为帧移长度。
第n 帧语音信号 xn(m)的短时能量En为使用幅值平方将对高幅值信号具有较大的敏感度,为了降低敏感度,定义短时平均幅度函数Mn为短时能量En和短时平均幅度函数Mn的主要用途:1.浊音相比较于清音的En具有较大的数值,因而可用于区分浊音和清音。
2.利用短时能量区分有声段和无声段,也可对声母和韵母分界,对无间隙的连字分界。
3.在语音识别任务中作为特征,表示能量特征和超音频信息。
2. 短时过零率短时过零率表示一帧语音中波形信号穿过零值的次数。
对于连续信号,过零意味着波形通过时间轴,而对于离散信号,过零意味着相邻采样点的符号改变。
首先定义符号函数sgn[·]为则第n帧语音信号 xn(m)的短时过零率Zn为由于短时过零率容易受到低频干扰,可设置相关门限T,将过零修改为穿过正负门限的次数,即门限的存在使得短时过零率Zn具有一定的扛干扰能力,避免随机噪声导致的虚假过零。
短时过零率的主要用途:1.浊音能量集中于3kHz内的低频率段,清音能量集中于高频率段,而短时过零率可以一定程度反映频率高低,因而浊音段相对于清音段,其短时过零率减低。
2.将短时过零率和短时能量结合实现端点检查。
短时能量适用于背景噪声较小的情况,而短时过零率适用于背景噪声较大的情况。
语音信号的时域特征分析

中北大学课程设计说明书学生姓名:蒋宝哲学号: 24学生姓名:瓮泽勇学号: 42学生姓名:侯战祎学号: 47学院:信息商务学院专业:电子信息工程题目:信息处理实践:语音信号的时域特征分析指导教师:徐美芳职称: 讲师2013 年 6 月 28 日中北大学课程设计任务书2012-2013 学年第二学期学院:信息商务学院专业:电子信息工程学生姓名:蒋宝哲学号: 24 学生姓名:瓮泽勇学号: 42 学生姓名:侯战祎学号: 47 课程设计题目:信息处理实践:语音信号的时域特征分析起迄日期: 2013年6 月7日~2013年6月 28 日课程设计地点:学院楼201实验室、510实验室、608实验室指导教师:徐美芳系主任:王浩全下达任务书日期: 2013 年 6 月 7 日课程设计任务书课程设计任务书语音信号的采集与分析摘要语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。
其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。
本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过PC机录制自己的一段声音,运用Matlab进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。
关键词:语音信号,采集与分析, Matlab0 引言通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。
语言是人类持有的功能.声音是人类常用的工具,是相互传递信息的最主要的手段。
因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。
并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。
现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。
第三章-语音信号的特征分析讲解讲解学习

Magnitude (dB)
40 20
0 -20 -40 -60 -80 -100
0 50
Frequency domain
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
1 0.8 0.6 0.4 0.2
0 0
rectangular hamming hanning bartlett
50
100
150
200
250
❖ 几种不同的窗函数波形与频谱的比较
1
Hamming 0.8 哈明窗 0.6
Amplitude
0.4
0.2
0
1
Hanning 0.8
汉宁窗
0.6
Amplitude
0.4
0.2
0
1
矩形窗
0.8
Amplitude
0.6
0.4
0.2
0
Time domain
10
20 Tim3e0domain40
50
60
Samples
10
20 Tim3e0domain40
50
60
Samples
10
20
30
40
50
பைடு நூலகம்
60
Samples
Magnitude (dB)
Magnitude (dB)
帧和加窗的概念
❖ 短时分析将语音流分为一段一段来处理,每一段称 为一“帧”;
3第三章 语音信号分析---时域分析 语音信号处理 课件

4/25/2021
32/66
存在的问题
短时能量函数一个主要的问题是En对信号电平值 过于敏感。由于需要计算信号样值的平方和,在实 际应用中(如定点设备)很容易溢出。因此,一般 用平均幅度函数Mn来代替En。但这时,清音和浊 音、有声和无声的幅度差不如短时能量明显。
4/25/2021
33/66
二、短时过零率分析
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
4/25/2021
xa(t) t
xa(nT) n
5/66
• Ideal sampling and real sampling
4/25/2021
6/66
3. A/D转换
对离散时间信号进行量化,在每一时刻对xa(nT) 独立进行量化,把给定的幅度连续的信号变成为有限 多个幅度的集合中某个幅度值的过程。
4/25/2021
37/66
1 0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
-1 0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号(在采样频 率为22050Hz的情况下,取20ms作为一 帧),短时过零率为46。
4/25/2021
第三章语音信号的数字分析

Pe
(e)
=
1 ∆
, − ∆ ≤ e(n) ≤ ∆
2
2
0 , 其它
在上述假设的统计模型下,量化噪声的均值和方差分别为:
∫ me
=
∆ 2
e( 1
)de
=
0
−∆2 ∆
∫ σ
2 e
=
∆ 2
−∆2
e2
(1 ∆
)de
=
∆2 12
信噪比:
∑∑ SNR
=
σ x2 σ e2
=
E[x 2 (n)] E[e 2 (n)]
(输入间距) (输出间距)
∆:量化阶距(间距)
例:3bit 均匀量化器
xˆ (输出)
7∆/2
011
5∆/2
010
3∆/2
001
∆/2 000
-4∆ -3∆ -2∆ -∆
∆ 2∆ 3∆ 4∆
100 101 110 111
-∆/2 -3∆/ 2 -5∆/ 2 -7∆/ 2
x (输入)
峰— 峰值范围 (a) “上升中点”型量化器
-120 0
(b)
0.1
0.2
0.3
0.4
0.5
归一化频率
图. 矩形窗(a)和哈明窗(b)的幅频特性
•哈明窗的带宽大约是同样宽度矩形窗带宽的两倍, •哈明窗通带外的衰减也比矩形窗大一倍多 •这两种窗的衰减基本上与窗的持续时间无关 •矩形窗的谱平滑较好,但波形细节丢失,而哈明窗则反之
2、窗口的长度
•无论窗口形状如何,窗口长度N将起决定性的作用
时域波形展开:
语音信号具有很强的“ 时变特性”,在有些段 落中它具有很强的周期 性,有些段落中又具有 噪声特性,而且周期性 语音和噪声语音的特征 也在不断变化之中,只 有在较短的时间间隔( 20~200ms)语音信号 的特征才基本保持不变
语音信号的短时分析

语音信号的短时分析一、实验目的1.在理论学习的基础上,进一步地理解和掌握语音信号短时分析的意义,短时时域分析的基本方法。
2.进一步理解和掌握语音信号短时平均能量函数及短时平均过零数的计算方法和重要意义。
二、实验原理及方法一定时宽的语音信号,其能量的大小随时间有明显的变化。
其中清音段(以清音为主要成份的语音段),其能量比浊音段小得多。
短时过零数也可用于语音信号分析中,发浊音时,其语音能量约集中于3kHz以下,而发清音时,多数能量出现在较高频率上,可认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数,因而,对一短时语音段计算其短时平均能量及短时平均过零数,就可以较好地区分其中的清音段和浊音段,从而可判别句中清、浊音转变时刻,声母韵母的分界以及无声与有声的分界。
这在语音识别中有重要意义。
三、实验仪器微型计算机,Matlab软件环境四、实验内容1.上机前用Matlab语言完成程序编写工作。
2.程序应具有加窗(分帧)、计算、以及绘制曲线等功能。
3.上机实验时先调试程序,通过后进行信号处理。
4.对录入的语音数据进行处理,并显示运行结果。
5.依据曲线对该语音段进行所需要的分析,并作出结论。
6.改变窗的宽度(帧长),重复上面的分析内容。
五、预习和实验报告要求1.预习课本有关内容,理解和掌握短时平均能量函数及短时平均过零数函数的意义及其计算方法。
2.参考Matlab有关资料,设计并编写出具有上述功能的程序。
六、上机实验报告要求:1.报告中,实验目的、实验原理、实验步骤、方法等格式和内容的要求与其它实验相同。
2.画出求得的、曲线,注明语音段和所用窗函数及其宽度。
阐述所作分析和判断的过程,提出依据,得出判断结论。
七、思考题1.语音信号短时平均能量及短时平均过零数分析的主要用途是什么?2.窗的宽度(帧长)的改变,对的特性产生怎样的影响?附:所用语音信号文件名为one.wavMatlab编程实验步骤:1.新建M文件,扩展名为“.m”,编写程序;2.选择File/Save命令,将文件保存在F盘中;3.在Command Window窗中输入文件名,运行程序;Matlab部分函数语法格式:读wav文件:x=wavread(`filename`)数组a及b中元素相乘: a.*b创建图形窗口命令:figure绘图函数:plot(x)坐标轴:axis([xmin xmax ymin ymax])坐标轴注解:xlabel(`…`) ylabel(`…`)图例注解:legend( `…`)一阶高通滤波器:y=filter([1-0.09375],1,x)分帧函数:f=enframe(x,len,inc)x为输入语音信号,len指定了帧长,inc指定帧移,函数返回为n×len的一个矩阵,每一行都是一帧数据。
第三章语音信号的短时时域分析 ppt课件

38
38
数字语音处理及MATLAB仿真 张雪英编著
女声“我到北京去”的短时平均过零次数的变化曲线:
第三章语音信号的短时时域分析
39
39
数字语音处理及MATLAB仿真 张雪英编著
3. 应用
清音过零率高,浊音过零率低。 局限性:浊音和清音重叠区域只根据短时平均 过零率不可能明确地判别清、浊音。
清音
浊音
4
4
数字语音处理及MATLAB仿真 张雪英编著
3.1 概述
语音信号是一种非平稳的时变信号,它携带 着各种信息。在语音编码、语音合成、语音识别 和语音增强等语音处理中都需要提取语音中包含 的各种信息。
语音处理的目的:对语音信号进行分析,提 取特征参数,用于后续处理;加工语音信号。
总之,语音信号分析的目的就在于方便有效 的提取并表示语音信号所携带的信息。
第三章语音信号的短时时域分析
2
2
精品资料
数字语音处理及MATLAB仿真 张雪英编著
• 你怎么称呼老师? • 如果老师最后没有总结一节课的重点的难点,你
是否会认为老师的教学方法需要改进? • 你所经历的课堂,是讲座式还是讨论式? • 教师的教鞭 • “不怕太阳晒,也不怕那风雨狂,只怕先生骂我
笨,没有学问无颜见爹娘 ……” • “太阳当空照,花儿对我笑,小鸟说早早早……”
0
10 20 30
40 50
60 70 80
每 10ms 内的过零数
第过三零章语率音概信号率的分短时布时域分析
40
40
数字语音处理及MATLAB仿真 张雪英编著
端点检测
端点检测目的:从包含语音的一段信号中确 定出语音的起点及结束点。
有效的端点检测不仅能使处理时间减到最少, 而且能抑制无声段的噪声干扰,提高语音处理的 质量。
语音信号短时分析.ppt

Z01 2N n 0 1Sg (Sw n (n) )Sg (Sw n (n1))
将Z应用于语音信号分析中
❖ 发浊音时,声带振动,因而声门激励是以此音调频 率为基频来使声道共振;尽管有若干个共振峰,但 其能量的分布集中于低于3KHz的频率范围内。
❖ 发清音时声带不振动,声道某部分阻塞产生类白噪 声激励,通过声道后其能量集中在比浊音时更高的 频率范围内。
0
-50
-100
-150 0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
Frequency domain 40
30
20
10
0
-10
-20 0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
语音信号的短时能量(语音信号强度 的度量参数)
❖ 在语音识别中正确的决定所要识别语音的起点、终 点对于提高识别率往往是重要的。
❖ 对于数字移动通信的手持机编译码器,在较长的无 声段应降低发射功率以节约其电池的消耗。
Hale Waihona Puke 语音有声和无声❖ 对于已经判定为语音段的部分,尚需决定其清音或 浊音,无论对于语音识别还是低速语音编译码器这 都是很重要的。这些问题可以概括为无声/有声判决 以及更细致的S/U/V判决。
N 1
Hann
w (n ) 0 .5 (1 c 2 os n( )0 ) ,n N 1 N 1
❖ 不同的窗口选择(形状、长度),将决定短时平均能量的性质。什么 样的窗口,其短时平均能量才能更好的反映语音信号的振幅变化哪?
语音信号处理PPT_第三章_语音信号分析

3.2 数字化和预处理
➢ 语音信号的数字化一般包括放大及增益控制、反混叠滤波、
采样、A/D变换及编码(一般就是PCM码);如下图:
语音信号
带通滤 波器
自动增益控制 (AGC)
模/数转换 (A/D)
脉冲编码 调 制 ( PCM )
存入计算机
➢ 预处理一般包括预加重、加窗和分帧等。 ➢ 分析和处理之前必须把要分析的要分析的语音信号部分从输
② R n (是k )偶函数 ,即 Rn(k)Rn(k)
③ 当k=0时,自相关函数有最大值,即 Rn(0)Rn(k)
并且 等R于n (确0 ) 定性信号序列的能量或随机序列的平均功率。
短时相关分析
右图中:N=401, Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。
但是在一个短时间范围内(一般认为在10-30ms的短时间内), 其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳 态过程,即语音信号具有短时平稳性。
不论是分析怎么样的参数以及采用什么分析方法,在按帧进 行语音分析,提取语音参数之前,有一些经常使用的、共同的短 时分析技术必须预先进行,如语音信号的数字化、语音信号的端 点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号 析的关键技术。
语音信号分析在语音信号处理中具有举足轻重的地位。
分类:
参数性质
时域分析 频域分析 倒谱域分析
分析方法
模型分析方法 非模型分析方法
简单、计算量小、 物理意义明确
感知特性 较好,更 为重要
依据语音信号 产生的数学模 型来分析和提 取表征这些模 型的特征参数
不进行模型化 分析
语音信号的短时频域分析

语音信号的短时频域分析目录一、内容简述 (2)二、基础知识 (2)2.1 语音信号处理基础 (3)2.1.1 语音信号的特点 (5)2.1.2 语音信号的数字表示 (6)2.2 频域分析介绍 (7)三、短时傅里叶变换 (8)3.1 STFT的基本原理 (9)3.2 STFT的应用场景 (10)3.3 窗函数的选择和影响 (11)四、短时傅里叶变换的变体 (12)4.1 连续小波变换 (13)4.1.1 CWT的基本概念 (14)4.1.2 CWT与STFT的比较 (15)4.2 离散小波变换 (16)4.2.1 DWT的基本概念 (18)4.2.2 DWT在语音信号处理中的应用 (19)五、短时频域特征提取 (20)5.1 梅尔频率倒谱系数 (21)5.1.1 MFCC的计算过程 (23)5.1.2 MFCC在语音识别中的作用 (24)5.2 谐波和基频估计 (26)5.2.1 基本周期分析与提取 (26)5.2.2 基频和共振峰的定位 (28)六、短时频域分析在实际中的应用 (29)6.1 语音增强 (30)6.2 语音去噪 (32)6.3 说话人识别与语音合成 (33)七、总结 (35)7.1 短时频域分析方法总结 (36)7.2 语音信号处理领域的发展趋势 (37)7.3 下一步研究方向与思考 (38)一、内容简述语音信号的短时频域分析是语音处理领域中一项重要的技术,该技术主要通过对语音信号进行短时的时间窗口划分,然后在每个时间窗口内进行频域分析,从而提取语音信号的频率特性。
这种分析方法有助于我们理解语音信号在不同时间段的频率变化,对于语音识别、语音合成、音频信号处理等领域具有广泛的应用价值。
本文将详细介绍短时频域分析的基本原理、方法、步骤以及在实际应用中的效果评估。
通过本文的阅读,读者将能够了解如何对语音信号进行短时频域分析,从而深入理解和掌握这一技术的实际应用。
二、基础知识信号是信息传递的一种形式,可以是模拟的或数字的。
第三章_语音信号的特征分析

浊音和清音情况下典型的平均过零率的直方图
直方图的分布形状与高斯分布很吻合,而且浊音时 的短时平均过零率的均值为14过零/10ms,清音时 短时过零率的均值为47过零/10ms。注意到浊音和 清音有一个交叠区域,此时很难分清是浊音还是清 音,尽管如此,平均过零率仍可以粗略的判断清音 和浊音。
35语音信号的短时自相关函数假设一段加窗语音信号非零区间为n0n1的自相关函数称为语音信号的短时自相关函数自相关函数是偶函数在l0处取得最大值且值为短时能量如果sn是周期的则rl也是周期的且周期等于sn的周期36浊音和清音的自相关函数图浊音浊音清音37半周期错误2倍周期错误由自相关函数图判断浊音的周期38为了减少这种错误可以先将语音信号进行中心削波处理再求自相关函数39中心削波处理前后的语音信号及其自相关函数40短时自相关函数的特点浊音是周期信号浊音的短时自相关函数也呈现明显的周期性自相关函数的周期就是浊音信号的周清音接近于随机噪声请音的短时自相关函数不具有周期性且随着l的增大迅速减小
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
0
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择,将决定短时语音分析结果的好坏
数据率(kB/s) (未压缩)
频率范围
8
300~3400 Hz
语音信号的短时分析

实验一语音信号的短时分析一、实验目的1.在理论学习的基础上,进一步地理解和掌握语音信号短时分析的意义,短时时域分析的基本方法。
2.进一步理解和掌握语音信号短时平均能量函数及短时平均过零数的计算方法和重要意义。
二、实验原理及方法一定时宽的语音信号,其能量的大小随时间有明显的变化。
其中清音段(以清音为主要成份的语音段),其能量比浊音段小得多。
短时过零数也可用于语音信号分析中,发浊音时,其语音能量约集中于3kHz以下,而发清音时,多数能量出现在较高频率上,可认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数,因而,对一短时语音段计算其短时平均能量及短时平均过零数,就可以较好地区分其中的清音段和浊音段,从而可判别句中清、浊音转变时刻,声母韵母的分界以及无声与有声的分界。
这在语音识别中有重要意义。
三、实验仪器微型计算机,Matlab软件环境四、实验步骤1.上机前用Matlab语言完成程序编写工作。
2.程序应具有加窗(分帧)、计算、以及绘制曲线等功能。
3.上机实验时先调试程序,通过后进行信号处理。
4.对录入的语音数据进行处理,并显示运行结果。
5.依据曲线对该语音段进行所需要的分析,并作出结论。
6.改变窗的宽度(帧长),重复上面的分析内容。
五、操作步骤所用语音信号文件名为"shop.wav",拷贝到MATLAB工作目录。
Matlab编程实验步骤:1.新建M文件,扩展名为“.m”,编写程序;2.选择File/Save命令,将文件保存在F盘中;3.在Command Window窗中输入文件名,运行程序;Matlab部分函数语法格式:读wav文件:x=wavread(`filename`)数组a及b中对应元素相乘: a.*b创建图形窗口命令:figure绘图函数:plot(x)坐标轴:axis([xmin xmax ymin ymax])坐标轴注解:xlabel(`…`)ylabel(`…`)图例注解:legend( `…`)一阶高通滤波器: y=filter([1-0.09375],1,x)voicebox工具箱介绍:分帧函数:f=enframe(x,len,inc)x为输入语音信号,len指定了帧长,inc指定帧移,函数返回为n×len的一个矩阵,每一行都是一帧数据。
语音信号时域分析

基于MATLAB 分析语音信号时域特征钱平(信号与信息处理 s101904010)一、时域特征实验原理及实验结果分析1.窗口的选择通过对发声机理的认识,语音信号可以认为是短时平稳的。
在5~50ms 的范围内,语音频谱特性和一些物理特性参数基本保持不变。
我们将每个短时的语音称为一个分析帧。
一般帧长取10~30ms 。
我们采用一个长度有限的窗函数来截取语音信号形成分析帧。
通常会采用矩形窗和汉明窗。
图1给出了这两种窗函数在帧长N=50时的时域波形。
0.20.40.60.811.21.41.61.82矩形窗samplew (n )0.10.20.30.40.50.60.70.80.91hanming 窗samplew (n )图1 矩形窗和Hamming 窗的时域波形矩形窗的定义:一个N 点的矩形窗函数定义为如下()⎩⎨⎧<≤=其他001Nn n whamming 窗的定义:一个N 点的hamming 窗函数定义为如下()⎪⎩⎪⎨⎧<≤--=其他00)12cos(46.054.0Nn N n n w π 这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;汉明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。
因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。
表1对比了这两种窗函数的主瓣宽度和旁瓣峰值。
00.10.20.30.40.50.60.70.80.91-80-60-40-200矩形窗频率响应归一化频率(f/fs)幅度/d B00.10.20.30.40.50.60.70.80.91-100-50Hamming 窗频率响应归一化频率(f/fs)幅度/d B图2 矩形窗和Hamming 窗的频率响应表1 矩形窗和hamming 窗的主瓣宽度和旁瓣峰值2.短时能量由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。
语音信号处理-第03章 语音信号的时域分析方法

1 2 − 3x 2σ x
PL ( x) =
− 1 e 2σ x 2σ x
2x
二、零均值 三、非平稳时变信号;短时平稳:10~30ms
§3.2语音信号短时分析方法
语音信号的开窗分析技术: (1)均匀窗: (2)非均匀窗:各种国际标准 (3)重叠窗(Overlap) 设:语音信号为S(n),加窗语音记为 Sw(n) = W[S(n)] = S(n) w(n-m),n=0~(N-1) 则语音处理系统可表示为
5
基于能量和过零率的双门限法检测法
首先用短时能量做第一次判断,然后在此基础上 用短时平均过零率做第二次判断。 这种方法端点的确定与以后的判决无关,因此称 为显式法。
三、短时相关分析
短时自相关函数性质 • 1. R w( −l ) = R w(l ) 为偶函数; • 2. 在-N+1~N-1之间有值; • 3. R ( 0 ) = ∑ s ( n ) ≥ R ( k ) 为最大值。 • 4.当时域信号为周期信号时,自相关函 数也是周期性函数,两者周期相同。 浊音:呈现‘准’周期性、逐渐衰减
300
350
400
450
女声汉语拼音a的一帧信号(在采样频率为 22050Hz的情况下,取20ms作为一帧),短 时过零率为46。
0 .3
0 .2
0 .1
0
-0 . 1
-0 . 2
-0 . 3
-0 . 4
0
50
100
150
200
250
300
350
400
450
男声汉语拼音s的一帧信号(在采样频率为 22050Hz的情况下,取20ms作为一帧),短 时过零率为183。
语音信号处理课件-语音信号的特性分析_10

t
n
ZCR
对于语音信号,是宽带非平稳信号,应考察其短 时平均过零率。
Z n
1 2
N 1 m0
s
gn[xn
(m)]
s
gn[x
n
(m
1)]
sgn[.]为符号函数
sgn(x(n))=1 x(n)0 sgn(x(n))= -1 x(n)<0
3、短时平均过零的作用
1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。
T
-T
三、短时相关分析
1.相关分析的依据:
用于确定两个信号在时域内的相似性。常用的 物理量为自相关函数和互相关函数。当两个信号 的互相关函数大时,则说明一个信号可能是另一 个信号的时间滞后或提前;当互相关函数为0时, 则两个信号完全不同。
自相关函数用于研究信号本身,如波形的同步性 和周期性。
利用信号的相关性达到消除噪声的目的 主信号s+n0,为有用信号s(来自信号源)和一
减少这些干扰可以有两种方法:一种是采用带通滤 波器消除信号中的直流和50Hz低频分量;
x(n)
Hb(ejw) w
Bandpass filte Hb
y(n)
另一种是用过门限率来修改过零率,减少随机噪声 的影响。
过门限率反映了穿过正负门限的次数,如果存在随 机噪声,只要信号没有超过[-T,T]的范围,就没有有 过零率产生。
xn (m) w(m)x(n m) 0 m N 1 N为帧长
1 w(m) 0
0 m N 1 others
n 0,1T,2T,....,
T为帧移长度
N 1
En xn2 (m)
m0
N 1
第3章时域分析

第三章时域分析刘健副教授liujian@课件下载地址:课件下载地址voicesp2013@/voicesp123456北京科技大学3.1 语音分析方法概述语音分析是语音合成及语音识别的基础。
短时分析技术——贯穿语音分析全过程语音分析的三种方法:(1)时域分析法——时域波形图。
(2)频域分析法——频谱图。
(2)频域分析法频谱图(3)语谱分析法——语谱图。
(1)时域分析法语音的时域分析采用时域波形图。
坐是,纵坐是。
横坐标是时间,纵坐标是幅值。
(2)频域分析法频域分析包含:语音信号的频谱、功率包含信的率谱、倒频谱、频谱包络、短时间谱等。
常用的频域分析方法有:a带通滤波器组法a.带通滤波器组法。
b.傅里叶变换法。
c.线性预测法等。
(3)语谱分析法语谱分析法是另种用于语音分析的有效方语谱分析法是另一种用于语音分析的有效方法。
语谱分析法始于20世纪40年代,当时研制成功语谱仪,能生成语谱图。
语谱图可以在二维(时间及频率)图上表示音强的关系,提供了有关不同时间不同频率的相对音强的有价值的信息。
对音强的有价值的信息3.2 语音的时域分析三种常用的时域分析方法:三种常用的时域分析方法(1)过零分析(2)幅度分析/能量分析(3)相关分析3.2 语音信号数字化-采样量化语音信号数字化采样量化采样:一个数字信号取样之后,变成离散时间信号,接下来就是要用数字方式来表示这个离散时间信号上的每个取样值的每个取样值。
量化:一个电位波形会有固定的电压范围,一个取样值可以是在此电压范围内的任何电位。
如果只能用固值可以是在此电压范围内的任何电位如果只能用固定数目的位来表示这些取样值,那么这些二进数字就只能代表固定的几个电位值,这个转换就是量化只能代表固定的几个电位值这个转换就是量化(quantization),而转换之后只允许存在的几个电位值(quantization level)就是量化阶数(quantization level)。
语音信号的短时频域分析耿李广

本科毕业设计题目语音信号的短时频域分析学院信息工程学院专业电子信息工程班级081信工3班学号200883097姓名耿李广指导老师殷仕淑2012 年 5 月目录摘要 (1)第1章绪论 (3)1.1 课题的背景与意义 (3)1.2 国内外研究现状及发展趋势 (4)1.3 本文的仿真软件MATLAB (5)1.4 本文主要工作 (6)第2章语音信号的频域特点和抽样 (8)2.1 语音信号分析处理的一般流程 (8)2.2 语音信号的特点 (8)2.3 语音信号的抽样 (9)2.4 语音信号的分析技术 (11)第3章语音信号的频域分析 (12)3.1 语音信号分析的预处理 (12)3.2 利用短时博里叶变换求语音的短时谱 (13)3.3 语音信号的功率谱 (16)3.4 语音信号的语谱图 (17)3.5 复倒谱和倒谱 (19)第4章语音信号的综合仿真分析 (22)参考资料 (26)致谢 (27)附录 (28)语音信号的频域分析摘要语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。
其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。
将语音看为一种特殊的信号,即一种“复杂向量”来看待。
通过调用处理数字信号工具MA TLAB里的命令函数,利用数字信号处理的知识来解决问题。
像给一般信号做频谱分析一样,也分析了语音信号的频谱。
本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过PC机录制自己的一段声音,运用MATLAB进行仿真分析。
关键词:语音信号;频域分析;MA TLABSpeech signal analysis in frequency domainAbstractSpeech signal acquisition and analysis techniques are a wide range of cross-scientific,Its application and development of voice study, sound measurement study, electronic measuring technology, and digital signal processing disciplines, such as close contact. Collection and analysis of voice one of the small-scale equipment, intelligence, digital and multi-functional development of more and more quickly, faster than the previous analysis has been substantially high. The voice is taken as a special signal, a complex vector. By using the command functions in the digital signal processing tool-MATLAB, the digital signal processing can solve many problems. The spectrum of voice signals are analyzed, which is the same as the spectrum analysis of common signals. This paper introduces the voice signal acquisition and analysis of the history of the development, as well as the characteristics of speechsignal,Collection and analysis methods,Recording machine through the PC section of my own voices,the use of MA TLAB for simulation analysis.Keywords:audio signal,acquisition and analysis,MATLAB第1章绪论随着现代计算机技术的普及和发展,数字电子产品的使用越来越深入到人们的日常生活中。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
m n ( N 1 )
n
[ x ( m ) w ( n m )]
2
当窗函数为矩形窗时,有
En
m n ( N 1 )
ห้องสมุดไป่ตู้
x
n
2
(m)
23
数字语音处理及MATLAB仿真 张雪英编著
若令
h(n) w2 (n)
则短时平均能量可以写成:
En
m
x
2
(m)h(n m) x (n) h(n)
1
设n时刻的语音采样值为x(n) ,经过预加重处理后 的结果为
y(n) x(n) x(n 1)
8
数字语音处理及MATLAB仿真 张雪英编著
高通滤波器的幅频特性和相频特性如下
9
数字语音处理及MATLAB仿真 张雪英编著
预加重前和预加重后的一段语音信号时域波形
10
数字语音处理及MATLAB仿真 张雪英编著
2
x(n)
(.)2
x2(n) h(n)
En
图 3.7
语音信号的短时平均能量实现方框图
24
数字语音处理及MATLAB仿真 张雪英编著
2. En特点:En反映语音信号的幅度或能量随时间缓 慢变化的规律 。 3. 窗的长短对于能否由短时能量反映语音信号的幅 度变化,起着决定性影响。 如果窗选得很长,En不能反映语音信号幅度变化。 窗选得太窄,En将不够平滑。 通 常 , 当 取 样 频 率 为 10kHz 时 , 选 择 窗 宽 度 N=100~200是比较合适的。
13
数字语音处理及MATLAB仿真 张雪英编著
图3.3给出了帧移与帧长示意图。
14
数字语音处理及MATLAB仿真 张雪英编著
加窗常用的两种方法:
矩形窗,窗函数如下:
1 w(n) 0 0 n N 1 其它
汉明(Hamming)窗,窗函数如下
2πn / N 1 , 0n N 0.54 0.46 cos w(n) 其它 0
∞
时域离散随机信号的自相关函数定义为:
R k lim
N
1 2N 1
m N
x m x m k
N
周期为P的周期信号满足: R k R k P
39
数字语音处理及MATLAB仿真 张雪英编著
自相关函数具有下述性质: (1) (2) (3) 对称性 R(k)= R(-k) 在k = 0处为最大值,即对于所有k来说,
x(n)
| |
.
|x ( n )| w(n) Mn
图 3.9
短时平均幅度
Mn与En的比较:
1. Mn能较好地反映清音范围内的幅度变化; 2. Mn所能反映幅度变化的动态范围比En好; 3. Mn反映清音和浊音之间的电平差次于En。
30
数字语音处理及MATLAB仿真 张雪英编著
短时平均幅度函数随矩形窗窗长N变化的情况
e
x2 max
e
7
数字语音处理及MATLAB仿真 张雪英编著
3.2.1 语音信号的预加重处理
有了语音数据文件后,对语音的预处理包括: 预加重、加窗分帧等。
预加重目的:为了对语音的高频部分进行加重, 去除口唇辐射的影响,增加语音的高频分辨率。 可通过一阶FIR高通数字滤波器来实现:
H ( z) 1 z
12
数字语音处理及MATLAB仿真 张雪英编著
语音信号的分帧实现方法: 采用可移动的有限长度窗口进行加权的方法 来实现的。一般每秒的帧数约为33~100帧。
分帧一般采用交叠分段的方法,这是为了使 帧与帧之间平滑过渡,保持其连续性。前一帧和 后一帧的交叠部分称为帧移,帧移与帧长的比值
一般取为0~1/2。
sgn x n sgn x n 1 * wn
32
数字语音处理及MATLAB仿真 张雪英编著
1 w n 2N 0
0 n N 1 其它
及
1 sgn x(n) -1
x ( n) 0 x (n) 0
女声“我到北京去”的短时平均过零次数的变化曲线:
36
数字语音处理及MATLAB仿真 张雪英编著
3. 应用
清音过零率高,浊音过零率低。
局限性:浊音和清音重叠区域只根据短时平均 过零率不可能明确地判别清、浊音。
清音
浊音
0
10
20
30
40
50
60
70
80
每 10ms 内的过零数 过零率概率分布
37
数字语音处理及MATLAB仿真 张雪英编著
fclose(fid);
4、对采集到的语音样点值进行分帧。
28
数字语音处理及MATLAB仿真 张雪英编著
3.4
短时平均幅度函数
为了克服短时能量函数计算x2 ( m ) 的缺点, 定义了短时平均幅度函数:
Mn
m
| x(m) | w(n m)
29
数字语音处理及MATLAB仿真 张雪英编著
25
数字语音处理及MATLAB仿真 张雪英编著
不同矩形窗长N时的短时能量函数
26
数字语音处理及MATLAB仿真 张雪英编著
短时平均能量的主要用途如下:
1)可以作为区分清音和浊音的特征参数。 2)在信噪比较高的情况下,短时能量还可以作为 区分有声和无声的依据。 3)可以作为辅助的特征参数用于语音识别中。
Qn
m
T [ x(m)]h(n m)
21
数字语音处理及MATLAB仿真 张雪英编著
几种常见的短时处理方法是:
h(n) w (n) Qn 对应于能量; 1. T[ x(m)] x (m),
2 2
h(n) w(n) 2. T[ x(m)] sgn[x(m)] sgn[x(m 1)], Qn 对应于平均过零率;
预加重前和预加重后的一段语音信号频谱
11
数字语音处理及MATLAB仿真 张雪英编著
3.2.2 语音信号的加窗处理
由于发音器官的惯性运动,可以认为在一小 段时间里(一般为 10ms~30ms )语音信号近似不 变,即语音信号具有短时平稳性。这样,可以把 语音信号分为一些短段(称为分析帧)来进行处
理。
27
数字语音处理及MATLAB仿真 张雪英编著
MATLAB的具体实现如下 : 1、用Cooledit读入语音“我到北京去”。 2、将读入的语音文件wav保存为txt文件,设置采样 率为8kHz,16位,单声道。
3、把保存的文件zqq.txt读入Matlab。
fid=fopen('zqq.txt','rt'); x=fscanf(fid,'%f');
窗长的选择
一般选取100~200(应含1~7个基音周期)。原 因如下: 当窗较宽时,平滑作用大,能量变化不大, 故反映不出能量的变化。 当窗较窄时,没有平滑作用,反映了能量的 快变细节,而看不出包络的变化。
20
数字语音处理及MATLAB仿真 张雪英编著
语音信号的分帧处理,实际上就是对各帧进行 某种变换或运算。设这种变换或运算用T[ ]表示, x(n)为输入语音信号,w(n)为窗序列,h(n)是与w(n) 有关的滤波器,则各帧经处理后的输出可以表示为:
3.1 概述
语音信号是一种非平稳的时变信号,它携带 着各种信息。在语音编码、语音合成、语音识别 和语音增强等语音处理中都需要提取语音中包含 的各种信息。 语音处理的目的:对语音信号进行分析,提 取特征参数,用于后续处理;加工语音信号。
总之,语音信号分析的目的就在于方便有效 的提取并表示语音信号所携带的信息。
2
数字语音处理及MATLAB仿真 张雪英编著
根据所分析的参数类型,语音信号分析可以 分成时域分析和变换域(频域、倒谱域)分析。 其中时域分析方法是最简单、最直观的方法,它 直接对语音信号的时域波形进行分析,提取的特 征参数主要有语音的短时能量和平均幅度、短时 平均过零率、短时自相关函数和短时平均幅度差 函数等。
15
数字语音处理及MATLAB仿真 张雪英编著
矩形窗及其频谱如下
16
数字语音处理及MATLAB仿真 张雪英编著
汉明窗及其频谱如下
17
数字语音处理及MATLAB仿真 张雪英编著
思考:两种窗效果有何异同?
f 01
fs N
18
数字语音处理及MATLAB仿真 张雪英编著
加窗方法示意图:
19
数字语音处理及MATLAB仿真 张雪英编著
|R(k)|≤R(0)
对于确定信号,R(0)对应于能量
对于随机信号,R(0)对应于平均功率
40
数字语音处理及MATLAB仿真 张雪英编著
3.6.2 语音信号的短时自相关函数
采用短时分析方法,定义语音信号短时自相关函数为
Rn k
m
x m w n m x m k w n k m
(定义式)
34
数字语音处理及MATLAB仿真 张雪英编著
2. 实现短时平均过零率
x(n) Sgn[ . ]
+1
1
-1
Sgn[x(n) ]
一阶差分 sgn[xn] -sgn[xn-1]
取绝对 值
│.│
低通滤波 h(n)=w(n)
Nn
图 3.11 语音信号的短时平均跨零数
35
数字语音处理及MATLAB仿真 张雪英编著
在上式中,用1/2N 作为幅值,是考虑了对该窗口范 围内的过零数取平均的意思。