语音信号的特征分析共77页文档
语音信号的时域特征分析
中北大学
课程设计说明书
学生姓名:蒋宝哲学号: 24
学生姓名:瓮泽勇学号: 42
学生姓名:侯战祎学号: 47
学院:信息商务学院
专业:电子信息工程
题目:信息处理实践:语音信号的时域特征分析指导教师:徐美芳职称: 讲师
2013 年 6 月 28 日
中北大学
课程设计任务书
2012-2013 学年第二学期
学院:信息商务学院
专业:电子信息工程
学生姓名:蒋宝哲学号: 24 学生姓名:瓮泽勇学号: 42 学生姓名:侯战祎学号: 47 课程设计题目:信息处理实践:语音信号的时域特征分析起迄日期: 2013年6 月7日~2013年6月 28 日
课程设计地点:学院楼201实验室、510实验室、608实验室指导教师:徐美芳
系主任:王浩全
下达任务书日期: 2013 年 6 月 7 日
课程设计任务书
课程设计任务书
语音信号的采集与分析
摘要
语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过PC机录制自己的一段声音,运用Matlab进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。
关键词:语音信号,采集与分析, Matlab
0 引言
通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能.声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。
第08章 语音信号特征参数
第八章语音信号特征参数
8.1 概述
语音信号是十分复杂的非平稳信号,它不仅包含语义信息,还有个人特征信息,对其特征参数的研究是语音识别的基础。换句话说,特征参数应能完全、准确地表达语音信号。那么特征参数也应能完全、准确地表达语音信号所携带的全部信息。实验语音学的研究从语音信号本质上给出的特征参数是科学的、合理的,但是不完全的。在元音的特征研究较深入,对辅音的研究相对较弱,对辅音、元音之间的过渡就更弱,而这一部分恰好是含信息量最大、最难处理的。
本章介绍语音信号的九种特征参数及其提取算法,是从不同的角度对语音信号研究的结果,是可行的、有效的,但不是万能的。值得提请读者注意的是,某些算法对一些应用表现很好,但对另一些应用可能表现不佳。应该说我们对语音信号的本质认识还不够深入,也就是我们对语音信号的发音机理、心理,听觉机理、心理,语义的社会性等方面缺乏深入研究,更谈不上多学科综合研究。尽管如此,现有的这些特征参数在语音识别中起着重要作用。
8.2基音周期Equation Chapter 8 Section 2
基音周期(Pitch)(或基音频率)是指发浊音时声带震动所引起的周期性,基音周期也F的倒数,它不仅是语音信号分析的一个重要参数,也是语音产生的数字是声带振动频率
模型中激励源的一个重要参数,它携带着非常重要的具有辨意信息,因此它的检测和估计是语音处理中一个十分重要的问题[1]。
基音检测的主要困难在于:(1)语音信号变化十分复杂,声门激励波形并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清浊音的过渡帧是很难判断它应属于周期性还是非周期性,从而也就无法估计出基音周期。(2)要从语音信号中去除声道影响,或者直接去除仅和声带振动有关的音源信息并非容易的事,例如声道共振峰有时会严重影响音源的谐波结构。(3)在浊音段很难精确地确定每个基音周期的开始和结束位置,这不仅因为语音信号本身是准周期的(即音调是有变化的),而且因为波形的峰或过零受共振峰结构、噪声等影响。(4)基音周期变化范围较大,从低音男生的70Hz直到女孩的500Hz,也给基音周期检测带来了一定的困难。
语音信号的基础知识课件
语音识别
将语音信号转换为文字,以便进行 后续分析和处理。
自然语言处理
通过分析文本信息,理解其含义和 上下文,实现人机交互和智能问答 等功能。
04 语音合成与识别技术
语音合成技术
语音合成技术概述
语音合成技术是一种能够将文本转换 为语音的技术。它通过分析语言学、 语音学和计算机科学等多个领域的知 识,将文本转化为自然语音输出。
语音信号的采集
语音信号的采集是指将现实世界 中的语音转换成可以被计算机处
理和识别的数字信号的过程。
在采集语音信号时,通常使用麦 克风等声学设备将声音转换成电 信号,再通过模数转换器(ADC
)将电信号转换成数字信号。
采集语音信号时需要考虑音质、 采样率和量化精度等因素,这些 因素将直接影响语音识别的效果
语音信号的编码与解码是指将数字语 音信号转换成可以在通信网络中传输 的格式,以及将传输后的信号还原成 原始数字语音信号的过程。
解码则是编码的反过程,即将压缩后 的语音数据还原成原始的数字语音信 号。解码过程需要使用相应的解码算 法和程序。
常见的语音编码格式包括:波形编码 、参数编码和混合编码等。不同的编 码格式具有不同的特性和适用场景。
度和效率。Leabharlann Baidu
智能助手
智能助手是人工智能领域的重要 应用之一,通过语音交互,智能 助手可以帮助用户完成各种任务 ,如设置提醒、查询信息、控制
语音信号的处理与识别
语音信号的处理与识别
前言
语音信号是日常生活中我们最常接触的信息载体之一。它不但是人类表达思想、交流信息的主要方式,还具有实现人机交互、智能家居控制等方面的实用价值。因此,语音信号的处理和识别一直是语音领域研究的热点之一。本文将从语音信号起源、基本特征和语音信号处理技术方向几个方面来介绍语音信号的处理和识别。一、语音信号起源
人类语音活动的起源可以追溯到数百万年前的早期人类。随着人类社会的发展,语音演化成为一种由音素组成的语言系统。语音信号是指声音在空气中传播所产生的声波,其频率范围在20 Hz 至20 kHz之间。声波在传递时会受到各种噪声的影响,如环境噪声和语言本身的多音节、口音等。这些因素的影响会增加语音信号的复杂程度,限制语音信号的处理和识别效率和精度。
二、语音信号的基本特征
1、时域特征
时域特征是指语音信号在时间轴上的特征。语音信号的基本单元是音素和音节,声学上可分为短时幅度、短时频率等特征。这些特征反映着语音信号中的音调、音长、音量等基本要素。
2、频域特征
频域特征是指语音信号在频域上的特征。语音信号的主要频谱成分是心音频率(F0)、共振频率(嘴唇、鼻音等)和嘈杂频率。这些特征反映了语音信号在不
同频率段中的特性。
3、语音特征提取
为了实现语音信号的自动处理和识别,需要先进行语音特征提取。常见的语音
特征提取方式有短时傅里叶变换(Short-time Fourier transform,STFT)、梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)、线性预测编码(Linear prediction coding,LPC)等。这些方式可以从时间或者频率维度上提取语音信号中的特征,为后续的语音处理和识别打下基础。
语音的声学特征
语音的声学特征
语音的声学特征是指各种语音音频信号在声学上的特征。这些特征是通过语音信号的产生、传输和接收过程中的声学效应所产生的。在理解语音的声学特征时,需要考虑到语音的基本单位——音素,以及声学参数——频率、幅度、时长、共振等等。
一、音素
语音信号是由一系列较小的语音单元构成的。这些单元被称为音素。音素是语音的最小基本单位。它们被用来构建单词、短语和句子。音素有两种类型:元音和辅音。元音由良好的声音质量和长短程度特征定义;辅音由有息音、无息音和破裂音组成。
二、频率
声波的频率是指一个声音波形中每秒的震荡周期数。它的单位是赫兹(Hz)。人类能够听到的最低频率大约是20 Hz,最高频率约为20 kHz。音素的声学特征与其所包含的频率成正比。例如,元音的声学特征被定义为频率范围内声波的振幅和共振特征。辅音的声学特征则取决于它们所包含的频率成分以及这些成分与元音的相对幅度和时序关系。
三、幅度
幅度是声波在传播过程中能量的大小。它的单位是分贝(dB)。在语音中,幅度通常用来表征语音的响度和音量。音素的声学特征与其所包含的幅度成正比。例如,元音的声学特征被定义为声波在不同频率下的幅度响应,其中声波幅度随着频率的上升而降低。辅音的声学特征则取决于有息音和无息音间幅度的大小关系,以及破裂音的起始时刻的幅度峰值大小。
四、时长
时长是声音的持续时间,以秒为单位(s)。在语音中,时长通常用于描述元音的持续时间和辅音的持续时间。音素的声学特征与其时长有关。例如,元音的声学特征被定义为其始音、高峰和次谷之间的时长;辅音的声学特征则被定义为其始音和尾音之间的时长。
第三章-语音信号的特征分析讲解讲解学习
0.4
0.2
0
1
矩形窗
0.8
Amplitude
0.6
0.4
0.2
0
Time domain
10
20 Tim3e0domain40
50
60
Samples
10
20 Tim3e0domain40
50
60
Samples
10
20
30
40
50
60
Samples
Magnitude (dB)
Magnitude (dB)
❖ 其次是窗口的形状,不同的窗,其频率特性是不一样的,这 在短时频域分析时尤为重要。
窗口的形状和长度对分析影响很大,不同的分析方法对窗函数 的要求不尽一样。பைடு நூலகம்
窗函数频谱的主瓣与旁瓣
❖ 主瓣:
主瓣宽度控制频谱分析的频率分辨率,主瓣越窄,频率 分辨率越高
❖ 矩形窗的主瓣宽度 = fs/N ❖ hamming窗的主瓣宽度 约为 2fs/N
0
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
语音信号的时域及频域特征
h [ n r ] x[m]w[r m]e jm e jn d m rS
1 x[m] 2 m
j ( nm ) d h[n r ] w[r m] e rS
rS
jn
d
(9)
公式(8)中的 短时谱。
h[n r ] X (r , ) 项可以理解为利用插值滤波器 h[r ] 得到在 n 时刻的
rS
9
证明:
右边
1 2
e h[n r ] X (r, )
rS
jn
d
1 2
5
2.1.2. 语音的短时能量、短时平均幅度和短时过零率
(1)短时能量:
E s 2 ( n)
n0
N 1
( 1)
(2)短时平均幅度: M (3)短时过零率:
s ( n)
n 0
N 1
( 2)
N 1 Z1 2 sgn[ s ( n)] sgn[ s ( n 1)] n0 1 x0 其中sgn[ n] 1 x 0
16
图 3. 浊音信号的傅立叶分析谱
17
3.4.3. 元音三角形图
所谓的元音三角形图就是指不同元音的 F1、F2 共振峰频率在平面图上的关系。
语音信号的识别与分析技术
语音信号的识别与分析技术
语音信号是我们日常交流中最为普遍和基础的通信手段,随着科技的不断发展,越来越多的人工智能设备和人机交互系统也采用语音作为信息输入和输出的方式,语音信号的识别与分析技术也越来越成为了一个重要的研究领域。
语音信号的识别可以分为语音识别和说话人识别两种。语音识别是指将说话人
说的语音信号转化为文本或命令等符号组合的技术,它是现代人机交互和自然语言处理的基础;而说话人识别是指通过对语音信号中的说话人身份进行识别,从而实现区分不同说话人的功能。
语音信号的分析则是指对说话人语音信号的声学和语言特征进行分析,以提取
有效信息的技术。从声学角度来说,语音信号的分析可以分别在时域和频域上进行。在时域上,可以利用数字信号处理技术对语音信号进行连续采样,并对其物理特性(如频率、振幅、波形等)进行分析;在频域上,可以将语音信号转化为频域信号,
并利用现代声学理论对其进行分析。
在语言学角度来说,语音信号分析的主要任务是对语音信号中的语言信息进行
抽取和处理。语音信号中的语言信息包括音位、音节、单词和语调等。而对于这些语言信息的抽取和处理,则需要运用到语言学理论、音韵学和自然语言处理等相关技术。
除了语音识别和说话人识别以外,语音信号的识别和分析技术还能够应用于很
多其他领域。例如,通过语音识别技术的应用,可以实现智能家居、手写识别、虚拟助手等人工智能设备的语音交互功能;通过说话人识别技术的应用,可以实现声纹识别、安全认证等方面的应用;而通过语音分析技术的应用,则可以实现情感分析、语音合成等应用。
语音信号
完整的语音信号产生的数字模型
我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部 分:激励模型、声道模型、辐射模型。
模型
wenku.baidu.com
声道模型
激励模型
辐射模型
a.浊音激励:气流在通过绷紧声带时,冲激声带产生振动,使声门处形成周期性的脉冲串,并用它去激励声 道。由于脉冲串类似于斜三角形的脉冲,故以基音周期为周期的单位取样序列串作为激励。
基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数(此 处去掉就是基音周期的定义)。人类基音频率的范围在80~500Hz左右。
共振峰(Fn,n=1,2,...):声道是一个谐振腔,它放大声音气流的某些频率分量而衰减其他频率分量,被放大 的频率我们称之为共振峰或共振峰频率。
基本概念
语音产生的过 1
程
2
声音的分类
3 语音的两个重
要声学特性
4
共振峰特性
5 完整的产生的
数字模型
语音的形成过程:空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。
1、浊音:声带绷紧,气流通过时会使得开口变成一开一闭的周期性动作,造成周期性的激发气流,如a,o; (由声带震动产生的音),包括所有的元音和一些辅音。 2、清音:声带完全舒展,声道某部位收缩形成一个狭窄的通道,产生空气湍流,如t,d; (不由声带震动产生的音) 3、爆破音:声带完全舒展,声道的某部位完全闭合,一旦闭合点突然开启,空气压力快速释放,如b,p。
语音识别技术中的特征提取
语音识别技术中的特征提取
语音识别技术是一种将人类语音转换为计算机可读的形式的技术。在语音识别技术中,特征提取是一个非常重要的步骤。特征提取是将语音信号转换为数字信号的过程,这些数字信号可以被计算机处理和识别。本文将介绍语音识别技术中的特征提取。
一、语音信号的特征
语音信号是一种连续的信号,它包含了许多信息,如音高、音量、语速、音调等。在语音识别技术中,我们需要从语音信号中提取出这些信息,以便计算机可以理解和识别它们。为了实现这一目标,我们需要对语音信号进行特征提取。
二、语音信号的特征提取
语音信号的特征提取是将语音信号转换为数字信号的过程。这个过程包括以下步骤:
1. 预加重
预加重是语音信号的第一步处理。它的目的是增强高频信号,减少低
频信号。预加重可以通过滤波器实现。
2. 分帧
分帧是将语音信号分成若干个短时段的过程。这个过程可以通过将语音信号分成若干个固定长度的帧来实现。每个帧的长度通常为20-30毫秒。
3. 加窗
加窗是对每个帧进行处理的过程。它的目的是减少帧之间的干扰。加窗可以通过将每个帧乘以一个窗函数来实现。
4. 傅里叶变换
傅里叶变换是将时域信号转换为频域信号的过程。在语音信号的特征提取中,我们使用短时傅里叶变换(STFT)来将每个帧转换为频域信号。
5. 梅尔滤波器组
梅尔滤波器组是一组滤波器,它们被用来模拟人耳的感知特性。在语音信号的特征提取中,我们使用梅尔滤波器组来提取语音信号的频率
特征。
6. 离散余弦变换
离散余弦变换是将频域信号转换为频率系数的过程。在语音信号的特征提取中,我们使用离散余弦变换来提取语音信号的频率特征。
语音信号处理PPT_第三章_语音信号分析
增补K点 互相关
k K
其中:
m 0
x n ( m ) ( m ) x ( n m ), (0 k K )
x ' n ( m ) '( m ) x ( n m ), (0 k N 1 K )
(m )
1, 0,
m 0 ~ ( N 1) m 其它值
窗类型 矩形窗 汉明窗
旁瓣峰值 -13 -41
主瓣宽度 最小阻带衰减 4π/N 8π/N -21 -53
可以看出:汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大 一倍多。矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失;而汉明窗则相反,从 这一方面来看,汉明窗比矩形窗更为合适。
预处理
窗口的长度: 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列关系: Δf=1/NTs ,采样周期一定时,Δf随窗口宽度N的增加而减小, 即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取 短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应 该根据不同的需要选择合适的窗口长度。
n n
短时相关分析
右图中:N=401,Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。
第3章 语音信号分析(全)
20 10 0 -10 -20
Amplitude
0.4
0.2
0
0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
Time domain 50 1 0
Frequency domain
0.8
汉 明 窗
0.6
第3章 语音信号分析
63
51
图3-5 浊音语音和清音语音的自相关函数(N=401的矩形窗)
第3章 语音信号分析
1 0.5 0 -0.5 -1
x 10
4
1000 500 0 -500 -1000
0 x 10
9
50
100
150
200
250
300
350
400
450
0 x 10
7
50
100
150
200
250
第3章 语音信号分析
3.3.1 短时能量及短时平均幅度分析
短时能量
E n xn ( m )
2 m 0
N 1
短时平均幅度
度量幅度值 变化
M n xn ( m )
m 0
N 1
第3章 语音信号分析
语音信号分析图
1
2 3
024681012
x 104 -0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
原始语音信号波形图
00.51 1.52
x 104
-3未编码信号波形
时间
幅
值
4 5
01002003004005006007008009001000 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
PCM编码后信号
时间
幅
值
00.20.40.60.81 1.2 1.4 1.6 1.82
x 104 -5
-4
-3
-2
-1
1
2
3
4
5
x 10
-3PCM译码后信号
6 7
01002003004005006007008009001000 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
16QAM调制后的信号
时间
幅
值
01002003004005006007008009001000 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
16QAM解调后的信号
时间
幅
值
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
x 10
4
-0.025
-0.02-0.015-0.01-0.00500.005
0.010.0150.02
0.025PCM 编码后的信号经过16QAM 系统后进行译码后得到的信号波形
语音信号的特征分析
fs=10KHz或20KHz
帧和加窗的概念
短时分析将语音流分为一段一段来处理,每一段称 为一“帧”; 帧长:10~30; 帧移:0~1倍帧长,帧与帧之间的平滑过渡; 语音识别中常用的帧长为20~30ms,帧移为10ms
电话语音(固网电话通信频带为300-3400Hz) 可以基本保持语义,不影响人对语音的感知 质量不是很好,有时候会有变音
宽带语音信号:fs =16000Hz
一般对语音质量要求较高的场合 再提高采样频率也不会对语音质量有太多贡献
量化精度
量化所用比特越大,声音质量越好 声音质量也跟量化算法有关,比如同样用8bit量化, 非均匀量化(µ-律或A-律)就比均匀量化好很多
1
矩形窗
Amplitude
0.8
0.6
Magnitude (dB)
10 20 30 40 Samples 50 60
20 10 0 -10 -20
0.4
0.2
0
0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择,将决定短时语音分析结果的好坏
语音信号的时域和频域特征
16
3.4.
清音谱特征
清音的频谱无明显的规律,比较平坦。在语音识别中使用 统计模型的方法加以解决。
17
4. 基音与四声
4.1. 基音周期与基音频率
1) 基音的周期就是声带振动的周期。 基音周期的倒数就是 基音频率。 2)基音是与人的声带长度、质量等物理量有关。因此与人 的年龄、性别、情绪等生理状态有关。
这正是我们所希望的性质。
8
对于时域离散信号 x (n) ,短时傅立叶变换定义:
X n ( e jω ) =
m = −∞
∑ x(m) ⋅ w(n − m) ⋅ e
⎧1, 0 < n < N − 1 n = 其它 ⎩0,
∞
− jω m
这里 w(n ) 为窗函数。例如,常用的窗函数有 矩形窗: w(n) = ⎨ 汉明窗: w( n) = ⎨
5
3. 语音信号的短时谱特征
3.1. 短时傅立叶谱分析
对于能量受限的时域信号 f (t ) , 它的傅立叶变换可以写成
∞
ˆ f (ω ) =
−∞
∫ f (t ) ⋅ e
− jωt
以上这个傅立叶变换, “宏观上” 在 给出信号 f (t ) 的频谱信息, 但是却无法确定某个“局部”时间段频谱的确切信息。或者也 可以说, 我们不能通过观测局部的时域信号来了解整个 f (t ) 的 频谱信息。为此我们引入了所谓的短时傅立叶谱分析技术。
声音信号的特性
声音信号的特性
语言和音乐信号都是不规则的随机信号,由基频信号和各种谐波(泛音)成分组成。要“原汁原味”的重放这些随机的音频信号,扩声音响系统必须具有符合语言和音乐的平均特性。其中最重要的三个特性是平均频谱特性(频率响应特性)、平均声压级和声音的动态范围。
2.1.1 人声信号
人声是一种典型的随机过程,它与人的生理特点、情绪和语言内容等因素有关。
(1)语言基音的频率范围为130~350Hz,包括全部泛音(谐波)的频率范围为130~4000Hz。
(2)演唱歌声的频率范围比较宽,可分为男低音、男中音、男高音、女中音和女高音等5个声部。他们的基音范围从80~1100Hz,包括全部泛音(谐波)的频率范围可达80~8000Hz。5个声部的基音频率范围分别为:82~294Hz;110~392Hz;147~523Hz;
196~698Hz;262~1047Hz。
(3)声压级正常谈话时语言的声功率为1μW,大声讲话时可增加到1Mw.正常讲话时与讲话人相距1m时的平均声压级为65~69dB。
(4)动态范围语言的动态范围(最大声压级与最小声压级之差值)为30~40dB.
2.1.2 音乐信号
音乐信号的频谱范围更宽。它与乐器的类型有关。在乐器中管风琴具有最宽的基音范围,从16~9000Hz。其次是钢琴,它的基音频率范围为27.5~4136Hz。民族乐器的基音范围为100~2000Hz。打击乐器能产生更高频率的基音。所有的乐器都包含有丰富的高次谐波(泛音)。因此音乐的频谱范围可扩展到15000~20000Hz。
单个乐器的声功率在0.01~100mW的范围内。大型交响乐队的声功率可达到10W以上。15~18件乐器的乐队演出时,离声源10m处的平均声压级约为95dB.75件乐器的乐队演出时其平均声压级约为105dB.