第三讲 语音信号处理第3.1~3.4章
语音信号处理课件第三章

7
8
数字语音处理及MATLAB仿真 张雪英编著(李红莲修改并主讲)
3.1 概述
语音信号是一种非平稳的时变信号,它携带 着各种信息。在语音编码、语音合成、语音识别 和语音增强等语音处理中都需要提取语音中包含 的各种信息。 语音处理的目的:对语音信号进行分析,提 取特征参数,用于后续处理;加工语音信号。
x(n)
| |
.
|x ( n )| w(n) Mn
图 3.9
短时平均幅度
Mn与En的比较:
1. Mn能较好地反映清音范围内的幅度变化; 2. Mn所能反映幅度变化的动态范围比En好; 3. Mn反映清音和浊音之间的电平差次于En。
28
数字语音处理及MATLAB仿真
Qn
对应于自相关函数 ;
20
数字语音处理及MATLAB仿真 张雪英编著(李红莲修改并主讲)
3.3 短时平均能量
1.短时平均能量定义
定义n时刻某语音信号的短时平均能量En为:
En
[ x ( m ) w( n m )] m
2
N 1[)x ( m ) w( n m )] m n (
(定义式)
32
数字语音处理及MATLAB仿真 张雪英编著(李红莲修改并主讲)
2. 实现短时平均过零率
x(n) Sgn[ . ]
+1
1
-1
Sgn[x(n) ]
一阶差分 sgn[xn] -sgn[xn-1]
取绝对 值
│.│
低通滤波 h(n)=w(n)
Nn
图 3.11 语音信号的短时平均跨零数
33
数字语音处理及MATLAB仿真 张雪英编著(李红莲修改并主讲)
老师整理————语音信号处理复习知识点-11南理工

老师整理————语音信号处理复习知识点-11南理工§1.1 语音信号处理概述一、语音、语音信号处理的名词解释1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。
2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。
它与语音学、语言学、声学、认知科学、生理学、心理学有密切关系。
3、语音信号的数字处理的优点:第二页第四段二、语音学的名词解释语音学:与语音信号处理存在十分密切的关系,是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。
§1.2 语音信号处理的发展概况1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。
2、语音合成:语音合成的目的是使计算机能像人一样说话。
3、语音识别:语音识别是使计算机判断出所说的话的内容。
§2.2 语音产生的过程一、语音、清音、浊音1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。
语音是声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。
语音的振动频率最高可达15kHz左右。
2、浊音、清音:语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。
浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。
二、语音的产生过程(人体发出声音的基本过程):人类的语音是由人体发音器官在大脑控制下的生理运动产生的。
空气从肺部排出形成气流,冲击声带,如果声带是紧绷的,则则形成准周期性脉冲的空气流,产生“浊音”。
若声带完全舒展,则形成摩擦音或爆破音。
经过声道调制的空气流最后从口或鼻腔辐射出来,形成语音。
语音信号处理与现代语音通信PPT课件

.
第二章 语音信号的产生、特征与人耳的 听觉特性
☆临界频带这个参数提出的意义是可将人耳当
作一个并联的滤波器组,各个滤波器有不同 的带宽,分别对听觉作出不同的贡献
☆临界频带的单位一般用Bark来表示以纪念科
学家Barkhauseu。1 Bark用来指明一个临界 频带的频率宽度
☆若记Bark域的频率变量为b,赫兹(Hertz)域
第二章 语音信号的产生、特征与人耳的 听觉特性
60
50
强 度SPL(dB)
40
30
20
后向屏蔽区
10
前向屏蔽区
0
-100
-50
0
50
100
150
200
时 间 ( ms)
非同时掩蔽(时间掩蔽):. 纯音的非同时掩蔽现象
第二章 语音信号的产生、特征与人耳的 听觉特性
§2.5 人耳的各种听觉效应
哈斯(Hass)效应 双耳效应 鸡尾酒会效应
第一章 声音信号的分类与数字化
§1.4 声音信号的数字存储格式 WAV:数字音频波形格式,微软公司开发 VOC和DAT:多用于声霸卡等一些声音采集
程序的DOS软件环境,新加坡创新公 司开发 AU:工作站的UNIX环境下使用 MIDI:数字乐器合成器,多用于合成音乐 目前我们遇到的多数为.wav和.mid文件
社,1987 11、陈尚勤等 “语言信号数字处理” 电子科技大学出版社,1991 12、陈永彬, 王仁华 “语言信号数字处理” 中国科技大学出版社,
1990
.
参考文献
外文
1 、 R.P.Ramachandran, R.Mammane “Modern Methods of Speech Processing”, Kluwer Academic Publishers, 1995
《语音信号处理》讲稿第3章

A
口腔 B
ZL
返回
4.语音发送过程的电模型
数字模型与电模型的性能比较: ①用数字滤波器模拟语音发送过程的数字 模型,虽然不太精确,便却比较直观,它也是 研究中常用的一种模型。 ②用四端网络模型(电模型),可以比较 精确地计算在声道中的语音发送过程,但这种 方法,因不能直接确定共振峰在频段中的位置, 所以不太直观。
语音信号处理讲稿第3章田英章硬笔书法讲稿章早儿演讲稿遵章守纪演讲稿语音信号处理语音信号处理pdf语音信号数字处理语音信号处理matlab语音信号处理论文语音信号处理赵力
第3章 语音过程及其模型
本章主要讨论的问题: 本章主要讨论的问题:
1.语音过程的早期研究 2.语音发送过程的声学模型 3.语音发送过程的数字模型 4.语音发送过程的电模型 5.语音接收过程的电模型
包含唇辐射效应的终端数字模型
3.语音发送过程的数字模型
综上所述,根据声带、声道和唇辐射的数 字模型,可以建立语音发送过程的完整数字模 型。
语音发送过程的完整数字模型
4.语音发送过程的电模型
语音发送过程也可用电模型来表示。声道 的四端网络模型。
声道的四端网络模型
鼻腔 C
开关 Zn
喉腔
ZG UG
5.语音接收过程的电模型
语音的接收过程是人类对输入语音信号的 译码过程。一般认为,语音信号经过人的外耳、 中耳、内耳后,被传送到第8脑神经。然而, 至今为止,人们对语音信号在大脑中的译码过 程仍了解甚少。
3.语音发送过程的数字模型
语音发送过程的数字模型(或称“语 音信号产生的离散时域模型”),建立在语 音发送过程声学模型基础上,有利于语音合 成及语音识别技术的实用化。分如下三步逐 步建立。 (1)声激励数字模型 (2)声道传送数字模型 (3)唇辐射数字模型
语音信号处理 第3版——第3讲

并输出总失真 D ( m ) 为了避免迭代算法无限制循环下去,这里设置了两个 阈值参数:最大迭代次数L和失真控制门限 。 的值 设得远小于1,当 ( m ) 时,表明再进行迭代运算失
真得减小是有限的、可以停止运算。L是限制迭代次数的 参数,防止 设置较低时迭代次数过多
然后对此矢量一次进行量化。
凡是要用量化的地方都可以采用矢量量化。
矢量量化是实现数据压缩的一种有效方法,早在50和60年代 就被用于语音压缩编码。直到70年代线性预测技术被引入语 音编码后,矢量量化技术才活跃起来。80年代初,矢量量化 技术的理论和应用研究得到迅速发展。
采用矢量量化技术对信号波形或参数进行压缩处理,可以获 得很好的效益,使存储要求、传输比特率需求或和计算量需
标量量化是对信号的单个样本或参数的幅度进行量化;标 量是指被量化的变量,为一维变量。 矢量量化的过程是将语音信号波形的K个样点的每一帧, 或有K个参数的每一参数帧构成K维空间的一个矢量,然后 对这个矢量进行量化。 标量量化可以说是K=1的矢量量化。矢量量化过程和标量 量化过程相似。将K维无限空间划分为M个区域边界,然后 将输入矢量与这些边界进行比较,并被量化为“距离”最 小的区域边界的中心矢量值。
① 对比似然比失真测度
2 T a Ra p d LLR ( f , f ) ln 2 ln T p a Ra
② 模型失真测度
T a Ra d m ( f , f ) 2 1 T 1 p a Ra 2 p
注:这两种失真测度都仅仅比较两矢量的功率谱,而没有 考虑其他能量信息。
第3章 语音信号的模型 PPT课件

第2章 数字语音处理基础
3.2 语音信号的无损声管模型
➢ 令声波通过长为 lm 的第 m 节声管需要的时间为 m,(mlm/c),
由上页两式,得:
A m c um (tm )um (tm ) A m c 1 um 1(t)um 1(t) m 1 ,2 , um (tm )um (tm )um 1(t)um 1(t)
1+ kL
-kL
τN
u N (tN )
图3.5 级联无损声管 在嘴唇处的流图
➢ 图3.5:级联无损声管在嘴唇处的流图。
第2章 数字语音处理基础
3.2 语音信号的无损声管模型
3.2.2 声门端 ➢ 声门可以看成是控制送入声道气流的阻碍。
➢ 电模拟:声门处存在一个内阻抗(感性阻抗),
阻抗值为声门处声压与气流体积速度之比,
P N (lN ,Ω )Z L U N (lN ,Ω )
该式与电学的欧姆定律相对应 (声压对应电压,体积速度对应电流)
式中,ZL——嘴唇处的辐射阻抗,或辐射负载。
◆假定ZL(Ω)=ZL是实数,令τN=LN/c,联立上式和8页偏微分方程 组的解,得: A N c u N ( t N ) u N ( t N ) Z L u N ( t N ) u N ( t N )
V a ( s ) m 0m e ( N 2 m )s e N s
e 2 m s
m 0m
式中,e-Nτs——传播 N 段管子所需的延迟时间,
◆如果设: V ˆa(s)
e
2m s
m0 m
其频率响应为:
V ˆa(Ω )
e
jΩ 2m
m 0 m
➢ 于是: V ˆ a (Ω 2 2) m 0m e j (Ω 2 2 )2 m m 0m e j 2 m Ω
《语音信号处理》讲稿第3章

对性的改进。
03 语音信号的特征提取
时域特征提取
过零率
表示语音信号通过零点的 次数,反映了语音信号的 频率特性。
能量和振幅
计算语音信号的短时能量 和振幅,用于区分清音和 浊音。
自相关函数
描述语音信号在不同时间 点的相似程度,常用于语 音信号的周期性分析。
频域特征提取
傅里叶变换
将时域语音信号转换为频域表示, 便于分析语音信号的频谱特性。
滤波器组
将语音信号划分为多个频带,提取 每个频带的能量或振幅作为特征。
功率谱密度
描述语音信号在各个频率上的功率 分布,反映了语音信号的频谱包络。
倒谱特征提取
1 2
倒谱系数
通过对语音信号的频谱进行对数运算和逆变换, 得到倒谱系数,用于描述语音信号的共振峰特性。
梅尔频率倒谱系数(MFCC) 基于人耳听觉特性,将频谱转换为梅尔频率尺度, 再计算倒谱系数,是语音识别中常用的特征参数。
《语音信号处理》讲稿第3章
目录
• 语音信号处理基础 • 语音信号的预处理 • 语音信号的特征提取 • 语音信号的模型分析 • 语音信号的编码技术 • 语音信号的增强与降噪 • 语音信号的识别技术
01 语音信号处理基础
语音信号的特点
非平稳性
语音信号是一个时变的 信号,其特性随时间变
化。
周期性
浊音信号表现出明显的 周期性,清音信号则不
(HMM)、深度神经网络 (DNN)等,通过统计模型对
语音进行建模和识别。
混合方法
结合基于规则和统计模型的 方法,充分利用两者的优点 ,提高识别性能。
语音识别的实际应用及挑战
实际应用
语音识别技术已广泛应用于智能家居、智能客服、语音输入、语音翻译等领域,为人们的日常生活和工作带来便 利。
《语音信号处理》课程笔记

《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。
在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。
随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。
到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。
近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。
1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。
(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。
(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。
1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。
声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。
听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。
1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。
语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。
这些模型为语音信号处理提供了理论基础和工具。
第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
语音信号处理课程设计

目录目录 (1)摘要 (2)第一章绪论 (3)1.1 语音课设的意义 (3)1.2 语音课设的目的与要求 (3)1.3 语音课设的基本步骤 (3)第二章设计方案论证 (5)2.1 设计理论依据 (5)2.1.1 采样定理 (5)2.1.2 采样频率 (5)2.1.3 采样位数与采样频率 (5)2.2 语音信号的分析及处理方法 (6)2.2.1 语音的录入与打开 (6)2.2.2 时域信号的FFT分析 (6)2.2.3 数字滤波器设计原理 (7)2.2.4 数字滤波器的设计步骤 (7)2.2.5 IIR滤波器与FIR滤波器的性能比较 (7)第三章图形用户界面设计 (8)3.1 图形用户界面概念 (8)3.2 图形用户界面设计 (8)3.3 图形用户界面模块调试 (9)3.3.1 语音信号的读入与打开 (9)3.3.2 语音信号的定点分析 (9)3.3.3 N阶高通滤波器 (11)3.3.4 N阶低通滤波器 (12)3.3.5 2N阶带通滤波器 (13)3.3.6 2N阶带阻滤波器 (14)3.4 图形用户界面制作 (15)第四章总结 (17)附录 (18)参考文献 (21)摘要语音信号处理是将信号以数字方式表示并处理的理论和技术。
语音信号处理与模拟信号处理是信号处理的子集。
语音信号处理的目的是对真实世界的连续模拟信号进行测量或滤波。
因此在进行语音信号处理之前需要将信号从模拟域转换到数字域,这通常通过模数转换器实现。
而语音信号处理的输出经常也要变换到模拟域,这是通过数模转换器实现的。
语音信号处理的算法需要利用计算机或专用处理设备如语音信号处理器(DSP)和专用集成电路(ASIC)等。
语音信号处理技术及设备具有灵活、精确、抗干扰强、设备尺寸小、造价低、速度快等突出优点,这些都是模拟信号处理技术与设备所无法比拟的。
语音信号处理的核心算法是离散傅立叶变换(DFT),是DFT使信号在数字域和频域都实现了离散化,从而可以用通用计算机处理离散信号。
语音信号处理31

x1(m) 帧移T=0 帧移 第 2帧 2N2N-1
加汉宁窗(帧移长度为N/2 加汉宁窗(帧移长度为N/2) N/2) 第 1帧 0 x0(m) N-1 帧移T= 帧移 N/2 第 2帧 N/2 x1(m) N+(N/2)-1 N+(N/2)-
512点的汉宁窗 512点的汉宁窗 点的 当采用汉宁窗 ,原有数据的幅度发生变化, 原有数据的幅度发生变化, 为了保持数据的原始幅度, 为了保持数据的原始幅度,必须采取各帧数据之 间有1/2的重叠。 间有1/2的重叠。 1/2的重叠
SNR=6.02B+4.77- 6.02B- SNR=6.02B+4.77-20log(Xmax/δx)=6.02B-7.27 Xmax表示其峰值 B为量化的比特数 当语音信号的幅度服从拉普拉斯分布时, 当语音信号的幅度服从拉普拉斯分布时,Xmax=4δx 量化器每增加一个比特,SNR提高约6dB。 量化器每增加一个比特,SNR提高约6dB。当 提高约6dB B=8,SNR=40dB,满足一般通信系统的要求。当量化 B=8,SNR=40dB,满足一般通信系统的要求。 60-70dB, 噪声的信噪比达到 60-70dB,才能保障有高水平 通话质量, 11-13bits。 通话质量,这时要求量化为 11-13bits。一般的 音频A/D、D/A转换芯片 量化为12bits 转换芯片, 12bits。 音频A/D、D/A转换芯片,量化为12bits。 A/D
第三章 语音信号分析
§3.2 语音信号的数字化和预处理 §3.3 语音信号的时域分析 §3.4 语音信号的频域分析 §3.5 语音信号的倒谱分析 §3.6 语音信号的线性预测分析
语音信号的分析, 语音信号的分析,就是找出语音产生模型的各种 参数(语音的特征参数),应用于语音的编码、 ),应用于语音的编码 参数(语音的特征参数),应用于语音的编码、识 别和合成等。 别和合成等。
语音信号处理-第03章 语音信号的时域分析方法

过零情况
3
1
短时平均过零的作用
• 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 • 2.从背景噪声中找出是否有语音,以及语 音的起点。
0 .8
0 .6
0 .4
0 .2
0
-0 . 2
-0 . 4
-0 . 6
-0 . 8
-1
0
50
100
150
200
250
∞
Z
0
1 ⎧ N −1 ⎫ = ⎨∑ sgn ⎡ s w ( n ) ⎤ − sgn ⎡ s w ( n − 1) ⎤ ⎬ ⎣ ⎦ ⎣ ⎦ 2 ⎩ n =1 ⎭
1
(4)短时自相关函数 Rw
R (l ) = ∑ s (l + n ) s (n ) = ∑ s (n ) s (n + l )
w n = −∞ w w n =0 w w
男声汉语拼音s的一帧信号(在采样频率为22050Hz 的情况下,取20ms作为一帧),清音的短时能量为 3.88。
二.短时过零率分析
• 过零率定义:信号跨越横轴的次数情况。 • 对于连续信号,观察语音时域波形通过 横轴的情况; • 对于离散信号,相邻的采样值具有不同 的代数符号,也就是样点改变符号的次 数。
10
采用中心削波法
⎧ x ( n) − T ⎪ y ( n) = c ( n) = ⎨ x ( n) + T ⎪ ⎩ 0
⎧ x( n) − T ⎪ y ( n) = c( n) = ⎨ x ( n) + T ⎪ 0 ⎩
x ( n) > T x(n) < −T | x(n) |≤ T
短时平均幅度差函数
语音信号处理第3章分解PPT课件

14
预处理
2.窗口的长度 ❖ 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf
之间存在下列关系: Δf=1/NTs
语音信号
带通滤 波器
自动增益控 制(AGC)
模/数转换 (A/D)
脉冲编码
存入计算机
调制(PCM)
❖ 预处理一般包括预加重、加窗和分帧等。
5
预滤波、采样、A/D变换
预滤波的目的有两个: ❖ 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs)
为采样频率,以防止混叠干扰。 ❖ 抑制50Hz的电源工频干扰。
0n(N1) nelse
(n ) 0 .5 4 0 .4c6 0 ,o 2 n s /N ([ 1 )]0 , n n e (N l1 s ) e
12
预处理
1.窗口的形状 ❖ 好的窗函数的标准是:在时域因为是语音波形乘以
窗函数,所以要减小时间窗两端的坡度,使窗口边 缘两端不引起急剧变化而平滑过渡到零,这样可以 使截取出的语音波形缓慢降为零,减小语音帧的截 断效应;在频域要有较宽的3dB带宽以及较小的边 带最大值。这里只以典型的矩形窗和汉明窗为例进 行比较,其他窗口可参阅FIR数字滤波器或谱分析 的有关书籍。
但是在一个短时间范围内(一般认为在10-30ms的短时间
内),其特性基本保持不变即相对稳定,因而可以将其看作
是一个准稳态过程,即语音信号具有短时平稳性。
3
1 概述
❖ 根据所分析出的参数的性质的不同可以分为: 时域分析、频域分析、倒频域分析,线性预测分析等;
❖ 分析方法的不同: 模型分析方法 和 非模型分析方法
原信号值之间的差值称为量化误差,又称为量化噪声。 ❖ 若量化间隔Δ足够小,可以证明量化噪声符合具有下列特征
语音信号处理

33
3、短时平均过零数的应用
(1) 清音/浊音判断
(2)
清音-随机噪声,高频,浊音-周期信号,低频
清 浊
34
(2) 单词分割与有无声 确定单词的起止点,对语音识别很重要
实验室得到的语音
35
3.5 短时相关分析 用来求基音周期!
– 线性模型 激励 + 声道 + 辐射
18
2.4.1 激励模型 根据前节分析,激励源在清、浊音时不同,分别讨论 • 浊音
有人测量知,声带振动产生斜三角型脉冲波
Tp为冲激脉冲的周期,声门波模型产生单个声门脉冲
将其表示为Z变换,有:
• 清音 随机白噪声
19
冲激序列:E(z) 浊音激励模型:
U(z) = AVG(z)E(z)
2.4.2 声道模型
– 声音在声道的传播涉及到许多物理定律(能量守恒、 流体力学),需简化。有不同的模型。
1、声管模型
“短时”间声道是一个形状稳定的级联管道
声音在不同截面积 间传输会有反射,
反射系数:
A1 A2 A3 ….
km=(Am+1 - Am)
/(Am+1 + Am)
Am,Am+1是第m、m+1段的截面积
本章用短时分析技术,在时域提取基频、清浊、增益
25
3.2 语音信号的数字化和预处理
3.2.1 取样率与量化字长的选择
反混叠滤波器
模拟信号x(t)
抽样
量化
抽样信号
离散信号x(n)
1、抽样定理 抽样频率 8K、16K等 2、量化误差 e(n)-平稳、均匀分布,大小与量化
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0 -100 -200 -300 -400 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Normalized Frequency ( rad/sample) 0.9 1
汉明窗的时域、频域的幅度响应特性
预处理:窗口的ቤተ መጻሕፍቲ ባይዱ度
采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下 列关系: Δf=1/NTs
预处理:窗口的形状
不同的短时分析方法(时域、频域、倒频域分
析) 对窗函数的要求不尽一样 选择窗的标准
在时域要减小时间窗两端的坡度,使窗口边缘两
端不引起急剧变化而平滑过渡到零,这样可以使 截取出的语音波形缓慢降为零,减小语音帧的截 断效应; 在频域要有较宽的3dB带宽以及较小的边带最大 值
量化不可避免地会产生误差。量化后的信号值与原信号值之 间的差值称为量化误差,又称为量化噪声。 若信号波形的变化足够大,或量化间隔Δ足够小时,可以证 明量化噪声符合具有下列特征的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概率密度分 布
3.1 概述
语音信号分析 分析出可表示语音信号特征参数
进行高效的语音通信、语音合成和语音识别的基础 时域特征 频率特征
贯穿于语音分析全过程的是“短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均 是随时间而变化的,所以它是一个非平衡态过程,不能用处 理平衡信号的数字信号处理技术对其进行分析处理。 但是在一个短时间范围内(一般认为在10-30ms的短时 间内),其特性基本保持不变即相对稳定,因而可以将其看 作是一个准稳态过程,即语音信号具有短时平稳性。
可见,采样周期一定时,Δf随窗口宽度N的增加而减小,即 频率分辨率相应得到提高,但同时时间分辨率降低;如果窗 口取短,频率分辨率下降,而时间分辨率提高,因而二者是 矛盾的。应该根据不同的需要选择合适的窗口长度。
预处理:窗长
有时窗口长度的选择,更重要的是要考虑语音信号的基音周 期。通常认为在一个语音帧内应包含1~7个基音周期。然而 不同人的基音周期变化很大,从女性和儿童的2ms到老年男 子的14ms(即基音频率的变化范围为500~70Hz),所以N的选 择比较困难。通常在10kHz取样频率下,N折中选择为100~ 200点为宜(即10~20ms持续时间)。 这样,经过上面介绍的处理过程,语音信号就已经被分割成 一帧一帧的加过窗函数的短时信号,然后再把每一个短时语 音帧看成平稳的随机信号,利用数字信号处理技术来提取语 音特征参数。在进行处理时,按帧从数据区中取出数据,处 理完成后再取下一帧,等等,最后得到由每一帧参数组成的 语音特征参数的时间序列。
1.短时自相关函数 定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下:
Rn (k )
N 1 k m 0
这样.噪音信号的振荡只要不超过门限间的区域,就不会对真实的 过零率产生影响。 一般说来,短时过零率的最主要用处是分辨清音和浊音、有声与无 声。
7.端点检测
如何区分?能量?过零率?
元音
背景 噪音 辅音
语音“三”的波形图
7.端点检测
如何区分?能量?过零率?
背景 噪音
辅音
短时相关分析
相关分析是一种常用的时域波形分析方法,并有自 相关和互相关之分。这里主要讨论自相关函数。 自相关函数的性质:偶函数; 假设序列具有周期性,则其自相关函数也是同周期 的周期函数等。我们可以把自相关函数的这些性质 应用于语音信号的时域分析中。例如,对浊音语音 可以用自相关函数求出语音波形序列的基音周期。 此外,在进行语信号的线性预测分析时,也要用到 自相关函数。和其他语音参数一样,在语音信号分 析中,我们分析的是短时自相关函数。
0.9 0.8 0.7 0.6 0.5 0.4
0
0.1
0.2
0.3 0.4 0.5 0.6 0.7 0.8 Normalized Frequency ( rad/sample)
0.9
1
100
Phase (degrees)
0 20 40 60 80 100 120 140
0.3 0.2 0.1 0
1 N 1 Z n sgn[ xn (m)] sgn[ xn (m 1)] 2 m 0
式中,sgn[]是符号函数,即 1, ( x 0) sgn[ x] 1, ( x 0)
短时过零率分析
门限过零率
由定义可以看出,短时过零率对噪音的存在非常敏感,如果 背景中有反复穿越坐标轴的随机噪声,那么会产生大量的“ 虚假”的过零,影响计算结果。
预滤波、采样、A/D变换
若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B 表示量化字长, σe2表示噪声序列的方差,可以证明量化信 噪比SNR(信号与量化噪声的功率比)为: 2 x X max SNR(dB) 10lg 2 6.02B 4.77 20lg e x 假设语音信号的幅度符合Laplacian分布,此时信号幅度超过 4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则
SNR(dB) 6.02B 7.2
上式表明量化器中的每bit字长对SNR的贡献为6dB。
预加重(Preemphasis)处理 语音信号的平均功率谱受声门激励和口鼻辐 射影响,800Hz以上按6dB/倍频程跌落 目的是提升高频部分,使信号的频谱变得平 坦,保持在低频到高频的整个频带中,能用 同样的信噪比求频谱,以便于频谱分析或声 道参数分析
3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析 3.6语音信号的线性预测分析 3.7 语音信号的小波分析 3.8 基音周期估计 3.9共振峰估计
3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析
预滤波的目的有两个: 抑制输入信号各频域分量中频率超出fs/2的所有分量,以防 止混叠干扰。 抑制50Hz的电源工频干扰。
这样,预滤波器必须是一个带通滤波器,设其上、下截止频 率分别是fH和fL: 绝大多数语音编译码器: fH=3400Hz,fL=60-100Hz,fS=8kHz
预滤波、采样、A/D变换
1, m 0 ~ ( N 1) (m) 0, m 其它值 其中,n=0,1T,2T,…,并且N为帧长,T为帧移长度。 设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式 如下:
2 En xn (m) m 0 N 1
短时能量及短时平均幅度分析
矩形窗与汉明窗的比较
窗类型
矩形窗 汉明窗
旁瓣峰值
-13 -41
主瓣宽度
4π/N 8π/N
最小阻带衰减
-21 -53
汉明窗的主瓣宽度比矩形窗大一倍,即带宽 约增加一倍,同时其带外衰减也比矩形窗大 一倍多。矩形窗的谱平滑性能较好,但损失 了高频成分,使波形细节丢失;而汉明窗则 相反,从这一方面来看,汉明窗比矩形窗更 为合适。
为了提高过零率计算的鲁棒 性(Robustness),除了对 原始信号进行带通滤波,一种 有效的方法是修正过零率的定 义,加入门限的定义.如图 所示。
上门限
下门限
6.门限过零率
设一个门限值T,将过零的定义修正为穿越正负门限,带门限的过 零率计算公式为
1 N 1 Z n sgn xn (m) T sgn xn (m 1) T sgn xn (m) T sgn xn (m 1) T 2 m 0
3.3 语音信号的时域分析
语音信号的时域分析就是分析和提取语音信号的时域参数。 进行语音分析时,最先接触到并且也是最直观的是它的时域 波形。语音信号本身就是时域信号,因而时域分析是最早使 用,也是应用最广泛的一种分析方法,这种方法直接利用语 音信号的时域波形。时域分析通常用于最基本的参数分析及 应用,如语音的分割、预处理、大分类等。这种分析方法的 特点是:
H z 1 z
1
预处理:分帧
进行过预加重数字滤波处理后,接下来就要进行加 窗分帧处理。一般每秒的帧数约为33-100帧,视实 际情况而定。 分帧虽然可以采用连续分段的方法,但一般要采用 如图3-2所示的交叠分段的方法,这是为了使帧与 帧之间平滑过渡,保持其连续性。 帧移:前一帧和后一帧的非交叠部分。帧移与帧长 的比值一般取为1/3-1/2
预处理:分帧示意图
预处理:加窗
分帧是用可移动的有限长度窗口进行加权的方法来实现的, 这就是用一定的窗函数ω(n)来乘s(n), 加窗语音信号sω(n)=s(n)* ω(n)。 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等, 它们的表达式如下(其中N为帧长): 矩形窗: 1, 0 n ( N 1) (n) n else 0, 汉明窗: 0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
3.2 语音信号的数字化和预处理
语音信号的数字化一般包括放大及增益控制、反混 叠滤波、采样、A/D变换及编码(一般就是PCM码)
语音信号 带通滤波 器 自动增益控制 (AGC) 模 / 数 转 换 (A/D) 脉冲编码 调制(PCM) 存入计算机
预处理一般包括预加重、加窗和分帧等。
预滤波、采样、A/D变换
3.1 概述
分析方法:模型分析方法和非模型分析方法 不论是分析怎么样的参数以及彩什么分析方法,在 按帧进行语音分析,提取语音参数之前,有一些经 常使用的、共同的短时分析技术必须预先进行,如 语音信号的数字化、语音信号的端点检测、预加重、 加窗和分帧等,这些也是不可忽视的语音信号分析 的关键技术。