语音信号处理第4讲

合集下载

语音信号处理(很好很全)

语音信号处理(很好很全)

摘要语音是人类获取信息的重要来源和利用信息的重要手段。

语音信号处理是一门发展十分迅速、应用非常广泛的前沿交叉学科,同时又是一门跨学科的综合性应用研究领域和新兴技术。

现代语音信号系统包括语音信号采集单元和语音信号处理单元,本论文确定了相应的处理芯片:TMS320C5402DSP和TLCAD50C芯片。

但语音信号处理有两个需要解决的问题,语音信号的时变性,和直接进行傅里叶变换其运算量相当大。

其解决措施是加窗函数和运用快速傅里叶变换(即FFT)。

本论文关于这部分的软件设计是在Code Composer Studio(简称CCS)环境下进行的。

本论文的结构是先介绍语音信号处理单元和语音信号采集单元,然后简单介绍语音信号处理系统的硬件电路,最后在CCS环境下进行语音信号的频谱分析。

关键词:语音信号,时变性,窗函数,FFT,DSP,CCSABSTRACTThe speech is the importance source and way of obtain information and make use of the information .The speech signal processing is a development very quick, application very extensive of front follow to cross an academics, in the meantime again is a door across an academics of comprehensive sex application study realm and newly arisen technique.The speech signal system include speech signal to collect unit and the processing unit of the speech signal, this thesis assurance correspond of processing chip:DSP and the TLCAD50 C chip of the TMS320 C5402.But speech signal processing have two problem that need to be solve, because of it hour change sex can't carry on leaf's transformation in the Fu, with direct carry on leaf's transformation in the Fu it operation quantity equal big.Its solving measure is to add window function and usage fast leaf's transformation in the Fu.(namely FFT)The software design carry on under the Studio(brief name CCS) environment of the Code Composer, the CCS is a TI company for the TMS320 series DSP software development release of integration development environment.The structure of this thesis is unit and speech signal of the signal processing of the introduction speech to collect unit first, then simple introduction speech signal processing system of hardware electric circuit, end carry on the frequency chart of speech signal analysis under the CCS environment.Keywords:The speech signal, hour change sex, window function, FFT, DSP, CCS目录1.绪论 ........................................................................................ 错误!未定义书签。

第四讲-LPC分析PPT课件

第四讲-LPC分析PPT课件
N 1 k
R n(k) xw (m )xw (m k), k 1 , ,p m 0
其中, R n ( k )为短时自相关函数,它仍然保留了自相关函数 的特性,即满足偶函数的特性,有Rn(k)Rn(k)。
22
LPC求解-线性方程组求解-自相关法
( k , i) 可以表示为:
( k , i ) R n ( k i ) R n ( k i )k 1 , 2 ,, p , i 0 , 1 , 2 ,, p
6. LPC parameter conversion to Cepstral Coefficients
7. Parameter Weighting 8. Temporal Cepstral Derivative
14
LPC processor for speech
15
LPC 求解
Criterion: Minimize the mean-squared prediction error
N 1
( k ,i) x ( n k ) x ( n i) , k 1 ,2 , ,p , i 0 ,1 ,2 , ,p n 0
设(n-i)=m,则上式可写为:
N i 1
( k ,i) x ( m ( i k ) ) x ( m ) , k 1 ,2 , ,p , i 0 ,1 ,2 , ,p m i
( k ,i ) x w ( n ) x w ( n k i ) k 1 ,2 , ,p , i 0 ,1 ,2 , ,p
n 0
其中, x w ( n ) 为加窗后的语音数据
21
LPC求解-线性方程组求解-自相关法
由于假定窗外的语音数据为零,显然存在误差.为了减少这 种误差的影响,在线性预测分析中,一般不采用突变的矩 形窗,而使用两端具有平滑过渡特性的窗函数,如汉明窗。 加窗处理后的自相关函数可以表示为:

第六讲 VQ_语音信号处理第4章讲解

第六讲 VQ_语音信号处理第4章讲解
VQ: 1024 codebook 100×10 = 1000bps
32→1
采用矢量量化的效果优于标量量化的原因?
矢量量化能有效的应用矢量中各分量之 间的四种相互关联性质来消除数据中的冗 余度。
线性依赖(相关性) 非线性依赖(统计不独立) 概率密度函数的形状 矢量量化的维数
而标量量化仅能利用线性依赖和概率密 度函数的形状来消除冗余度。
1 K
K i 1
xi yi
r
2. r平均误差
d
' r
(
X
,Y
)

[
1
K
K i 1
xi

yi
1
r ]r
3.绝对值平均误差
1 K
d1( X ,Y ) K i1 xi yi
4.最大平均误差
1
d
M
(
X
,
Y
)

lim[d
r
r
(
X
,Y
)]r

max
1i K
xi

yi
二、线性预测失真测度
设输入信号的某个K维矢量X,与码书中某个K 维矢量Y进行比较,xi,yi分别表示X和Y中的各元 素 (1 i K) ,则定义均方误差为欧氏距离:
d2( X ,Y )
1 K
K
( xi
i 1

yi )2

(X
Y )T ( X K
Y)
几种其他常用的欧氏距离:
1. r方平均误差
dr ( X ,Y )
矢量量化的基本原理 问题分解
1.矢量量化基本原理
量化分为两类: * 标量量化:将取样后的信号值逐个地进行量化。 * 矢量量化:将若干取样信号分成一组,即构成一 个矢量,然后对此矢量一次进行量化。

宽带语音编码技术专题讲座(二)第4讲 基于TMS320VC5509A的宽带编解码器G.729.1的实时实现

宽带语音编码技术专题讲座(二)第4讲 基于TMS320VC5509A的宽带编解码器G.729.1的实时实现

B s do MS 2 V 5 9 a e nT 0 C5 0 A 3
ZH EN G u — o g G o h n ,CH EN a ,YA N G — an ,YA N G Li ng Sixi g Zhiln —i g
( . p rme to e to i I f r to gn e ig I 1 De at n fElcr nc n o ma inEn ie rn CE,P LAUS T,Na j g 2 0 0 ,Chn ; ni 1 0 7 n ia
第 4讲 基 于 TMS 2 VC5 0 A 的宽 带 编 解 码 器 30 59 G. . 7 1的实 时 实 现 2 9
郑 国 宏 ,陈 亮 ,杨 思 祥 ,杨 志 玲
(. 放 军理 工 大 学 通 信 工 程 学 院 电 子信 息工 程 系 ,江苏 南京 2 0 0 ; 1解 1 0 7
关键 词 : 语音编码 ; 宽带 语音编码 ; 入式语音编码 嵌
中图分 类号 : N9 2 3 T 1 .
文 献标 识码 : A
文章 编号 : N 218(0 10—100 C 3—2921)300—5
R at mpe na in o ie a d Co e 7 9 1 e lme I lme t t f d b n d c G. 2 . i o W
2解放军 8 . 5医 院 ,上 海 2 0 5 ) 0 0 2
摘 要 :文章 给出 了 I T G. 2 . 法在 T 3 0 5 0 A 上 的实时实 现方法 。详 细介绍 了算 法在 TU— 7 9 1算 MS 2 VC 59
C5 5 x平 台 上 的 软 件 优 化 步 骤 和方 法 , 算 法 硬 件 实 现 时 的 难 点 , 括 T V3 O C2B 芯 片 采 样 频 率 配 置 方 法 、 对 包 L 2Al 3 MC S 中 断 流 程 等 进 行 了详 细 的 介 绍 。文 中方 法 也 适 用 于其 它 定 点 语 音 编 码 算 法 在 C 5 BP 5 x平 台 上 的实 现 。

语音信号处理第4讲讲义

语音信号处理第4讲讲义
时域分析是最早使用,也是应用最广泛的一种分析方法,这 种方法直接利用语音信号的时域波形。时域分析通常用于最 基本的参数分析及应用,如语音的分割、预处理、大分类等。 特点是:
①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④只使用示波器等通用设备,使用较为简单等。
矩形窗: 汉明窗:
(n)
1, 0,
0 n (N 1) n else
(n)
0.54
0.46
cos[2n
0,
/(N
1)],
0 n (N 1) n else
语音分帧
1.窗口的形状
虽然,不同的短时分析方法(时域、频域、倒频域分析)以及 求取不同的语音特征参数可能对窗函数的要求不尽一样,
一般来讲,一个好的窗函数的标准是:在时域因为是语音波 形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘 两端不引起急剧变化而平滑过渡到零,这样可以使截取出的 语音波形缓慢降为零,减小语音帧的截断效应;在频域要有 较宽的3dB带宽以及较小的边带最大值。
语音分帧
2.窗口的长度 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列
进行过预加重数字滤波处理后,接下来就要进行加窗分帧处 理。一般每秒的帧数约为33-100帧,视实际情况而定。分帧 虽然可以采用连续分段的方法,但一般要采用如图3-1所示 的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持 其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧 长的比值一般取为0-1/2。
这样,经过上面介绍的处理过程,语音信号就已经被分割成一帧 一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成 平稳的随机信号,利用数字信号处理技术来提取语音特征参数。 在进行处理时,按帧从数据区中取出数据,处理完成后再取下一 帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序 列。

《语音信号处理》课程笔记

《语音信号处理》课程笔记

《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。

在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。

随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。

到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。

近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。

1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。

(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。

(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。

(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。

1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。

声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。

听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。

1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。

语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。

这些模型为语音信号处理提供了理论基础和工具。

第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。

《语音信号处理》讲稿共23页文档

《语音信号处理》讲稿共23页文档

1.语音过程的早期研究
讨论三方面问题:
(1)人类发音器官 (2)双亥姆霍兹谐振器发声模型 (3)电发声系统(EVT)的电模型
2.语音发送过程的声学模型
讨论两方面问题:
(1)语音发送过程的声学理论 (2)语音发送过程的声学模型
2.语音发送过程的声学模型
(1)语音发送过程的声学理论 ①语音的发送过程。 语音发送过程包括两部分:语音的产生和
3.语音发送过程的数字模型
(1)声激励数字模型
大部分的语音可以分成浊音和清音,因而要 求激励源应能产生准周期的脉冲波形(浊音)或随 机噪声的波形(清音)。
声激励的数字模型
3.语音发送过程的数字模型
(2)声道传送数字模型
无损声管模型的方块图表示及其终端模 拟的数字模型。
声道的数字模型
3.语音发送过程的数字模型
传播。 ②声波在声道中的传播过程。
简化声道示意图
2.语音发送过程的声学模型
(2)语音发送过程的声学模型
求以上方程组的完全解很复杂。因此,常采 用近似和简化方法,得到语音发送过程的简化声 学模型。
①语音发送过程的均匀无损声管模型
五节无损声管级联的声道模型
2.语音发送过程的声学模型
③鼻腔声管模型
声道的四端网络模型
开关
喉腔
Z
U
G
G
A
鼻腔
Z
C
n
口腔 B
Z
L
返回
4.语音发送过程的电模型
数字模型与电模型的性能比较: ①用数字滤波器模拟语音发送过程的数字
模型,虽然不太精确,便却比较直观,它也是 研究中常用的一种模型。
②用四端网络模型(电模型),可以比较 精确地计算在声道中的语音发送过程,但这种 方法,因不能直接确定共振峰在频段中的位置, 所以不太直观。

语音信号处理

语音信号处理

语音信号处理简介语音信号处理是一种通过对语音信号进行分析、处理和合成的技术,以提取语音中的有用信息并改善语音质量。

它在语音识别、语音合成、语音增强等领域中有着广泛的应用。

本文将介绍语音信号处理的基本概念、常见的处理方法以及应用场景。

基本概念语音信号语音信号是由人类语音产生的声波信号,它是一种时间变化的波形信号。

语音信号包含了说话人的身份特征、语义信息以及情感特征等。

在语音信号处理中,通常使用数字信号来表示和处理语音信号。

语音信号的特性语音信号具有多种特性,包括频域特性和时域特性。

频域特性频域特性描述了语音信号在频率上的分布情况。

常见的频域特性包括频谱、功率谱和频带能量等。

频域特性能够反映语音信号中存在的不同频率成分。

时域特性时域特性描述了语音信号在时间上的变化情况。

常见的时域特性包括时域波形、自相关函数和短时能量等。

时域特性能够反映语音信号的时序关系。

常见的语音信号处理方法语音信号处理涉及到多种方法和技术,下面介绍几种常见的处理方法。

预处理预处理是语音信号处理的第一步,它主要用于降噪和增强语音信号的质量。

常见的预处理方法包括滤波、降噪和增益控制等。

滤波滤波是一种通过选择性地传递或阻止不同频率成分的方法。

在语音信号处理中,常用的滤波器包括低通滤波器和高通滤波器等。

降噪降噪是一种通过消除语音信号中的噪声成分来提高语音质量的方法。

常见的降噪方法包括谱减法、小波降噪和自适应滤波等。

增益控制增益控制是一种通过调整语音信号的幅度来平衡不同部分的能量的方法。

常见的增益控制方法包括自动增益控制(AGC)和压缩扩展(Compand)等。

特征提取特征提取是语音信号处理中最重要的环节之一,它用于从语音信号中提取有用的特征信息。

常见的特征提取方法包括短时能量、短时过零率和线性预测系数等。

语音识别是一种将语音信号转换为文本或命令的技术。

它在语音助手、语音控制和语音翻译等领域中有着广泛的应用。

常见的语音识别方法包括基于模型的方法和基于深度学习的方法等。

《语音信号处理》讲稿第章(“语音”相关文档)共9张

《语音信号处理》讲稿第章(“语音”相关文档)共9张
1.语音过程生理学基础知识
讨论两方面问题:
(1)语音发送过程生理学基础知识
(2)语音接收过程生理学基础知识
2.语音学基础知识
学习语音学基础知识的重要性在于:语言的语音学 知识是计算机语音分析的基础,而语音分析又是计算机 语音合成和识别的基础。世界上各类语言中,有些语言 的文字表示与发音是不同的,因此,学习者必须掌握语 言的表音法。
学习语音学基础知识的重要性在于:语言的语音学知识是计算机语音分析的基础,而语音分析又是计算机语音合成和识别的基础。 (1)语音发送过程生理学基础知识 (1)汉语语音基本概念 (1)语音发送过程生理学基础知识 (3)词的非分段特点 (2)语音接收过程生理学基础知识 (3)词的非分段特点 (2)汉语语音三要素识
五方面内容: (1)词的分段特点
(2)词的语音特点 (3)词的非分段特点 (4)超语言学特点
(5)语言学的6个基本问题
3.汉语语音基础知识
讨论两方面问题: ①汉语语音三要素:声母、韵母和声调。
(2)语音接收过程生理学基础知识
(1)汉语语音基本概念 五方面内容:
(2)语音接收过程生理学基础知识
(2)汉语语音三要素 (1)汉语语音基本概念
(2)语音接收过程生理学基础知识 (2)词的语音特点 (1)词的分段特点 (1)汉语语音基本概念 (2)词的语音特点 ①汉语语音三要素:声母、韵母和声调。 (1)语音发送过程生理学基础知识 学习语音学基础知识的重要性在于:语言的语音学知识是计算机语音分析的基础,而语音分析又是计算机语音合成和识别的基础。 (1)语音发送过程生理学基础知识 学习语音学基础知识的重要性在于:语言的语音学知识是计算机语音分析的基础,而语音分析又是计算机语音合成和识别的基础。 (1)语音发送过程生理学基础知识 (1)词的分段特点 (2)词的语音特点 (2)语音接收过程生理学基础知识 (1)词的分段特点

语音信号处理第4讲剖析

语音信号处理第4讲剖析
4.1概述 4.2语音分帧 4.3语音信号的时域分析 4.4语音信号的频域分析
4.1 概述
语音信号分析 语音信号处理的前提和基础,只有分析出可表示语音信号 特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和 语音识别等处理。
贯穿于语音分析全过程的是“短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变
分析方法的不同: 模型分析方法和非模型分析方法
不论是分析怎么样的参数以及彩什么分析方法,在按帧进行 语音分析,提取语音参数之前,有一些经常使用的、共同的 短时分析技术必须预先进行,如语音信号的数字化、语音信 号的端点检测、预加重、加窗和分帧等,这些也是不可忽视 的语音信号分析的关键技术。
4.2 语音分帧
①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④只使用示波器等通用设备,使用较为简单等。
短时平均能量及含义
N 1
N 1
短时平均能量:E n xn 2(m ) (m )x(nm )2
m 0
m 0
每区一个n,得到一个 E n
短时能量及短时平均幅度分析
S ( e j ) k m x ( m ) x ( m k ) e j k X ( e j ) X * ( e j ) X ( e j ) 2
根据功率谱定义,可以写出短时功率谱与短时傅里叶变换之 间的关系:
进行过预加重数字滤波处理后,接下来就要进行加窗分帧处 理。一般每秒的帧数约为33-100帧,视实际情况而定。分帧 虽然可以采用连续分段的方法,但一般要采用如图3-1所示 的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持 其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧 长的比值一般取为0-1/2。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音分帧

有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。 通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的 基音周期变化很大,从女性和儿童的2ms到老年男子的14ms(即基 音频率的变化范围为500~70Hz),所以N的选择比较困难。通常在 10kHz取样频率下,N折中选择为100~200点为宜(即10~20ms持续 时间)。
矩形窗2:
x'n (m) ' (m) x(n m), (0 k N 1 K ) 1, m 0 ~ ( N 1 K ) ' (m) m 其它值 0,
3.相关函数的作用
(1)区分清/浊音 浊音语音的自相关函数具有一定的周期性 清音语音的自相关函数不具有周期性,类似噪声。 (2)估计浊音语音信号的周期,即估计基音周期
x (m) x (m k )
n n
对于周期性的语音信号,Fn (k ) 也呈周期性,与 Rn (k ) 相反 的是:Rn (k ) 在谷点时,对应的 Fn (k ) 是峰值 平均幅度差函数和自相关函数有密切的关系可由下式表达:

Fn (k ) 2 (k )[Rn (0) Rn (k )]1/ 2
讨论 X n (e j ) (1)当n取固定值时,记 y (m) xn (m) (n m) x(m),标准 傅里叶变换为:
X n (e )
j
m


x(m) (n m)e
jm

m



y (m)e jm
标准的FT
(2)ω固定不变,记ω=L,相当于一个滤波器
语音分帧
1.窗口的形状 虽然,不同的短时分析方法(时域、频域、倒频域分析)以及 求取不同的语音特征参数可能对窗函数的要求不尽一样, 一般来讲,一个好的窗函数的标准是:在时域因为是语音波
形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘 两端不引起急剧变化而平滑过渡到零,这样可以使截取出的 语音波形缓慢降为零,减小语音帧的截断效应;在频域要有 较宽的3dB带宽以及较小的边带最大值。
短时平均幅度差函数
语音信号的频域分析就是分析语音信号的频域特征。 从广义上讲,语音信号的频域分析包括语音信号的频谱、 功率谱、倒频谱、频谱包络分析等, 而常用的频域分析方法有带通滤波器组法、傅里叶变换法、 线性预测法等几种。本章介绍的是语音信号的傅里叶分析 法。 因为语音波是一个非平稳过程,因此适用于周期、瞬变或 平稳随机信号的标准傅里叶变换不能用来直接表示语音信 号,而应该用短时傅里叶变换对语音信号的频谱进行分析, 相应的频谱称为“短时谱”。
①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④只使用示波器等通用设备,使用较为简单等。
短时平均能量及含义
短时平均能量: En x (m) (m) x(n m)
m 0 2 n m 0 N 1 N 1 2

分帧是用可移动的有限长度窗口进行加权的方法来实现的, 这就是用窗函数ω(n)来乘s(n),从而形成加窗语音信号 sω(n)=s(n) ω(n)。
语音分帧
帧长与帧移: 取的点数为帧长,乘以采样周期得帧长时间 两帧间隔为帧移 两帧一定要有重叠,否则有参数突变 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等, 它们的表达式如下(其中N为帧长): 矩形窗: 1, 0 n ( N 1) (n) n else 0, 汉明窗: 0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
这里K是最大的延迟点数。
短时自相关函数具有以下性质: (1)如果xn(m)是周期的(设周期为N),则自相关函数是同周期的周期函数,
即Rn(k)=Rn(k+Np)。 (2)Rn(k)是偶函数,即Rn(k)=Rn(-k)。 (3)当k=0时,自相关函数具有最大值,即Rn(0)≥|Rn(k)|,并且Rn(0)等于 确定性信号序列的能量或随机性序列的平均功率。
于语音信号的时域分析中。
在语音信号分析中,采用的是短时自相关函数。
1.短时自相关函数
定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下:
Rn (k ) =
N 1 k

m 0
xn (m) xn (m k )
N 1 k m 0
(m) x(m n) (m k ) x(n m k ), 0 k K


根据所分析出的参数的性质的不同可以分为: 时域分析、频域分析、倒频域分析,线性预测分析等; 分析方法的不同: 模型分析方法和非模型分析方法 不论是分析怎么样的参数以及彩什么分析方法,在按帧进行 语音分析,提取语音参数之前,有一些经常使用的、共同的 短时分析技术必须预先进行,如语音信号的数字化、语音信 号的端点检测、预加重、加窗和分帧等,这些也是不可忽视 的语音信号分析的关键技术。

这样,经过上面介绍的处理过程,语音信号就已经被分割成一帧 一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成 平稳的随机信号,利用数字信号处理技术来提取语音特征参数。 在进行处理时,按帧从数据区中取出数据,处理完成后再取下一 帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序 列。
语音信号的时域分析就是分析和提取语音信号的时域参数。 进行语音分析时,最先接触到并且也是最直观的是它的时域 波形。语音信号本身就是时域信号, 时域分析是最早使用,也是应用最广泛的一种分析方法,这 种方法直接利用语音信号的时域波形。时域分析通常用于最 基本的参数分析及应用,如语音的分割、预处理、大分类等。 特点是:
1.短时自相关函数
短时自相关函数存在的问题:随着k的变化,参加运算的项减 少。极限k=N-1时无运算! 改进方法:两个不同长度的窗 2.修正的短时自相关函数
ˆ (k ) x (m) x ' (m k ), 0 k K R n n n
矩形窗1:
m 0
N 1
1, m 0 ~ ( N 1) xn (m) (m) x(n m), (0 k K ) (m) 0, m 其它值
每区一个n,得到一个 En
短时能量及短时平均幅度分析


En是一个度量语音信号幅度值变化的函数,但它有一个缺陷, 即它对高电平非常敏感(因为它计算时用的是信号的平方)。 短时平均幅度函数Mn,它定义为:
M n xn ( m )
m 0
N 1

Mn也是一帧语音信号能量大小的表征,它与En的区别在于计 算时小取样值和大取样值不会因取平方而造成较大差异。
X n (e )
jL m


x(m) (n m)e
jLm
jLm

m

x(m)e jLm (n m)
Z ( m) x ( m)e
当n取不同值时,窗 (n m) 沿着 x(m) 序列滑动
m
Z (m) (n m)

离散的短时傅里叶变换 2 k 2 k j j m 2 k N N ,0 k N 1 则 X n (e ) xn (m)e X n (k ) 令 = N m 在语音信号数字处理中,都是采用 X n (k )代替X n (e j ) 短时傅里叶变换也叫短时谱
语音分帧
2.窗口的长度 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列 关系: Δf=1/NTs

可见,采样周期一定时,Δf随窗口宽度N的增加而减小,即 频率分辨率相应得到提高,但同时时间分辨率降低;如果窗 口取短,频率分辨率下降,而时间分辨率提高,因而二者是 矛盾的。应该根据不同的需要选择合适的窗口长度。
短时平均幅度差函数

短时自相关函数是语音信号时域分析的重要参量。但是,计 算自相关函数的运算量很大,其原因是乘法运算所需要的时 间较长。为了避免乘法,一个简单的方法就是利用差值。为 此常常采用另一种与自相关函数有类似作用的参量,即短时 平均幅度差函数(AMDF)。

平均幅度差函数能够代替自相关函数进行语音分析的原理:


4.2 语音分帧

进行过预加重数字滤波处理后,接下来就要进行加窗分帧处 理。一般每秒的帧数约为33-100帧,视实际情况而定。分帧 虽然可以采用连续分段的方法,但一般要采用如图3-1所示 的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持 其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧 长的比值一般取为0-1/2。
短时过零率分析

定义语音信号xn(m)的短时过零率Zn为:
1 N 1 Z n sgn[ xn (m)] sgn[ xn (m 1)] 2 m 0
式中,sgn[]是符号函数,即
1, ( x 0) sgn[ x] 1, ( x 0)
短时过零率分析
(1)区分清/浊音: 清音平均过零率高,集中在高频端
(1)区分清/浊音:
En , M n 大,对应浊音,En , M n 小,对应清音。
(2)在SNR高的情况下,能进行有声/无声判决
无声时,背景噪声的 En , M n 小 有声时, En , M n 显著增大。判决时可设置一个门限 (3)大致能定出浊音变为清音的时刻,或反之。 存在的问题:
短时能量函数对信号电平值过于敏感,在实际应用中(如定点设备)很
如果信号是完全的周期信号(设周期为Np),则相距为周期的整 数倍的样点上的幅值是相等的,差值为零。
d (n) x(n) x(n k ) 0, (k 0,均幅度差函数

短时平均幅度差函数的定义:
Fn (k )
相关文档
最新文档