语音信号处理课件__第03章时域分析

合集下载

语音信号处理第3章 语音信号分析方法

语音信号处理第3章 语音信号分析方法

如果aN~=0,则IIR滤波器的阶数为N。
IIR滤波器的差分方程表示为:
y ( n)
m 0
bm x(n m) am y(n m)
m 1
M
N
设计经典数字滤波器的步骤:
(1)将设计指标归一化处理,即通带截止频率Wp 和阻带截止频率Ws。
(2)根据归一化频率,确定最小阶数N 和频率参数 Wn。可供选用的阶数选择函数有:buttord, cheb1ord,cheb2ord,ellipord 等。
(3)运用最小阶数N 设计模拟低通滤波器原型,用 到的函数有:butter, chebyl,cheby2, ellip 。
(4)用freqz(b,a,N,fs) 函数验证设计结果。
(5)用filter(b,a,x)函数实现滤波功能。
直接设计数字滤波器的MATLAB函数: [N,wn]=buttord(wp,ws,Rp,Rs) %数字频率采用标 准化频率,取值范围为0~1之间,标准化频率1对 应的数字频率为π,对应的模拟频率为采样频率 的一半。设计带通滤波器时,wp=[wp1,wp2]; ws=[ws1,ws2] [b,a]=butter(N,wn,’ftype’) %N为滤波器的阶数, wn为滤波器的截止频率(0~1),“ftype”为滤 波器的类型:‘high’为高通,‘stop’为带阻, 截止频率为wn=[w1,w2];缺省时为低通和带通滤 波器
[N,Wn]=buttord(wp1,ws1,Rp,Rs);
[b,a] = butter(N,Wn);%确定传递函数的分子、分母系数
[h,f]=freqz(b,a,Nn,Fs);
plot(f,20*log(abs(h)))
%生成频率响应参数

语音信号处理PPT_第三章_语音信号分析

语音信号处理PPT_第三章_语音信号分析

En

xn (m )
2
m 0
T[x]=x2
短时能量及短时平均幅度分析

En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即 它对高电平非常敏感(因为它计算时用的是信号的平方)。为此, 可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度 N 1 函数Mn,它定义为:
M
n


xn (m )
它与12位线性转换器等效。
预处理




由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端 大约在800Hz以上按6dB /倍频程跌落,要在预处理中进行预加重 (Preemphasis)处理。 预加重目的: 提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整 个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参 数分析。 预加重可在语音信号数字化时在反混叠滤波器之前进行,不仅可 以进行预加重,而且可以压缩吸纳后的动态范围,有效提高信噪 比。 预加重一般在语音信号数字化之后,利用数字滤波器实现: 1 H (z) 1 z 值接近1。
S N R ( d B ) 6 .0 2 B 7 .2
x2 X S N R ( d B ) 1 0 lg 2 6 .0 2 B 4 .7 7 2 0 lg m a x e x


A/D转换器分为线性和非线性转换器两类。 目前的线性A/D转换器绝大部分是12bits的(即每一个采样 脉冲转换为12位二进制数)。非线性A/D转换器则是8位的,
n n
短时相关分析
右图中:N=401,Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。

3第三章 语音信号分析---时域分析 语音信号处理 课件

3第三章 语音信号分析---时域分析 语音信号处理 课件

4/25/2021
32/66
存在的问题
短时能量函数一个主要的问题是En对信号电平值 过于敏感。由于需要计算信号样值的平方和,在实 际应用中(如定点设备)很容易溢出。因此,一般 用平均幅度函数Mn来代替En。但这时,清音和浊 音、有声和无声的幅度差不如短时能量明显。
4/25/2021
33/66
二、短时过零率分析
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
4/25/2021
xa(t) t
xa(nT) n
5/66
• Ideal sampling and real sampling
4/25/2021
6/66
3. A/D转换
对离散时间信号进行量化,在每一时刻对xa(nT) 独立进行量化,把给定的幅度连续的信号变成为有限 多个幅度的集合中某个幅度值的过程。
4/25/2021
37/66
1 0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
-1 0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号(在采样频 率为22050Hz的情况下,取20ms作为一 帧),短时过零率为46。
4/25/2021

语音信号处理PPT课件

语音信号处理PPT课件

F2 F3
a 10
频率范围(Hz)
成年男子
成年女子
带宽
F1
200~800
250~1000
40~70
F2
600~2800
700~3300
50~90
F3
1300~3400
1500~4000
60~180
一般地:语音识别,取前3个共振峰,而对 语音合成,需取5个
a
11
2.3 语音信号的特性
2.3.1 语言和语音的基本特性
[x(n)x(n-k)]*h (n) 计算自m 相 关 ,先乘后加,运算hk量(n)大=w!(n)w(n+k)
R n ( k ) R n ( k ) m x ( m ) x ( am kk ) [ w hk( (n n -mm )) w ( n m k ) ]
36
3.5.2 修正的短时自相关函数 1、存在的问题 随kk=的0变化,参加运算的项减少。极限k=N-1时无运算k项=!250 2、修正的短时自相关函数
当w1,w2为直角窗时
(0≤k≤K)
^
N1
Rn(k)x(nm )xa(nmk)
m0
37
3.5.3 短时平均幅度差函数
问题的提出:自相关计算量大,大在乘法! 短时平均幅度差函数(AMDF)定义:
F n (k ) R 1 m |x (n m )w 1 (m ) x (n m k )w 2 (m k )|
式中R为x(n)的平均值 w1、w2同修正的自相关函数中的定义 对于浊音信号,在周期倍数点上,幅值相等,Fn=0
a 38
第三章小结
• 采样与反混叠 • 短时分析方法、窗口与长度选择 • 短时能量定义 • 短时过零分析 • 短时相关分析与修正 • 短时平均幅度分析(AMDF)

语音信号处理-第03章 语音信号的时域分析方法

语音信号处理-第03章 语音信号的时域分析方法

白噪声信号
相关分析的依据
修改坐标的自相关函数波形
• 用于确定两个信号在时域内的相似性。常用 的物理量为自相关函数和互相关函数。 • 当两个信号的互相关函数大时,则说明一个 信号可能是另一个信号的时间滞后或提前; • 当互相关函数为0时,则两个信号完全不同。 • 自相关函数用于研究信号本身,如波形的同 步性和周期性。
PG ( x ) = [ 3 8πσ x x ] e
1 2 − 3x 2σ x
PL ( x) =
− 1 e 2σ x 2σ x
2x
二、零均值 三、非平稳时变信号;短时平稳:10~30ms
§3.2语音信号短时分析方法
语音信号的开窗分析技术: (1)均匀窗: (2)非均匀窗:各种国际标准 (3)重叠窗(Overlap) 设:语音信号为S(n),加窗语音记为 Sw(n) = W[S(n)] = S(n) w(n-m),n=0~(N-1) 则语音处理系统可表示为
5
基于能量和过零率的双门限法检测法
首先用短时能量做第一次判断,然后在此基础上 用短时平均过零率做第二次判断。 这种方法端点的确定与以后的判决无关,因此称 为显式法。
三、短时相关分析
短时自相关函数性质 • 1. R w( −l ) = R w(l ) 为偶函数; • 2. 在-N+1~N-1之间有值; • 3. R ( 0 ) = ∑ s ( n ) ≥ R ( k ) 为最大值。 • 4.当时域信号为周期信号时,自相关函 数也是周期性函数,两者周期相同。 浊音:呈现‘准’周期性、逐渐衰减
男声汉语拼音s的一帧信号(在采样频率为22050Hz 的情况下,取20ms作为一帧),清音的短时能量为 3.88。
二.短时过零率分析
• 过零率定义:信号跨越横轴的次数情况。 • 对于连续信号,观察语音时域波形通过 横轴的情况; • 对于离散信号,相邻的采样值具有不同 的代数符号,也就是样点改变符号的次 数。

《语音信号处理》课件

《语音信号处理》课件
《语音信号处理》PPT课件
目 录
• 语音信号处理概述 • 语音信号的采集与预处理 • 语音信号的特征提取 • 语音识别技术 • 语音合成技术 • 语音信号处理的发展趋势与挑战
01
语音信号处理概述
语音信号处理定义
01
语音信号处理是一门研究语音信 号采集、传输、分析和处理的技 术,旨在提高语音信号的质量、 识别率和传输效率。
在移动通信、视频会议等本流程
预处理
包括噪声抑制、回声消除、混 响消除等,以提高语音信号的
清晰度和可懂度。
特征提取
从语音信号中提取出反映语音 特征的信息,如音高、音强、 时长等。
模式匹配
将提取出的特征与预先训练好 的模型进行匹配,实现语音识 别或分类。
后处理
对识别结果进行优化或编辑, 以满足实际应用需求。
02
语音信号的采集与预 处理
语音信号的采集
01
02
03
采集设备
使用麦克风等声音采集设 备,将声音转换为电信号 ,以便后续处理。
采样率
采样率决定了语音信号的 精度,采样率越高,音质 越好,但数据量也越大。
量化精度
量化精度决定了声音的动 态范围和音质,常见的量 化精度有8位、16位等。
02
语音信号处理涉及的领域包括语 音合成、语音识别、语音增强、 语音编码等。
语音信号处理的应用领域
语音助手
如Siri、Alexa等,通过语音识别技术 将用户的语音转化为文字,再通过自 然语言处理技术理解用户的意图,实 现智能交互。
语音通信
语音娱乐
语音合成技术可以用于智能语音玩具 、电子宠物等领域,提供丰富的语音 交互体验。

第3讲语音信号处理第3

第3讲语音信号处理第3

其中,
xn (m) (m)x(n m), (0 k K )
(m)
1, 0,
m 0 ~ (N 1) m 其它值
x'n (m) '(m)x(n m), (0 k N 1 K)
'
(m)
1, 0,
m 0 ~ (N 1 K) m 其它值
2.修正的短时自相关函数
图3-7 修正短时自相关函数计算中窗口长度的说明
N 1
M n xn (m) m0
❖ Mn也是一帧语音信号能量大小的表征,它与En的区别在于 计算时小取样值和大取样值不会因取平方而造成较大差异, 在某些应用领域中会带来一些好处。
短时过零率分析
❖ 短时过零率表示一帧语音中语音信号波形穿过横轴(零电平) 的次数。过零分析是语音时域分析中最简单的一种。对于连 续语音信号,过零即意味着时域波形通过时间轴;而对于离 散信号,如果相邻的取样值改变符号则称为过零。过零率就 是样本改变符号的次数。
3.1 概述
❖ 语音信号分析 分析出可表示语音信号特征参数
进行高效的语音通信、语音合成和语音识别的基础 时域特征 频率特征
❖ 短时分析技术:贯穿于语音分析全过程 语音信号从整体来看其特征及表征其本质特征的参数均是
随时间而变化的,所以它是一个非平衡态过程,不能用处理 平衡信号的数字信号处理技术对其进行分析处理。
(m)
1, 0,
m 0 ~ (N 1) m 其它值
❖ 其中,n=0,1T,2T,…,并且N为帧长,T为帧移长度。
❖ 设第n帧语音信号xn(m)的短时能量用En表示,则其计算公 式如下:
N 1
En xn2 (m) m0
短时能量及短时平均幅度分析
❖ En是一个度量语音信号幅度值变化的函数,但它有一个缺陷, 即它对高电平非常敏感(因为它计算时用的是信号的平方)。 为此,可采用另一个度量语音信号幅度值变化的函数,即短 时平均幅度函数Mn,它定义为:

第3章 语音信号分析(全)

第3章 语音信号分析(全)


x1 (n) x2 (n)

D

L


D
ˆ y ( n)
1

ˆ ˆ x1 (n) x2 (n)

ˆ ˆ y1 (n) y2 (n)

x(n)
ˆ x ( n)

y1 (n) y2 (n)
y(n)
b)同态系统的组成

D1
D 是特征子系统 L
是线性子系统
振 幅
· ·· · · · · ·· · ·· ·· ·
x(n)= x(nT):取样值 时间 采样周期(T)
第3章 语音信号分析

量化: 幅值方向的离散化

量化信噪比
SNR(dB) 6.02 B 7.2
其中,B表示量化字长 B=7bit时,SNR=35dB,可以满足一般通信系统 的要求。
Fn (k )
N k 1 m 0

x ( m) x ( m k )
n n
(0 k K )
第3章 语音信号分析
极小值
图3-9 与图3-5有相同语音段的AMDF函数的例子
第3章 语音信号分析

短时平均幅度差函数的作用 求语音序列的基音周期 用于区分语音中的清音段和浊音段
0 m N 1 K
m 0 ~ ( N 1 K ) m 其他值
第3章 语音信号分析
图3-6 修正短时自相关函数计算中窗口长度的说明
第3章 语音信号分析
3.3.4 短时平均幅度差函数

平均幅度差函数( AMDF) Average Magnitude Difference Function 短时平均幅度差函数的定义

语音信号处理第3章-语音信号分析讲解

语音信号处理第3章-语音信号分析讲解

信息科学与工程学院
东南大学
预处理:加窗
2.窗口的长度
采样周期Ts=1/fs,窗口长度N和频率分辨率Δf 之间存在下列关系:
采样率一定时,Δf 随窗口宽度N的增加而减小 ,即频率分辨率相应得到提高
• 窗口长,频率分辨率高,时域分辨率降低 • 窗口短,频率分辨率低,时间分辨率提高
1 Vf NTs
其中σx2表示语音方差,2Xmax表示信号的峰值,B 表示量化字长, σe2表示噪声方差。 通常语音信号的幅度符合Laplacian分布,则 SNR(dB) 6.02B 7.2 表明量化器中的每bit字长对SNR的贡献为6dB。
信息科学与工程学院
东南大学
预处理:预加重
语音信号的平均功率谱受声门激励和口鼻 辐射影响,预处理中要进行预加重 (Preemphasis)处理。其目的是提升高频部 分,使信号频谱变得平坦,以便于频谱分 析或声道参数分析。
信息科学与工程学院
东南大学
预处理:加窗
窗口长度的选择,更重要的是要考虑语音 信号的基音周期。通常认为在一个语音帧 内应包含1~7个基音周期。 不同人的基音周期变化很大,从女性和儿 童的2ms到老年男子的14ms(即基音频率的 变化范围为500~70Hz),所以N的选择比较 困难。 通常在10kHz取样频率下,N折中选择为 100~200点为宜(即10~20ms持续时间)。
信息科学与工程学院 东南大学
预处理:加窗
矩形窗与汉明窗的比较
窗类型 旁瓣峰值 主瓣宽度 最小阻带衰减
矩形窗 汉明窗 -13 -41 4π/N 8π/N -21 -53
汉明窗的主瓣宽度比矩形窗大一倍,即带 宽约增加一倍,同时其带外衰减也比矩形 窗大一倍多,汉明窗比矩形窗更为合适。 因此,对语音信号的短时分析来说,窗口 的形状是至关重要的。

《语音信号处理》讲稿第3章

《语音信号处理》讲稿第3章

对性的改进。
03 语音信号的特征提取
时域特征提取
过零率
表示语音信号通过零点的 次数,反映了语音信号的 频率特性。
能量和振幅
计算语音信号的短时能量 和振幅,用于区分清音和 浊音。
自相关函数
描述语音信号在不同时间 点的相似程度,常用于语 音信号的周期性分析。
频域特征提取
傅里叶变换
将时域语音信号转换为频域表示, 便于分析语音信号的频谱特性。
滤波器组
将语音信号划分为多个频带,提取 每个频带的能量或振幅作为特征。
功率谱密度
描述语音信号在各个频率上的功率 分布,反映了语音信号的频谱包络。
倒谱特征提取
1 2
倒谱系数
通过对语音信号的频谱进行对数运算和逆变换, 得到倒谱系数,用于描述语音信号的共振峰特性。
梅尔频率倒谱系数(MFCC) 基于人耳听觉特性,将频谱转换为梅尔频率尺度, 再计算倒谱系数,是语音识别中常用的特征参数。
《语音信号处理》讲稿第3章
目录
• 语音信号处理基础 • 语音信号的预处理 • 语音信号的特征提取 • 语音信号的模型分析 • 语音信号的编码技术 • 语音信号的增强与降噪 • 语音信号的识别技术
01 语音信号处理基础
语音信号的特点
非平稳性
语音信号是一个时变的 信号,其特性随时间变
化。
周期性
浊音信号表现出明显的 周期性,清音信号则不
(HMM)、深度神经网络 (DNN)等,通过统计模型对
语音进行建模和识别。
混合方法
结合基于规则和统计模型的 方法,充分利用两者的优点 ,提高识别性能。
语音识别的实际应用及挑战
实际应用
语音识别技术已广泛应用于智能家居、智能客服、语音输入、语音翻译等领域,为人们的日常生活和工作带来便 利。

语音信号处理PPT_第三章_语音信号分析

语音信号处理PPT_第三章_语音信号分析

① ②

应用: 区分清音和浊音; 从背景噪声中找出语音信号,判断寂静无声段和有声段的起点和 终点位置; 当语音以某些音位开始或结尾时(弱摩擦音、弱爆破音、鼻音 等),过零率和短时平均能量一起结合使用,更为有效。
短时过零率分析
实际问题: 如果输入信号中包含有50Hz的工频干扰或者A/D转换器的工作点有 偏移(等效于输入信号有直流偏移),计算的过零率参数很不精 确。 解决方法: ① A/D转换器前的防混叠带通滤波器低端截止频率应高于50Hz,有 效抑制电源干扰。 ② 采用低直流漂移器件,也可以算出每一帧的直流分量并加以滤除。
3.2 数字化和预处理

语音信号的数字化一般包括放大及增益控制、反混叠滤波、 采样、A/D变换及编码(一般就是PCM码);如下图:
语音信号 带通滤 波器 自动增益控制 (AGC) 存入计算机 模/数转换 (A/D) 脉冲编码 调 制 ( PCM )

预处理一般包括预加重、加窗和分帧等。 分析和处理之前必须把要分析的要分析的语音信号部分从输 入信号中找出来,叫做语音信号的端点检测。
有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。 通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的 基音周期变化很大,所以N的选择比较困难。通常在10kHz取样频率 下,N折中选择为100~200点为宜(即10~20ms持续时间)。

3.3 语音信号的时域分析


语音信号的时域分析就是分析和提取语音信号的时域参数。 应用范围:常用于最基本的参数分析及应用,如语音的分割、预 处理、大分类等。 特点: ①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④只使用示波器等通用设备,使用较为简单等。

语音信号处理课件-语音信号的特性分析_10

语音信号处理课件-语音信号的特性分析_10

+ n’
参考输入n1 参考输入n1
自适应 滤波器
2.短时自相关函数的定义 2.短时自相关函数的定义
Rn (k ) =
N −1−k m=0
∑ x (m) x (m + k )
n n
0<k ≤ K
(1)说明当时域信号为周期信号时, (1)说明当时域信号为周期信号时,自相关函数 说明当时域信号为周期信号时 也是周期性函数,两者具有同样的周期。 也是周期性函数,两者具有同样的周期。 (k)为偶函数 为偶函数, (k)= (2)Rn(k)为偶函数, Rn(k)=Rn(-k) (0)最大 最大, (0)≥ (3)Rn(0)最大, Rn(0)≥ |Rn(k)|, Rn(0)=En,对于 确定信号, (0)是信号能量 是信号能量; 确定信号, Rn(0)是信号能量;对于随机信号或 周期信号, (0)是平均功率 是平均功率。 周期信号, Rn(0)是平均功率。
在实际应用中,短时平均过零率容易受到A/D转 在实际应用中,短时平均过零率容易受到A/D转 A/D 换是的直流偏移、50Hz交流电源的干扰以及噪声的影 换是的直流偏移、50Hz交流电源的干扰以及噪声的影 响。 减少这些干扰可以有两种方法: 减少这些干扰可以有两种方法:一种是采用带通 滤波器消除信号中的直流和50Hz低频分量; 50Hz低频分量 滤波器消除信号中的直流和50Hz低频分量; Hb(ejw) w Bandpass filte Hb
1
0.5
0
-0.5
-1
0
1000
2000
3000
4000
5000
6000
正弦波周期信号
3000 2000 1000 0 -1000 -2000 -3000 0 1000

语音信号处理第三章

语音信号处理第三章

第三章语音信号分析1、语音信号分析?语音信号分析的目标是从语音信号中提取出一个或多个能够描述语音信号的参数,以便在语音编码、语音合成和语音识别等应用。

语音信号分析的目的就是在于方便有效地提取并表示语音信号所携带的信息,是语音信号处理的前提和基础,只有分析出可表示语音信号特征的参数,才有可能利用这些参数进行高效的语音通信,语音合成和语音识别等处理。

一般而言,语音处理的目的有两种:对语音信号进行分析,提取特征参数。

如:语音编码中需要判断语音的清浊音特性并提取浊音的基音周期;语音识别中需要提取符合人耳听觉特性的Mel倒谱参数等。

加工语音信号。

如:语音增强中对含噪语音进行背景噪声抑制,以获得相对干净的语音;在语音合成中需要对分段语音进行拼接平滑,获得主观音质较好的合成语音。

根据所分析出的参数性质的不同可以分为:时域分析、频域分析、倒谱域分析、线性预测分析等;根据分析方法的不同:模型分析方法和非模型分析方法。

不论分析怎么样的参数以及采用什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行,如语音信号的数字化,语音信号的端点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号分析的关键技术。

2、语音信号的数字化和预处理?语音信号的数字化(数字系统具有高速、低成本、低功耗、通用的特点)一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码):语音信号的数字化过程框图预处理一般包括预加重、加窗和分帧等。

在分析处理之前必须把要分析的语音信号部分从输入信号中找出来,这项工作叫做语音信号的端点检测。

预滤波的目的有两个:抑制输入信号各频域分量中频率超过f的所有分量(s f)为采样频率,以防止混叠干扰s(高频成分产生失真)。

抑制50Hz的电源工频干扰。

(市电电压的频率为50Hz,它会以电磁波的辐射形式,对人们的日常生活造成干扰,这种干扰称为工频干扰)这样,预滤波器必须是一个带通滤波器,设其上、下截止频率分别是Hf 和Lf ,则对绝大多数语音译码器:Hzf H 3400=,Hzf L 100~60=,采样频率kHzf s 8=,要求较高的场合:Hzf H 4500=,Hzf L 60=,采样频率kHzf s 10=。

语音信号处理第3章分解PPT课件

语音信号处理第3章分解PPT课件

14
预处理
2.窗口的长度 ❖ 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf
之间存在下列关系: Δf=1/NTs
语音信号
带通滤 波器
自动增益控 制(AGC)
模/数转换 (A/D)
脉冲编码
存入计算机
调制(PCM)
❖ 预处理一般包括预加重、加窗和分帧等。
5
预滤波、采样、A/D变换
预滤波的目的有两个: ❖ 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs)
为采样频率,以防止混叠干扰。 ❖ 抑制50Hz的电源工频干扰。
0n(N1) nelse
(n ) 0 .5 4 0 .4c6 0 ,o 2 n s /N ([ 1 )]0 , n n e (N l1 s ) e
12
预处理
1.窗口的形状 ❖ 好的窗函数的标准是:在时域因为是语音波形乘以
窗函数,所以要减小时间窗两端的坡度,使窗口边 缘两端不引起急剧变化而平滑过渡到零,这样可以 使截取出的语音波形缓慢降为零,减小语音帧的截 断效应;在频域要有较宽的3dB带宽以及较小的边 带最大值。这里只以典型的矩形窗和汉明窗为例进 行比较,其他窗口可参阅FIR数字滤波器或谱分析 的有关书籍。
但是在一个短时间范围内(一般认为在10-30ms的短时间
内),其特性基本保持不变即相对稳定,因而可以将其看作
是一个准稳态过程,即语音信号具有短时平稳性。
3
1 概述
❖ 根据所分析出的参数的性质的不同可以分为: 时域分析、频域分析、倒频域分析,线性预测分析等;
❖ 分析方法的不同: 模型分析方法 和 非模型分析方法
原信号值之间的差值称为量化误差,又称为量化噪声。 ❖ 若量化间隔Δ足够小,可以证明量化噪声符合具有下列特征
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SNRdB 6.02B 4.77 20log10 (
x
xmax
)
(3-11)
3.1 语音信号的短时处理方法 脉冲编码调制
若是xmax取为4倍方差(δx)
SNRdB 6.02B 7.27
取样之位数 8 16 24
(3-12)
数字信号的信噪比 41 dB 89 dB 137 dB
3.1 语音信号的短时处理方法 脉冲编码调制
一个数字信号取样之后,变成离散时间信号,接下来就是要用数字 方式来表示这个离散时间信号上的每个取样值。 一个电位波形会有固定的电压范围,一个取样值可以是在此电压范 围内的任何电位。如果只能用固定数目的位来表示这些取样值,那 么这些二进数字就只能代表固定的几个电位值,这个转换就是量化 (quantization),而转换之后只允许存在的几个电位值就是量化阶 数(quantization level)。 执行量化转换的硬件电路,就是量化器(quantizer)。以二进数字 表示的信号就是数字信号(digital signal),而这种将信号波形转 变成二进数字的方法,就叫脉冲编码调制(pulse code modulation, PCM)。
3.1 语音信号的短时处理方法
预处理 平滑滤波器:D/A后面的低通滤波器是平滑滤 波器,对重构的语音波形的高次谐波起平滑 作用,以去除高次谐波失真。 预加重:




现象:由于语音信号的平均功率谱受声门激励和口 鼻辐射的影响,高频端大约在800 Hz以上按6dB/ 倍频程跌落,为此要在预处理中进行预加重。 目的:提升高频部分,使信号的频谱变得平坦,以 便于进行频谱分析或声道参数分析。 位置:预加重可在A/D变换前的反混叠滤波之前进行, 这样不仅能够进行预加重,而且可以压缩信号的动 态范围,有效地提高信噪比。
加窗取语音帧
3.1 语音信号的短时处理方法
加窗取语音帧
假设加窗的长度为N,在时域中可以写成
sw (m), 0 m N 1 w(m) otherwise 0,
(3-13)
将窗函数w(m)乘在语音信号中的某一个时间点上,
xn (m) x(m)w(n m)
(3-14)
n是加窗位置标示,可以看出只有当m在n-N+1<m<n之间,


注:对于某些要求较高的研究领域或应用场合(如语 音识别),应该考虑语音信号是时变或非平稳的,此 时应采用“隐马尔可夫模型”
引言

时域分析通常用于最基本的参数分析及用 于语音的分割、预处理和大分类等。其特 点为:
① 表示语音信号比较直观、物理意义明确。 ② 实现起来比较简单、运算量少。 ③ 可以得到语音的一些重要参数。



模型分析法是指依据语音产生的数学模型,来分析和提取表征 这些模型的特征参数;共振峰模型分析及声管模型(即线性预测 模型)分析即属于这种分析方法。 非模型分析法,包括上面提到的时域分析法、频域分析法及同 态分析法等。
引言
短时分析技术:语音信号有时变特性,是一个 非平稳的随机过程。但在一个短时间范围内其 特性基本保持不变。即语音的“短时平稳性”。 “短时分析”,即对语音信号流采用分段处理。 将其分为一段一段来分析,其中每一段称为一 “帧”,由于语音通常在10~30 ms之内是保 持相对平稳的,因而帧长一般取为10~30 ms。
第三章时 域 分 析
引言 语音信号的短时处理方法 短时能量合短时平均幅度 短时平均过零率 短时自相关函数 短时时域处理技术应用举例
1. 2. 3.
4.
5.
引言
语音信号处理包括语音通信、语音合成、语音识别、说 话人识别和语音增强等方面,但其前提和基础是对语音 信号的分析。 语音信号分析可分为时域、频域、倒谱域等方法。在分 析处理之前必须把要分析的语音信号部分从输入信号中 找出来,这项工作叫语音信号的端点检测。 语音信号的数字化一般包括放大及增益控制、反混叠滤 波、采样、A/D变换及编码(一般就是PCM码); 预处理一般包括预加重、加窗和分帧等。 语音分析分为模型分析(t )
k
(t kT )
s

(3-2)
3.1 语音信号的短时处理方法
图3-1语音信号 波形及其取样
3.1 语音信号的短时处理方法
信号 频宽 取样频率
电话的语音 计算机上麦克风接口信 号
音响,人耳听觉的上限
3.5 kHz 7 kHz
20 kHz
f d ( ) 1 , 2 2
平均值(mean)为0,方差(variance)为
2 2 2 B 2 2 d x max 12 3
(3-9)
3.1 语音信号的短时处理方法 脉冲编码调制
对于平均值为0的信号,其强度(intensity)即能量就等于 其方差。我们计算其信号能量对量化误差引起的噪音能 量的比值,就叫做量化信噪比(signal-to-noise ratio, SNR) , 2 2 x x SNR 2 3 2 2 B 2 (3-10) d xmax 以分贝(decibel, dB)来表示信噪比,
对于每一格宽度为0.5V的量化方式,其误差值在 -0.25V到 +0.25V 之间,也就是格子宽度的一半。
3.1 语音信号的短时处理方法 脉冲编码调制
将量化误差d(n)看成是一个随机变数(random variable),其值就在 -Δ/2到 +Δ/2之间作均匀分布 (uniform distribution),其概率密度函数(probability density function, pdf)写成下式, (3-8)
3.1 语音信号的短时处理方法
取样率和量化字长的选择




(d)3 bit量化器的噪声与“平 稳白噪声过程”的假设不大 相符 (e)8 bit量化器的噪声的自相 关函数的估计几乎是一个冲 激函数,这与“白噪声过程” 的假设相一致。 (f) 3 bit量化噪声谱和语音信 号谱的性质有某些相似,也 是随着频率的升高而下降 (g) 8 bit时,其量化噪声谱 就比较平坦了,这是典型的 白噪声谱的形状。
xn (m) 才不会是0,也就是x(m)在n-N+1<m<n这一时段中
被取出,作为一个语音帧。
3.1 语音信号的短时处理方法
加窗取语音帧
在语音处理中最常用的两种窗函数是矩形窗 (rectangular window)与海明窗(Hamming window)。矩 形窗的数学式如下:
3.1 语音信号的短时处理方法
取样率和量化字长的选择

SNR(dB)=6.02B-7.2


每bit字长对SNR贡献为6dB。 当B=7bit时, SNR=35 dB。此时量化后的语音 质量能满足一般通信系统的要求。

语音波形的动态范围可达55 dB,故B应取10 bit以上。为了在语音信号变化的范围内保持 35 dB的信噪比,一般要求B≥11,实际常用 12 bit来量化,其中附加的5bit用于补偿30 dB 左右的语音波形的动态范围变化。
3.1 语音信号的短时处理方法
取样率和量化字长的选择
取样率经常取10 kHz。 某些现代语音处理系统语音频率高端扩展 到7~9 kHz,相应的取样率也提高到 15~20 kHz。

3.1 语音信号的短时处理方法
取样率和量化字长的选择

(a)是一段语音信号 400个取样值的包 络曲线, (b)3 bit量化器的量 化噪声与被量化信 号之间存在着一定 的相关性 (c)8 bit量化噪声几 乎已经看不出这种 相关性了。

3.1 语音信号的短时处理方法
语音信号的波形在时间上是连续变化的,所以是 一个连续时间信号,它的电位振幅可以是在一个电压 范围内的任何电位,是一个连续值,这个电位信号我 们叫它模拟信号。我们在处理语音信号时,通常是一 小段一小段地观察语音信号的变化,也就是以音窗也 可称作语音帧为单位,对每一语音帧内的信号,抽取 出代表语音的特征参数,这就是短时语音处理。 在本章中,我们先介绍如何将语音信号作取样与 数字化,然后介绍基本的数字编码,即脉冲编码调制 (PCM)。将语音信号变成数字信号之后,我们可以计算 短时段的信号能量、过零率、自相关函数等时域参数, 以及在下一章将一个音窗内的信号作傅里叶转换,得 到频域中的参数。
3.1 语音信号的短时处理方法
加窗取语音帧
对于一段语音的离散时间信号x(m),用一个固定长度的 窗口(window)套上去,只看窗口内的信号,对这些信号 做计算,用以求出在这窗口内的语音特征(speech features)。这样的处理方式,就叫加窗(windowing), 而套上去的这一段语音即称为语音帧(frame)。
3.1 语音信号的短时处理方法
取样
所谓取样,就是以固定的时间间隔,将模拟信号的振 幅记录下来。从数学上看,就是将模拟信号乘上一个 周期性的脉冲信号,得到一序列的脉冲,其脉冲的大 小就是在该取样的时间点上模拟信号的振幅。如果以 时间函数xa(t)表示一个模拟信号,取样周期为Ts,则 取样后的信号变成xp(t),它等于xa(t)乘上一序列的脉 冲, x p (t ) xa (t ) p(t ) (3-1)
通常窗口的长度是取10~40 毫秒 (ms),这样一段语音信 号,足以计算出语音的特征参数(feature parameters)。
窗口的移动距离,大约会取5~20 ms,让前后的语音帧有 部分重叠,这样能观察到语音特征改变的延续性以保证 分析的准确性。
3.1 语音信号的短时处理方法
加窗取语音帧
3.1 语音信号的短时处理方法
3.1 语音信号的短时处理方法 脉冲编码调制
图3-3等间距量 化的例子
在 -2V到 +2V的电 压范围内,用三个 位代表的二进数字 作量化
相关文档
最新文档