语音信号特征提取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
h(n)
,根据同态处理方法
有:
~
H (z) ln H (z)
因为线性预测中声道系~ 统函数H(z)是最小相位的。即在单位 圆内是解析的。所以 H (z) 可以展开为级数形式为:
~
~
H (z) h(n)zn
n1
将
~
H
(
z
)
对
z
1
求导,并整理得:
1
P
i
z
i
~
nh(n)zn
PHale Waihona Puke Baidu
ii zi
i1
MFCC参数及其差分
MFCC是目前语音识别中使用最广泛的特征参数,是 基于人耳听觉特性的一种参数。它和线性频率的转换关系 如下公式:
fmel
2595log10 (1
f) 700
根据研究,人听觉的临界频率带宽随着频率的变化, 并且与Mel频率的增长一致,在1000Hz以下,大体呈线性 分布,带宽为100Hz左右,在1000Hz以上呈对数增长。
LPCC参数及其差分
同态处理基本原理
语音信号、图像信号、通信中的衰落信号和调制信号 都是非线性信号,是乘积性信号或卷积性信号。同态信号 处理就是将非线性问题转化为线性问题来处理。图1是同 台系统的组成框图。
图1 同态系统的组成
复倒谱和倒谱
我们把前面得到的输出信号 y(n) 称为输入信号x(n) 的复
MFCC参数是按帧计算的。首先要通过FFT得到该帧信 号的功率谱s(n)转换为Mel频率下的功率谱。这需要在计算 之前先在语音的频谱范围内设置若干个带通滤波器:
M为滤波器的个数,由信号的截止频率决定,通常取 24,N为一帧语音信号的点数。为了计算FFT的方便,通常 取N为256。滤波器在频率上为简单的三角形,其中心频率 为 fm ,它们在Mel频率轴上是均匀分布的。在线性频率上, 当m较小时,相邻的 间f隔m 很小,随着m的逐渐增加,相 邻的 间隔逐fm 渐拉开。如图2所示。此外,在频率较低的
倒谱,用公式表示如下:
F (x(n)) X (e jw ) Y (e jw ) ln X (e jw )
y(n) F 1 ln X (e jw )
而倒谱c(n)定义为序列x(n)对数幅度谱的傅立叶逆变 换,即:
c(n) F 1 ln | X (e jw) |
线性预测倒谱
假若一个语音信号用一个p阶的全极点系统受白噪声 u(n)激励产生的输出来模拟(也就是说该信号在零状态下 只有白噪声作为激励),则输入和输出的关系可以表示为 差分方程:
E(n) en2( j) min
j
为了使 E(n)最小,上式对各阶LPC系数求导,并令其导 数为零,即:
E(n) / i 0 (i 1, 2, p)
为此便得到以 i 为变量的线性方程组,一旦解出其中 的变量i ,最小误差能量便可求得,设求出的最小误差能
量解为:
r(0)
rp
r(1)
r( p)
则采用Yule-Walker求解线性预测系数的公式为:ap Rp1rp
其中 Rp :
LPC的计算方法有自相关法、协方差法、格型法、Burg 法等等。
LPC模型阶数P的确定
实验表明,LPC分析阶数p应选在8至12之间。选择 p=12可以对绝大多数语音信号的声道模型取得足够近似的 逼近。p值选得过大虽然可以略微改善逼近效果,但也带 来一些负作用。一方面是加大了计算量,另一方面有可能 增添一些不必要的细节,比如在用声道模型谱进行共振峰 分析时反而使效果变坏。
音识别的实时实现; 还要考虑特征参数的计算量,应在保持高识别率的情况下,
尽可能减少特征维数,以减小存储要求和利于实时实现。
LPC参数
基本思想
语音样点之间存在相关性,所以可以用过去的样点值
来预测现在或未来的样点值,即语音信号的每个取样值, 可以用它过去若干个取样值的加权和来逼近。
用公式表示如下:
~
P
x(n) ix(n i)
i 1
其中,x~ (n) 为语音信号的现在估计值,x(n i)(1 i p) 为前p个采样值, i 为预测系数。
系统的预测误差 e(n):
~
P
e(n) x(n) x(n) x(n) i x(n i)
i 1
为了使这种预测达到最佳,应使预测误差 e(n)在某一短 时的总能量尽可能小,并在此准则下求出最佳预测系数i, 为此定义短时平均预测误差能量E(n)为最小,即:
标准的LPCC参数只反映了声道参数的静态特性,反 映说话人声道动态变化的参数就是线性预测差分倒谱。
线性预测差分倒谱的定义为:
k
~
~ i h(n i)
h(t) ik k
i2
ik
这里k为常数,通常取2,这时差分参数就称为当前帧 的前两帧和后两帧参数的线性组合。由此式计算得到的差 分参数为一阶差分参数,用同样的公式对一阶差分参数进 行计算,可得到二阶差分LPCC参数。
语音信号的特征参数提取
演讲者:刘德体
特征提取的定义 特征参数的选择标准 LPC参数 LPCC参数及其差分 MFCC参数及其差分 方法比较
特征提取的定义
语音特征提取
特征提取就是从说话人的语音信号中提取出表示说话 人个性的基本特征。
常见的说话人特征
语音帧能量、基音周期、线性预测系数LPC、共振峰 频率及带宽、鼻音联合特征、谱相关特征、相对发音速率 特征、LPC倒谱以及音调轮廓特征等。
n1
i1
另上式两端 z1 各次幂的系数相等,得到递推关系:
~ h(n)
n1
an i1
n1 i 1
1
1
i n
ai
i n
ai
~
h(n
~
h(n
i)
i)
1 n p n>p
按上式可以直接从预测系数推得倒谱,这个倒谱是根据线性 预测模型得到的,所以称为线性预测倒谱(LPCC)。
线性预测差分倒谱
P
x(n) i x(n i) Gu(n) i 1
其中,G为增益系数,它用来控制音量。则该系统的 Z域表达式:
P
X (z) i zi X (z) GU (z) i 1
该系统的传递函数:
H (z) X (z) GU (z) 1
1
P
i zi
i 1
其冲激响应为
h(n)。求
h(n)
的倒谱
~
本次主要讲的是线性预测倒谱系数(LPCC)及其差分 和美尔倒谱系数(MFCC)及其差分作为说话人识别的特征 参数。
特征参数的选择标准
体现对异音字之间的距离尽可能大,而同音字之间的距离 应尽可能小。若以前者距离与后者距离之比为优化准则确 定目标量,则应是该量最大;
各阶参数之间有良好的独立性; 特征参数要计算方便,最好有高效的计算方法,以保证语
,根据同态处理方法
有:
~
H (z) ln H (z)
因为线性预测中声道系~ 统函数H(z)是最小相位的。即在单位 圆内是解析的。所以 H (z) 可以展开为级数形式为:
~
~
H (z) h(n)zn
n1
将
~
H
(
z
)
对
z
1
求导,并整理得:
1
P
i
z
i
~
nh(n)zn
PHale Waihona Puke Baidu
ii zi
i1
MFCC参数及其差分
MFCC是目前语音识别中使用最广泛的特征参数,是 基于人耳听觉特性的一种参数。它和线性频率的转换关系 如下公式:
fmel
2595log10 (1
f) 700
根据研究,人听觉的临界频率带宽随着频率的变化, 并且与Mel频率的增长一致,在1000Hz以下,大体呈线性 分布,带宽为100Hz左右,在1000Hz以上呈对数增长。
LPCC参数及其差分
同态处理基本原理
语音信号、图像信号、通信中的衰落信号和调制信号 都是非线性信号,是乘积性信号或卷积性信号。同态信号 处理就是将非线性问题转化为线性问题来处理。图1是同 台系统的组成框图。
图1 同态系统的组成
复倒谱和倒谱
我们把前面得到的输出信号 y(n) 称为输入信号x(n) 的复
MFCC参数是按帧计算的。首先要通过FFT得到该帧信 号的功率谱s(n)转换为Mel频率下的功率谱。这需要在计算 之前先在语音的频谱范围内设置若干个带通滤波器:
M为滤波器的个数,由信号的截止频率决定,通常取 24,N为一帧语音信号的点数。为了计算FFT的方便,通常 取N为256。滤波器在频率上为简单的三角形,其中心频率 为 fm ,它们在Mel频率轴上是均匀分布的。在线性频率上, 当m较小时,相邻的 间f隔m 很小,随着m的逐渐增加,相 邻的 间隔逐fm 渐拉开。如图2所示。此外,在频率较低的
倒谱,用公式表示如下:
F (x(n)) X (e jw ) Y (e jw ) ln X (e jw )
y(n) F 1 ln X (e jw )
而倒谱c(n)定义为序列x(n)对数幅度谱的傅立叶逆变 换,即:
c(n) F 1 ln | X (e jw) |
线性预测倒谱
假若一个语音信号用一个p阶的全极点系统受白噪声 u(n)激励产生的输出来模拟(也就是说该信号在零状态下 只有白噪声作为激励),则输入和输出的关系可以表示为 差分方程:
E(n) en2( j) min
j
为了使 E(n)最小,上式对各阶LPC系数求导,并令其导 数为零,即:
E(n) / i 0 (i 1, 2, p)
为此便得到以 i 为变量的线性方程组,一旦解出其中 的变量i ,最小误差能量便可求得,设求出的最小误差能
量解为:
r(0)
rp
r(1)
r( p)
则采用Yule-Walker求解线性预测系数的公式为:ap Rp1rp
其中 Rp :
LPC的计算方法有自相关法、协方差法、格型法、Burg 法等等。
LPC模型阶数P的确定
实验表明,LPC分析阶数p应选在8至12之间。选择 p=12可以对绝大多数语音信号的声道模型取得足够近似的 逼近。p值选得过大虽然可以略微改善逼近效果,但也带 来一些负作用。一方面是加大了计算量,另一方面有可能 增添一些不必要的细节,比如在用声道模型谱进行共振峰 分析时反而使效果变坏。
音识别的实时实现; 还要考虑特征参数的计算量,应在保持高识别率的情况下,
尽可能减少特征维数,以减小存储要求和利于实时实现。
LPC参数
基本思想
语音样点之间存在相关性,所以可以用过去的样点值
来预测现在或未来的样点值,即语音信号的每个取样值, 可以用它过去若干个取样值的加权和来逼近。
用公式表示如下:
~
P
x(n) ix(n i)
i 1
其中,x~ (n) 为语音信号的现在估计值,x(n i)(1 i p) 为前p个采样值, i 为预测系数。
系统的预测误差 e(n):
~
P
e(n) x(n) x(n) x(n) i x(n i)
i 1
为了使这种预测达到最佳,应使预测误差 e(n)在某一短 时的总能量尽可能小,并在此准则下求出最佳预测系数i, 为此定义短时平均预测误差能量E(n)为最小,即:
标准的LPCC参数只反映了声道参数的静态特性,反 映说话人声道动态变化的参数就是线性预测差分倒谱。
线性预测差分倒谱的定义为:
k
~
~ i h(n i)
h(t) ik k
i2
ik
这里k为常数,通常取2,这时差分参数就称为当前帧 的前两帧和后两帧参数的线性组合。由此式计算得到的差 分参数为一阶差分参数,用同样的公式对一阶差分参数进 行计算,可得到二阶差分LPCC参数。
语音信号的特征参数提取
演讲者:刘德体
特征提取的定义 特征参数的选择标准 LPC参数 LPCC参数及其差分 MFCC参数及其差分 方法比较
特征提取的定义
语音特征提取
特征提取就是从说话人的语音信号中提取出表示说话 人个性的基本特征。
常见的说话人特征
语音帧能量、基音周期、线性预测系数LPC、共振峰 频率及带宽、鼻音联合特征、谱相关特征、相对发音速率 特征、LPC倒谱以及音调轮廓特征等。
n1
i1
另上式两端 z1 各次幂的系数相等,得到递推关系:
~ h(n)
n1
an i1
n1 i 1
1
1
i n
ai
i n
ai
~
h(n
~
h(n
i)
i)
1 n p n>p
按上式可以直接从预测系数推得倒谱,这个倒谱是根据线性 预测模型得到的,所以称为线性预测倒谱(LPCC)。
线性预测差分倒谱
P
x(n) i x(n i) Gu(n) i 1
其中,G为增益系数,它用来控制音量。则该系统的 Z域表达式:
P
X (z) i zi X (z) GU (z) i 1
该系统的传递函数:
H (z) X (z) GU (z) 1
1
P
i zi
i 1
其冲激响应为
h(n)。求
h(n)
的倒谱
~
本次主要讲的是线性预测倒谱系数(LPCC)及其差分 和美尔倒谱系数(MFCC)及其差分作为说话人识别的特征 参数。
特征参数的选择标准
体现对异音字之间的距离尽可能大,而同音字之间的距离 应尽可能小。若以前者距离与后者距离之比为优化准则确 定目标量,则应是该量最大;
各阶参数之间有良好的独立性; 特征参数要计算方便,最好有高效的计算方法,以保证语