基于协方差描述子和黎曼流形的语音情感识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

的语音帧. 假设每句语音可以分成 T 帧, 对于 t时刻
( 1 t T ) 的帧数据 I( t ), 提取 n个语音声学特征,
标记为 [ F 1 ( t), F2 ( t ), , Fn ( t ) ] . 基于每句语音所 提取的 n 个特征序列, 可构建协方差矩阵 COVn n,
以此作为对应语音的特征描述子. 协方差矩阵
67 4
模式识别与人工智能
22 卷
1引 言
提高识别准确率和稳定性.
随着人机交互技术的发展, 人机接口已逐渐进 入后图形用户界面时代. 作为智能人机交互的关键 技术之一, 情感识别已成为模式识别、新一代人机接 口技术的研究热点, 对改进当前传统的人机交互方 式起到重要作用. 在情感识别领域, 计算机利用可计 算情感模 型对各 种信号 ( 如 语音、人脸图像、音乐 等 ) 进行分析, 理解信号所包含的情感信息, 并做出 适当响应 [ 1- 3] . 其中, 语音作为 人类交流 的重要媒 介, 除了包含实际发音内 容外, 还包 含着说话人的 喜、怒、哀、乐等丰富的情感信息. 因此, 近年来, 各领 域研究者十分关注如何从语音中自动识别说话人的 情感状态, 并使计算机作出更有针对性和更人性化 的响应.
( n + 1) /2维线性空间中的一个凸锥. 由于语音存
在波动性, 每句语音提取的 n 个声学特征序列 [ F 1,
F 2, , Fn ] 的方差皆为非零, 所以我们只需考虑协
方差矩阵非奇异 (对称且正定 ) 的情形. 该对称正定
矩阵对应上述凸锥的内部. 凸锥内部是一个微分流
形, 在该流形上进行分类仍欠缺一个有效的度量. 度
第 22卷 第 5 期 2009年 10月
模式识别与人工智能 PR & A I
V o.l 22 N o. 5 O ct 2009
基于协方差描述子和黎曼流形的语音情感识别*
刘 佳 陈 纯 叶承羲 李 娜 卜佳俊
(浙江大学 计算机科学 与技术学院 浙江省服务机器人技术重点实验室 杭州 310027)
摘 要 提出一种基于 协方差描述子和黎曼流形的语音 情感识别 方法. 根据 提取的语 音声学 特征, 计算协 方差矩 阵用于表征语句的情感 信息. 考虑到非奇异协方差矩阵 所构成 空间的 高维特 性, 引 入一种 仿射不变 度量使 得该空 间满足黎曼流形的要求. 进而根据微分几何, 建立基于黎 曼流形的 算法架 构. 实验证明, 该 方法在语 音情感 识别中 获得较好的识别效果, 尤其在噪声环境下能更有效地提高识别准确率. 关键词 语音情感识别 , 协方差描述子, 黎曼流形, 噪声环境, 支持向量机 ( SVM ) 中图法分类号 T P 391
到均值点处的切空间上, 我们还需定义该切空间的
正交坐标系, 将切空间中的向量用正交坐标表示, 以
此作为传统分类器的输入, 实现情感分类. 位于切空 间 S 中的向量 V 的正交坐标为 [ 10]
Fra Baidu bibliotek
其中令
vec ( V) =
vecI (
V -
1 2
-
1 2
),
V -
1 2
同胚. 对切空间 SX 中的向量 V, 可通过指数映射将 V 映射为流形 M 上从点 X 出发的等长同向的测地线.
5期
刘 佳 等: 基于协方差描述子和黎曼流形的语音情感识别
6 75
测地线 即是线性 空间中 直线的 推广. 该指 数映射
expX ( V ) 定义如下:
Y=
expX ( V )
=
X
1 2
* 国家自然科学基金 项目 ( N o. 60873124) 、国家科技支撑计划项目 ( N o. 2008BAH 26B02)资助 收稿日期: 2008- 10- 27; 修回日期: 2009- 03- 31 作者简介 刘佳, 女, 1981年生, 博士研究 生, 主要研 究方 向为语 音情 感识别. E-ma i:l liujia@ zju. edu. cn. 陈 纯, 男, 1955年
exp(X -
1 2
VX -
1 2
)X
1
2.
指数映射的逆映射, 即对数映射, 则将流形上的点 X
到点 Y的测地线映射为切空间 SX 中等长同向的向
量 V:
V=
logX
( Y)
=
1
X2
log(X -
1 2
YX-
1 2
1
)X 2.
本文将该仿射不变度量用于协方差矩阵构成的
凸锥上, 使其满足黎曼流形的要求, 然后构建语音情 感分类框架. 在线性空间中, 平面可由一组基向量张
2 协方差描述子和黎曼流形
2. 1 协方差描述子
最先采用协方差矩阵进行特征描述和表征是在
纹理识别和物体检测等研究领域 [ 8] . 考虑到语音情
感信号也具有类似的高维空间分布特征, 我们将其
引入到语音情感识别中.
根据语音信号的短时平稳性, 我们将海明窗在
语音序列上进行滑动, 用以截取具有相对固定特性
量是分类算法的基础, 所有分类相关的计算都必须
在度量空间中进行. 因此, 我们赋予该微分流形一个
可计算的度量, 使其满足黎曼流形的要求, 进而运用
微分几何方法, 给出分类在流形上的算法架构.
2. 2 黎曼流形
黎曼流形 M 是一个局部欧氏的拓扑空间, 是有
着连续黎曼度量的微分流形. 流形 M 上的每个点都
维空间, 利用上述传统统计向量直接进行分类的方 式显然难以反映情感语音的高维特性, 从而导致识 别效果参差不齐, 系统的稳定性和鲁棒性较差.
考虑到传统的语音情感识别方所存在的问题, 本文提出一个基于协方差描述子和黎曼流形的语音
情感特征表征和度量方法. 在前述常用的声学特征 的基础上, 计算这些特征的协方差矩阵, 作为句子层 面的统计量, 并且利用黎曼流形的相关理论, 解决协 方差矩阵空间的度量问题. 与利用传统统计量进行 语音情感识别相比, 基于协方差描述子的语音特征 表达能够更好地反映情感信号的高维特性, 更便于 分类和识别. 实验证明, 在进行语音情感识别, 尤其 是噪声环境下语音情感识别时, 本文方法能够有效
COVn n 中的各元素为
CO Vij
=
T
1 -
T
1 t= 1
(F i ( t)
- m i ) (F j ( t)
-
mj ),
其中, m i 和 m j 分别是编号为 i的声学特征和编号为
j的声学特征的平均值.
协方差矩阵自身具有对称、半正定的结构属性.
文献 [ 9] 指出, n n 的对 称半正定 矩阵构成 n
Zhejiang Un iversity, H angzhou 310027)
ABSTRACT
An a lgorithm for speech em otion recognition is proposed based on covariance descr iptor and R iem annian m an ifo ld. A ccord ing to the extracted acoustic features, covariance m atrices are com puted as the em ot ion descriptors of sentences. W ith the consideration of h igh dim ensional characteristic of the space constructed by non- singu lar covariance m atrices, an affine invariance m etric is adopted to m ake the space m eet the requirem ent of R iem annian m an ifo ld. W ith d ifferent ial geom etry, the speech em otion recogn ition is perform ed on the m anifold. T he experim enta l results show a sign if icant improvem en t in recogn ition accuracy, especia lly under no isy env ironm ents.
成. 出于对分类的考虑, 可将流形上的 平面 看作 n
维切空间中一组 n - 1维向量的任意线性组合在指 数映射下的像. 因此, 对于给定的度量, 计算出指数
映射和对数映射, 问题便迎刃而解. 但是, 算法中还
需考虑两处细节.
1) 流形 M 上的每一点处都有一个切空间, 那么 用于映射的切空间应该如何选取. 直观想象, 对于流 形 M 上的一簇点 (X 1, X 2, , XN ), 应当在这一簇点 的均值处作一个切空间, 才能得到最优逼近. 也就是 说, 我们需要计算流形上的均值 . 文献 [ 10] 提出
生, 教授, 博士生导师, 主要研究方向为图形图像处理、语音分析、嵌入式系统. 叶承羲, 男, 1985年生, 硕士 研究生, 主要研究 方向为模式识别、图像处理. 李娜, 女, 1978年生, 博士后, 主要研 究方向为 模式识别. 卜佳 俊, 男, 1973年 生, 教 授, 博 士生导 师, 主要研究方向为嵌入式系统、语音和图形图像处理.
Speech Em otion Recogn ition B ased on Covariance Descriptor and R iemannian M anifold
L IU Jia, CHEN Chun, YE Cheng-X,i L I Na, BU Jia-Jun (K ey Laboratory of Service R obot T echnique, C ollege of Computer Science and T echnology,
K ey W ord s Speech Emo tion Recogn ition, Covar iance Descriptor, R iem ann ian M an ifo ld, N o isy Env ironm en,t Support V ecto rM ach ine ( SVM )
存在一个小邻域, 与欧氏空间上的一个小邻域微分
同胚.
度量是附加于流形之上的一种结构. 同一流形
上可以有许多不同的度量. P ennec等人在文献 [ 10]
中, 提出微分流形上的一种仿射不变度量. 该度量的
主要思想是, 对于黎曼流形 M 上的任意一点 X, 均可
作一个切空间 SX , 并构造切空间 SX 和流形 M 的微分
微分流形的 K archer均值:
N
= a rgm in d2 (X i, Y ), P M i= 1
它要求均值点 和各点间的平方距离之和最小. 其
中, 平方距离的计算公式如下:
d2 (X, Y ) =
tr(
log2
(X
-
1 2
YX-
1 2
) ).
我们可以采用梯度下降法求得该均值 , 并在 点
作切空间, 得到流形的最合理逼近. 2) 虽然利用对数映射能将流形 M 上的点映射
语音情感识别过程主要包括两个步骤: 1) 对输 入语音信号进行分析, 提取其中的各种声学特征构 造语音 特征 向 量; 2) 训 练 分类 器, 如 支持 向 量机 ( SVM ) 、隐马尔可夫模型等, 用于语音情感识别. 目 前在语音情感识别中常用的声学特征包括: 基音频 率、短时过零率、对数能量、共振峰、线性预测倒谱系 数、M el频率倒谱系数 ( M e l F requency C epstra l Coe-f ficients, MFCC )、线谱对 ( L ine Spectrum P air, LPS) 、 感知线性预测倒谱系数 ( Perceptua l L inear P red ict ion Cepstra l Coefficients, PLPCC )等 [ 4- 5] . 传统的识别方 法首先将语音信号分帧, 提取每帧数据的声学特征. 然后在句子层面计算声学特征的多项统计量, 如均 值、中间值、方差、最大值、最小值等, 得到一个多维 统计特征向量表征情感信息. 最后, 根据这些统计特 征向量训练语音情感分类器. 目前这类方法能取得 70% ~ 90% 的识别准确率 [ 1, 6- 7] . 然而, 由于语音情 感空间实际上是由一系列声学特征向量所张成的高
相关文档
最新文档