语音情感识别中特征参数的性别差异和规整

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
http://www.paper.edu.cn
语音情感识别中特征参数的性别差异和规整
包永强 沈忱 王治平 赵力
(东南大学无线电工程系 南京 210096)
E-Mail: zhaoli@seu.edu.cn
摘 要:在语音情感识别中,基音和共振峰参数是常用的特征参数。这些参数对于不同性别 有较大的差异,需要根据说话人的性别对这些参数进行规整,消除性别差异。本文首先利用 男女性别的不同基音分布特征对于测试样本进行性别分类,然后对样本的基音参数和共振峰 参数进行基于性别的参数规整,结合时间参数和能量参数,采用 K 最近邻(KNN)方法对情 感语音信号进行识别,实验结果表明基于性别差异规整的基音参数和共振峰参数能较大提高 语音信号的情感识别率。 关键词:语音信号, 情感识别, K 最近邻
(1) ϕ( f ) ≥ 0
(2) ∫ϕ( f )dx = 1
实际上,只要ϕ( f ) 自己也是一个概率密度函数,就能满足要求。满足这些条件的常用
的窗函数有方窗,正态窗和指数窗等。在这里我们选用中心数据加权特性介于方窗和指数窗 之间的正态窗函数
ϕ( f ) =
1
e−
1 2
(
f
− fi hN 2
)2
hN 2π
(b)基音方差
图 1 不同性别的情感语音材料的基音参数 图 1 是不同性别样本的基音均值和基音方差相对不同情感的分布。对于基音均值而言, 男性和女性基本上属于两个完全不同的范围。对于某个特定的情感,女性的平均基音一般都 高于男性 100Hz 左右。从基音的方差来看,特性类似于基音均值,男女性别之间规律相同, 且女性略高于男性。
1
http://www.paper.edu.cn
受到了忽视,而减弱了利用这些声学参数对情感辨识能力。为了更好的利用这些声学参数来 识别情感,所以需要对考虑这些声学参数的性别差异。本文针对两个重要声学参数,基音和 共振峰在不同性别条件下对情感的不同影响,在参数提取的过程中消除这些声学参数的性别 差异,从而增强其对于语音情感识别的有效性,提高语音情感识别的正确率。
1 引言
情感计算作为一个崭新的领域,日益引起国内外各研究机构的重视。情感计算的目的是 通过赋予计算机识别、理解、表达和适应人的情感能力来建立和谐的人机环境,并使计算机 具有更高的、全面的智能[1]。语音情感识别是情感计算的一项重要内容。在过去的语音信号 处理中,着重于对表层信息(符号信息)的识别和处理,而通过规则化的手段将一些表示隐 层信息(语义、情感信息)的特征去除掉,然而正是这些隐层信息为人类感知情感模式提供 了十分重要的作用[2]。语音情感信息处理的目的就是通过提取语音信号中的情感参数对隐藏 在语音信号中的情感信息进行识别。同传统的知识科学世界一样,它也是信息处理的重要组 成部分,在信号处理和人工智能等领域具有重要意义。
表 1 共振峰参数的性别差异及其同情感的规律
特征
性别差异
情感规律
第一共振峰均值 女性高于男性
同激活维度成正相关关系
第二共振峰均值 第三共振峰均值
情感状态下,男性高于女性; 同效价维度成负相关关系
平静状态例外 情感状态下,男性高于女性;
同效价维度成负相关关系 平静状态例外
共振峰方差 大部分情况,女性高于男性 同各维度无明显规律
低于概率阈值的划分为女性。实验表明,当输入的语音信号较长时,识别率较高。对于持续 时间高于 20 秒的长句,识别准确率高达 98%。对于持续时间较短的短句和单词,准确率也
5
http://www.paper.edu.cn
可以达到 89%以上。
3.2 特征参数的性别规整
对于训练样本,性别事先已知,首先得到每个信号样本的基音曲线和前三个共振峰的曲 线,去除曲线中所有的零值部分后,求得该曲线的均值和方差。按照样本所属的不同性别, 归入不同的集合。集合分类如下
在情感识别的研究中,提取的声学参数比如基音参数、共振峰参数一般都是这些参数在 一段语音信号上的均值,或者这些参数随着语音信号的变化轨迹曲线衍生出来的参数,比如 基音方差、基音最小值、基音最大值、基音范围、共振峰方差,共振峰变化率等等。这些参 数主要体现的是人体的声门和声道的特征,因此和人的生理构造有着密切的关系,在不同的 个体上显现出较强的相异性。这种差异在不同的性别上尤其明显。在过去的文献中,这些在 不考虑情感因素情况下的声学参数性别差异已得到充分的研究,然而针对不同性别下的特征 参数在情感状态下的影响,则从来没有文献给予专门研究。因此在以往的情感识别中,往往 忽略了性别对于情感特征参数的影响。虽然有少量研究人员在研究的结果中发现了在不同性 别的集合下识别结果的差异[8],但是没有就这些差异作更深入的分析。而更多的研究则对于 不同性别的情感语音材料给予统一考虑。虽然一些动态的衍生参数(比如上升斜率、下降斜 率等)受到影响较小,但是对于大多数参数,如均值、方差、动态范围等在性别上的差异都
(3)
4
http://www.paper.edu.cn
落入以 f 为中心的正态窗内的所有样本数表示为
∑ kN
=
N⎛ ⎜
i=1 ⎜⎝ hN
1 2π
− 1 ( f − fi wk.baidu.com2
e 2 hN 2
⎞ ⎟ ⎟⎠
(4)
将(4)式代入(1)式,可以得到
∑ p)N (x) =
1 N
N1 V i=1 N
⎛ ⎜ ⎜⎝ hN
2.2 共振峰参数的性别差异
用同样的方法给出不同情感不同性别的语音信号的共振峰参数的均值和方差,如图 2 所示。
(a)前三个共振峰的均值
(b)前三个共振峰的方差
图 2 不同性别的情感语音材料的共振峰参数
图 2(a)是不同性别样本的前三个共振峰的均值相对不同情感的分布。可以看到,第 一共振峰的均值同情感之间的关系类似于基音均值和方差,基本上同情感的激活维度成正 比。激活程度较高的愤怒、高兴、惊讶保持较高的共振峰均值,激活程度较低的恐惧、悲伤、 平静保持较低的共振峰均值。不同的性别在同种情感上,稍有差异,女性略高于男性。第二 共振峰的均值同基音参数、以及第一共振峰的特性不同。首先,在性别差异上,男性的第二 共振峰均值普遍高于女性,但是在平静状态时,不同性别间的差异较小。其次,在不同情感 的表达上,可以看到该参数的变化规律和情感的效价维度成负相关关系。对于效价度低的情 感,比如愤怒、恐惧、悲伤,均具有较高的第二共振峰均值,而效价度较高的情感,如高兴, 其第二共振峰均值则较低。第三共振峰均值的规律类似于第二共振峰均值。在性别差异上, 情感语音材料的第三共振峰均值均存在男性略高于女性的现象,而此规律对于不包含任何情 感的语音材料则不成立。在效价维度上,第三共振峰更好的体现了其和效价维度的负相关关 系,对于高兴等正性效价情感的作用更加明显。
基于情感的三维空间理论,Pereira将语音数据在激活度,评价度和控制度所组成的三维 空间中进行分类[9]。对每个维度划分不同的等级,然后分析语音参数同各个维度的关系。 Pereira认为男性和女性在激活维度上的基音均值和基音方差的表现特征趋同,具有较强的正 相关性。但对于评价维度和控制维度,不同性别则具有较大的差异。在评价维度和控制维度 上,男性的基音均值和方差与之的关系很弱。女性的基音均值和方差同这两个维度的相关性 稍强于男性,呈正相关特性。
图 2(b)中表示的是不同性别的前三个共振峰的方差同各类情感之间的关系。在性别 差异上,可以看到大部分情况下女性情感语句的共振峰的方差均高于男性。但是从该特征参
3
http://www.paper.edu.cn
数和情感类型的关系来看,不存在明显规律。 根据情感语音信号中提取的共振峰参数相对于不同情感的分布,可以总结规律如表 1:
3 考虑性别差异的参数提取
3.1 基于基音频率统计规律的性别分离
在考虑性别差异的参数规整中,首先需要对测试样本的性别进行鉴别。我们利用不同性 别基音频率统计模型的差异对性别进行分离。为此,首先需要估计基音信号的概率密度函数。
估计概率密度函数 p)N ( f ) 的基本公式为
p) N
(
f
)
=
kN / N VN
在语音学的研究范畴内,语音情感通过不同的声学参数变化得以体现,将不同的声学参 数以及声学参数的衍生参数作为特征参数,可以对语音情感进行识别[3-7]。Dellaerat等人[3]主 要使用了基音轮廓线,来区分悲伤,生气,高兴和害怕,识别率能达到 60-65%。Seppanen 等人[4]在利用韵律学对芬兰语进行语音情感识别时,提出了共 43 种情感参数,其中基音部 分包括基音均值、中值、最大值、最小值、基音范围等参数,对于单个特定人的情感识别取 得了 80.7%的识别率。Petrushin[5]采用了基音、一次共振峰和二次共振峰、能量、说话速率 等参数的对五种情感识别取得了最好的效果,平均识别率达到 70%。McGilloway等人[6]研 究了高兴,生气,悲伤,害怕和正常这五种情感状态的分类,从能量、基音的运动轨迹中抽 取了 32 个潜在的特征,得到了 55%的识别率。
Male
0.9
Female
0.8
0.7
0.6
Probability
0.5
0.4
0.3
0.2
0.1
0 0 50 100 150 200 250 300 350 400 450 500 Frequency(Hz)
图 3 不同性别的基音累积密度函数
从图 3 可以看出,男性的基音累积分布函数 pm ( f ) 和女性的基音累积分布函数 p f ( f )
集合
表 2 参数提取集合分类
男性
女性
均值
方差
均值
方差
F0
M
m F0
S
m F0
M
f F
0
S
f F
(1)
其中VN 是区域 ℜ N 的覆盖范围。ℜ N 是一个包含f在内的区域,N是所有样本数,kn是落入区
域 ℜ N 的样本个数。定义一个窗函数ϕ( f ) 来表示落入区域 ℜ N 的样本数
N
kN = ∑ϕ ( fi )
(2)
i =1
要使估计量 p)N (x) 成为一个合理的密度函数,需要窗函数满足以下两个条件
有较大的差异。基于这种累积函数的差异可以对性别进行简单分类。选取累积函数曲线上性
别的概率相差最大的频率点 fT 作为阈值频率,选取阈值频率对应的男女性别的分布值的均
值作为累积分布的阈值。
PT
=
pm ( fT ) + 2
p f ( fT )
(6)
对于输入的语音信号,计算频率 fT 处的累积密度函数值,高于概率阈值 PT 的划分为男性,
从基音参数相对于情感的分布来看,在激活维度上具有高激活特性的情感,比如愤怒、
2
http://www.paper.edu.cn
高兴、惊奇,其基音均值和基音方差都相对于其他情感较高;而激活特性最低的悲伤情感的 均值和方差相对于其他情感较低。这说明了基音参数同情感的激活维度具有正相关的特性。 这和 Pereira 的研究相一致,因此利用基音参数可以对激活程度差异较大的情感进行有效的 分析。
1 2π
−1 (x−xi )2
e 2 hN 2
⎞ ⎟ ⎟⎠
(5)
(5)式就是利用正态窗进行对基音频率的概率密度函数进行 Parzen 窗法估计的公式。 利用(5)式对于语音信号基音频率的概率密度进行估计,然后再对概率密度函数积分,得 到不同性别的基音频率累积密度函数如图 3:
Cumulative Distribution Function 1
2 语音情感特征参数的性别差异分析
2.1 基音参数的性别差异
生理心理学家广泛的研究认为,人的情绪状态通常分布在一个三维的维度空间里。情感 状态具有激活维度(也叫激励维度)、评价维度(也叫效价维度)和控制维度(也叫能力维 度或者信心维度)。激活维度主要体现为情绪的激烈程度,是对情绪的内在能量的一种度量。 评价维度主要体现为情感主体的情绪感受,是对情绪和主体关系的一种度量。控制维度体现 的是人对情感的控制能力和主动程度,比如轻蔑和恐惧,就处于控制维度不同的两端。不同 的情感具有不同的激活度、评价度和控制度,他们分别处于这个三维空间的不同位置。
我们将用于训练的所有长句样本共 216 句,作出其各自基音曲线,对于其中不能检测到 基音的部分给予剔除处理。然后将同情感同性别的基音曲线分到同一类中,对于每一类基音 集合求取均值和方差。在测试集合中,情感分作平静、高兴、愤怒、悲伤、恐惧、惊讶,我 们按照男女性别分别作出它们的坐标,如图 1 所示:
(a) 基音均值
相关文档
最新文档