基于声纹识别技术的麦克风阵列说话人实时定位

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于声纹识别技术的麦克风阵列说话人实时定位∗

张南+, 张晓洲, 史元春

清华大学计算机科学与技术系,北京市 100084

摘 要: 本文提出了一个基于声纹识别技术的麦克风阵列说话人实时定位系

统,称为SR-SLOMA。该系统将实时声纹识别技术和麦克风阵列的说话人定

向技术相结合,当麦克风阵列给出的说话人所在区域内存在多人时,综合声纹

识别的结果,按照判定策略,判断出当前实际说话人。该技术有效解决了普通

基于麦克风阵列的说话人实时定位系统会产生判断“歧义”的问题。系统还采

用话音检测技术滤除了与话音特征差别很大的背景音,提高了判断准确度。实

验证明,SR-SLOMA与普通基于麦克风阵列的说话人实时定位系统相比,抗

环境噪音能力强,定位准确度高。

关键词: 声纹识别; 麦克风阵列; 波束成形技术

1.引言

基于麦克风阵列的说话人实时定位(Speaker Localization on Microphone Array, SLOMA)系统广泛应用于会议,多媒体课堂等智能空间场景中[1],[2]。它不但免去了传统的传递话筒或佩戴无线麦克风的繁琐过程,而且便于实现对采集到的音视频按说话人不同进行过程记录[3],[4]。从而使空间变得更加人性化、智能化。

麦克风阵列由多个按特定方式排列起来的麦克风组成。它利用波束成形技术(Beamforming),通过计算声音到达各路麦克风的延迟,判断声源方向,实现定向采音,并对该特定方向的音频信号进行增强。然而,由于会议、课堂等现实场景存在背景音,如桌椅挪动声音,敲键盘声音等,会使麦克风阵列的判断产生偏差。因此,实际场景中麦克风阵列给出的是说话人所在的角度范围。当该范围内存在有多个参与者时,普通SLOMA系统会产生判断“歧义”,无法准确判断出实际说话人。

为此,我们将实时声纹识别技术集成到SLOMA系统中,在麦克风阵列探测出的说话人范围内有多个参与者时,综合实时声纹识别的结果,按设计的判定策略,给出当前说话人的判断。这个基于声纹识别技术的麦克风阵列说话人实时定位系统(Speaker Recognition-based Speaker Localization On Microphone Array),简称为SR-SLOMA。

*

本项目由新世纪优秀人才支持计划资助,NCET-04-0079。

+联系作者Email: z-n04@

2.SR-SLOMA 关键技术

SR-SLOMA 系统旨在解决SLOMA 系统判断“歧义”的问题。在系统中有两个关键性技术:一是话音检测技术,该技术可滤去部分的非话音数据,减小了误判可能性;二是SR-SLOMA 系统的核心――判定策略的设计。

2.1话音检测技术

如何从采集到的音频数据中判断出非话音部分,从而使SR-SLOMA 系统仅对话音数据进行说话人的判断,是话音检测技术的主要目的。SR-SLOMA 系统中话音检测技术的核心是短时能量的判断。短时能量计算式为:

()()n m E x m w n m ∞=−∞=

−⎡⎤⎣⎦∑ 公式 (1)

其中w 表示短时窗函数,在SR-SLOMA 系统中使用的是矩形窗。

由于话音的短时能量与一些环境背景音的短时能量值不同,据此可以滤除部分非话音数据。实验表明,该技术使SR-SLOMA 系统减少了很多不必要的判断,从而提高了判断准确度。

2.2 SR-SLOMA 判定策略

定位系统常采用视觉跟踪技术[5]或Radio-Frequency (RF )技术[6]给出参与者的位置信息。SR-SLOMA 利用位置信息,综合麦克风阵列模块和实时声纹识别模块两者的结果,依判定策略,指出当前说话人。本过程含有两个策略的设计问题:一是实时声纹识别模块进行说话人模型训练的时机;二是如何权衡两模块结果,给出准确判断。

2.2.1说话人模型的训练时机

通常的声纹识别系统,特定模型训练数据的一致性是可以保证的。因为训练过程和识别过程是完全分离的,在训练中可以保证特定模型的训练数据就是来自特定人。但在SR-SLOMA 系统的实时声纹识别模块中,没有关于训练数据归属的先验知识,因此需要其他措施来保证数据一致性。SR-SLOMA 采取的策略是:当系统检测到有人开始说话,且没有该说话人模型时,若定向角度范围内有唯一的参与者,即认为对当前话音归属的判断是“无歧义”的,实时声纹识别模块开始该说话人模型的训练;若定向角度范围内有多个参与者,此时并不能确定当前话音的归属,系统不进行说话人模型训练,如果在这种情况下进行模型训练,说话人与训练出的模型有可能匹配错误。

2.2.2 SR-SLOMA 的判定策略

如何权衡麦克风阵列和实时声纹识别两模块的结果,给出准确判断。这个判定策略的设计是SR-SLOMA 系统的核心。

我们在以麦克风阵列为原点的平面极坐标中进行讨论。假设,智能空间中参与者

数目为N ,位置坐标为(),,0,1,,1i i r i N θ=−"。麦克风阵列给出的说话人偏角为α(单位:rad )。SR-SLOMA 系统中一些关键参数定义如下:

z 说话人所在的可能区域D :定义()0.1rad α±为说话人所在的可能区域。 z 区域D 内参与者的集合M :M N ≤。

z 角度吻合度ρ:参与者i 的角度i θ与α的吻合程度。0.10.1

i i θαρ−−=,[]0,1ρ∈。1i ρ=,即参与者i 的角度与α完全吻合。

z 实时声纹识别结果ε:i ε表示了当前话音是参与者i 的概率。0i ε=,即识别

模块中没有参与者i 的说话人模型。

z 话音判定为参与者i 的可能性i p :12

w w i i i p ρε=⋅,其中12,1,0.5i M w w ∈==。1w 和2w 分别为参数,ρε在决策中的权重。

SR-SLOMA 系统具体的判定策略如表1所示。

表1:SR-SLOMA 系统具体判定策略

实验表明,这个判定策略有效的解决了判断“歧义”问题,提高了判断准确度。

相关文档
最新文档