基于音视频融合的说话人跟踪方法的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
申请辽宁大学硕士学位论文
基于音视频融合的说话人跟踪方法的研究
Research on Speaker Tracking Method Based on
Audio and Video Fusion
作者:姜雪莹
指导教师:景源副教授
专业:计算机应用技术
答辩日期:2018年5月25日
二○一八年五月·中国辽宁
摘要
摘要
近几年随着科学技术不断发展,目标跟踪技术越来越受到人们的重视并被广泛的应用在视频会议、智能机器人等领域,它已经成为了当代学者们研究的重要课题。
传统的目标跟踪只是利用单一类型传感器采集到的信息来完成跟踪,而单一模态的信息会受一些因素的影响从而导致跟踪结果的准确性和系统的鲁棒性大幅下降,例如环境噪声、遮挡物反射等因素会对声源跟踪系统产生影响,视频跟踪中目标运动姿态的改变、目标遮挡等影响因素也会干扰其跟踪的效果,因此本文对以音频和视频为代表的多模态数据进行融合处理来提高对说话人跟踪的准确性。
本文提出了将通过麦克风阵列得到的音频信息与摄像头得到的视频信息在粒子滤波的框架下进行融合,利用两种信息源的各自优点来进行互补,提高了说话人跟踪结果的准确性。
为了能够从整体上提高通过融合音视频信息得到的跟踪结果的准确性,本文对传统的广义互相关算法和粒子滤波算法进行了改进,以获得更精确的时延结果和视频位置信息。
首先,获取音频信息的方法采用基于到达时间差(TDOA)的方法,其中时延结果的估计是整个跟踪方法的结果是否准确的关键,然而传统的广义互相关时延估计算法在低信噪比和混响存在的情况下时延结果估计的性能开始下降,针对这一问题本文提出了一种基于二次相关的广义互相关时延估计的改进算法。
该方法首先对接收到的信号进行滤波处理,再将二次相关算法嵌入到广义互相关算法当中,并且对加权函数进行改进。
经过实验表明,在噪声和混响同时存在的环境下,改进算法对时延的估计性能有明显的优势。
其次,在视频目标跟踪中使用粒子滤波方法,它适合跟踪环境比较复杂的情况,但是存在着运算量大和有粒子多样性退化的问题。
均值漂移算法可以通过反复迭代来改变当前点的位置使其移动到概率密度函数的最大值处,所以本文将均值漂移嵌入到粒子滤波中,来提高视频跟踪结果的准确率以及运行效率,并在建立模型时将概率较小的特征值去掉以减小非目标像素对跟踪的干扰,最后采用随机线性重采样方法解决粒子退化问题。
经过多次实验得出,改
I
摘要
进算法的结果准确率和运行效率方面都比传统算法有明显提高。
最后,将通过改进算法得到的更加准确的音频、视频信息在粒子滤波框架下进行融合来对说话人进行跟踪,通过多次实验可以看出本文提出的新的基于音视频融合的说话人跟踪方法在环境复杂的情况下有着很好的跟踪效果。
关键词:广义互相关,到达时间差(TDOA),均值漂移,粒子滤波,音视频融合
II
ABSTRACT
ABSTRACT
In recent years,with the continuous development of science and technology, target tracking technology has drawn more and more attention.It has been widely used in video conferencing,intelligent robots and so on.It has become an important topic for contemporary scholars.Traditional target tracking only uses the information collected by a single type of sensor to complete tracking.However,the information of a single modality may be influenced by some factors lead to the accuracy of the tracking results and the robustness of the system are greatly reduced. For example,the noise of the environment,the reflection of obstructer and other factors will affect the sound source tracking system.The changes of the target movement posture in the video tracking,the target occlusion and other influencing factors will also interfere with the tracking effect.Therefore,the fusion of multimodality data represented by audio and video is used to improve the accuracy of speaker tracking.
In this paper,the audio information obtained by the microphone array and the video information obtained by the camera are integrated under the framework of particle filtering,and the advantages of the two information sources are complemented to improve the accuracy of the speaker tracking result.In order to improve the accuracy of the results obtained by merging the audio and video information as a whole,this paper improves the traditional generalized cross-correlation algorithm and the particle filter algorithm for obtaining more precise delay results and video location information.
First,a method based on Time Difference of Arrival(TDOA)is used for obtaining audio information,wherein the estimation of the delay result is the key to the accuracy of the entire tracking method..However,the performance of the traditional generalized cross-correlation time delay estimation algorithm for estimating delay results begins to decline under the condition of low SNR and
III
ABSTRACT
reverberation.To solve this problem,this paper proposes an improved algorithm for generalized cross correlation delay estimation based on quadratic correlation.The method first filtering the received signal,then embeds the quadratic correlation algorithm into the generalized cross-correlation algorithm,and improves the weighting function.Experiments show that under the environment where noise and reverberation exist at the same time,the improved algorithm has obvious advantages in the estimation performance of delay.
Secondly,particle filter is used in video target tracking.It is suitable for tracking complex environments.However,there is a problem of large amount of computation and degradation of particle diversity.The mean shift algorithm can change the position of the current point to the maximum of the probability density function through repeated iterations,so in this paper,the mean shift is embedded in the particle filter to improve the accuracy of the video tracking and the operation efficiency.In addition,when the model is built,the feature values with smaller probability are removed to reduce the interference of non-target pixels on tracking. Finally,linear resampling method is used to solve the problem of particle diversity degradation.After many experiments,the accuracy and efficiency of the improved algorithm are significantly improved compared with the traditional algorithm..
Finally,the more accurate audio and video information obtained through the improved algorithm is integrated in the particle filter framework to track the speaker.Through many experiments,we can see that the new speaker tracking method based on audio and video fusion has a good tracking effect in the complex environment.
Key Words:Generalized Cross Correlation,Time Difference of Arrival(TDOA), Mean Shift,Particle Filter,Audio and video fusion
IV
目录
目录
第1章绪论 (1)
1.1课题的研究背景及意义 (1)
1.2国内外研究现状 (2)
1.2.1音频目标跟踪的国内外研究现状 (3)
1.2.2视频目标跟踪的国内外研究现状 (3)
1.2.3基于音视频融合的目标跟踪的国内外研究现状 (4)
1.3本文的主要工作 (5)
1.4组织结构 (6)
第2章目标跟踪技术 (8)
2.1音频目标跟踪技术简述 (8)
2.1.1基于麦克风阵列的声源跟踪方法 (8)
2.1.2广义互相关时延估计算法 (9)
2.2视频目标跟踪技术简述 (12)
2.2.1均值漂移算法 (12)
2.2.2粒子滤波算法 (16)
2.3基于音视频融合的目标跟踪技术简述 (19)
2.4本章小结 (20)
第3章基于广义二次相关的音频目标跟踪算法的改进 (21)
3.1麦克风阵列的介绍与选取 (21)
3.1.1麦克风阵列的结构 (21)
3.1.2麦克风阵列中阵元选取的数目与间距 (22)
3.2广义二次相关时延估计改进算法 (24)
V
目录
3.2.1广义互相关加权函数 (24)
3.2.2二次相关时延估计算法 (25)
3.2.3广义二次相关时延估计算法 (26)
3.2.4广义二次相关时延估计算法的改进 (27)
3.3仿真实验以及结果分析 (29)
3.4本章小结 (34)
第4章基于音视频融合的说话人跟踪方法 (35)
4.1均值漂移与粒子滤波在视频目标跟踪中的应用 (35)
4.1.1均值漂移算法在视频目标跟踪中的应用 (35)
4.1.2粒子滤波算法在视频目标跟踪中的应用 (39)
4.2基于均值漂移的粒子滤波视频目标跟踪算法的改进 (41)
4.2.1改进算法的原理 (41)
4.2.2改进算法的描述 (42)
4.2.3仿真实验以及结果分析 (44)
4.3新的基于音视频融合的说话人跟踪算法 (48)
4.3.1新的基于音视频融合的说话人跟踪算法的原理 (48)
4.3.2新的基于音视频融合的说话人跟踪算法的描述 (50)
4.3.3实验仿真以及结果分析 (50)
4.4本章小结 (61)
第5章总结与展望 (62)
5.1总结 (62)
5.2研究展望 (63)
致谢 (64)
参考文献 (65)
VI
目录
攻读学位期间发表的学术论文及参加科研情况 (69)
VII
图表目录
图表目录
图目录
图1-1智能视频会议 (1)
图2-1广义互相关算法框图 (11)
图2-2时延和角度的关系示意图 (11)
图3-1常见的麦克风阵列 (23)
图3-2麦克风阵列与声源的角度位置关系 (24)
图3-3改进的广义二次相关时延估计算法 (28)
图3-4非相关噪声无混响信号在不同信噪比下的时延估计准确率 (30)
图3-5非相关噪声有混响信号在不同信噪比下的时延估计准确率 (30)
图3-6相关噪声无混响信号在不同信噪比下的时延估计准确率 (30)
图3-7相关噪声有混响信号在不同信噪比下的时延估计准确率 (31)
图3-8采集数据的实际环境 (32)
图3-9数据采集装置 (32)
图3-10SCOT广义二次和改进算法得到的相关函数 (33)
图3-11声源相对于麦克风阵列中心的水平角和仰角 (34)
图4-1均值漂移核函数形状图 (36)
图4-2基于均值漂移的粒子滤波视频跟踪算法流程图 (44)
图4-3视频序列Girl采用两种算法的跟踪对比图 (47)
图4-4视频序列Human采用两种算法的跟踪对比图 (47)
图4-5麦克风阵列、摄像头以及目标位置的示意图 (49)
图4-6传统的音频、视频、音视频融合算法的跟踪对比图 (51)
图4-7每一帧图像在传统算法下x轴方向上的跟踪误差 (52)
图4-8每一帧图像在传统算法下y轴方向上的跟踪误差 (52)
图4-9每一帧图像在传统算法下的跟踪误差 (53)
图4-10改进的音频、视频、音视频融合算法的跟踪对比图 (54)
VIII
图表目录
图4-11每一帧图像在改进算法下x轴方向上的跟踪误差 (55)
图4-12每一帧图像在改进算法下y轴方向上的跟踪误差 (55)
图4-13每一帧图像在改进算法下的跟踪误差 (55)
图4-14实际数据的采集装置 (56)
图4-15第1组采集数据在3种改进算法下的跟踪对比 (57)
图4-16第2组采集数据在3种改进算法下的跟踪对比 (58)
图4-17第三组采集数据在三种改进算法下的跟踪对比 (59)
图4-18第4组采集数据在3种改进算法下的跟踪对比 (59)
表目录
表3-1实际数据两种算法的时延结果对比 (33)
表4-1传统算法50个粒子的跟踪误差和运行时间 (45)
表4-2传统算法200个粒子的跟踪误差和运行时间 (45)
表4-3传统算法800个粒子的跟踪误差和运行时间 (46)
表4-4改进算法50个粒子的跟踪误差和运行时间 (46)
表4-5采用3种传统算法得到的跟踪均方根误差(像素) (52)
表4-6采用3种改进算法得到的跟踪均方根误差(像素) (54)
表4-7第1组实验使用两种融合算法的均方根误差与运行时间 (56)
表4-8第2组实验使用两种融合算法的均方根误差与运行时间 (57)
表4-9第3组实验使用两种融合算法的均方根误差与运行时间 (58)
表4-10第4组实验使用两种融合算法的均方根误差与运行时间 (58)
IX
第
1章绪论
1
第1章绪论
1.1课题的研究背景及意义
近些年,人类的科学技术水平飞速发展起来,曾经在科幻小说和电影里人们所认为不可思议的“高科技”都随着科学技术的不断发展,大都成为了现实。
如今人们生活工作的方方面面中智能技术无处不在,在智能视频会议、移动机器人、智能交通监控等领域被广泛的应用,而在智能领域中目标跟踪是必不可少的关键技术,其中本文所研究的针对说话人的跟踪是如图1-1所示的智能视频会议系统的关键部分。
图1-1智能视频会议
在传统的目标跟踪领域中,人们通常使用雷达、激光、红外、视频、音频等单个传感器对目标进行定位和追踪,然而通过单个传感器所获得的仅仅是目标的一些局部信息,当跟踪环境较为复杂、干扰物较多的情况下系统难以对目标进行准确的跟踪,会出现偏差甚至跟踪失败。
例如,基于麦克风阵列的声源定位方法[1]可以在目标被严重遮挡或者出现在视线以外的情况进行定位跟踪,但是此方法会受一系列的影响因素而出现误差,其中包括存在许多背景噪音、
第1章绪论
房间混响、其他说话者的干扰以及麦克风阵列的选取摆放等因素,再例如,基于视频的目标跟踪[2]不会像基于麦克风阵列的声源定位方法会受到声音噪声的影响,但是同样会存在着一些弊端,其中图像背景中的噪声、光照的不断变化、跟踪目标运动姿态、速度的改变、跟踪目标与其背景的对比度差、目标的短时或长时遮挡等因素都会影响对目标跟踪的结果,并且如果在视频会议中当图像中存在多个人的时候,若没有音频的辅助信息就无法确定哪一个才是说话人并对其进行跟踪。
目标跟踪技术被广泛应用于各个领域使得跟踪环境复杂度大大增加,与此同时工业技术水平的不断提高使得传感器性能也随之加强,因此在复杂的跟踪场景中人们开始尝试使用多个传感器对目标进行跟踪。
我们知道人的大脑可以将视觉和听觉信息进行融合来获取想要得到的结果,所以人们利用同样的原理通过多个传感器来模拟人的大脑器官对目标的跟踪,借助这种融合原理,人们利用视频图像采集设备来代替人的眼睛,利用音频采集设备来代替人的耳朵,然后将得到的音视频信息融合处理来得到说话人的位置进而得到说话人的运动轨迹,人们通过音视频两个信息源的融合处理弥补了人们使用单个传感器获得的局部信息来进行目标跟踪的不足,比如当跟踪目标被干扰物遮挡的情况下仍然可以利用声源定位得到的位置信息继续对目标进行定位跟踪,或者当跟踪环境中背景噪声、房间混响比较严重的时候也可以利用通过视频信息得到的位置继续进行目标跟踪。
基于音视频融合的说话人跟踪方法[3]涉及了语音信号处理、数字图像、以及多信息融合技术等领域的知识,对于研究人员来说是一个非常有挑战性的研究课题,怎么样利用说话人的音视频信息来提高在复杂环境中定位跟踪的准确性和鲁棒性是热点问题。
1.2国内外研究现状
从上世纪80年代起,人们通过利用计算机、传感器等相关设备技术来实现对目标的跟踪,其中主要方法包括3大类:基于麦克风阵列的说话人跟踪、基于视频的目标跟踪、基于音视频融合的说话人跟踪。
下面分别对这3个主要方法的国内外现状来简要地阐述。
2
第1章绪论
1.2.1音频目标跟踪的国内外研究现状
音频目标跟踪技术主要就是通过将多个麦克风按一定的几何拓扑结构进行安放所形成的麦克风阵列所采集到的语音信号来估计声源目标的位置,若连续地进行定位就可以对目标进行跟踪。
基于麦克风阵列的语音信号处理技术首次在正式大型的会议中用于语音增强中是1985年[4],两年后该技术被应用于语音识别系统中,Silerman和Brandstein在1996年将该技术成功应用在声源的定位和跟踪当中[5]。
近几年,布加雷斯特理工大学将麦克风阵列信号技术应用于森林砍伐监测,证明了即使在数量较少的麦克风阵列上采用简单算法,链锯噪声的定位也可以具有高精度[6]。
纽瓦克特拉华大学心理与脑科学系将该技术应用于通过自由活动的老鼠产生的声音信号来对其进行定位跟踪[7]。
随着国内科学技术水平的提升,对该技术的研究也取得了一些成果。
上海交通大学研究并开发了使用虚拟仪器的声场可视化系统,它有对噪声信号进行定位跟踪等一系列功能[8]。
北京理工大学机电工程学院使用10个麦克风组成的阵列采用TDOA算法来定位三维中的声源点的角度信息,证明在250平方米的测试区域内,声源可以准确的定位在1m以内的三维坐标中,这项工作得到了国防工业技术的支持[9]。
厦门大学章宇栋,黄惠祥,童峰学者将麦克风阵列语音信号处理技术应用于求取多声源的角度波达信息并且取得了较好的效果[10]。
广东美的制冷设备有限公司开发了一种嵌入式声源定位跟踪系统,该系统可应用于智能化小型设备中[11]。
近几年基于麦克风阵列技术各大手机公司在手机设备上通过双麦克风实现了语音识别、定位、跟踪等一系列功能。
21世纪的到来使麦克风阵列语音信号处理技术变得更加成熟并被广泛的应用在智能机器人与视频会议、语音分离与增强、智能语音识别等方面以及日常生活中[12-14]。
1.2.2视频目标跟踪的国内外研究现状
国外对视频目标跟踪技术的研究比较早,在一些重要的大型国际性期刊和会议上都可以看到与视频跟踪相关的论文。
韩国首尔中央大学和三星电子有限公司合作研发了一种基于边缘对象和数据关联的新型跟踪系统,该系统获得精准的目标边界达到很好的跟踪效果[15]。
阿米尔卡比尔理工大学和帕亚莫努尔大
3
第1章绪论
学采用混沌粒子滤波器对视觉目标对象进行跟踪,该算法在使用较少的粒子情况下当目标突发的运动或者被遮挡时性能优于其他算法[16]。
Driss Moujahid等学者提出一种基于贝叶斯理论框架下的软相似性算法对视觉目标进行跟踪,并且在跟踪过程中不断地更新跟踪目标的模板,跟踪效果理想[17]。
因陀罗普拉沙信息技术研究所和科威特大学提出的视觉目标跟踪算法使用后向验证跟踪(BVT)创建模型池以及在线SVM区分前景和背景对象,经过实验证明该算法在重叠比和精度方面都优于几种流行的跟踪算法[18]。
国内在1986年才开始对此技术进行立项研究,但是近些年发展较快,一些研究所与高校也成立了专门的研究机构对该项目展开研究,并取得了显著地成果。
深圳腾讯AI实验室与北京交通大学信息科学研究所、北京先进信息科学与网络技术重点实验室等提出从全局整体和局部层面挖掘目标的特征信息,将两者整合到一个统一的模型中来构建跟踪器[19]。
北京理工大学与新加坡南洋理工大学的一些学者通过使用成对度量学习算法构建一种新颖的外观模型,在对单目标跟踪中充分考虑了模型的区分性和生成能力,使得视觉跟踪有很强的鲁棒性[20]。
华北电力大学与首都师范大学的学者将粒子滤波、核相关滤波方法两者结合,提出了将目标运动状态和目标尺度进行共同估计的视觉目标跟踪方法,改进的方法在跟踪目标尺度、光照等发生变化或者部分被遮挡、发生旋转等情况下适应性较强[21]。
1.2.3基于音视频融合的目标跟踪的国内外研究现状
基于音视频融合的说话人跟踪方法融合了所获取到的音频与视频信息,结合了声源和视频跟踪方法两者的优点来弥补各自的一些缺点,从而使说话人在复杂动态的环境下能够被准确的跟踪,近几年人们对音视频融合的说话人跟踪等相关研究发展迅速,并且取得了一系列阶段性的有效成果。
国外相关的研究项目有Computers In Human Interaction Loop(CHIL)、Augmented Mult-party Interaction(AMI)、Audio-Vedio16.3(Av16.3)、Perception Group等,并且他们都提供了大量的在不同环境下通过不同的人数采集的音频视频的数据,为其他学者进行相关研究提供了大量的数据。
赫瑞瓦特大学的Eleonora D'Arca等人采用音频和视频信号融合的方式来检测并跟踪自由活动
4
第1章绪论
的说话人,在存在大量遮挡和干扰时多模式跟踪器比单模态系统更可靠[22]。
普瓦捷大学的Naty Sidaty等人研发出一个系统用于视频会议,它是采用基于空间、时间和听觉信息的融合,对说话者进行定位以及跟踪的方法[23]。
R. Stiefelhagen等人提出了一种在粒子滤波框架下基于视觉和听觉信息的跟踪讲师的系统,并且可以在视图中检测目标的脸部和验证身份[24]。
J.F.P.Kooij等人利用互补的音频、视频信息以及上下文线索开发了智能监控系统来检测公共环境中侵略性的人类行为[25]。
在国内,说话人跟踪技术也得到了国家、科研院所机构及专家学者们的高度重视并且取得了一定的进展。
天津大学的谢静提出将采集到的音视频信息通过粒子滤波进行融合,并且将均值漂移嵌入粒子滤波当中提高准确性[26]。
黑龙江大学的马贤哲利用分布式卡尔曼滤波器将音频视频信息融合来对进行声源定位跟踪[27]。
大连理工大学的金乃高等人学者出了采用粒子滤波来将音视频信息融合以及利用贝叶斯滤波来预测说话人的位置信息来完成对说话人的跟踪[28]。
清华大学的徐光祐教授将音频与视频两个信息源同时利用在粒子集生成与构建似然函数个过程中,将音视频信息得到了更加充分的利用,从而实现有效准确的跟踪[29]。
由前面所介绍可以知道,音视频融合的方法大多是利用滤波方法来进行的,例如卡尔曼滤波器、粒子滤波器以及对它们各自的改进算法、贝叶斯滤波器等[30-33]。
1.3本文的主要工作
在对大量的国内外的基于目标跟踪的相关文章的阅读和分析之后,本文针对现有技术的不足分别对声源定位算法和视频目标跟踪算法进行了相应的改进,为接下来的音视频信息融合打好基础,通过提高音频、视频数据的准确性来得到更加精确的跟踪结果。
接着在研究了基于音视频融合的说话人跟踪算法之后,本文提出一种新的基于粒子滤波的音视频融合的跟踪进算法,本文对提出的改进算法进行仿真对此实验,通过实验对比可以看出提出的改进算法在复杂环境下的准确性与鲁棒性都有所提高。
本文的具体创新工作如下:
(1)本文在音频跟踪方面,通过时延估计结果来确定目标的音频位置信息,
5
第1章绪论
对广义互相关算法进行改进来提高所得时延结果的准确性,进一步使音视频信息融合时有更高的准确度。
基于到达时间差的方法是根据麦克风阵列估计出每对信号源的时延,然后时延值来求出声源的位置信息,所以求取时延的精确度是声源跟踪准确性的关键。
时延求取方法最常用的是广义互相关算法,然而在噪声和混响同时存在的环境下该方法的性能就会大幅下降。
针对这个问题,本文首先对接收到的语音信号进行滤波滤去低频和高频中的噪声,然后对加权函数进行改进并且结合二次相关算法求出相关函数,改进算法能进一步有效地抑制信号中噪声混响的干扰,能够使时延估计结果在低噪比和有混响的环境中有更好的精确度。
(2)本文在视频跟踪方面提出改进来提高获取的视频跟踪结果的精准度,从而在总体上提高基于音视频信息融合处理的说话人跟踪准确性。
粒子滤波算法在非线性系统、非高斯噪声的环境下跟踪效果较理想,适用复杂的跟踪环境,然而粒子滤波也存在着运算量大并且有粒子多样性退化等问题。
本文采用基于概率直方图的粒子滤波算法对目标进行跟踪,针对该算法存在的问题,改进算法首先在建立模型时去掉概率小于一定给定阈值的特征值来减小非目标像素带来的干扰,然后将均值漂移嵌入到粒子滤波框架当中来改善粒子滤波的运算量大问题并提高其跟踪准确性,但是若是对每一个粒子都进行均值漂移还是会浪费时间,所以本文只对权值小于一定给定阈值的粒子进行均值滤波,最后采用随机线性重采样方法来保证粒子的多样化。
1.4组织结构
本文结构分为5章,每一章节的主要内容为:
第1章首先介绍了基于音视频融合的说话人跟踪的背景和剖析了该课题的研究意义,接着分别对音频目标定位和视频目标跟踪以及基于音视频融合的目标跟踪的研究现状进行了简要的分析与介绍,随后对整个论文主要进行的工作即创新之处和本文的组织结构进行详细的说明。
第2章首先简要地对单独的音频目标跟踪、视频目标跟踪以及基于音视频融合的目标跟踪所涉及到的方法技术与相关知识进行阐述,并且对每个方法存在的优缺点进行了对比分析,综合各方因素在获取声源信息时本文采用基于到
6。