声源定位算法及实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
localization algorithm is proposed,and a physical sound SOUl"C圮localization system is
established Oil the platform with a simultaneous speech sampling device.Extensive experiments have been conducted in a∞al-room to validate the algorithms.
关键词:声源定位互功率谱相位球形插值随机梯度下降
AbI竹■cI
Abstract
Sound SOtU'∞localization based on microphone array has recently been an active
area in signal processing.As the research is developed,the technique has been丽dely applied in the fields such as teleconference,intelligent robot,speech enhancement,eto. However,how to locate a three-dimensional point SOtll'∞in a real acoustic
麦克风阵列较之单个麦克风有许多优点,其优越性表现在: 1)麦克风阵列系统具有空间选择性,可以用“电子”瞄准的方式从声源位
置处获取目标信号,并且抑制其它方向的干扰信号,其效果明显优于良 好瞄准的、高方向性的单麦克风。 2)麦克风阵列系统能够应用于自动跟踪识别声源,当声源移动时,麦克风 阵列并不需要发生物理上的调整, 只需系统改变其电子波束指向即可,
environment and fmrthel"increase the accuracy and robustness is still a challenging task,and it has been received more and more interest.
This paper mainly foc璐es 011 the three-dimensional souild source localization in the real acoustic environment.On the basis of the past research,a modified
阵列的使用在我们现实生活中其实非常普遍。“听声辨位”,人的双耳就是一 个很好的例子。听觉是一种重要的感觉手段,尤其是在光线昏暗、视物不明和有 障碍物阻挡的情况下更是视觉的有益补充。由于耳朵具有特殊的生理结构,能够 捕获声源到达双耳的相位差和声压差信息,通过复杂的信息处理,使得我们能够 准确地进行辨位,并估计出声源的距离。这是一个心理和生理感知的过程。仿生 学在移动机器人领域得到了较多的应用【21调,这些机器人模仿人的双耳,通过在 相应位置放置一对麦克风,实现对声源的初步定位。由于模型和算法的准确度均 不能与入耳相比,对于复杂声场下的定位效果并不理想。所以,现在更多的目光 投向了多麦克风阵列,通过利用冗余麦克风提供的有效信息,从信号处理的角度 解决定位问题。
fourth-order cumldant is introduccd to detect the endpoint.,which greatly suppresses the effect of noise.Secondly,time delay of arrival(TDOA)based method is the most
Ill
第一章绪论
第一章绪论
1.1 研究背景
阵列信号处理是数字信号处理领域的一大热点,它克服了单个传感器信息量 少的缺点,利用各阵元信号之间存在的相关性对输入数据进行融合处理以实现对 待测参数的估计。所述的融合处理可以在时域、频域或空域进行。在统计学的意 义上,由阵列信号处理所得到的估计结果具有更高的精度。该技术已经在无线通 信、雷达、声纳、医学成像、工业自动监控和故障诊断Ⅸarim,1996)nl等场合得 到了广泛的应用。随着计算机技术的发展和人机交互需求的不断增加,其中如何 在真实的房间场景中定位声源这个课题日益凸现其重要性,基于麦克风阵列的声 源定位研究从上世纪八十年代开始就在国际上受到研究者越来越多的关注,而我 国则起步较晚。
to the results,increases the weight Oil the magnitude of those frequencies,suppresses the unexpected false peaks in the cross correlation and increases the accuracy of
第一章绪论
减少了手工操作。 3)麦克风阵列系统能够识别监控同时发生的多个声源,在一些多人会话等
场合有重要应用。 4)麦克风阵列系统可以用于近场测距,这是单麦克风无法实现的。 基于上述的优点,麦克风阵列定位技术目前已经在多种场合得到广泛的应 用。如视频电话会议(Fl雒agan’1985)嘲中话者定向,控制摄像头指向说话者,并 自动根据距离调焦;利用定位信息在混响环境中获取特定语音(Flanagan,1993)t7l, 实现自动监控系统(0Inologo,1993)【8】(室内防盗监控,交通监控),车载系统 (Grenier,1992)t91,语音助听器装置(G∞即ber岛1992)【10l等。
1.2研究历史及现状
基于麦克风阵列的声源定位,就是基于一组已知几何位置的阵列并利用阵元 接收信号的相关性来确定声源方向或者空间位置。
根据声源、麦克风阵列、背景环境的不同情况,目前的声源定位研究主要可 分为以下几类:
1)二维空间定位与三维空间定位 2)近场定位与远场定位 3)方向定位与距离定位 4)理想环境下的声源定位与低信噪比,强混响环境下的声源定位 随着声源定位应用背景的不断拓展,定位技术的理论研究也取得了长足的进 步.由于工程应用的需求,在二维空间及理想环境下的理论研究已经不能满足要 求,更多的研究致力于真实声场下的三维空间。在无线通信、雷达、声纳领域中, 室外远距离的声源方向测定是焦点。在远场情况下,声源与参考传声器之间的 距离大于材2/五。。,五。。是声源的最小波长,d是阵列孔径,即相邻传声器之间的 距离。此时认为声源信号为平面波,到达各个阵列的方向是近乎相同的,均匀线 性阵列在这种环境中得到了广泛应用。然而在室内环境中,近场声源的研究则是 热点,信号波前认为是球面,不仅可以定向,估计声源到阵列的距离也成为可能。 在真实的声场中,声音除了通过空气媒介直接到达传声器以外,还通过各种障碍 物(如墙壁、地板、天花板、室内物品)反射、衍射到达,这样传声器接收到的是
本文致力于真实声场环境下的三维空间声源定位的研究.在过去研究的基础 之上,提出了声源定位的改进算法,并且在同步语音采集平台上建立起了实际定 位系统,通过真实办公室环境的定位实验对算法进行了验证.
首先,端点检测是语音预处理中关键的一环。避免对无声的信号段的处理, 不仅大大降低了运算量,而且提高了有声信号的利用率,最终提高后续定位的精 度。利用噪声近似服从高斯分布以及语音和噪声相互统计独立的假设,引入了四 阶累积量对语音端点进行检测,抑制了背景噪声的影响。其次,基于到达时间差 的声源定位算法是当前最为流行的算法,它由时延估计和定位估计两部分组成。 对于时延估计,本文在前人提出的互功率谱相位算法(CSP)算法的基础上提出了 一种改进算法,通过滤除语音范围之外无贡献的互功率谱,达到增加语音主要频 段内的幅度权重的目的,抑制了非期望峰值,提高了估计精度;对于定位估计, 本文以已有的球形插值算法(so得到的定位估计作为初值,利用LMS算法进行迭 代搜索得到最小方差意义下的空间最优解,克服了原SI算法中存在的误差度量 函数非最优和迭代更新定位收敛不确定的问题。定位实验结果表明,本文所提出 的算法使定位精度得到了较大提高,是一种行之有效的算法。
Ⅱ
measurement fimction used is optimal and the iteration is convergent.Finally,the experimental results demonslrate the effectiveneຫໍສະໝຸດ Baidus and high accuracy of the proposed algorithm. Keyword:sound source localization,crosspower spectral phase,spherical interpolation,LMS
中国科学技术大学 硕士学位论文
声源定位算法及实现 姓名:杨祥清
申请学位级别:硕士 专业:模式识别与智能系统
指导教师:汪增福 20070501
摘要
基于麦克风阵列的声源定位是近年来语音信号处理领域的一大研究热点。随 着研究的不断深入,目前该项技术已经在视频电话会议、智能机器人、语音增强 等场合中得到了广泛的应用。尽管如此,如何在真实的声场环境中定位三维空间 的点声源,并进一步提高定位的精度和鲁棒性,仍然是一项有挑战性的课题,也 因此受到了研究者越来越多的关注。
pmvalem method in sound¥ourt∞localization which consists of two steps,that is, time delay estimation and localization estimation.For time delay estimation,a modified crosspower spectral phase(CSP)method is proposed,which filters OUt the crosspowcr spectral outside the human voice frequencies that makes little contribution
First of all,endpoint detection is a crucial step in speech preprocessing,which
gets rid of the process of speechless signals,reduces the compumtional cost,and improv船the accuracy ofthe subsequent localization.Under the as¥ulnption that noise is roughly Oa惦sian and∞urce signals are statistically independent of noise signals,
estimation;for localization estimation,the closed-form estimation of spherical interpolation(so method is regarded as the initial value,and then LSM algorithm is employed to obtain optimal resolution in the least-squares sense through iteration.The proposed method solves some problems in SI method.It guarantees that the
2
第一章绪论
原始直达声和经过延迟和衰减的声音的混合信号,这种导致音质变差的现象叫做 多径效应(omologo,1998)tzll。多径效应将使麦克风获取的语音质量下降、声源定 位的精度降低。从理论上讲,可用反滤波或反卷积的方法来消除混响,但这要求 已知精确的混响冲击函数,而实际上环境的声学特性一般是很难获得的,因此这 种方法不容易实现。抗混响的其他方法有子带(sub-band)处理法、自适应滤波 (adaptive post-filtering)法和基于倒谱(ccpsmⅡn-bascd)处理的方法等 (Brandstein,1995)[埘。
established Oil the platform with a simultaneous speech sampling device.Extensive experiments have been conducted in a∞al-room to validate the algorithms.
关键词:声源定位互功率谱相位球形插值随机梯度下降
AbI竹■cI
Abstract
Sound SOtU'∞localization based on microphone array has recently been an active
area in signal processing.As the research is developed,the technique has been丽dely applied in the fields such as teleconference,intelligent robot,speech enhancement,eto. However,how to locate a three-dimensional point SOtll'∞in a real acoustic
麦克风阵列较之单个麦克风有许多优点,其优越性表现在: 1)麦克风阵列系统具有空间选择性,可以用“电子”瞄准的方式从声源位
置处获取目标信号,并且抑制其它方向的干扰信号,其效果明显优于良 好瞄准的、高方向性的单麦克风。 2)麦克风阵列系统能够应用于自动跟踪识别声源,当声源移动时,麦克风 阵列并不需要发生物理上的调整, 只需系统改变其电子波束指向即可,
environment and fmrthel"increase the accuracy and robustness is still a challenging task,and it has been received more and more interest.
This paper mainly foc璐es 011 the three-dimensional souild source localization in the real acoustic environment.On the basis of the past research,a modified
阵列的使用在我们现实生活中其实非常普遍。“听声辨位”,人的双耳就是一 个很好的例子。听觉是一种重要的感觉手段,尤其是在光线昏暗、视物不明和有 障碍物阻挡的情况下更是视觉的有益补充。由于耳朵具有特殊的生理结构,能够 捕获声源到达双耳的相位差和声压差信息,通过复杂的信息处理,使得我们能够 准确地进行辨位,并估计出声源的距离。这是一个心理和生理感知的过程。仿生 学在移动机器人领域得到了较多的应用【21调,这些机器人模仿人的双耳,通过在 相应位置放置一对麦克风,实现对声源的初步定位。由于模型和算法的准确度均 不能与入耳相比,对于复杂声场下的定位效果并不理想。所以,现在更多的目光 投向了多麦克风阵列,通过利用冗余麦克风提供的有效信息,从信号处理的角度 解决定位问题。
fourth-order cumldant is introduccd to detect the endpoint.,which greatly suppresses the effect of noise.Secondly,time delay of arrival(TDOA)based method is the most
Ill
第一章绪论
第一章绪论
1.1 研究背景
阵列信号处理是数字信号处理领域的一大热点,它克服了单个传感器信息量 少的缺点,利用各阵元信号之间存在的相关性对输入数据进行融合处理以实现对 待测参数的估计。所述的融合处理可以在时域、频域或空域进行。在统计学的意 义上,由阵列信号处理所得到的估计结果具有更高的精度。该技术已经在无线通 信、雷达、声纳、医学成像、工业自动监控和故障诊断Ⅸarim,1996)nl等场合得 到了广泛的应用。随着计算机技术的发展和人机交互需求的不断增加,其中如何 在真实的房间场景中定位声源这个课题日益凸现其重要性,基于麦克风阵列的声 源定位研究从上世纪八十年代开始就在国际上受到研究者越来越多的关注,而我 国则起步较晚。
to the results,increases the weight Oil the magnitude of those frequencies,suppresses the unexpected false peaks in the cross correlation and increases the accuracy of
第一章绪论
减少了手工操作。 3)麦克风阵列系统能够识别监控同时发生的多个声源,在一些多人会话等
场合有重要应用。 4)麦克风阵列系统可以用于近场测距,这是单麦克风无法实现的。 基于上述的优点,麦克风阵列定位技术目前已经在多种场合得到广泛的应 用。如视频电话会议(Fl雒agan’1985)嘲中话者定向,控制摄像头指向说话者,并 自动根据距离调焦;利用定位信息在混响环境中获取特定语音(Flanagan,1993)t7l, 实现自动监控系统(0Inologo,1993)【8】(室内防盗监控,交通监控),车载系统 (Grenier,1992)t91,语音助听器装置(G∞即ber岛1992)【10l等。
1.2研究历史及现状
基于麦克风阵列的声源定位,就是基于一组已知几何位置的阵列并利用阵元 接收信号的相关性来确定声源方向或者空间位置。
根据声源、麦克风阵列、背景环境的不同情况,目前的声源定位研究主要可 分为以下几类:
1)二维空间定位与三维空间定位 2)近场定位与远场定位 3)方向定位与距离定位 4)理想环境下的声源定位与低信噪比,强混响环境下的声源定位 随着声源定位应用背景的不断拓展,定位技术的理论研究也取得了长足的进 步.由于工程应用的需求,在二维空间及理想环境下的理论研究已经不能满足要 求,更多的研究致力于真实声场下的三维空间。在无线通信、雷达、声纳领域中, 室外远距离的声源方向测定是焦点。在远场情况下,声源与参考传声器之间的 距离大于材2/五。。,五。。是声源的最小波长,d是阵列孔径,即相邻传声器之间的 距离。此时认为声源信号为平面波,到达各个阵列的方向是近乎相同的,均匀线 性阵列在这种环境中得到了广泛应用。然而在室内环境中,近场声源的研究则是 热点,信号波前认为是球面,不仅可以定向,估计声源到阵列的距离也成为可能。 在真实的声场中,声音除了通过空气媒介直接到达传声器以外,还通过各种障碍 物(如墙壁、地板、天花板、室内物品)反射、衍射到达,这样传声器接收到的是
本文致力于真实声场环境下的三维空间声源定位的研究.在过去研究的基础 之上,提出了声源定位的改进算法,并且在同步语音采集平台上建立起了实际定 位系统,通过真实办公室环境的定位实验对算法进行了验证.
首先,端点检测是语音预处理中关键的一环。避免对无声的信号段的处理, 不仅大大降低了运算量,而且提高了有声信号的利用率,最终提高后续定位的精 度。利用噪声近似服从高斯分布以及语音和噪声相互统计独立的假设,引入了四 阶累积量对语音端点进行检测,抑制了背景噪声的影响。其次,基于到达时间差 的声源定位算法是当前最为流行的算法,它由时延估计和定位估计两部分组成。 对于时延估计,本文在前人提出的互功率谱相位算法(CSP)算法的基础上提出了 一种改进算法,通过滤除语音范围之外无贡献的互功率谱,达到增加语音主要频 段内的幅度权重的目的,抑制了非期望峰值,提高了估计精度;对于定位估计, 本文以已有的球形插值算法(so得到的定位估计作为初值,利用LMS算法进行迭 代搜索得到最小方差意义下的空间最优解,克服了原SI算法中存在的误差度量 函数非最优和迭代更新定位收敛不确定的问题。定位实验结果表明,本文所提出 的算法使定位精度得到了较大提高,是一种行之有效的算法。
Ⅱ
measurement fimction used is optimal and the iteration is convergent.Finally,the experimental results demonslrate the effectiveneຫໍສະໝຸດ Baidus and high accuracy of the proposed algorithm. Keyword:sound source localization,crosspower spectral phase,spherical interpolation,LMS
中国科学技术大学 硕士学位论文
声源定位算法及实现 姓名:杨祥清
申请学位级别:硕士 专业:模式识别与智能系统
指导教师:汪增福 20070501
摘要
基于麦克风阵列的声源定位是近年来语音信号处理领域的一大研究热点。随 着研究的不断深入,目前该项技术已经在视频电话会议、智能机器人、语音增强 等场合中得到了广泛的应用。尽管如此,如何在真实的声场环境中定位三维空间 的点声源,并进一步提高定位的精度和鲁棒性,仍然是一项有挑战性的课题,也 因此受到了研究者越来越多的关注。
pmvalem method in sound¥ourt∞localization which consists of two steps,that is, time delay estimation and localization estimation.For time delay estimation,a modified crosspower spectral phase(CSP)method is proposed,which filters OUt the crosspowcr spectral outside the human voice frequencies that makes little contribution
First of all,endpoint detection is a crucial step in speech preprocessing,which
gets rid of the process of speechless signals,reduces the compumtional cost,and improv船the accuracy ofthe subsequent localization.Under the as¥ulnption that noise is roughly Oa惦sian and∞urce signals are statistically independent of noise signals,
estimation;for localization estimation,the closed-form estimation of spherical interpolation(so method is regarded as the initial value,and then LSM algorithm is employed to obtain optimal resolution in the least-squares sense through iteration.The proposed method solves some problems in SI method.It guarantees that the
2
第一章绪论
原始直达声和经过延迟和衰减的声音的混合信号,这种导致音质变差的现象叫做 多径效应(omologo,1998)tzll。多径效应将使麦克风获取的语音质量下降、声源定 位的精度降低。从理论上讲,可用反滤波或反卷积的方法来消除混响,但这要求 已知精确的混响冲击函数,而实际上环境的声学特性一般是很难获得的,因此这 种方法不容易实现。抗混响的其他方法有子带(sub-band)处理法、自适应滤波 (adaptive post-filtering)法和基于倒谱(ccpsmⅡn-bascd)处理的方法等 (Brandstein,1995)[埘。