基于麦克风阵列的声源定位技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
一、绪论 (1)
1.1 课题研究背景和意义 (1)
1.2 国内外研究现状和发展趋势 (2)
1.2.1研究历史和现状 (2)
1.2.2发展趋势 (2)
1.3本文所要研究的内容 (2)
二、麦克风阵列的处理模型和方法介绍 (4)
2.1麦克风阵列信号处理模型 (4)
2.1.1远场模型 (4)
2.1.2远场麦克风阵列均匀线阵模型 (5)
2.2基于时延估计声源定位方法的介绍 (6)
2.2.1广义互相关时延估计法 (6)
2.2.2互功率谱相位时延估计法 (7)
2.2.3基于基音加权的时延估计法 (7)
2.2.4基于声门脉冲激励的时延估计法 (7)
2.2.5 基于LMS 的自适应时延估计法[8] (8)
2.2.6 基于子空间分解的时延估计法 (9)
2.2.7基于声学传递函数比的时延估计法 (9)
三、麦克风声源定位的研究与设计 (11)
3.1广义互相关时延估计设计流程 (11)
3.2 时延估计定位算法实验研究 (12)
3.3互相关延时估计方法 (12)
3.4互相关延时估计加权函数性能分析 (15)
3.5声源定位的模型分析 (16)
3.6时延估计的测量与计算 (17)
四、总结 (20)
4.1 本文研究的问题与难点 (20)
4. 2课题研究总结 (20)
参考文献 (22)
致谢 (24)
摘要
随着科技的进步和发展,麦克风阵列的声源定位技术已经成为人们研究的重要课题之一。
用麦克风阵列接受语音信号就是声源定位技术的一种,接受到的语音技术再输出到计算机,经过计算机技术的分析和处理,然后可以确定声源是从
哪个方位传过来的。
声源定位技术的广泛应用在许多领域,如定位技术,在军事上的语音识别,视频会议的定位技术。
麦克风阵列对于噪声、声源定位、跟踪这些方面都比单个麦克风要好,从而大大提高语音信号处理质量。
本文主要是用麦克风阵和时延估计声源定位方法对于声源的定位。
首先介绍了几种常见的声源定位方法和各自的优缺点,在此基础上研究基于时延估计的声源定位方法(GCC),比较远场定位和近场定位的差别,确定本文研究的方法远场定位法。
由于远场定位时,只需要测出声音信号到达各个麦克风阵列的时延(TDOA),剩下的就是简单的数学公式推导。
由于该方法计算量小,易于实现的优点,实际应用比较广泛。
关键词:麦克风阵列,声源定位,时延估计,GCC
Abstract
With the progress and development of science and technology, the microphone array sound source localization technology has become one of the important topic studied by e a microphone array to accept the speech signal is a kind of sound source localization technology, accept to voice technology and then output to the computer, through the analysis of the computer technology and processing, and then can determine the source from which to get the bearing.Sound source localization technology is widely used in many fields, such as positioning technology, voice recognition in the military, the positioning technology of video meeting.The microphone array for noise, sound source localization and tracking these aspects are better than a single microphone, which greatly improve the quality of speech signal processing.
This article mainly is to use a microphone array and time delay estimation of sound source localization method for sound source localization.Firstly introduces several common methods and their respective advantages and disadvantages of beam former, on the basis of the research of sound source localization based on time delay estimation method (GCC), to compare the difference in orientation of far field and near field and far field method in this paper, we study the method is determined.Due to the far field orientation, only need to measure sound signals to reach the time delay of various microphone arrays (TDOA), the rest is simple mathematical formulas are derived.Due to the small amount of calculation, this method is easy to implement, the advantages of more extensive practical application.
K ey words: the microphone array, sound source localization, time delay estimation, GCC
一、绪论
1.1 课题研究背景和意义
定位技术是我们一直研究的课题,目前有很多定位技术都开发的比较成熟,比如我们经常使用的GPS导航系统、手机的定位与查找、超声波定位技术、蓝牙定位技术等。
其中声源定位技术与语音增强在语音通信领域中是非常重要的两门技术。
例如,我们可以通过声源定位技术来定位的讲话人的具体方位,然后灯光就对焦于讲话的人;为了解决人们在高速公路上接电话的问题,车载电话由此诞生[1]。
当然我们不能排除车上会有噪音,这样就会影响语音系统对于我们声音的识别,然而麦克风声源定位技术可以帮助我们来解决噪声问题;在智能机器人领域也有很重要的应用,智能机器人通过传感器来定位面前的人,从而跟他交流或者接受命令。
声源定位已广泛应用于各个领域,它可用于医学研究,交通检测,雷达,视频会议,航天自动导航,智能机器人和其他成熟的先进技术。
麦克风声源定位技术大致可分为三方面:第一类是高分辨率谱估计技术,由于这类技术在计算时需要用的相关矩阵,这样我们的计算量会非常的大,同时这种定位技术跟其他技术相比定位的不准确,在实际操作过程中很少采用;第二类是最大输出功率的可控波束形成技术,这种技术室利用加权函数来求得的,原理是:1.麦克风接受语音信号;2.求加权和形成的波束;3.求出最大输出功率波束;第三类是基于声达时间差的定位技术,这种技术是利用声源传到各个麦克风阵列的时间差,然后求出角度,就可以再平面上确定声源的位置,这种技术的优点就是计算量比较小,对于噪声的处理也比较好,但是只适用与单个声源的定位,对于多个声源定位效果比较差。
1.2 国内外研究现状和发展趋势
1.2.1研究历史和现状
上个世纪80年代以来,人们就已经开始了对声源定位的研究,并取得了很多的成果,为人类的进步做出了积极的贡献。
在定位技术的人的研究有很多,包括定位技术的检测和识别,人脸GPS定位技术,基于麦克风阵列定位技术。
由于本文研究的是麦克风声源定位技术,下面就对声源定位技术的发展与进步进行大致的描述。
在上世纪80年代中后期到90年代初在这个时间段里,罗格斯大学Flanagan教授和来自布朗大学的Silverman教授是最早研究麦克风声源定位技术[2-3],从此以后,人们开始研究声源定位,语音处理,语音识别,视频跟踪的麦克风阵列技术。
人们研究发现你,麦克风阵列比单个麦克风在处理信号时有很多的优点,比如单个麦克风不是消除噪声干扰,同是拾取的信号范围也很有限,一个由多个麦克风组成阵列可以弥补单麦克风的缺点。
此外还可以增强语音信号和提高识别能力。
此外麦克风阵列可以进行生源定位,而单个的麦克风就不行。
1.2.2发展趋势
在几十年的发展过程中,声测系统主要是通过系统化,集成化来提高性能,其基本原理是差不多的。
目前使用比较多的是麦克风阵列技术来接受信号,用无线电技术传输信号,示波器等技术来检测结果,然后用计算机技术解决问题。
目前,许多国家的声源定位技术研究的都比较成熟,很多技术已经应用的实战,目前,声测系统的侦察距离可达30km同时精度达到1%,无线电传输方式的展开时间仅需半小时,可同时测量50多个目标[4],打击精度比较高,而我国在这一方面的技术就比较落后,关于目标定位和精确的打击与其他国家之间的差距比较大。
1.3本文所要研究的内容
本文研究的内容是学习阵列信号处理的基本理论;学习并掌握基于到达时间差的麦克风声源定位技术;学习并掌握各种到达时间差的估计方法;基于麦克风阵列建立广义的基于互相关时延估计,然后在MATLAB平台上实现基于到达时间
差的声源定位系统。
具体的工作如下:
第一章简单的叙述了声源定位的研究背景和国内外的发展状况第二章主要讲述了麦克风阵列的几种模型和介绍了时延估计法第三章麦克风声源定位的研究与设计
第四章总结课题的难点和遇到的问题
二、麦克风阵列的处理模型和方法介绍
2.1麦克风阵列信号处理模型
2.1.1远场模型
麦克风声源定位可以分为远场模型和近场模型,这是根据麦克风和声源的距离确定的,当麦克风阵列的位置与声音的发射源的位置较近时就可以使用近场模型,因为麦克风阵列与声源位置较近就不能忽略阵列与阵列之间由于声源引起的幅度。
当麦克风的位置与声源较远时,我们可以使用远场模型,由于麦克风阵列与声源的位置较远,然而可以忽略声源到第一个和第二个阵列的幅度差比较小,可以比用考虑。
本位采用的是远场定位模型,不需要考虑信号源到达每个阵列源的幅度。
远场模型如图2-1所示
图2-1远场模型
由图2-1可以看出,由于声源和麦克风的距离比较长,声源到达麦克风阵列模型可以看作平行的,这样就可以把声源到达麦克风阵列幅度差忽略不计,远场模型的计算量比较小,跟其他算法相比可以很容易实现。
当然,当麦克风阵列的距离和声源较近时,就不能使用远场模型,我们经常使用一个公式来区分麦克风阵列的声源定位适合用哪一种模型,下面是判断远场模型和近场模型的公式:
λ2
2L r =
其中L 为阵列长度,λ为声波长度。
声源阵列的参考点味0r ,当0r >r 为远场模型,
当0r <r 是为近场模型。
2.1.2远场麦克风阵列均匀线阵模型
均匀线性(ULA )是常见的阵列结构,其中有M 个麦克风等间距的排列在一条直线上,阵列之间的间距为波长的一半,语音信号的频率为100—3400 Hz ,经过计算空气中的波长为100-340cm ,根据阵列尺寸和采样定理,麦克风阵列源之间的距离为5-15cm 。
由上面讨论可知,远场模型到达麦克风阵列元之前为平面波。
由图2-1可知声源到达麦克风阵列的方向角是相同的,下图2-2表示均匀阵列的远场模型:
声源),(r s θ
图2-2均匀线阵远场模型
其中知道声源在空气中的传播速度为v ,时延TDOA 为s ,则 v s l ⋅=,这样就能求出d l 2arcsin 2=θ,则21-2
θθπ=,从而确定声源的位置。
麦克风声源定位可以使用时延估计算法,目前时延估计的算法在麦克风声源定位中有很多,本课题是采用的是广义互相关时延估计算法,具体的其他方法在第三章介绍。
麦克风
2.2基于时延估计声源定位方法的介绍
声源定位的方法有很多,MUSIC 算法在超分辨估计方法中是比较经典的而且在多个声源定位中用的比较多。
MUSIC 算法是的实现功能是正交法,其基本原理是信号的子空间域与噪声的子空间域进行正交,这样就能构造一个空间的函数,再利用计算机技术搜索信号的谱峰值,最后检测语音信号的DOA 。
目前,有许多种类的时延估计,时延估计方法大致可分为以下几类:互功率谱相位延迟估计,基于基音加权时间延迟估计方法,声门脉冲的时间延迟估计的方法,基于 LMS 的自适应时延估计法,基于子空间分解的时延估计法 ,基于声学传递函数比的时延估计法。
本文采用广义互相关函数法(GCC )的麦克风阵列的声源定位,,主要研究广义互相关时延估计算法流程、时延估计定位算法 、互相关延时估计方法 、广义互相关时延估计的原理这几个方面入手。
2.2.1广义互相关时延估计法
广义互相关(GCC )法是一种经典的TED 的方法,基本原理是用两个麦克风组成阵列,然后两个阵列接受信号,这样的函数可以为:
)()()]()([)(τττααττj i j i v v ij ss j i j i x x R R n x n x E R +-≈-=
式中E[]表示数学期望的值,SS R 表示为自相关函数,)(τj i v v R 表示两个麦克风阵
列之间的噪声函数。
本方法的一个重要的条件就是,声源的信噪比足够大,这样才能根据两个麦克风阵列接受到信号的峰值来确定时延估计。
GCC 方法的流程图:
图3-1时间延迟估计方法的GCC的设计图
2.2.2互功率谱相位时延估计法
在研究互功率谱相位时延估计法时可以使用功率谱的相关信息来进行互相关的计算。
通过提取互功率谱的相位信息来进行时延估计互功率谱相位(Cross-power Spectrum Phase,CSP)[5],该方法实际等同于首先对信号进行白化滤波然后再进行互相关运算,该方法在实现上 GCC-PHAT[6]方法相同.互功率谱相位时延估计法有一些优点,对于其他时延估计方法而言,其计算方法的加权函数不仅可以抗混响而且抗噪声性能也比较好,基于它的抗噪声和抗混响性能,该加权函数在实际应用系统中比较广泛,也是人们经常使用的方法之一。
2.2.3基于基音加权的时延估计法
上面的互功率谱相位时延估计法没有考虑到语音本身的特性,而本方法就考虑到了语音本身的特性。
由于语音信号本身就有特征参数,比如语音信号中的基音周期,即使外界有噪声干扰时还会保持原来的信号不变。
由于噪声在一般情况下是没有规律的,这样我们就可以加强语音信号中的周期成分,这样就能提高语音的抗噪声信。
2.2.4基于声门脉冲激励的时延估计法
同上面的方法一样,声门脉冲激励(GCI)[7]用语音信号参数提取时间延迟
的时间延迟估计方法。
发声音是声门的闭合或者打开,这样就会形成有规律的声波,这样的声波可以简单的确立为脉冲激励, 确定各个声音部分的脉冲激励通过传声器,通过计算各个脉冲峰值到达传声器的值,就可以求出时延。
用声源信号建立模型,使用线性预测(LPC )语音产生模型残差包含GCII 的激励信号,这样的GCI 是可以可以提取。
2.2.5 基于 LMS 的自适应时延估计法[8]
基于 LMS 的自适应时延估计法[9]的原理框图如图所示
ij T
图3-2 LMS 时延估计框图
该方法使一个信道的信号)(n x j 通过滤波器来近似的另一个通道的信号)
(n x i ,根据误差滤波器自动调整系数。
另外,LMS 时间估计法不需要提前知道语音信号的输出谱函数。
于是,该方法来统计声源信号不了解的情况,应用比较广泛。
与本文研究的方法相比,LMS 能实现更高的精度,LMS 的实现方法是:当麦克风阵列接受到声源信号时,用前面一个信号来靠近后面一个信号,接受到的信号收敛时,就能用该方法计算出时延估计。
GCC 方法在麦克风声源定位中只要接受一个帧的数据就可以估计信号估计值。
但是,这种方法的缺点比较多。
这种滤波器接受信号会有一段的时延,还有LMS 的计算量是比较大的,本方法在禁止的声源定位有很好的效果,但在移动的声源定位结果比较差,往往是延时比较高,定位不准确,所以LMS 实现起来比较困难。
还有一个不能忽视的问题,就是滤波器的精度决定了LMS 的定位精度,当然当定位精度比较高时,计算量不仅比较大
而且变的很复杂,滤波器的性能还受输出信号的影响,所以LMS定位的精度受外界的影响比价大。
2.2.6 基于子空间分解的时延估计法
自适应特征值分解法与广义特征值分解法都是子空间分解的时延估计法。
最前面的几个方法是在理想情况下建立的方法,由于该种方法加入了噪声的影响,所以该模型更接近于真实的环境。
这两种方法分别建立在不同的模型上,EVD[10]方法建立在理想的模型下,GEVD是建立在实际的空间模型下,由于GEVD建立在实际的空间模型,实现起来比较复杂,在这里不做过多描述。
下面我们描写EVD 方法如图3-3
Tij
图3-3 EVD方法的时延估计框图
2.2.7基于声学传递函数比的时延估计法
声学传递函数比(ATFs-ratio)的时延估计法和上面GEVD的方法相似,都是建立在实际的环境中,这样的声源定位就比较接近于实际,所以在实际应用中比较广泛。
研究发现时延估计有三个方面的特点利用传递函数:(1)ATFs-ratio 是基本的信号模型,这样就建立了定向噪声和混响,这样的方法与实际环境差不
多;(2)传递函数比算法比其他算法计算速度快,效率高;(3)在估计峰值的过程中,这种方法在进行麦克风阵列的声源定位时不需要来检测和区分噪声和声源,同时也不需要提前知道相关噪声的特性,这种检测峰值的方法更接近于实际环境。
然而,基于TDOA 比试验方法,需要大量的计算,应在实际应用中需要改进。
三、麦克风声源定位的研究与设计
3.1广义互相关时延估计设计流程
本文所采用的是广义互相关时延估计算法,由于本算法比较简单,计算量比较小,所以在实际应用中比较广泛。
广义互相关函数的原理是:首先是求出)(1w x 和)(2w x 之间的互功率谱函数,在频域里经过一些计算和加权,然后傅里叶反变换到时域,这样我们就能求出)(1w x 和)(2w x 的互相关函数,求出极大值,然后两个极大值相减后的绝对值,求出两组信号的时延。
流程如图4-1所示。
图 4-1 广义互相关时延估计流程
广义互相关时延估计法跟其他时延估计法相比是比较简单的,这种方法只需要估计出时延,然后进行一些固定的运算就可以进行麦克风声源定位。
本文的麦克风声源定位是远场定位在二维平面上实现的,只需要把声源与麦克风阵列的角度求出即可,然而这个角度需要测出两个时延估计值,三维空间要求测出三个时延估计值,这里不做过多讲解。
本文研究二维只需要测量两个独立的时间延迟估计值。
每个时间延迟估计值对应于一二个方程,把这些方程求出来就可以求出时延估计,所以进行麦克风阵列声源定位只需要求出时延估计,再进行一些数学计算,就可以确定声源的位置。
根据上面的描述,基于时延估计算法的运算量比较
小,在实际应用中很广泛。
3.2 时延估计定位算法实验研究
经过最近几年的发展,时延估计声源定位方法可以看做麦克风阵列的声源定位方法,时延估计定位算法定位的精度比较高,在实际的应用中比较广泛。
基于时延估计的声源定位方法是近几年发展起来的一种传声器(可以看做麦克风阵列)阵列声源定位方法[11],该方法包括时间延迟估计和定位在两个步骤,如下图 4-2表示
图4-2时延估计定位算法实现原理图
首先根据声源定位的具体算法摆放麦克风的位置,本文研究的是麦克风线性阵列,然后估计各个TDOA 的时延,最后进行麦克风声源定位[12]。
在实际应用中,基于时延估计法进行麦克风声源定位的方法有很多,广义互相关应用的比较多。
3.3互相关延时估计方法
互相关时延估计法是分析两个信号时域的相关程度。
首先,设定两个麦克风阵列接受到的声源信号的模型为:
)()()()
()()(22221111n n n S n X n n n S n X +ψ-=+ψ-= (1)
S(n)为声源信号,)(1n n ,)(2n n 是一对高斯白噪声,其中这两个噪声是互不相关的,)(n s 和 两对高斯白噪声)(1n n 和)(2n n 也是互不相关的。
2,1ττ,
是声波从声
源传到麦克风阵之间的时间,2112-τττ=,其中12τ就是两个麦克风阵列之间的时延。
)(1n x 和)(2n x 的相关函数)(12τR 可表示为:
)]()([2112ττ-=n x n x E R )( (2)
将式(1)带入,得:
)]
()([))()(())]()(()()-([2112211112τττττττττ-+--+--+--=n n n n E n n n s E n n n s E n s n s E R )(因为)(n s ,)(1n n 和)(2n n 三者互不相关,从上面可知
))(()]()([)(211112τττττττ--=---=s R n s n s E R (3)
根据上面的函数性质可知,当这个时延条件0--21=)(τττ成立时,)
(*12R 达到峰值,然后求出)(τ12R 最大值,这个最大值对应的τ就是我们求得麦克风阵列的时延12τ。
由上述计算过程可知,我们发现这种估计方法是很简单的,但是它们的推导过程我们是假设信号与信号之间,噪声与噪声之间是互不相关的[13],这样的条件在实际中很难达到。
此外,上面定义的数学关系都是一种近似的替代,用无穷时间平均代替数学统计平均。
事实上,严格的数学平均值和无限的时间平均是不可能的,有限的时间平均被有限的时间平均代替,而缩短噪声短时间延迟对系统的影响。
否则,)(12τR 峰值不明显的,将导致低精度的时间延迟估计值。
根据上面的推导,这样的方式在实际操作中是不可能实现的,然而人们就开始研究广义互相关函数,这种函数时延估计法,可以消除或者减轻外界的噪声干扰,提高时延估计的精度。
广义互相关延时估计实现的原理框图如图下图4-3所示。
传感器1
图4-3实现广义互相关时延估计的原理图
首先由传感器1和2获得语音信号,经过 A/D 变换器进行采样,得到待处理的声发射信号。
然后利用一定长度的窗口进行帧分析在对信号进行傅氏变换然后得到两个信号的本帧互功率谱,在傅里叶逆变换按一定重量加权帧频互相关函数的互功率谱,使用峰值检测来发现相关函数峰值τ是两个麦克风之间的时间延迟12τ。
根据互相关函数和互功率谱的关系,可以得到如下的表达式:
dw w G R e
jw τ
τ)()(0
1212⎰=π
其中)(12w G 为传感器接受信号的)(1n x 和)(2n x 的互功率谱。
广义互相关时延估计法只需要做两方面的工作,第一求出信号的互功率谱,第二是对胡功率谱函数进行加权,然后就可以去除信号的高斯白噪声,就可以达到增强语音信号中的高频成分的目的,然后的到的高频成分再经过变换到时域就可以得到声源信号的广义互相关函数,即:
dw w G w e R jw g
τ
τ)()(120
12
12)(π
⎰ψ=
其中)
(w 12ψ是广义互相关加权函数。
广义互相关加权函数的选择主要依据噪
声和反射情况。
为了使)(12τR 的峰值比较大,我们可以选择不同的加权函数达到增大峰值的目的。
其中 )(12τR 峰值处就是两个传感器间的时延。
3.4互相关延时估计加权函数性能分析
根据麦克风阵列按一定的比例去排列,同一个声源传到麦克风阵列是有关系的,这样就可以通过计算得出时延的值[14]。
然而在实际环境中,由于噪声和混响的影响,相关函数的大峰会被弱化,有时还会出现多个峰值,这些都造成了实际峰值检测的困难[15]。
GCC 的方法是在功率谱域加权信号,增强语音信号的有用部分抑制信号的噪声部分,这样就能使时延处的峰值不较大,易于测量。
但是信号中会存在一定的混响,信号就有很多的回波分量。
这样用互相关函数计算出的的峰值就包含一次传入波和二次传入波(反射波)的峰值,然而,这些峰值的时延估计的检测比较困难,因为在低信噪比下的检测信号不是很明显。
宽带信号的周期性,使得GCC 的互相关函数比较复杂,增加计算难度。
有时声源信号会受到外界和自身信号的影响,这样就需要最大程度的抑制噪声和其他因素的干扰,需
要对声源发出的信号做出处理,就要选择适合的加权函数)(w 12ψ。
表1中式几种常用的加权函数,其中)(11w G 和)(w G 22分别表示传感器1和传感器2接收信号
的自功率谱密度,)(12w G 表示传感器1和传感器2接收信号的互功率谱密度。
表 1 常用的几种加权函数
3.5声源定位的模型分析
本文主要研究平面的声源定位,只要测出θ即可。
首先在MATLAB 中先定义一个声源是),(r s θ,然后用N-1来定义一个下一个信号的来源,计算出其中的时延。
下面是均匀线阵远场模型:
声源),(r s θ
图5-1均匀线阵远场模型
其中用MATLAB 的仿真就是求出时延TDOA ,然后进行反向推导就可以求出θ,从而就能确定声源的位置。
下面做一下简单的推导:首先我们知道声音的速度为=v 340m/s ,确定d l 2sin 2=θ,τ•=v l ,其中τ为时延,所以d v 2arcsin 2τθ•=,求出2θ就可以确定θ。
根据上面的推导,只要求出广义互相关的时延估计τ就可以求出实验的结果。
3.6时延估计的测量与计算
用MATLAB 仿真的时延估计图如下图所示。