语音信号处理第10章声源定位

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

10.2.2 人耳声源定位线索
（3）头相关传输函数
从某一个方位的声源发出的声信号在到达听者的耳膜之前必然与听者的头部、肩部以及躯干、耳廓发生了反射、折射、散射以及衍射等声学作用，其既与声源相对于听者的方向有关，也因人体部位形状及大小的不同而存在个体差异。人体的这些部位对声信号的影响可以统一用一个函数来表示，即头部相关传输函数 HRTF。HRTF描述了声波从声源到双耳的传输过程，它是综合了 ITD、ILD 和频谱结构特性的声源定位模型。在自由场情况下，HRTF定义为： PL (l , , , f ) H L H L (l , , , f ) P0 (l , f )
10.3.1 窄带阵列信号处理模型
假设麦克风阵由M个全向麦克风组成，信号源的个数为P，所有到达阵列的波可近似为平面波。将第一个阵元设为参考阵元，则到达参考阵元的第j个信号为：
A B θ r O D
L1
L2
C
θ
反转模型就可以得到水平角度θ，如下式所示： c g 1 ( ITD ( , f )) r f 上式不能通过普通方法求解方程，可使用切比雪夫序列获得的多项式 -1 近似，进而获得g 的近似表示：
3 5 x x x g 1 ( x ) 2 96 1280
10.2.1 人耳听觉定位原理
人耳可以听到频率在20Hz-20kHz范围内的声音。人耳听觉系统有两个重要的特性，一个是耳蜗对于声信号的分频特性；另一个是人耳听觉掩蔽效应。人耳对声源目标的水平方位评估相比其垂直仰角而言，则要精确的多。在混响环境中，优先效应起到重要作用，它是心理声学的特性之一。所谓的优先效应，当同一声源的直达声和反射声被人耳听到时，听音者会将声源定位在直达声传来的方向上，因为直达声首先到达人耳处，即使反射声的密度比直达声高10dB。当将优先效应用在混响环境中识别语音时，就产生了哈斯效应。哈斯观察早期反射声时，发现早期反射声只要到达人耳足够的早将不会影响语音的识别，相反的由于增加了语音的强度而有利于语音的识别。
应用——被动声定位器
应用——Humanoid Robot HRP-2 ICRA 2004
应用——助听器方向性麦克风技术
应用——声相仪
ห้องสมุดไป่ตู้
10.2
双耳听觉定位原理及方法
人类听觉系统对声源的定位机理主要是由于人的头部以及躯体等对入射的声波具有一定的散射作用，以致到达人双耳时，两耳采集的信号存在着时间差（相位差）和强度差（声级差）。对于频率较高的声音，还要考虑声波的绕射性能。由于到达两耳处的声波状态的不同，造成了听觉的方位感和深度感，这就是常说的“双耳效应”。不同方向上的声源会使两耳处产生不同的（但是特定的）声波状态，从而使人能由此判断声源的方向位置。总的来说，利用双耳听觉在水平面内的声源定位要比垂直面内的声源定位精确得多，后者存在较大的个体差异。
在低中频（f<1.5kHz）情况下，双耳时间差是定位的主要因素；对于频率范围在1.5~4.0kHz的信号来说，声级差和时间差都是声源定位的影响因素；而当频率f>5.0kHz时，双耳声级差是定位的主要因素，与时间差形成互补。总的来说，双耳时间差和声级差涵盖了整个声音频率范围。
10.2.2 人耳声源定位线索
（2）耳廓效应
耳廓效应的本质就是改变不同空间方向声音的频谱特性，也就是说人类听觉系统功能上相当于梳状滤波器，将不同空间方向的声音进行不同的滤波。耳廓具有不规则的形状，形成一个共振腔。当声波到达耳廓时，一部分声波直接进入耳道，另一部分则经过耳廓反射后才进入耳道。由于声音到达的方向不同，不仅反射声和直达声之间强度比发生变化，而且反射声与直达声之间在不同频率上产生不同的时间差和相位差，使反射声与直达声在鼓膜处形成一种与声源方向位置有关的频谱特性，听觉神经据此判断声音的空间方向。
10.3
麦克风阵列模型
10.3.1 窄带阵列信号处理模型
麦克风阵列结构就是一定数量的麦克风按照一定空间放置而构成的麦克风组，也称为麦克风阵列的拓扑结构。麦克风近场和远场模型的判断公式为：r<2L /λ 。近场和远场模型下不同的拓扑结构所构成的导向向量也不
2
相同。不同的导向向量携带的信息也不同，声源近场模型中所携带的信息不仅有距离、时延，还有声源空间位置；而声源远场模型中携带的仅仅是声源的空间位置信息，即方位和俯仰。此外，阵元间距也直接影响声源定位的结果，而阵元个数可以适当的提高定位精度。
第10章声源定位
概述双耳听觉定位原理及方法麦克风阵列模型房间回响模型麦克风阵列的声源定位方法总结与展望
10.1
概述
声源定位技术主要是研究系统接收到的语音信号相对于接收传感器是来自什么方向和什么距离，即方向估计和距离估计。声源定位是一个有广泛应用背景的研究课题，其在军用、民用、工业上都有广泛应用。声源定位技术的内容涉及了信号处理、语言科学、模式识别、计算机视觉技术、生理学、心理学、神经网络以及人工智能技术等多种学科。一个完整的声源定位系统包括声源数目估计、声源定位和声源增强（波束形成）。目前的声源定位研究主要分为两类：基于仿生的双耳声源定位算法和基于麦克风阵列的声源定位算法。
PR (l , , , f ) H R H R (l , , , f ) P0 (l , f )
10.2.3 声源估计方法
对于不同的信号频率，双耳时间差模型有一定的变化规律，可以用参数化形式表示： r (sin ) ITD( , f ) f c 其中，αf是与频率相关的尺度因子。
10.2.2 人耳声源定位线索
（1）双耳定位线索
不同方向上的声源会使两耳处产生不同的（但是特定的）声波状态，从而使人能由此判断声源的方向位置。在实际应用中涉及到的定位线索主要有：ITD、ILD、双耳相位差（IPD）、双耳音色差（Interaural Timbre Difference）以及直达声和环境反射群所产生的差别。

语音信号处理第10章 声源定位

语音信号处理第10章声源定位