语音信号处理第10章 声源定位

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

10.2.1 人耳听觉定位原理
人耳可以听到频率在20Hz-20kHz范围内的声音。人耳听觉 系统有两个重要的特性,一个是耳蜗对于声信号的分频特 性;另一个是人耳听觉掩蔽效应。人耳对声源目标的水平 方位评估相比其垂直仰角而言,则要精确的多。 在混响环境中,优先效应起到重要作用,它是心理声学的 特性之一。所谓的优先效应,当同一声源的直达声和反射 声被人耳听到时,听音者会将声源定位在直达声传来的方 向上,因为直达声首先到达人耳处,即使反射声的密度比 直达声高10dB。当将优先效应用在混响环境中识别语音时, 就产生了哈斯效应。哈斯观察早期反射声时,发现早期反 射声只要到达人耳足够的早将不会影响语音的识别,相反 的由于增加了语音的强度而有利于语音的识别。
PR (l , , , f ) H R H R (l , , , f ) P0 (l , f )
10.2.3 声源估计方法
对于不同的信号频率,双耳时间差 模型有一定的变化规律,可以用参 数化形式表示: r (sin ) ITD( , f ) f c 其中,αf是与频率相关的尺度因子。
第10章 声源定位
概述 双耳听觉定位原理及方法 麦克风阵列模型 房间回响模型 麦克风阵列的声源定位方法 总结与展望
10.1
概述
声源定位技术主要是研究系统接收到的语音信号相对于接 收传感器是来自什么方向和什么距离,即方向估计和距离 估计。声源定位是一个有广泛应用背景的研究课题,其在 军用、民用、工业上都有广泛应用。 声源定位技术的内容涉及了信号处理、语言科学、模式识 别、计算机视觉技术、生理学、心理学、神经网络以及人 工智能技术等多种学科。一个完整的声源定位系统包括声 源数目估计、声源定位和声源增强(波束形成)。目前的 声源定位研究主要分为两类:基于仿生的双耳声源定位算 法和基于麦克风阵列的声源定位算法。
(2)耳廓效应
耳廓效应的本质就是改变不同空间方向声音的频谱特性, 也就是说人类听觉系统功能上相当于梳状滤波器,将不同 空间方向的声音进行不同的滤波。耳廓具有不规则的形状, 形成一个共振腔。当声波到达耳廓时,一部分声波直接进 入耳道,另一部分则经过耳廓反射后才进入耳道。由于声 音到达的方向不同,不仅反射声和直达声之间强度比发生 变化,而且反射声与直达声之间在不同频率上产生不同的 时间差和相位差,使反射声与直达声在鼓膜处形成一种与 声源方向位置有关的频谱特性,听觉神经据此判断声音的 空间方向。
10.2.2 人耳声源定位线索
(1)双耳定位线索
不同方向上的声源会使两耳处产生不同的(但是特定的) 声波状态,从而使人能由此判断声源的方向位置。在实际 应用中涉及到的定位线索主要有:ITD、ILD、双耳相位 差(IPD)、双耳音色差(Interaural Timbre Difference) 以及直达声和环境反射群所产生的差别。
10.3
麦克风阵列模型
10.3.1 窄带阵列信号处理模型
麦克风阵列结构就是一定数量的麦克风按照一定空间放置 而构成的麦克风组,也称为麦克风阵列的拓扑结构。麦克 风近场和远场模型的判断公式为:r<2L /λ 。 近场和远场模型下不同的拓扑结构所构成的导向向量也不
2
相同。不同的导向向量携带的信息也不同,声源近场模型 中所携带的信息不仅有距离、时延,还有声源空间位置; 而声源远场模型中携带的仅仅是声源的空间位置信息,即 方位和俯仰。此外,阵元间距也直接影响声源定位的结果, 而阵元个数可以适当的提高定位精度。
10.2.2 人耳声源定位线索
(3)头相Fra Baidu bibliotek传输函数
从某一个方位的声源发出的声信号在到达听者的耳膜之前 必然与听者的头部、肩部以及躯干、耳廓发生了反射、折 射、散射以及衍射等声学作用,其既与声源相对于听者的 方向有关,也因人体部位形状及大小的不同而存在个体差 异。人体的这些部位对声信号的影响可以统一用一个函数 来表示,即头部相关传输函数 HRTF。HRTF描述了声波 从声源到双耳的传输过程,它是综合了 ITD、ILD 和频谱 结构特性的声源定位模型。在自由场情况下,HRTF定义 为: PL (l , , , f ) H L H L (l , , , f ) P0 (l , f )
应用——被动声定位器
应用——Humanoid Robot HRP-2 ICRA 2004
应用——助听器方向性麦克风技术
应用——声相仪
10.2
双耳听觉定位原理及方法
人类听觉系统对声源的定位机理主要是由于人的头部以及 躯体等对入射的声波具有一定的散射作用,以致到达人双 耳时,两耳采集的信号存在着时间差(相位差)和强度差 (声级差)。对于频率较高的声音,还要考虑声波的绕射 性能。由于到达两耳处的声波状态的不同,造成了听觉的 方位感和深度感,这就是常说的“双耳效应”。 不同方向上的声源会使两耳处产生不同的(但是特定的) 声波状态,从而使人能由此判断声源的方向位置。总的来 说,利用双耳听觉在水平面内的声源定位要比垂直面内的 声源定位精确得多,后者存在较大的个体差异。
A B θ r O D
L1
L2
C
θ
反转模型就可以得到水平角度θ, 如下式所示: c g 1 ( ITD ( , f )) r f 上式不能通过普通方法求解方程, 可使用切比雪夫序列获得的多项式 -1 近似,进而获得g 的近似表示:
3 5 x x x g 1 ( x ) 2 96 1280
在低中频(f<1.5kHz)情况下,双耳时间差是定位的主要 因素;对于频率范围在1.5~4.0kHz的信号来说,声级差和 时间差都是声源定位的影响因素;而当频率f>5.0kHz时, 双耳声级差是定位的主要因素,与时间差形成互补。总的 来说,双耳时间差和声级差涵盖了整个声音频率范围。
10.2.2 人耳声源定位线索
10.3.1 窄带阵列信号处理模型
假设麦克风阵由M个全向麦克风组成,信号源的个数为P, 所有到达阵列的波可近似为平面波。将第一个阵元设为参 考阵元,则到达参考阵元的第j个信号为:
相关文档
最新文档