基于声信号人耳听觉谱特征和SVME的水下目标识别欢迎访

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于声信号人耳听觉谱特征和SVME

的水下目标识别

杨宏晖1彭圆2曾向阳1

摘要利用人耳听觉谱特征模拟人耳听觉系统的特性,提取了水下目标信号的人耳听觉谱特征,设计了基于支持向量机自适应增强集成算法用于水下目标的分类识别算法。仿真实验证明,人耳听觉谱特征可有效用于水下目标识别,支持向量机自适应增强集成算法比单个优化的支持向量机分类器的正确识别率高%~%。

关键词人耳听觉谱特征水下目标识别支持向量机集成

1 引言

长期以来,为了提高水下目标识别的正确率,国内外研究人员从不同的角度对水下目标辐射噪声原始信号进行了分析和研究,提取了各种水下目标特征。提取的水下目标特征主要有以下几类:时域波形特征[1]、频域分析特征[2-3]、时频分析特征[4]、非线性特征[5]和听觉特征[6-7]。这些特征各有特点:时域波形特征的主要特点是方法简单、实时性好。但水下目标信号时域波形结构复杂,难以提取具有高分类信息的波形结构特征[1]。频域分析特征的特点是技术成熟、方法简单,而且谱信息中包含明确的物理概念,但适合处理线性、平稳信号[2-3]。时频分析方法提取的特征可以更好地反映目标的时域和频域特征。但小波分析算法较为复杂,存储量、运算量大,计算速度慢,实时性差。而且小波分析适合处理非平稳信号,处理非线性信号能力较弱[4]。我国学者的研究表明:舰船噪声有混沌现象,舰船噪声极限环有混沌行为,舰船辐射噪声的非线性表明同类目标具有相似性,不同类目标具有可分性[5]。但是在实际的随机噪声中,不存在严格的分形信号,大多数水声信号只是在某种尺度范围内具有分形特征。因此,分形与混沌方法仅是识别特征的补充。

众所周知,依靠人耳极其灵敏的听觉系统和长期在实践中积累的经验来判断水下目标类型仍然是水下目标识别的重要途径之一。目前模拟人耳听觉系统进行水下目标识别的研究报道很少。国内外研究人员提取了水下目标辐射噪声信号的听觉特征、语音特征及心理声学参数特征[6-7]。利用这些特征可以识别目标的类型,甚至可以识别目标的材质。这类特征的主要特点是适于处理非线性的水声信号,而且原理简单,计算快速,具有较好的实时性。但这方面的研究工作还有待于进一步的深入。

本文提出了根据人耳听觉模型提取水下目标信号的人耳听觉谱特征的方法;并提出了支持向量机自适应增强集成算法用于水下目标的分类识别。仿真实验结果表明,本文提出的水下目标信号听觉谱特征提取方法简单有效,运算速度快,人耳听觉谱特征可有效用于水下目标识别,支持向量机自适应增强集成算法比单个优化的支持向量机分类器的正确识别率高%~%。

2 人耳听觉感知模型

人耳可以听到频率在20Hz~20KHz范围内的声音。人耳听觉系统是一个音频信号处理器,可以完成对声信号的传输、转换以及综合处理的功能,最终达到感知和识别目标的目的。人耳听觉系统有两个重要的特性[8],一个是耳蜗对于声信号的分频特性;另一个是人耳听觉掩蔽效应。

耳蜗的分频特性

当声音经外耳传入中耳时,镫骨的运动引起耳蜗内流体压强的变化,从而引起行波沿基底膜的传播。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上。频率较低时,基底膜振动的幅度峰值出现在基底膜的顶部附近;相反,频率较高时,基底膜振动的幅度峰值出现在基底膜的基部附近(靠近镫骨)。如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度。在每一声音频率上,随着强度的增加,基底膜运动的幅度增大,

并且带动更宽的部分振动。从这个意义上讲,耳蜗就像一个频谱分析仪,基底膜可以看成是一组频带重叠的非线性带通滤波器,这组带通滤波器将整个频带划分为若干个不等宽频带,称为临界频带。耳蜗的分频能力,可以用一组带通滤波器来实现。

人耳听觉掩蔽效应

人耳听觉掩蔽效应是一个较为复杂的心理和生理现象,人耳不仅在频域上有掩蔽效应,在时域上也有掩蔽效应。人耳对声音的感觉主要是由于声音引起基底膜不同部位的振动,所以一个较大声音引起一个位置产生较大振动的同时,会使其前后位置产生相应小的振动。如果另一个声音的频率对应于该位置且强度较弱,则该声音听不到,这就是声音的频域掩蔽。时域掩蔽效应是一个声音的人耳听觉感受被另一个声音(同时或不同时进入人耳)影响的现象。掩蔽效应是听觉系统的一个重要特性,它表明了人的听觉系统对频率和时间分辨力的有限性。为了描写这种掩蔽的效果,Zwicker等引入了临界带宽的概念。一个纯音可以被以它为中心频率,且具有一定频率带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚能被听到的临界状态,即称这一带宽为临界带宽。一个临界带宽可以用巴克(Bark)来表示。在20Hz-16KHz范围内的声音信号可以分为24个Bark。临界频带与频率是非线性关系。

3 听觉谱特征提取

根据生理声学和心理声学以及语音信号处理的研究成果,我们提出一个基于人耳听觉感知模型的声音信号听觉谱特征提取算法用于水下目标识别,听觉谱特征具体提取过程如图1所示。

图1 听觉谱特征提取原理图

这个人耳听觉感知模型也应用于语音信号处理的感知线性预测算法 [9]。文献[7]研究了感知线性预测算法在水下目标识别中的应用。感知线性预测算法将经过图1所示步骤得到的听觉谱信号再进行IDFT 变换得到信号短时自相关函数,接着用全极点模型来逼近信号短时自相关函数(线性预测分析),特征向

量是全极点模型预测多项式的一组系数。本文提出的

基于听觉模型的听觉谱特征提取算法利用人耳听觉

感知模型直接计算声信号的听觉谱,用于描述水下目

标,具有原理更加简单,计算量小,计算速度更快的

特点,更易满足识别任务对时间的要求。

具体实现过程如下:

(1)对水下目标信号进行短时傅立叶变换,计算其

功率谱()

ω

P;

(2)临界频带分析

首先将()

ω

P进行频域到Bark域的转

()6(/1200

In

Ωωωπ

= (1) 其中,ω是以/

rad s为单位的角频率;Ω是以

Bark为单位的Bark域频率。

然后将Bark域的功率谱()

Ω

P与临界频带滤波

器组曲线()

Ω

Ψ相卷,临界频带滤波器组曲线如式(2)

所示。

2.5(0.5)

1.0(0.5)

0 1.3

10 1.30.5

()10.50.5

100.5 2.5

0 2.5

Ω

Ω

Ω

Ω

ΩΩ

Ω

Ω

+

--

<-

⎪-≤≤-

⎪⎪

=-<<

⎪≤≤

>

⎪⎩

Ψ (2)

功率谱()

Ω

P与临界频带滤波器组曲线()

Ω

Ψ离

散卷积即可得到临界带听觉谱()

k

ΘΩ:

2.5

1.3

()()(),

1,2,,24

k k

k

Ω

Ω

ΩΩΩΩ

=

=-

=-

=

ΘPΨ

(3)

(3)等响度级预处理

心理声学研究成果表明,在声强一定的情况下,

人耳对不同频率声音敏感程度不同,人耳对中高频较

为敏感,对3KHz到5KHz声音最敏感,所以要对临

界频带分析所得到的谱进行等响度级变换。经过变换

后的响度级谱为:

()()()

k k k

ΩωΘΩ

=

ΓE (4)

k

Ω和

k

ω的关系可由式(1)得到,等响度级预处理

曲线如式(5)所示。

264262

29626

(56.810)/( 6.310)

()

(0.3810)(9.5810)

ωωω

ω

ωω

+⨯+⨯

=

+⨯+⨯

E (5)

等响度级预处理以后的临界频带滤波器组频率

响应如图2所示。

相关文档
最新文档