异常声音检测系统文献翻译

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于音频的声音监测监控系统

C.克莱维尔，T.阿赫瑞特，G.理查德

法国泰利斯研究技术中心，.法国巴黎市奥赛德斯地区，邮政编码75634 巴拉尔特街46号13号信箱. 科博维尔科技园

摘要：

目前声音监测监控系统研究涉及多媒体监控应用在嘈杂环境中的音频事件检测。为监视或国土安全的系统。以自动检测异常情况下，在基于视觉线索的同时，异常事件将被检测到，比如枪声，但它可能是更容易检测到一个给定的事件使用的音频信息。自动音频检测系统是基于一个新奇的检测方法，它提供了一个解决方案来检测异常（异常音频事件）在公共场所连续录音。我们特别集中于对变量和不稳定的条件下检测鲁棒性和降低的错误拒绝率，这是特别在监控应用中的重要。另外，我们利用潜在的不同类型的武器，通过建立分层分类系统的声学信号之间的相似性。

1.简介：

音频事件分类/检测是科学界的兴趣日益增长的热点。尤其是在音频检索和索引应用的上下文中，而且在多媒体事件检测的音频可以被用来作为一种补充的信息源，如下文中的情况下。在监视或国土安全（安全的公共场所，如地铁，机场，银行，...）大多数系统仅基于视觉线索来检测异常的情况。典型的异常情况，包括自然的损害，如火灾，地震，洪水等，身体或心理威胁和侵略人类（绑架人质等）。在一些情况下，音频比视频传达了一个更重要的信息。然后，我们的目标是使用声学线索作为补充信息，自动检测并分析异常情况。

完成多媒体自动监控系统，然后由不同的模块，提供了从不同的方式，将合并信息融合系统形势分析。音频模块，在这种有针对性的系统将使用声乐和非声乐表现异常的情况下，双方感情的内容，并将处理[2]典型的事件，如哭声，枪声或爆炸。在本文中，我们提出了一个方法来开发音频键事件检测系统。虽然我们目前仅限事件检测系统音频检测的方法和遵循的方法，这个系统可以扩展到其他类别特征的声音异常的情况下，在一个给定的环境中。

音频检测系统的主要困难之一，往往是环境噪声的非平稳性，这可能是响亮的音频事件来检测相比。本文提出的音频检测系统基于一个新奇的检测方法[6]。事实上，新型音频检测提供了解决方案，以检测异常异常声音事件，即当给定的距离超过预定义的阈值的正常位置的模型。本文的重点是自动处理的音频事件检测系统的两个主要问题，即鲁棒性检测对变量和不利条件和减少错误拒绝率，这是特别重要的监控应用。特别是，我们充分利用潜在的不同类型的武器，通过建立分层分类系统的声学信号之间的相似性。

本文的组织如下。首先，我们的音频检测系统是在第2部分。然后，数据库和测试协议，用于对系统进行评估在第3部分中给出。不同的实验结果在第4部分。最后，我们建议在第5部分的一些结论和未来的工作。

2．音频检测系统

我们的音频检测系统的目标是分类，输入音频流为连续段，并根据这些细分集的两个主要类（代表环境的声学特性的射门类和正常类）的标签。我们的音频架构事件检测系统包括特征提取模块，培训模块，用于建立模型的两个类（使用高斯混合模型或GMM）和分类模块，基于以前的机型，标签的连续音频段。如图2所描述的，所输入的音频是第一分段的短帧（20毫秒），但以0.5秒的段（具有50％的重叠）。

2.1 音频特征提取

特征提取，分析每帧20毫秒与50％的重叠。计算功能选择时下最流行的音频处理算法，并更容易适合我们的分类问题。短时能量描述的信号能量，在一个给定的时间内，将可选地称为响度或体积。

1.13向量梅尔频率倒谱系数。前两个频谱统计矩，即是平均的功率谱，对于一个给定的时间和频谱扩展的频谱重心。

2.叙述上述各功能。特征向量维主成分分析程序，然后降低。我们维持13维向量第一部分为显著。每个分析帧的输入音频。

2.2训练步骤

对于每个类高斯混合模型（GMM）建立。为每个类高斯适当数量的估计要归功于贝叶斯信息标准[3]。模型的参数估计采用传统的期望最大化算法[7]，初始化一个基本的二元分裂矢量量化算法。

2.3检测步骤

检测采用最大后验（MAP）的决策规则：获得每个分析时间短帧的概率乘以每类模型计算平均后的LOG概率是0.5秒的决定窗口。“决定”窗口，然后分类，它具有最大后验得分。沉默窗户都没有考虑，并且将自动删除。

3.数据库和协议

3.1数据库

语料库生态条件，如监控应用，典型的音频事件不是因为异常情况主要是因为数据的机密性，但也很少被记录。为了尽可能接近真正的条件，我们为我们的应用程序已建成的人工数据从听起来满心欢喜国家法国公共广播提取一组多个公共场所和枪声的CD录音5]。所录用的事件数据库：共134杆（296秒）组成的手枪，步枪（R），（S）冲锋枪，手榴弹（G）和炮火（C）被提取。说明武器重新分区射击类数据列在表1中。

环境数据库：CD提供各种公共场所录音（主线站，机场，证券交易所，展览馆，体育场，市场，...），被称为周围序列。最具代表性的类型的地方（市场）总计797秒四个不同类型的市场。对于每四个记录的最后75秒的录音，保持正常类培训。其余的环境数据库用于测试数据库建设。

3.2．协议

测试数据库的音频和周边序列之间的混合结果。一个音频发生在随机时刻与各地方信号噪声比（SNR）为每个序列。SNR的计算方法的注射插入和数据预先标准化beforemixing的周边序列的部分。每个测试序列的长度为30秒，是随机选取的测试部分市场周边之间序列。对于每一个的SNR（从20到5 dB）134共计约67分钟的序列产生相应的测试提供134张。这种混合测试序列提供了一个模拟的异常情况公共场所尽可能接近现实（在枪发生的情况下）。尽管他们的人工自然，这些序列使我们能够控制的信噪比，因此测试系统的噪声鲁棒性，但也

有地面的真相测试文件的注释（即所有的枪杀事件在周围序列的精确定位）。

注解：计算错误拒绝比（FR ）和误检测（FD ）的比值被定义为如下的总体结果由下式给出：

FR=故障检测的事件数数进行检测，FD=虚假检测窗口数

)

FD =误检的窗口数（误检查比总得窗口数

我们使用留下一杆交叉验证法的射门类培训：在每个测试序列的训练步骤，在测试数据库中被检测到每一个音频从训练数据库中删除。

)FR =

错误的窗口数（错误拒绝比总得窗口数