异常声音检测识别研究背景意义及现状

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

异常声音检测识别研究背景意义及现状

1研究背景 (1)

2声音的检测识别的发展和现状 (1)

2.1声音识别技术的发展 (1)

2.2国外研究现状 (2)

2.3国内现状综述 (3)

3研究异常声音识别的意义 (4)

1研究背景

随着人类社会的进步，人们的生活水平有了较大的改善；然而复杂的社会负面因素，酝酿了许多不安全因素并导致了犯罪率的上升。随着城市化进程的加速，不安全因素对国家和人民生命财产安全的威胁日益加重。安全问题已经成为社会关注的焦点。随着信息化和网络化技术的发展，安全监控在国防和社会安全中所起的作用越来越突出。声音信号在日常生活中分布非常广泛，包含信息量大，也是人类交流的基本方式。声音传播媒介多种多样分布非常广泛，同时声音信号的获取也较为方便。公共场所的异常声音能够有效的揭示和表征异常状况以及突发事故，受到人们越来越多的关注。

2声音的检测识别的发展和现状

声音是由物体的振动产生的，并通过传播媒介传播开来。声音检测技术识别可以分为两个主要的方面：一个是语音信号检测识别技术(主要指语音识别技术)；另一个是非语音声音信号的检测识别技术。

2.1声音识别技术的发展

语音识别的研究工作大约开始于五十年代，当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统—Audry系统。

六十年代，计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP)，而后者较好地解决了语音信号模型的问题，对语音识别的发展产生了深远影响。

七十年代，语音识别领域取得了突破。在理论上，LP技术得到进一步发展，动

态时间规整技术(DTW)基本成熟，特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上，实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

八十年代语音识别研究的重点是连续语音识别，各种连续语音的识别算法Lee

和Rabiner、Myers实验室的:Bell提出的二层动态规划算法NEC被开发，如．

等人提出的分层构造算法，以及帧同步分层构造算法等。同时，研究方向从基于模板匹配技术转向基于统计模型技术，不再追求刻意细化语音特征，而是从整体

平均(统计)的角度来建立最佳的语音识别系统。同时，HMM方法逐步成为主流的语音识别技术。对它的研究使大词汇量连续语音识别的开发成为可能。1988年，美国CMU大学用VQ/HMM方法实现了997词的非特定人连续语音识别系统SPHINX，这是世界上第一个高性能的非特定人、大词汇量、连续语音识别系统，开创了语音识别的新纪元。

进入九十年代，语音识别步入了高速发展时期，语音识别在某些领域已经走向成熟，同时随着多媒体时代的来临迫切要求语音识别系统从实验室走向实用。90年代语音技术的另一个主要趋势是语音识别在日趋完善的同时开始与其他领域的技术相结合。90年代初期人们开始进一步研究语音识别与自然语言处理的结合，产生了基于口音识别和理解的人机对话系统。90年代中期语音识别与机器翻译技术相结合，发展面向不同语种人类之间交流的直接语音翻译技术，这些技术在有些领域内(如火车、飞机订票等)开始走向实用化。目前，IBM，Dragon，Philips等公司都己经能够提供相应的产品。

AT&T应用语音识别技术研制出了智慧卡，已应用于自动提款机。美国主要电信运营商Sprint的PCS部门以卓越、创新的客户服务著称。自2000年以来为客户开通了语音驱动系统，提供客户服务、语音拨号、查号和更改地址等业务。2001年9月它开通的可以自然方式对话的咨询系统，更实现了以自然、开放的询问方式实时获得所需信息的功能。欧洲电信联盟在电信与金融结合领域应用语音识别技术，于1998年完成了CA VE(Caller Verification in Banking and

Telecomm-unication)计划，并于同年又启动了PICASSO(Pioneering Call Authentication

for Secure Service Operation)计划，在电信网上完成了说话人识别。

2.2国外研究现状

针对声音信号的研究可以分为语音信号的研究和非语音信号的研究。20世纪50年代AT&T贝尔实验室的Audry系统以来，语音信号的研究（主要指语音识别）目前已经得到了很大的发展。语音信号线性预测系数（LPC）技术，Mel频率倒谱系数(Mel-Frequency Cepstrum Coefficient，MFCC)和感知线性预测系数(Perceptual Linear Predictive，PLP)和动态时间规整（DTW）技术的提出，有效的检测了语音信号的特征提取和不等长匹配问题。这些都使得语音信号的研究达到了前所未有的高度。

异常声音中的枪声、爆炸声属于非语言信号。对非语音信号的研究相比语音信号的研究相对缓慢。国外主要将声音信号的检测技术用于健康状况的检测中。（基于小波包的呼吸声音分Wavelet Packet Based Respir.Atory Sound Classification 类）先将获取到的呼吸声音信号在时间域进行定长的分割，划分为多个段；再用小波包分解分析各个声音段的特性；寻找出最佳基；利用最佳基构造特征向量。特征向量的分类是采用知识向量量子化的方法。该方法的研究对象是人呼吸的声音，通过分析特征向量来寻找异常声音，确定被检测对象的健康状况。另外日本有科研人员通过对枪声的检测用于环境评判上。该系统主要是先从大量的专业CD上获取枪的声音信号（其中包括手枪、步枪、半自动步枪等），通过提取其中的特征参数建立标准参数库。系统运行时，拾音器实时获取外界声音对其以20ms的帧长进行分帧，实时计算各帧的特征参数，再与标准参数库里面的模版进行匹配以确定环境中是否含有枪声，来评判环境。该方法直接计算每个声音帧的特征参数，计算量大，实时性不好；其次没有对枪声作特征分析，直接就提取