基于家庭环境的异常音频事件检测方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第40卷第5期湖南科技学院学报V ol.40 No.5 2019年5月Journal of Hunan University of Science and Engineering May.2019
基于家庭环境的异常音频事件检测方法
陈爱武
(湖南科技学院电子与信息工程学院,湖南永州 425199)
摘要:音频场景分析在现实世界中有非常重要的应用,现实环境的音频事件在时间和频率上相互重叠,只有少量的事件对场景分析带来有用的信息,识别出这些少量的信息是一件非常困难的事情,文章提出一种基于计算机视觉的方法来对家庭环境下的异常音频事件进行识别,这种方法是对音频信号的频谱图形状进行特征提取,达到较好的识别精度。
关键词:异常音频事件;家庭环境音频监控;计算机视觉
中图分类号:TN912.34 文献标识码:A 文章编号:1673-2219(2019)05-0010-02
1引言
最近十年,许多研究者已经证实了在日常生活中机器对环境声音的理解有非常重要的应用,这些应用主要包括安全监控、生物音频事件分析和环境保护、智慧城市和智慧交通等等[1,2]。最近的科学界对声学场景和事件挑战的检测和分类活动(DCASE)也引起了全世界声学研究者的相当注意。全世界老年化非常严重,在中国独居老人日益增多,据新华社报道,2020年,我国失能老年人将达到4200万,80岁以上高龄老年人将达到2900万,全国老龄办政策研究部副主任李志宏指出,随着智能化社会到来,智能科技与社会养老服务呈现融合发展的良好局面,社会养老服务的智慧化开始成为解决我国人口老龄化快速发展背景下养老服务信息不对称、供需结构失衡、劳动密集型服务方式困难重重的重要选择。显然,针对家庭老年人设计一套性能可靠的安全智能监控系统是至关重要的。目前视频监控技术得到充足的发展,例如,在中国,由视频构成的“天网”监控系统已经非常成熟,但针对家庭老年人的安全监控,视频监控存在显然的不足,例如隐私的保护问题、家庭视频监控的光线不足、光线被阻挡等等问题。文章在此基础提出了一种针对家庭异常音频事件的检测的音频场景分析系统。
现实环境的音频事件是由许多不同事件在时间或频率上相互重叠而构成的复杂音频事件,检测和识别环境声音是一件非常困难的事情。据近十年内文献报道,目前识别环境声音的主要方法还是基于传统语音识别的一些常规方法,如梅尔倒谱系数(MFCCs)特征和高斯混合模型(GMM)或超级向量机(SVM)的组合应用[1,3-4]。这种传统的方法针对
收稿日期:2018-11-12
基金项目:2017年永州市科技创新指导性计划项目(项目编号2017(04));湖南科技学院重点学科建设项目资助(电路与系统)。
作者简介:陈爱武(1976-),男,湖南邵阳人,湖南科技学院高级实验师,硕士,研究方向为事音频事件识别和场景分析。识别准平稳的语音信号有非常好的准确性,但对毫无规律的音频场景信号的识别准确率却不高。目前,另外一种重要研究趋势是深度学习法,如深度神经网络(DNN)、卷积神经网络(CNN)等在音频场景分析中有广泛的应用,但深度学习需要较多的数据和较好的机器设备来进行学习。而家庭环境下的音频监控一般有较少的样本和性能一般的机器设备[4]。在这篇文章中,我们提出了一种基于计算机视觉方法(Computer Vision)[5],这种方法把音频信号转换成频谱图并对频谱图的形状进行特征提取和识别。计算机视觉在图像、视频等领域中有非常广泛的应用和典型的成功案例,如人的面部识别、人的动作识别等。在这篇文章中,我们采用的是局部二进制模式的方法(Local Binary Pattern,LBP)来提取频谱图形状特征和编码,局部二进制模式是通过对灰度纹理频谱图的像素值与周围像素点进行比较来实现编码的。
2异常音频事件检测方法
2.1家庭环境下的异常音频事件
在文章中,我们以家庭环境下的老年人可能出现的异常音频事件为主要的处理对象,这种可能的事件包括:尖叫声、跌倒或东西破碎、剧烈咳嗽、痛苦呻吟和哭喊等5类事件。
尖叫音频事件:非常大的声音,通常带有较高的基音,无文本内容。
跌倒音频事件:跌倒或破碎和碰撞的声音无,文本内容。
剧烈咳嗽:费力的长时间维持的声音,含有痛苦,无文本内容。
痛苦呻吟音频事件:痛苦而大声的呼吸,困难的吸气声。
哭喊:非常大的声音,或歇斯底里,含有恐惧,或具有文本内容。
图1显示了家庭环境下的可能发生的异常音频事件的频谱转换图,我们先对音频信号进行常量Q转换(Constant Q Transform),转变成灰纹理图,然后对纹理图采用三次插方法转换成512×512固定尺寸的频谱图。获得这种频谱图后,我们就可以提取频谱图的形状信息来编码。
DOI:10.16336/43-1459/z.2019.05.005
10
11
图1.异常音频事件频谱图
2.2LBP 编码
提取频谱图的形状信息的方法很多,它的基本思想是通过比较一个像素值和它周围像素值的大小并进行各种形式的编码。局部二进制模式(LBP )是通过比较像素值大小并转换成二进制码的方式[5],这种方法在计算机视觉领域有重要的应用和较好的性能,图2显示了LBP 编码的原理框图。
图2.LBP 编码原理图
LBP 编码的基本思想是在半径值为R 的圆周上取中心g c 像素值的周围8个像素值进行比较和二进制编码,所以码值的范围是0~256,编码的公式如式1所示。
()(),,01,2,0,P
P P R i R c i x c
LBP f g g f x x c
=≥⎧=-=⎨<⎩∑ (1)
2.3实验设置及结果
在这个实验中,我们使用的实验数据是5类异常音频事件,这5类事件主要来自网站和作者在不同的4类家庭的现实录音文件。每个类有50个样本,这些样本的80%用来训练一个SVM 模型,20%用来做这个训练好的模型的测试集。我们的实验结果采用交叉验证的平均精度来做测量,其数学式如式2所示。
11()
()
N Ture Mean j C j P N Cf j ==
∑ (2) 其中,()Ture C j 和
()Cf j 分别是正确分类的数和总的
样本数。实验结果如表1所示。
如表1所示,从家庭环境下的异常音频事件的实验检测结果看,对“剧烈咳嗽”和“尖叫”等音频事件的识别准确度较高,因为这类事件通常通带内含有较高的基音且能量较高。而“哭喊”和“痛苦呻吟”等异常音频事件识别精确度相对较小。从人的听觉上来判断,这些事件是很容易混淆的,很多时候可以判为同一事件,而且这类事件通常含有相同的文本内容。图3显示了这篇文章的方法和近年来一些文献报道的方法的实验结果比较图,从这个比较结果来看,文章采
用的LBP 方法平均精度相对其他的方法来说是较高的,达到86%左右。
图3.不同方法比较结果
3 结束语
在现实家庭环境中有许多类型的音频事件在时间和频率上相互重叠在一起。这些事件中只有少数的音频事件对场景分析带来有用的信息,其他的事件会影响场景分析的结果。要有效的识别出这些有用的事件是非常困难的事情。在这篇文章中,我们提出一种计算机视觉的编码方法来实现频谱形状信息的特征提取,这种方法的平均识别精度达到了86%左右,可以用于家庭环境下的异常音频事件监控。
参考文献:
[1]罗森林,王坤,谢尔曼,等.融合GMM 及SVM 的特定音频事件高精度识别方法[J].北京理工大学学报,2014,(7):716- 722.
[2]Mesaros A,Heittola T,Virtanen T.Acoustic scene classificati- on:an overview of dcase 2017 challenge entries[C].In 2018 16th International Workshop on Acoustic Signal Enha- ncement(IWAENC),2018,September,411-415.
[3]吕英,罗森林,高晓芳,谢尔曼,潘丽敏.采用2D-Haar 声学特征超向量的快速特定音频识别方法[J].声学学报,2015,(5): 739-750.
[4]Chen A,He Q,Wang X,et al.Home security surveillance bas- ed on acoustic scenes analysis[C].2017 10th International Congress on Image and Signal Processing,BioMedical Eng- ineering and Informatics(CISP-BMEI).IEEE,2017:1-5. [5]Zhou S R,Yin J P,Zhang J M.Local binary pattern(LBP)and local phase quantization(LBQ)based on Gabor filter for face representation[J].Neurocomputing,2013,116,260-264.
(责任编校:宫彦军)