声学场景深度识别系统设计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
,
feature extraction,target sound classification technology.It can achieve the sound scene autom ated classification and inform ation extraction,and has broad application prospects.
增 强以后的语音 幅度谱 函数可 以表达 为
r r
]I .]
X(m,k)=argmXin E{L dI L X (m, ),X jf lyoJ}
M :
!:
(m, )+ I 一1
则 有
E ,七)1)=E{X ( ,七)பைடு நூலகம் (m,Ji})I)
= E{l ( ,七)一 (1+ y)y ( ,七)I)
K eyw ords:Voice Recognitio;Sound Scene;Feature Extraction;Neural N etworks
l 引言
声学场 景深度 识别系统 既可对 目前 的视频 监控 进行有益 的补充 ,以应对遮 蔽、光 照变化 、死角等情 况 ,还可对 声音信 号场景 进行识别 ,方便 自动搜 索海 量 数据、识 别 目标 ,并实时 发现 和处理突发事件。
2.1系统总体架构
系统 总体框 架如 图1所示 。
该 系统可 实现 如下几个功 能:场 景识别 ,身份识 别 ,内容检索 ,声源定位与信号增强 。
3 关键 技 术原理
I!兰竺竺 型F 兰竺!竺 }::
图1 系统总体架构
兰 兰塑
3.1信号特 征提 取
通 过 对 公共 场 所 异常 声 音声 谱 图等 特 性 的分 析 ,将 公共 场所异 常声音信 号转 换为 异常声 音 的声 谱 图,采用2D.Gabor滤 波器对声谱 图时频特 征进行
2 系统设 计
2
. 2网络 拓扑
音 频传 感 器尺 寸较小 ,可较 为 隐 蔽 的布 放 ,也 可 以和 视 频摄像 头布置在 一起 ,作为对 视频 监 控 的 有益补充 ,将采 集 的音频 特征 通过Wi—Fi、数 据 网络 或 者有线方 式传输 给后台数 据 中心处 理。
2.3功能设计
下面描述基于人耳掩蔽 效应的增 强算法 。由于语 的误 差 函数
音信号通常是逐 帧进行处 理 的,写成帧 的形式
6(m, )=X ( ,七)一 (m,七)
y(m n) x(m.n)+ d{m.n)
根 据可 听闻阈的要求 ,令
式 中,m为 帧的序 号,m=l,2,3…; 为 帧内数据 点序号,n=O,1… .,N.1,N为帧 长 。对 等 式两边 进 行 傅里 叶变 换,可得
声 学 场 景 深 度 识 别 系统 设计
李 嘉 ,黄程 韦 。韩 辰’
(1.江苏省广播 电视 总台,南京 210013;2.苏州大学,苏州 215006)
摘 要 :基于视 频的监控 系统 存在很 多不足 ,声学场 景识 别 系统依据 基于人 耳 听觉仿 生的 目标声音 识 别技 术 ,积 极探 索先 进 的人 耳仿 生理 论、特征 提 取技 术 、目标声音分 类技 术,实现 对声音 场景进 行 自动化 分类和信 息抽取 ,具有广泛 的 应 用前 景 。
- -
E{Ix ( ,k)-M(1+My)(X(m,七)+D( ,.j})) I)
式 中 , 是 m 帧 带 噪 语 音 的 傅 立 叶 变 换 ,
厂
^ ]
= (0,尼), (1,尼),...,rm.(m’,Ii})}; dI X(m, ), I是
= lE{x。( ,k)}-M(1+ 却)E{( ( , )+D(m,七)) )1
关键 词 :声音 识别 ;声音 场景 ;特征 提 取 ;神经 网络 doi:10.3969/J.ISSN .1672—7274.2016.07.005 中图分 类号 :TN912 文献标 示码 :A 文章 编号 :1672—7274(2016)07—0012—03
Talk about Acoustic Scene Recognition System
Li Jia ,H uang Chengw ei ,H an C hen
(1.Jiangsu Broadcasting Corporation,Nanjing,210013;2.Soo Chow University,Suzhou,215006)
Abstract:A s video monitoring system s has m any deficiencies,A coustic Scene Recognition System is built on target voice recognition technology based on Bionic ear hearing,and actively explore advanced ear bionic theory
1 2 DIGITCW2。 。
Teohnology Study
■
技术研 究
特 征 描述 ;采 用随机 非负独 立成 分分 析 (SNICA) 提 取 异常声音 的声谱 图特 征 ,最 后采 用稀疏 表 示分
X (m,|i })=
r(m,|i})
类 (SRC)方法进 行分类识别 。
式 中,z(m,.j})是 时 间和频 率 的 函数 ,定义 如 下
≤T(m,|i})
X(m, )和 的距 离度 量 函数 ,用来 度 量 语 音增 强前 后 语音 谱的接 近程 度。
目标是找 到 f 。后1使得在条件期望之下的距离度 量 函数最小。如果ml< ,那么就是对 f ,后)的因果估 计 ;如 果 ,,z >,,2,那 么 就 是 对 ( , )的 非 因果 估 计。
I ( ,k)1]≤T(m, )
上式就 是 令畸变 噪声 的能量在掩 蔽 阈值 以下,
Y(m.k)=X(m.k)+ D(m.k)
而不被 人耳感 知。为了推 导方便 ,令
式中,k是离散 频率 ;Y(m, ,X(m, ,D , 分 别是 含 噪语音y(m, 、纯净语 音 , 、噪声don, 的傅 立叶变换 。
feature extraction,target sound classification technology.It can achieve the sound scene autom ated classification and inform ation extraction,and has broad application prospects.
增 强以后的语音 幅度谱 函数可 以表达 为
r r
]I .]
X(m,k)=argmXin E{L dI L X (m, ),X jf lyoJ}
M :
!:
(m, )+ I 一1
则 有
E ,七)1)=E{X ( ,七)பைடு நூலகம் (m,Ji})I)
= E{l ( ,七)一 (1+ y)y ( ,七)I)
K eyw ords:Voice Recognitio;Sound Scene;Feature Extraction;Neural N etworks
l 引言
声学场 景深度 识别系统 既可对 目前 的视频 监控 进行有益 的补充 ,以应对遮 蔽、光 照变化 、死角等情 况 ,还可对 声音信 号场景 进行识别 ,方便 自动搜 索海 量 数据、识 别 目标 ,并实时 发现 和处理突发事件。
2.1系统总体架构
系统 总体框 架如 图1所示 。
该 系统可 实现 如下几个功 能:场 景识别 ,身份识 别 ,内容检索 ,声源定位与信号增强 。
3 关键 技 术原理
I!兰竺竺 型F 兰竺!竺 }::
图1 系统总体架构
兰 兰塑
3.1信号特 征提 取
通 过 对 公共 场 所 异常 声 音声 谱 图等 特 性 的分 析 ,将 公共 场所异 常声音信 号转 换为 异常声 音 的声 谱 图,采用2D.Gabor滤 波器对声谱 图时频特 征进行
2 系统设 计
2
. 2网络 拓扑
音 频传 感 器尺 寸较小 ,可较 为 隐 蔽 的布 放 ,也 可 以和 视 频摄像 头布置在 一起 ,作为对 视频 监 控 的 有益补充 ,将采 集 的音频 特征 通过Wi—Fi、数 据 网络 或 者有线方 式传输 给后台数 据 中心处 理。
2.3功能设计
下面描述基于人耳掩蔽 效应的增 强算法 。由于语 的误 差 函数
音信号通常是逐 帧进行处 理 的,写成帧 的形式
6(m, )=X ( ,七)一 (m,七)
y(m n) x(m.n)+ d{m.n)
根 据可 听闻阈的要求 ,令
式 中,m为 帧的序 号,m=l,2,3…; 为 帧内数据 点序号,n=O,1… .,N.1,N为帧 长 。对 等 式两边 进 行 傅里 叶变 换,可得
声 学 场 景 深 度 识 别 系统 设计
李 嘉 ,黄程 韦 。韩 辰’
(1.江苏省广播 电视 总台,南京 210013;2.苏州大学,苏州 215006)
摘 要 :基于视 频的监控 系统 存在很 多不足 ,声学场 景识 别 系统依据 基于人 耳 听觉仿 生的 目标声音 识 别技 术 ,积 极探 索先 进 的人 耳仿 生理 论、特征 提 取技 术 、目标声音分 类技 术,实现 对声音 场景进 行 自动化 分类和信 息抽取 ,具有广泛 的 应 用前 景 。
- -
E{Ix ( ,k)-M(1+My)(X(m,七)+D( ,.j})) I)
式 中 , 是 m 帧 带 噪 语 音 的 傅 立 叶 变 换 ,
厂
^ ]
= (0,尼), (1,尼),...,rm.(m’,Ii})}; dI X(m, ), I是
= lE{x。( ,k)}-M(1+ 却)E{( ( , )+D(m,七)) )1
关键 词 :声音 识别 ;声音 场景 ;特征 提 取 ;神经 网络 doi:10.3969/J.ISSN .1672—7274.2016.07.005 中图分 类号 :TN912 文献标 示码 :A 文章 编号 :1672—7274(2016)07—0012—03
Talk about Acoustic Scene Recognition System
Li Jia ,H uang Chengw ei ,H an C hen
(1.Jiangsu Broadcasting Corporation,Nanjing,210013;2.Soo Chow University,Suzhou,215006)
Abstract:A s video monitoring system s has m any deficiencies,A coustic Scene Recognition System is built on target voice recognition technology based on Bionic ear hearing,and actively explore advanced ear bionic theory
1 2 DIGITCW2。 。
Teohnology Study
■
技术研 究
特 征 描述 ;采 用随机 非负独 立成 分分 析 (SNICA) 提 取 异常声音 的声谱 图特 征 ,最 后采 用稀疏 表 示分
X (m,|i })=
r(m,|i})
类 (SRC)方法进 行分类识别 。
式 中,z(m,.j})是 时 间和频 率 的 函数 ,定义 如 下
≤T(m,|i})
X(m, )和 的距 离度 量 函数 ,用来 度 量 语 音增 强前 后 语音 谱的接 近程 度。
目标是找 到 f 。后1使得在条件期望之下的距离度 量 函数最小。如果ml< ,那么就是对 f ,后)的因果估 计 ;如 果 ,,z >,,2,那 么 就 是 对 ( , )的 非 因果 估 计。
I ( ,k)1]≤T(m, )
上式就 是 令畸变 噪声 的能量在掩 蔽 阈值 以下,
Y(m.k)=X(m.k)+ D(m.k)
而不被 人耳感 知。为了推 导方便 ,令
式中,k是离散 频率 ;Y(m, ,X(m, ,D , 分 别是 含 噪语音y(m, 、纯净语 音 , 、噪声don, 的傅 立叶变换 。