科技文章素材

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于模糊聚类表征的音频例子检索及相关反馈

吴某某,赵某某

(浙江大学,杭州,310027)

摘要:避免先前基于例子的音频检索要按照监督机制训练不同类别的复杂的音频模

板,一种新的基于非监督机制音频例子快速检索方法被提出来。其步骤如下:首先从

原始音频流中提取压缩域特征,然后使用时空约束机制实现压缩域特征的模糊聚类,

用聚类质心来表征整个音频例子。

关键词:音频检索;时空约束;模糊聚类;相关反馈

中图分类号:TP391.4

Audio Clip Retrieval and Relevance Feedback based on the Audio Representation of Fuzzy Clustering

WU , ZHAO

(Zhejiang University, Hangzhou, 310027)

Abstract: Avoiding generating audio template by supervised learning and

find similar audio clip based on pre-trained audio template, every audio

clip is presented by limited number of centroids which is extracted by unsupervised learning algorithm. Audio features such as Centroid, Rolloff, Spectral, Flux and RMS are extracted from each overlapping audio frame in

the original compressed domain.

Keywords: Audio Retrieval Time-Spatial Constraint Fuzzy Clustering Relevance

作为多媒体重要媒质之一的音频蕴涵了丰富语义,从90年代中期开始的基于内容音频检索就研究如何提取音频信息流中的语义信息,以实现对音频数据进行检索[1]:如在“Muscle Fish”中[2],每个音频例子的MFCC等特征被提取,然后归一化欧氏距离用来判别提交的检索音频属于音频数据库中哪一类,这种方法取得了81%左右正确率;提取音频例子中12个MFCC系数和1个能量特征[3],对语音、笑声、雨声和双簧管音等6类不同音频类别构造量化树,将每个量化树作为相应类别音频的模板,然后用余弦距离进行相似度量,取得了77.2%的检索平均正确率;采用监督式的学习机制,从每个音频帧中提取感知和物理特征[4],为每类音频训练支持向量学习机,取得了平均80%左右检索正确率。

1 音频例子表征与检索

1.1 MPEG压缩域音频特征提取

MPEG音频压缩利用了“心理声学模型(psychoacoustics model)”,在MPEG压缩领域上直接提取特征,可以保留这些感知特性,实现对音频语义内容的理解。

1) 压缩域特征高斯化处理

1.3 音频例子相似度比较

既然每个音频用K个质心来表征,那么两个音频之间的相似度就可以通过质心来计算。

3 总结与今后工作

本文介绍了基于非监督约束机制的音频检索及相关反馈算法,并且实时实现了这样的原型系统。在模糊聚类因子取为11和聚类质心数目取为6时,系统查全率和查准率均超过90%,比其它算法取得了更高效率。

参考文献

[1] Foote J T, An overview of audio information retrieval [J], Multimedia

Systems, 1999 7(1): 2-11

[2] E.Wold, T.Blum, D.Keislar(et al), Content-based classification, search and

retrieval of audio [J], IEEE Multimedia Magazine,1996, 3(3):27-36

[3] Jonathan T. Foote, Content-Based Retrieval of Music and Audio, C.C. J. Kuo

(editor) [J], Proceeding of Multimedia Storage and Archiving Systems II, SPIE, 1997, 138-147

相关文档
最新文档