基于声学特征的乐器识别综述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
振腔) 的物理特征。共振峰是语音识别 的必要信息 ,同时也是乐器识别 的一个重要特征 。倒谱 系数是 表 示共 振 峰值 的一个 方 法 ,包含 信号 量 Y ( 的倒谱 系数 定义 为 : )
c I :F l FI ( ) } () t {0 l r n ]l g
利用同态处理方法 ,对语音信号求离散傅里叶变换 D T后取对数 ,再求反变换 iF F D T即得到倒谱系 数 。实验 表 明 ,使用 倒 谱可 以提 高特 征参 数 的稳定 性 。
第 l 第 3期 9卷 2 1 0 2年 6 月
J OURN AL OF DONGG UAN UN VE I Y O E HNO OGY I RST F T C L
东 莞 理 工 学 院 学 报
V19N. o 1 O3 .
J n u. 2 2 01
基 于 声 学 特 征 的 乐 器 识 别 综 述
P o e sn 、 I EE I tr ai n l Co f r n e o o sis S e c n i n l P o e s g I E n e n t n l r c s i g E n e n t a n e e c n Ac u t 、 p e h a d S g a r c s i 、 E E I t r ai a o c n o
:
1 )时域 特征 :将 乐器 音频 信号 作为 一个 整体 计算 ( 分成 帧 ) 不 ,特征 例如 起始 时 间 、有效 时 间等 ; 2 能量特 征 :此 类 特 征 跟 信 号 中包 含 的能 量 特 征 有 关 ,例 如 总 的能 量 、和 声 能 量 、噪音 部 分 能 )
量 ;
1 特 征 抽 取
对于使用不同乐器的独奏表演或者不 同的音乐片段 ,基于不 同的声学特征进行识别 ,识别精度往往
差 别很 大 ,并 且不 能找 到一 个 良好 的声学 特征 在识 别各 种乐 器 时均能 表现 出 良好 的健 壮 学特 征 。根据 数据 的抽 取领 域 ,抽取 的声 学特 征可 以分 为下 面几类
C nee c nM l —m daadE p 和 Itrai a Smps m o s noma o er vl 。下文 我 ofrn eo ut i ei n x o nen t n l y oi n Mui Ifr t n R tea 等 o u c i i
们 将 对基 于声 学特 征 的乐器识 别 领域 现有 的研 究成 果进 行综 述 。
基金项 目: 0 9年 N F . 20 S C 广东省联合基金重点项 目:三维戏曲动画合成技术研究 ( 03 0 3 。 U 9 5 0 ) 作者简 介:邓见光 (9 1 ) 18 一 ,男 ,河南周 口人 ,博 士生 ,助理研 究员 ,主要从 事网络与信息安全研究。
第 3期
邓见光 ,等 : 于声学特征的乐器识别综述 基
F表示 离 散傅 丽 叶变换 ( F"。上 面等 式 中有两 个 傅 丽 叶 变换 ,其 计算 效 率 不 是很 高 ,如果 用 带 D q)
小 号 、短 号 、法 国号 、萨克号 、低 音 号等 。木 管乐 器包 括 长笛 、双 簧管 、单 簧 管 、排萧 和低 音管 等 。 同 类 的乐器 ,如小 提琴 和 中提琴 、双簧 管和 中音 双 簧管 ( 国管 ) 以及 长 号 和 圆 号 ( 国号 ) 等在 声 音 英 法 上差 别 不大 ,应 用人 工 的方 法很 难 区分 ;尽 管如此 ,不 同类 的乐器 很容 易 区分 。基 于计 算 机 的乐器 识别 方法 也 有类 似 的识别 效 果 ,乐器 类别 的识 别精 度 比识 别 出具体 乐器 的精 度 要高 。 因识别 的相似性 ,乐器 识别 方法 是在 语 音识 别 和说话 者识 别 的基 础上 发展 起来 的 ,其 方法 与语 音识
别问题做了特征比较研究 ,他考虑的特征包括 M l e频率 、线性预测倒谱系数和 dl 倒谱系数等 ,其对 ea t 乐 器 族 的最 高识别 率仅 为 7 % 。K sn l等 同样 在单 音符 乐器 识别 问题 中比较 了不 同特征 ( C 7 i fha6 MF C和 L
P C 和分 类 方 法 ( 斯 混 合 模 型 和 K 近邻 法 ) 的 作 用 ,其 针 对 1 C ) 高 4种 乐 器 的最 高 平 均 识 别 率 可 达 9 % 。文献 [ ]使用 高 斯混合 模 型和 支持 向量 机来 分类 9种乐 器 的音乐 片断 ,用线 性预 测参数 ( P ) 0 7 L C 和 基 于倒谱 系数和 MF C系数特 征 组合 的傅 里叶变 换 获得 7 % 的识 别率 。在 文献 [ ] 中 ,Mai 用 C 0 8 rn使 t
3 3% 。 .1
下面对 目前研究 中用 的 比较 多 的特征 进行 详 细描述 ,并 对具 体 的抽取 算法 进行 简单概 述 。
1 1 倒谱 系数 .
共 振 峰是 指在 声音 频谱 中能 量 相对 集 中 的一些 区域 ,其是 音 质 的决 定 因 素 , 同时反 映 了声 道 ( 共
l
和 语音 信号 处 理及识 别 相 比 ,对 于基 于 声学 特征 的乐 器识 别 的研 究相 对较 少 。进 入 2 0世 纪 9 0年 代 以后 ,这个 领域 的研 究 工作 取得 了很 大进 展 ,国际上 发表 的有 关 论文 数量 大 幅增 长 。尽管 如此 , 目前 国
收 稿 日期 : 0 2— 4— 6 2 1 0 0
别类 似 ,主要 流程 如 图 1 :
牺八l … 一 性预测分析器 } 线
l 能量包 } 征抽 l ’
专
}散丽过器 。 傅叶滤 离 |
模训 型
I 质 『 心 \ l 包 f
1其 特 算 I 它征法
图 1 乐器 识 别 流 程
9 分 类
5 9
内有关 该领 域 的 比较全 面 的综 述 文章 还未 出现 ,因此有 必要 对最 近十 余年 的研 究工作 进行 一下 总结 。在 该 领域 比较 代 表性 的期 刊 和会 议 包 括 IE rnatno pehadA d rcsi 、IE rnat n E ETasco nS ec n u i Poes g E ETasco i o n i
3 )波谱特征 : 基于信号的短时傅丽叶变换的特征 ( TT s F )计算出来的特征 ,例如波谱质心 、波谱 r
差 幅 、波谱 斜 度 ;
4 和声特 征 :基 于信 号 的正 弦和声模 型的计算 的特征 ,例 如基 础频率 、非 和声 、奇 偶 比率 等 ; ) 5 )感 知特 征 :利用 人类 的听觉 过程 的模 型来计 算 的特征 ,例如 ME L倒谱 系数 、音 量 、刺 耳度 等 。 近年来 ,关 于 特征 抽取 的研 究 已有很 多成 果公 开发 表 。Eoe _针 对 1 rnn5 6种西 方 管 弦乐 器 的 自动 识
一
系 列 的感知 特征 来分 类 2 7种乐 器 ,得 到 了 8 % 的乐 器族 识别 率 和 7 % 的个体 乐器 识别率 ,所 建立 的 6 1
系统 在处 理噪 音 和混 响 的音 节具 有 较 好 的健 壮 性 。文 献 [ ]使 用 一 系 列感 知 特 征来 分 类 3 9 O种乐 器 的
迅 速 发 展 ,音 频 与 音 乐信 号 分 析 也 逐 渐 成 为一 个新 的 研 究 热 点 。 乐 器 识 别 是 音 乐 分 析 的 一 个 重要 应 用 ,其 主
要的研 究方向是基 于声学特征的识别 ,近年 来,在 该领 域有 众 多研 究成 果 出现 。文 章对 十 多年 来在基 于声 学
独 奏 音节 ,得 到 了 9 % 的乐 器族识 别 率和 8% 的个 体乐 器识 别率 。在 文献 [O 中 ,A ot i 4 5 1] gsn 只使用 波 i
谱特征来分类 2 种乐器 ,得到了大约 9 % 的乐器族识别率和大约 9 % 的个体识别率。在文献 [ 1 7 6 2 1] 中,作者使用基本频率依靠波谱 、时域 、调制及其它特征的多元正态分布得 到大约 9 %的乐器族识别 0 率 和 大约 8 % 的个体 乐 器识 别 率 。在 文 献 [2 中 ,作 者 采 用 一 种 称 为 A T P的 神经 网络 来 对 钢 0 1] R MA 琴 、吉他 、小号、萨克斯和长笛等五类乐器所演奏 的单音符信号进行区分 ,并取得 了不错的分类效果 。 在文献 [3 1 ]中,作者采用频谱特征对来 自2 7种乐器所演奏的 10 段音频信号进行 了自动分类研究 , 07 实 验结 果 表 明二次 分类 器所 取得 的效 果 最好 ,其 优 于 目前 流行 的 S M 分 类 器 和传 统 的最 近邻 分 类 器 , V 该分类器对来 自具体乐器所演奏 的音符的平均分类错误率为 7 1% ,对乐器族 的平均识别错误率仅为 .9
乐 器 ,泛 指 可 以用 各 种方 法奏 出声 音 的工具 ,一般 分为 民族 乐器 与 西方 乐器 , 目前 主要研 究 的是 西 方 乐器 。传 统 上把 西方 乐 器分 成 3大类 ,分 别 为弦 乐器 、铜 管乐 器 、木 管乐 器 。弦乐 器按 发声 方法 分 为
擦 弦 乐器 、拨 弦 乐器 和击 弦乐 器 。擦 弦乐 器 主要有 小提 琴 、中提琴 、大 提琴 、低 音 大提 琴 ;拨 弦乐器 主 要 有 吉他 、竖 琴 ;击 弦乐 器有 钢 琴 。铜 管 乐器 是一 种将 气 流吹 进 吹嘴之 后造 成 嘴唇 振动 的乐 器 ,主 要有
术 ( 语音 识 别 ) 提供 有效 参考 。虽 然乐 器 识 别 的 复杂 度 与 说 话 者识 别 和语 音识 别 差 不 多 ,但 由于 其 如 商 业应 用 的不 足 , 目前 还 不像说 话 者识别 和语音 识别 那样 得 到成 熟发 展 ,因此 其将 成 为音 频处 理 领域 的
下 一个 研究 热 点 。
o te n An y i nd Ma h n n e lg n e I n Patr a ss a c i e I t lie c EEE a s cin o Mu tme i l Tr n a to n li d a、 I EEE Tr n a to n S g a a s cin o i n l
邓 见 光 , 潘 晓衡 林 玉 志
( .东莞理工学院 1 工程技术研 究院 ,广东东莞 53 0 2 2 8 8 .华南 理工大学 计算机科学 与工程学院 ,广州 50 0 ) 10 6
摘要 :在机 器听觉领域 中,语音信 号处理 与识 别早 已成为 一个传 统的研 究热 点 ;随 着信 息科 学与技 术的
特征 的乐器识 别领 域所取得的研 究成 果进行 综述 ,总结 乐器识别技 术常用的声学特征和识别方 法。
关 键 词 :乐 器 识 别 ;特 征 抽 取 ;模 式 识 别 ;分 类 中 图分 类 号 :O 4 1 文 献 标 识 码 :A 文 章 编 号 :10 0 1 (0 2 3— 0 8— 7 0 9— 3 2 2 1 )0 0 5 0
声 源识 别在 自动检 索和 分类 应用 中发 挥着 重要 的作用 ,其 可 以让 人从 目前 巨量 的数 字 音频信 号 检索 中解 放 出来 。作 为声 源识 别 的一 种 ,音乐 内容分 析包 含多 方 面 的内容 ,如 媒体 注 释 、歌 手识 别 、音 乐写
谱 、音 频编 码 以及 信息 提取 等 。乐器 识别 是 音乐 内容 分析 的一个 重要 子 问题 ,它 可 以为其 它声 源识 别技