音乐结构分析(MusicStructureAnalysis).pptx
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
将一段音频内容分成时序上的一些音乐片段,并把它们归类到音乐上 有意义的结构分类中去 (intro,verse,chorus,bridge,outro)
• 选题意义
Publishers Composers
listeners researchers
应用开发 版权保护 试听功能,互动交流 前处理,研究样本
• MFCC的提取步骤
Start
预加重 分帧 加窗 快速傅里叶变换 三角带通滤波
特征提取——MFCC
求差分参数 求对数能量 反离散余弦变换
output
特征提取——Chroma
• Chroma简介
➢ 基于十二平均律的音高向量特征 ➢ 反映音乐信息中的音高和声分布(权重) ➢ 倍频部分(高低八度)映射到同音名不同音高的基频频率带 ➢ 一般采取基准:A4=440Hz
➢ 基于心理声学中的人耳听觉特性 ➢ 语音识别的基础特征 ➢ 在音乐信息中通常作为音色描述子(descriptor)
TMel 2595log(1 fHz / 700)
• MFCC的提取关键步骤
➢ frame blocking->windowing->FFT->filtering->IDCT ➢ 输出后与节拍同步,取对数能量+12阶系数
• 国内相关研究概述
➢ 音色单元分布->非监督聚类 (homogeneity) ➢ PCP特征+余弦距离->相似度计算(repetition)
算法流程概述
输入 音频
分帧: 节拍线分割
特征提取: Chroma & MFCC
测试歌曲:《风雨十载》
维度转换: 自距离矩阵计算
结构划分: 基于自相似度计 算和异常点检测
• Chroma的提取关键步骤
➢ Resampleling->frame blocking->DFT->mapping->postprocessing
➢ 输出后与节拍同步,取12阶系数
特征提取——Chroma
Start
重采样 分帧
离散傅里叶变换(DFT) 在频域上映射到一个12维频率带中
修正后处理
候选副歌打分: 基于能量,位置, 平均距离
输出 副歌段落
片段语义标注: 最佳路由算法
输出结构 分析结果
节拍线分割 – Onset Detection
• 音符开端检测(Onset detection)
➢ Onset, Attack, Transient的区别
节拍线分割 – Onset Detection
1
节拍线分割 – 动态规划
• 节拍线分割——动态规划
• 两个先验原则:
流行歌曲的节拍局部恒定;
节拍的开端通常是音符的开端
• 目标函数:寻找基于onset点重合且基本节拍恒定的路径
B({ti})
N i1
D(ti ) a N [(log ti
i2
ti1
2
)
]
特征提取——MFCC
• MFCC简介
➢ Outro 定位副歌后,取verse2/3后面开始的无人声部分作为outro
➢ 缺陷 (1)人声检测本身的正确率 (2)后者定位极度依赖前者的准确程度
Conclusion
研究现状 算法流程概述 节拍线分割 特征提取 结构划分 片段语义标注
研究现状
• 三类典型算法
旋律,节奏
➢ Novelty(异常点) 歌词,编曲
• 寻找音乐四要素变化和对比较大的点
➢ Repetition(相似度)
• 寻找音乐四要素的重复片段
➢ Homogeneity(聚类)
• 将相同的语义结构组进行聚类
• 候选片段打分
包含人声
出现在整首歌的3/4处
平均能量较高
Chorus
重复出现3次以上
平均距离较小
出现在整首歌的1/4处
• 取最高分输出,将输出点延展或压缩至最近的Novelty点上
片段语义标注——其他段落划分
• 基于重复片段的粗略划分
➢ Verse 采用与副歌提取相似的方法,打分权值稍做更改
➢ Intro 定位主歌后,取verse1前面的无人声部分作为intro
研究工作内容
1
算法流程设计
➢类似研究总结 ➢结合两类典型流程 ➢提出改良想法
2
系统架构实现
➢MATLAB算法实现 ➢VC界面编程 ➢COM控件调用
3
语义级分析
➢小规模比较测试 ➢大规模验证测试 ➢结果分析
Contents
Abstract Algorithm Design Demo Realization Evaluation
基于异常点监测和相似度计算的 音乐结构分析算法研究
Music Structure Analysis by using Novelty Detection and Similarity Calculation
顾旻玮 07300720293 指导老师:凌力
Abstract Algorithm Design Demo Realization Evaluation
Conclusion
Contents
Contents
课题背景和选题意义
Abstract
研究工作内容
Algorithm Design
Demo Realization
Evaluation
Conclusion
课题背景和选题意义
• 课题背景
➢ Computer Music -> MIR ➢ 音乐结构分析的定义:
定位novelty点
选择距离最大的30个中心点作 为novelty点
结构划分——相似度计算
设定提取目标
大于4秒小于60秒的重复片段
Fk
1
来自百度文库
Mk
D(c k, c)
M k c1
距离计算
从SDM的主对角线向左下方平 移计算每条子对角线的平均值
对角线二值化
设定阈值,大于为1,小于为0
片段语义标注——副歌提取
• 音符开端检测(Onset detection)
➢ 考虑要素 • Amplitude(幅度)& Phase(相位); • 某一段音频中第m帧的 第k维信息表示如下:
Sk m Rk (m)ejφk (m)
• 计算某点实际和期望的 欧氏距离 • 帧内求和,取阈值, 得onset点
k
D m γk m
Chroma output
特征提取——特征时序图
结构划分——自距离矩阵
• SDM简介
➢ 计算向量之间的距离 ➢ 常用于比较局部相似性
Di, j 0.5(1 Vi,Vj )
Vi | Vj |
MFCC
Chroma
结构划分——异常点检测
测试核矩阵
Kernel Matrix
距离计算
将测试矩阵沿着主对角线进行 节拍前后的相关运算
• 选题意义
Publishers Composers
listeners researchers
应用开发 版权保护 试听功能,互动交流 前处理,研究样本
• MFCC的提取步骤
Start
预加重 分帧 加窗 快速傅里叶变换 三角带通滤波
特征提取——MFCC
求差分参数 求对数能量 反离散余弦变换
output
特征提取——Chroma
• Chroma简介
➢ 基于十二平均律的音高向量特征 ➢ 反映音乐信息中的音高和声分布(权重) ➢ 倍频部分(高低八度)映射到同音名不同音高的基频频率带 ➢ 一般采取基准:A4=440Hz
➢ 基于心理声学中的人耳听觉特性 ➢ 语音识别的基础特征 ➢ 在音乐信息中通常作为音色描述子(descriptor)
TMel 2595log(1 fHz / 700)
• MFCC的提取关键步骤
➢ frame blocking->windowing->FFT->filtering->IDCT ➢ 输出后与节拍同步,取对数能量+12阶系数
• 国内相关研究概述
➢ 音色单元分布->非监督聚类 (homogeneity) ➢ PCP特征+余弦距离->相似度计算(repetition)
算法流程概述
输入 音频
分帧: 节拍线分割
特征提取: Chroma & MFCC
测试歌曲:《风雨十载》
维度转换: 自距离矩阵计算
结构划分: 基于自相似度计 算和异常点检测
• Chroma的提取关键步骤
➢ Resampleling->frame blocking->DFT->mapping->postprocessing
➢ 输出后与节拍同步,取12阶系数
特征提取——Chroma
Start
重采样 分帧
离散傅里叶变换(DFT) 在频域上映射到一个12维频率带中
修正后处理
候选副歌打分: 基于能量,位置, 平均距离
输出 副歌段落
片段语义标注: 最佳路由算法
输出结构 分析结果
节拍线分割 – Onset Detection
• 音符开端检测(Onset detection)
➢ Onset, Attack, Transient的区别
节拍线分割 – Onset Detection
1
节拍线分割 – 动态规划
• 节拍线分割——动态规划
• 两个先验原则:
流行歌曲的节拍局部恒定;
节拍的开端通常是音符的开端
• 目标函数:寻找基于onset点重合且基本节拍恒定的路径
B({ti})
N i1
D(ti ) a N [(log ti
i2
ti1
2
)
]
特征提取——MFCC
• MFCC简介
➢ Outro 定位副歌后,取verse2/3后面开始的无人声部分作为outro
➢ 缺陷 (1)人声检测本身的正确率 (2)后者定位极度依赖前者的准确程度
Conclusion
研究现状 算法流程概述 节拍线分割 特征提取 结构划分 片段语义标注
研究现状
• 三类典型算法
旋律,节奏
➢ Novelty(异常点) 歌词,编曲
• 寻找音乐四要素变化和对比较大的点
➢ Repetition(相似度)
• 寻找音乐四要素的重复片段
➢ Homogeneity(聚类)
• 将相同的语义结构组进行聚类
• 候选片段打分
包含人声
出现在整首歌的3/4处
平均能量较高
Chorus
重复出现3次以上
平均距离较小
出现在整首歌的1/4处
• 取最高分输出,将输出点延展或压缩至最近的Novelty点上
片段语义标注——其他段落划分
• 基于重复片段的粗略划分
➢ Verse 采用与副歌提取相似的方法,打分权值稍做更改
➢ Intro 定位主歌后,取verse1前面的无人声部分作为intro
研究工作内容
1
算法流程设计
➢类似研究总结 ➢结合两类典型流程 ➢提出改良想法
2
系统架构实现
➢MATLAB算法实现 ➢VC界面编程 ➢COM控件调用
3
语义级分析
➢小规模比较测试 ➢大规模验证测试 ➢结果分析
Contents
Abstract Algorithm Design Demo Realization Evaluation
基于异常点监测和相似度计算的 音乐结构分析算法研究
Music Structure Analysis by using Novelty Detection and Similarity Calculation
顾旻玮 07300720293 指导老师:凌力
Abstract Algorithm Design Demo Realization Evaluation
Conclusion
Contents
Contents
课题背景和选题意义
Abstract
研究工作内容
Algorithm Design
Demo Realization
Evaluation
Conclusion
课题背景和选题意义
• 课题背景
➢ Computer Music -> MIR ➢ 音乐结构分析的定义:
定位novelty点
选择距离最大的30个中心点作 为novelty点
结构划分——相似度计算
设定提取目标
大于4秒小于60秒的重复片段
Fk
1
来自百度文库
Mk
D(c k, c)
M k c1
距离计算
从SDM的主对角线向左下方平 移计算每条子对角线的平均值
对角线二值化
设定阈值,大于为1,小于为0
片段语义标注——副歌提取
• 音符开端检测(Onset detection)
➢ 考虑要素 • Amplitude(幅度)& Phase(相位); • 某一段音频中第m帧的 第k维信息表示如下:
Sk m Rk (m)ejφk (m)
• 计算某点实际和期望的 欧氏距离 • 帧内求和,取阈值, 得onset点
k
D m γk m
Chroma output
特征提取——特征时序图
结构划分——自距离矩阵
• SDM简介
➢ 计算向量之间的距离 ➢ 常用于比较局部相似性
Di, j 0.5(1 Vi,Vj )
Vi | Vj |
MFCC
Chroma
结构划分——异常点检测
测试核矩阵
Kernel Matrix
距离计算
将测试矩阵沿着主对角线进行 节拍前后的相关运算