音乐的特征讲解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、物理特征提取
1、音高:声音的高低,它决定于音波的频率。
2、音强:声音的强弱,它决定于音波的振幅。
3、音长:声音的长短,它决定于发音持续时间的长短。
4、音色(音质、音品:一种声音区别于其他声音的个性或特征。
前四个为音乐的基本构成要素。
5、曲调——单位时间内乐波波动的振幅改变量
曲调也称旋律。高低起伏的乐音按一定的节奏有秩序地横向组织起来,就形成曲调。曲调是完整的音乐形式中最重要的表现手段之一。
二、时域特征提取
清音和浊音是语音中两个很简单的概念, 其定义一般是:清音是发音时声带不振动;浊音是发音时声带要振动。
6、短时能量:语音信号的能量随着时间变化比较明显,一般清音部分的能量比浊音的能量小得多。语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。
短时能量主要用于区分清音和浊音、区分有声段和无声段等应用, 在语音识别系统中, 也可以作为特征中的一维参数来表示语音信号能量的大小和超音段信息。
语音信号一般可分为无声段、清音段和浊音段。无声段是背景噪声段 , 平均能量最低 ; 浊音段为声带振动发出对应的语音信号段 , 平均能量最高 ; 清音段是空气在口腔中的摩擦、冲击或爆破而发出的语音信号段 , 平均能量居于前两者之间。清音段和无声段的波形特点有明显的不同 , 无声段信号变化较为缓慢 , 而清音段信号在幅度上变化剧烈 , 穿越零电平次数也多。经验表明 , 通常清音段过零率最大。
7、短时平均过零率:是语音信号时域分析中最简单的一种特征。顾名思义,它是指每帧内信号通过零值的次数。对于论文中处理的离散信号, 短时平均过零率实质上就是信号采样点符号变化的次数。短时平均过零率可以在一定程度上反映信号的频谱性质,可以通过短时过零率获得谱特性的一种粗略估计。
短时平均过零率可以用于语音信号分析, 由于短时平均过零率可以在一定程度上
反映频率的高低, 因此在浊音段, 一般具有较低的过零率, 而在清音段具有较高的过零率, 这样可以用短时平均过零率来初步判断清音和浊音。另外, 还可以将短时平均过零率与短时能量结合起来判断语音起止点位置,即进行端点检测。
8、短时自相关函数:是在信号的第 n 个样本点附近用短时窗截取一段信号,做自相关计算所得的结果。即:
短时自相关函数具有一个很有用的性质:若原始信号 x(n是周期信号,周期为 T, 则其短时自相关函数也是周期信号,周期也是 T 。这个性质可以方便的用来计算浊音信号中的基音周期及基音频率参数。
9、短时平均幅度差
短时平均幅度差是一帧音频信号能量大小的表征 , 由于平均幅度函数没有平方运算 ,因此其动态范围要比短时能量小 ,接近于标准能量计算的动态范围的平方 , 窗长 N 对平均幅度函数的影响与短时能量的分析结论是完全一致的 , 且浊音对幅度差的影响与短时能量的分析是一致的 ,且浊音时幅度差比清音时大得多。所以 ,短时平均幅度函数可以用来区分清浊音。
10、零过零率比(静音比例:如果某一帧的过零率为零,则认为该帧为零过零帧,音频片段中具有零过零率的帧数与整个片段所有帧数的比即是零过零率。
11、静音比例:如果一帧的频域能量小于阈值,则认为该帧为静音帧。
三、频域特征提取
12、谱质心:谱质心是反映语音信号亮度的参数, 它计算的是语音信号在整个频谱中的平衡点。
13、子带能量:它反映了信号的谱能量在整个频谱内的分布情况。可先将信号的频谱分为数个子带,然后在每一个子带中计算子带总能量的对数。
14、带宽:用来标识信号传输的数据传输能力, 它反映了信号功率或信号能量在频谱中集中的范围, 它定义为信号频谱成分与谱质心之差的平方以能量进行加权的均值的平方根。
15、基音频率:是衡量音调高低的单位。基音也叫基本频率或简称基频。当发声体由于震动而发出声音时, 声音一般可以分解为许多单纯的正弦波, 也就是说所有的自然声音基本都是由许多频率不同的正弦波组成的, 其中频率最低的正弦波即为基音,而其他频率较高的正弦波则为泛音。
音乐演奏或歌唱中, 基音是区别音高的主要元素, 决定旋律。而泛音则决定乐器或人声的音色。
16、小波熵:熵是用来衡量信息复杂度的。
17、频谱流量:我们定义频谱流量为相邻两帧在频谱分布上的变化量, 它是信号动态特征的一种反应。
18、 Mell 倒谱系数(MFCC :是以傅里叶变换和倒谱分析为基础,通过对短时音频帧中的 [K/M]个离散采样点进行傅里叶变换,进而得到这个短时音频帧在各个频率上能量的大小。
线性预测倒谱系数(LPCC:主要是根据其与线性预测系数 LPC 之间的关系得到的。
Mel 倒谱系数 MFCC 是受人的听觉系统研究成果推动而导出的声学特征。研究发现,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个 (屏蔽效
应。 Mel 刻度是对这一临界带宽的度量方法之一 , MFCC在语音识别领域应用广泛。本文详细介绍了 Mel 频率倒谱系数参数的 6大提取步骤
19、线性谱对系数 LSP
20、光谱波峰因数 SCF
21、频谱平坦度 SFM