10实验十:随机信号分析应用在语音信号分析中
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验十:随机信号分析应用在语音信号分析中
——音频信号时域特征和频域特征分析【实验目的】
⑴ 了解随机信号分析的应用领域。
⑵ 了解如何利用随机信号分析相关知识点对语音信号进行分析。【实验原理】
我们在这里主要研究语音信号检索的部分内容。在语音信号研究中,一般对音频信号需要进行三方面的研究:
1)音频信号的产生,这方面的研究集中在为音频信号建立产生模型,通过产生模型提取音频特征。
2)音频的传播,音频信号如何通过另外介质传播到人的耳朵里。
3)音频的接收,音频信号如何被人所感知。
在这里,我们只涉及到音频信号的产生,而其它方面不涉及。
音频是一种重要媒体。人耳能够听到的音频频率范围是60Hz-
20KHz,其中语音大约分布在300Hz-4KHz之内。人耳听到的音频是连续模拟信号,而计算机只能处理数字化信息。所以要将连续音频信号数字化后才能在计算机上进行处理。音频信号数字化时的采样频率必须高于信号带宽的2倍才能正确恢复信号。
在音频处理中,一般假定音频信号特性在很短时间区间内变化是很缓慢的,所以在这个变化区间内所提取的音频特征保持稳定。这样,对音频信号处理的一个基本概念就是将离散的音频信号分成一定长度单位进行处理,将离散的音频采样点分成一个个音频帧,也就是音频信
号“短时”处理方法。一般一个“短时”音频帧持续时间长度约为几个到几十个微妙。可以从音频信号中提取三类基本特征:时域特征、频域特征和时频特征。
1 时域特征提取
连续音频信号x经过采样后,得到k个采样点x(n)(1≤n≤k)。在音
频时域提取中,认为每个采样点x(n)(1≤n≤k)包含了这一时刻音频信号的所有信息,所以可以直接从x(n)(1≤n≤k)提取信息。可以提取的信息有:短时平均能量、过零率、线性预测系数。
对于采样得到的x(n)(1≤n≤k)音频信号,考虑到信号在段时间内的连贯性,首先把音频信号的K个采样点分割成前后迭代的音频帧,相邻帧之间的迭加率一般为30%-50%,音频处理中的“短时帧”均是这样得到的。
① 短时平均能量
短时平均能量指在一个短时音频帧内采样点所聚集的能量。它能够方便的表示整个时间段内幅度的变化。其定义如下:
短时平均能量特征可以直接应用到有声/静音检测中,短时平均能量某一短时帧平均能量低于一个事先设定的阀值,则短时帧为静音,否则为非静音。如果静音的短时祯数超过了一定比例,则将这个例子判为静音音频例子。
2 过零率
过零率指在一个短时帧内,离散采样信号值由正到负和由负到正变化的次数。它可以有效的刻画不同的音频信号。其定义如下:
其中,
对于语音信号,辅音信号过零率低,而元音信号的过零率高。语音信号开始和结束都大量集中了辅音信号,所以在语言信号中,开始和结束部分得过零率会有明显身高,所以利用过零率可以判断语音是否开始和结束。
3 频率中心(FC):它是量度声音亮度的指标。即:
,其中是f t(n)的Fourier变换,,STE是短时平均能量。一般的,一段音乐的频率中心变化比较单一,语音的频率中心会出现连续的变化。
4 带宽(BW):它是衡量频率范围的指标。其定义为:
,一般地,语音的带宽范围在300Hz~3.4Hz左右,而音乐的带宽范围比较宽,可以在22.05KHz左右。
5 子带能量(ERSB):考虑到人耳的听觉特征,将频域划分为四个
子带区间(Sb(i)(i=0,1,2,3),并计算个子带能量。子带
能量比定义为:各子带能量与频域总能量的比值。计算子带能
量的均值和方差。
⑤ 线性预测系数
如果用有限个参数的数学模型来线性近似表示音频序列x(n)
(1≤n≤K),这些参数就成为x(n)的重要特征,叫做线性预测系数。
记模拟音频信号x(n)(1≤n≤K)的数学模型x’(n),则
其中,x(n-k)为语音采样信号,为模型参数(又称线性预测系数),p为模型阶数。
在计算模型系数时,采用如下最小均方误差解法,定义音频短时帧的平均预测误差为:
其中,,令,k=1,2……,p,就可以得到一组线性方程组,解之即可得出最佳的模型参数。
㈡ 频域特征提取
频域是把原始信号先进行傅立叶变换,将原始信号转换到频域,然后再频域上提取特征。
1 平均功率与功率谱特征
2 LPC倒谱和Mel系数
LPC倒谱系数(LPC):用有限个参数模型来线性近似表示音频序
列x(n),这些参数就成为x(n)的重要特征,叫做线性预测系数(LPC系数)。LPC倒谱系数的提取过程为:首先用数字滤波器对音频帧所包含的采样点进行预加重处理,对预加重处理后的音频帧内信号加窗口函数,然后对它进行自相关分析,把这个结果施以p阶线性预测计算,得到长度为p的序列x p,就是音频帧的LPC派生倒谱系数;可以对所得到的LPC派生倒谱系数进行加权处理(如进行Delta加权就得到Delta倒谱系
数)。它可用于区分语音和非语音信号。LPC倒谱特征是从每个短时音频帧中提取出来的,主要反映的是音频在很短时刻内的静态特征。文中采用4阶LPC倒谱系数。
Mel频率倒谱系数(MFCC):是建立在傅立叶和倒谱分析基础上的。对短时音频帧上的采样点进行Fourier变换,得到这个短时音频帧在每个频率上的能量。将整个频率分成n个就构成了MFCC(也叫Mel系数)。如果对提取出来的Mel系数再计算其对应的倒谱系数,就是Mel倒谱系数。它广泛的应用于各种语音处理和识别领域中。本文用这种特征将语音从其它类型的音频中区分开来。从而可以进一步的区分男声和女声。【实验步骤】
1 先下载一秒钟篮球或足球的说话声和欢呼声混合的视频片段,
用“全能音频转换通.exe”软件,将音频信号检测出来。
2 提取每个叠加音频帧的特征。首先对一秒钟音频数据进行加窗
处理形成帧,加窗大小在几到凡十微秒,相邻帧之间一般有
30%-50%的叠加。然后对每一帧作离散傅立叶变换(DFT),实
际上常用快速傅立叶变换(FFT ),得到傅立叶系数F(w)和频域
能量。
3 对每个短时帧进行时域特征值提取和频域特征提取。时域特
征:包括短时平均能量 、过零率和频率中心、带宽、子带能
量和线性预测系数。频域特征包括平均功率与功率普特征、
LPC倒谱和Mel系数。
4 将提取的特征值用图形的方式表示出来。
5 比较每个短时帧的特征值,观察其特点,能否粗劣的区分出那
一段是说话声那一段是欢呼声(当然也可以用隐马尔可夫链或
其它方法来识别,我们在这里不涉及这些算法)。
6 上述程序设计使用matlab语言来实现。
【实验结果】