第三章+音频信号的数字化及特征分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
hk(n)
延时 k
x(nx(n-k)
x(n)
Rn(k)
短时自相关函数的实现框图
3.2.3 短时自相关函数和短时 平均幅度差函数
短时自相关函数运算量比较大,因主要 是乘法运算。而利用差值运算可避免该 问题。 为了避免乘法运算,常常采用另一种与 自相关函数有类似作用的参量,即短时 平均幅度差函数。
3.2.3 短时自相关函数和短时 平均幅度差函数
− a (ji ) = a (ji −1) − ki aii−1j , j = 1,..., i − 1 j =1
E(i −1)
(1) (2) (3) (4)
E (i ) = (1 − ki2 ) E ( i −1)
5.
i=i+1。若i>p则算法结束退出,否则返回第4步, 按式(1)至式(4)进行递推。
3.3.3
线性预测分析
对音频信号进行线性预测分析的基本思想是: 一个音频信号的采样能够用过去若干个音频信 号采样的线性组合来逼近,通过使线性预测的 采样在最小均方误差意义上逼近实际音频信号 采样,可以求取一组唯一的预测系数。 这里的预测系数就是线性组合中所用的加权系 数,因此也常简称为LPC (Liner Prediction Coding)。
3.3.2
离散余弦变换
离散余弦变换是根据下面的公式把n个实数x(0) , x(1) ,…x(n-1)变换到另外n个实数D0,D1, …,Dn-1 的操作
Dm = ∑ x(k ) cos[(k + 0.5)
k =0 n −1
π
n
m], m = 0,1,..., n − 1
3.3.2
离散余弦变换
由于离散余弦变换具有很强的“能量集中”特 性:大多数的自然信号(包括声音和图像)的能量 都集中在离散余弦变换后的低频部分,而且当 信号具有接近马尔科夫过程 马尔科夫过程(Markov processes) 马尔科夫过程 的统计特性时,离散余弦变换的去相关性接近 于K-L变换(Karhunen-Loève 变换--它具有最优 的去相关性)的性能,所以在信号处理中得到 广泛应用,主要用于对信号进行编码压缩。
若两个信号波形完全不同,则互相关函数为零; 若两个信号波形完全不同,则互相关函数为零; 若两个信号波形相同,则在超前、滞后处出现峰值。 若两个信号波形相同,则在超前、滞后处出现峰值。
自相关函数用于研究信号本身。 自相关函数用于研究信号本身。
3.2.3 短时自相关函数和短时 平均幅度差函数
对于离散的音频信号x(n),它的自相关函数定 义如下
X n (e
jwk
)=
m =−∞


x(m) w(n − m)e− jwk m
0 ≤ k ≤ N −1
3.3.1
傅里叶变换
在短时傅里叶变换的基础上,可以得到短时功率 谱。短时功率谱实际上是短时傅里叶变换幅度的 平方,不难证明,它是信号x(n)的短时自相关函 数的傅里叶变换,即
Pn (e jw ) =| X n (e jw ) |2 =
语音技术及其应用
第三章 音频信号的数字化及特征分析
洪青阳 副教授 厦门大学信息学院 Email: qyhong@xmu.edu.cn
本章内容
1. 2. 3. 4. 5.
音频信号的数字化 音频信号的时域分析 音频信号的频域分析 音频信号的时频域分析 音频信号的倒谱分析
3.1 音频信号的数字化
1. 2.
3.4 音频信号的时频域分析
1. 2. 3.
信号的时频表示 Gabor变换 小波变换
3.4.1
信号的时频表示
信号的傅里叶变换是以正弦类(虚函数) 信号为基函数,其物理概念清晰,对确定性信 号和平稳信号的分析发挥了重要作用。 在分析非平稳信号和时变信号时,信号的 傅里叶变换分析无法有效地反映信号在某些瞬 间的突变。信号的时频分析可以同时获得信号 时域特性和频域特性,可以有效地反映信号在 不同瞬间对应的频率分布。
3.2.2
N −1
短时平均过零率
语音信号x(n)的短时平均过零数定义为 的短时平均过零数定义为 语音信号
Z n = ∑ sgn[ x ( m)] − sgn[ x ( m − 1)] w( n − m)
m =0
= sgn[ x ( n )] − sgn[ x ( n − 1)] * w( n )
1 x ( n ) ≥ 0 sgn( x ) = −1 x ( n ) < 0
k =−∞


Rn (k )e jwk
其中,Rn(k)是前面讨论的自相关函数。
3.3.2
离散余弦变换
离散余弦变换(Discrete Cosine Transform, DCT)是与傅里叶变换相关的一种变换,类似于 离散傅里叶变换,但是只使用了实数。 离散余弦变换相当于一个长度大概是它两倍的 离散傅里叶变换,这个离散傅里叶变换是对一 个实偶函数进行的(因为一个实偶函数的傅里 叶变换仍然是一个是偶函数)。
对语音信号进行频谱分析是认识语音信 号和处理语音信号的重要方法。
1. 2. 3.
傅里叶变换 离散余弦变换 线性预测分析
3.3.1
源自文库
傅里叶变换
标准傅里叶分析在信号处理中具有非常 重要的作用。适用于周期、瞬变或平稳 随机信号的分析。 语音信号是一个非平稳过程,所以标准 傅里叶分析不能直接进行。因语音信号 具有短时特性,所以可以采用短时傅里 叶变换,即有限长度的傅里叶变换。相 应的谱称为“短时谱”。
信噪比(signal-to-noise ratio,SNR)
X max σx SNR(dB ) = 10 lg( 2 ) = 6.02 B + 4.77 − 20 lg( ) σx σe
2
3.1.2
短时加窗处理
经过数字化的音频信号实际上是一个时变信号, 为了能用传统的方法对音频信号进行分析,假 设音频信号在几十毫秒的短时间内是平稳的。 为了得到短时的音频信号,要对音频信号进行 加窗操作。窗函数平滑地在音频信号上滑动, 将音频信号分成帧。分帧可以连续,也可以采 用交叠分段的方法,交叠部分称为帧移,一般 为窗长的一半。
如果定义
hk (n) = w(n) w(n + k )
则原式可改写成
Rn (k ) =
m = −∞
∑ [ x(m) x(m − k )]h (n − m)
k

其可表示为序列x(n)x(n-k)经过一个冲激响应为 hk(n)的滤波器后得到自相关函数,如图所示
3.2.3 短时自相关函数和短时 平均幅度差函数
3.2.2
短时平均过零率
用于语音信号分析
清音和浊音的过零分布是不同的: 清音和浊音的过零分布是不同的: 清音具有较高的过零数, 清音具有较高的过零数,而浊音则具有较低 的过零数。 的过零数。
用于从背景中找出语音信号
3.2.3 短时自相关函数和短时 平均幅度差函数
相关函数用于测定两个信号在时域内的相似性。 相关函数用于测定两个信号在时域内的相似性。 互相关函数可测定两个信号间的时间滞后。 互相关函数可测定两个信号间的时间滞后。
3.3.3
1. 2. 3.
线性预测分析
莱文逊-杜宾递推算法:
计算自相关系数Rn(j),j=0,1, …,p。 E(0) =Rn(0)。 i=1。
3.3.3
4.
线性预测分析
Rn (i ) − ∑ a (ji −1) Rn (i − j )
i −1
莱文逊-杜宾递推算法:
开始按如下公式进行递推运算:
ki = ai(i ) = ki
音频信号的采样与量化 短时加窗处理
3.1 音频信号的数字化
将模拟音频信号转换成有限数字表示的离散序列
模拟音 频信号
采样
量化
编码
按不同应用目标 进行数字压缩
音频信号数字化
音频信息处理框图
3.1.1 音频信号的采样与量化
所谓采样,就是把模拟信号在时间域上 进行等间隔取样,其中两个取样点之间 的间隔称为采样周期,它的倒数称为采 采 样频率。 样频率 根据采样定理,当采样频率大于信号最 高频率的两倍时,在采样过程中就不会 丢失信息,并且可以用采样后的信号重 构原始信号。
汉明窗(Hamming)数学式如下:
2 nπ ), 0 ≤ n ≤ N − 1 0.54 − 0.46 cos( w(n) = N −1 0, otherwise
3.1.2
短时加窗处理
矩形窗和汉明窗的幅频响应
3.1.2
短时加窗处理
窗长N对能否反映语音信号的幅度变化 窗长 对能否反映语音信号的幅度变化 起决定性作用。 起决定性作用。
R( k ) =
N −1− k m =0

x ( m) x ( m + k )
(0 < k ≤ K )
短时自相关函数是在前面自相关函数的基础上 将信号加窗获得的。
Rn (k ) =
m =−∞
∑ x(m)w(n − m) x(m + k )w(n − (m + k ))

3.2.3 短时自相关函数和短时 平均幅度差函数
3.1.1 音频信号的采样与量化
3.1.1 音频信号的采样与量化
量化过程。 量化过程是指将每个采样值 在幅度上再进行离散化处理。 量化会引入失真, 并且量化失真是一种 不可逆失真, 这就是通常所说的量化噪 声。
3.1.1 音频信号的采样与量化
量化方法
标量量化
均匀量化 非均匀量化
矢量量化
量化误差
3.2 音频信号的时域分析
1. 2. 3.
短时能量分析 短时平均过零率 短时自相关函数和短时平均幅度差函数
3.2.1
短时能量分析
短时能量计算说明
3.2.1
短时能量分析
短时平均能量方框图
3.2.1
短时能量分析
短时能量的主要用途
可以区分清音段和浊音段。 可以区分清音段和浊音段。 浊音的En比清音 大得多 浊音的 比清音En大得多 比清音 可以区分声母和韵母的分界,无声和有声的分界, 可以区分声母和韵母的分界,无声和有声的分界,连 字的分界。 字的分界。 可以用于语音识别
注:
值对于高电平信号比较灵敏,此时可采用: En值对于高电平信号比较灵敏,此时可采用: “短时平均幅值Mn” ,其定义为: 短时平均幅值M 其定义为:

Mn =
m = 0 −∞

x ( m) w( n − m) = x ( n ) * w( n )
3.2.2
短时平均过零率
过零就是信号通过零值。 过零就是信号通过零值。 就是信号通过零值 对于离散信号 离散信号, 对于离散信号,相邻的取样值改变符号 则称为过零。 则称为过零。 过零率就是样本改变符号的次数 就是样本改变符号的次数。 过零率就是样本改变符号的次数。 单位时间内的过零数为平均过零率 平均过零率。 单位时间内的过零数为平均过零率。
3.3.3
线性预测分析
语音信号x(n)可以看由一个输入序列u(n)激励 一个全极点的系统(模型)H(z)而产生的输出
u(n) H(z) 信号x(n)的模型化 x(n)
3.3.3
线性预测分析
系统模型函数H(z)
H ( z) = G 1 − ∑ ai z − i
i =1 p
线性预测原理: 当前语音信号x(n),可以用过去p个语音信号x(n-i) 和语音激励信号u(n)的增益之和来表示。 线性预测分析就是根据已知信号x(n)对各参数 和增益G进行估计。在这里{ai }为线性预测系数。
3.1.2
短时加窗处理
在加窗的时候,不同的窗口选择将影响 到音频信号分析的结果。在选择窗函数 时,一般有两个问题要考虑。第一个问 题是窗口的形状,即窗函数的形式。第 二个问题是窗口的长度。
3.1.2
短时加窗处理
在语音处理中最常用的两种窗函数是矩形窗与汉明窗。 矩形窗的数学式如下:
1, 0 ≤ n ≤ N − 1 w(n) = otherwise 0,
3.3.1
X n (e ) =
jω ∞
傅里叶变换
∑ x(m)w(n − m)e
− jωm
短时傅里叶变换的定义为
m = −∞
= ∑ xn (m)e − jwm
m=0
N −1
• 短时傅里叶分析是窗选语音信号的标准傅里叶变换。
• 它有两个自变量:n, ω,既是关于时间n的离散函数,又是关于 角频率ω 的连续函数 令 ωk = 2π k ,则 L
短时平均幅度差函数的定义为
γ n (k ) =
n + N − k −1 m= m =0

x ( m + k ) − x ( m)
显然,计算γn(k)只需加、减法和取绝对值的 运算,与自相关函数的相加与相乘运算相比, 其运算量大大减少,短时平均幅度差函数已 被用在许多实时语音处理系统中。
3.3 音频信号的频域分析
若N很大,等效为带宽很窄的低通滤波器, 很大, 很窄的低通滤波器 很大 等效为带宽很窄的低通滤波器, 反映波形细节的高频部分被阻碍,短时能量 反映波形细节的高频部分被阻碍, 很小。 很小。 很小, 很宽的低通滤波器 若N很小,等效为带宽很宽的低通滤波器, 很小 等效为带宽很宽的低通滤波器, 短时能量变化很剧烈, 短时能量变化很剧烈,不能得到语音信号的 平滑能量函数。 平滑能量函数。
相关文档
最新文档