多媒体语音压缩技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多媒体语音压缩技术

摘要:在过去的十年,低速率语音编码器在民用和军用通信以及计算机相关的语音应用方面取得重大进展。在这方面已经能够生产高质量低速率的新的语音编码器。这些编码器采用代表讲话的频谱特性,提供语音波形匹配的机制,并为人类的耳朵优化编码器的性能。文章模拟的低比特速率声码器(lpc)利用matlab实现。从lpc得到的结果进行了比较与其他实施利用小波变换的语音压缩。从结果中,我们可以看到,小波变换的性能明显优于lpc。

关键词:lpc;载重吨;relp;celp

1 引言

声码器使用完全不同的方法进行语音编码,称为参数编码,或分析/合成编码,没有试图在接收机中再现精确的语音波形,只相当于是信号感知。这些系统在接收端使用一个人类语音机器模型提供更低的数据传输速率。最受欢迎的一个分析/合成语音编码技术,称为线性预测编码(lpc),我们将在第一部分里介绍。

2 lpc系统的实现:线性预测编码(lpc)步骤

2.1 抽样:首先,在精确的频率下对语音进行采样,以便获得对信号进行处理和重建的所有的必要的频率成分。

2.2 分割:语音被分割成帧等待处理。语音信号的特性随着时间变化。我们把它分成一帧一帧的以便有效的处理,每一帧都含有确定数目的样本。

2.3 预加重:由于嘴唇发声的辐射效应,典型语音信号的频谱包

络具有很高的频率衰落。因此,高频部分有相对较低的幅度,从而增加语音频谱的动态范围。所以,lp分析需要很高的计算精度捕捉在高端的频谱特征。

2.4 语音探测器:清浊探测器的目的是判定一个给定的帧为语音还是噪音。一个语音探测器可以依靠目前为止所讨论的参数(能量,过零率,基音周期)作出正确的决定。一个简单的探测器可以只使用一个参数作为输入来完成。

2.5 基音周期估计

基音周期估计算法的设计是一个复杂的任务,由于缺乏完善的周期性,还有声道共振峰的干扰,浊音段语音的不确定性,和其他现实世界中噪声和回声的影响。在实践中,基音周期估计是计算复杂度和性能之间的一种折衷实现。已经有许多技术被提出了,在这里我们只简单介绍一个。

自相关法:基音周期可通过计算两峰之间的平均距离估计。完整的峰和谷在频域内被称为共振峰结构(共振的时候就是共振峰)。平稳序列x(n)的自相关函数定义为

定义为在?子称为滞后。自动意味着自我或对于同一个信号,相关意味着两个样本之间的关系。一个自相关数是来自于一个信号的间隔为?子的两个样本之间的平均相关关系。应该指出的是,当?子为正数时,求和的上限将是小于n-1的,当?子是负数时,下限大于0。因此,自相可改写为

2.6 系数的测定:差分方程的系数(预测系数)描述了共振峰,

所以lpc系统需要估计这些系数。通过最小化世纪信号与预测信号的均方误差来进行估计。这是一个很直接的问题。在实践中,它包括(1)计算系数矩阵,(2)一组线性方程的解。

2.8 量化:为了确保系数的稳定性(极点必须位于在z平面的单位圆)要求相对高的精度。这是因为即使是预测系数有小的变化也会引起极点位置发生较大的变动。这些中间值称为线性频谱系数(lsfs)。

3 结果

在本文中,采样频率为8 khz和比特率为2400比特/秒。研究原始语音序列和现行预测编码之间的区别。我们已经观察到重建语音比输入语音有更低的质量。重建信号听起来更机械而且噪声更加模糊了表1显示了每个信号的规格。

4 离散波变换(dwt):使用离散小波变换的语音压缩

4.1 选择的小波:用于高质量语音编码的小波母函数的选择是最重要的。可以使用几个不同的标准选择最佳的小波函数。以使重构误差最小化而信噪比最大化。

4.2 小波分解:小波通常把信号分解成不同的分辨率或者工作频段,而这个任务是由选择小波函数和计算离散小波变换(dwt)来完成的。

4.3 截断系数:计算完语音信号的小波系数之后,要在阈值下对小波系数截断进行压缩。从实验中,我们发现,大多数的系数很小。这意味着大多数的语音能量是少数的高值系数。

4.4 编码:通过截断值很小的系数进行信号压缩然后再对它们编码。把较大的系数在小波变换向量中中按位置存放。

4.5 性能指标

4.6 选择最优分解层数:为了选择最优的层数,我们测试了在不同水平下的两种信号,结果被记录在下面。

如图2,我们观察到,在所有的水平上男性比女性具有更好的质量;另一方面,男性信号比女性信号的压缩因子更大。这结果是由于女性的声音频率更高。另外,分解超过5层后两种语音都没有明显的增强,所有类型的小波几乎是相同的结果。对于所研究的数据,3层后无明显有意义的变化,它就是我们实验的最佳水平。

5 结束语

从离散小波变换在压缩语音信号的实验中我们得到以下几点:在可接受的信噪比情况下有很高的压缩比。五级是最优分解水平。均方根误差几乎保持不变。全局阈值比水平依赖阈值技术有更好的结果。

lpc最常见的问题是在接收端如何合成更真实的语音信号。在许多情况下,一个语音帧不能被归类为严格语音或严格噪声。事实上,有过渡帧存在使lpc模型未能正确分类。比如说文物的嗡嗡声和音调的噪声。在一般情况下,为无声帧的激励可以用白噪声近似。但是,对于有声帧激励信号是周期的信号和噪声的组合。因此,用脉冲串进行近似是一种粗略的近似。对lpc编码器,激励脉冲通过激励全通滤波器得到。

参考文献

[1]robust spectral parameter coding in speech processing:nadim batry

[2]wikipedia, the free encyclopedia.

[3]speech coding algorithms.foundation and evolution of standardized coders

[4]wai c. chu mobile media laboratory docomo usa labs san jose, california

相关文档
最新文档