语音编码和图像编码的分类及特点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音编码和图像编码的分类及特点
一、语音编码
一般而言,语音编码分三大类:波形编码、参数编码及混合编码。
<1>、波形编码
波形编码将时域模拟话音的波形信号进过采样、量化和编码形成数字语音信号,是将语音信号作为一般的波形信号来处理,力图使重建的波形保持原语音信号的波形形状。具有适应能力强、合成质量高的优点。但所需编码速率较高,通常在16KB/S以上,并且编码质量随着编码速率的降低显著下降,且占用的较高的带宽。
波形编码又可以分为时域上和频域上的波形编码,频域上有子带编码和自适应变换域编码,时域上PCM、DPCM、ADPCM、APC和M增量调制等。
①、子带编码
它首先用一组带通滤波器将输入信号按频谱分开,然后让每路子信号通过各自的自适应PCM编码器(ADPCM)编码,经过分接和解码再复合成原始信号。
特点:1、每个子带独立自适应,可按每个子带的能量调节量化阶;2、可根据各个子带对听觉的作用大小共设计最佳的比特数;3、量化噪声都限制在子带内某一频带的量化噪声串到另一频带中去。
②、自适应变换域编码
利用正交变换将信号有时域变换到另外的一个域,使变换域系数密集化,从而使信号相邻样本间冗余度得到降低。
特点:对变换域系数进行量化编码,可以降低数码率。
③、PCM(Pulse-code modulation),脉冲编码调制
对连续变化的模拟信号进行进行抽样、量化和编码产生。
特点是保真度高,解码速度快,缺点是编码后的数据量大。
④、DPCM(Differential Pulse Code Modulation)差分脉冲编码调制
是对模拟信号幅度抽样的差值进行量化编码的调制方式,是用已经过去的抽样值来预测当前的抽样值,对它们的差值进行编码。
特点:对于有些信号瞬时斜率比较大,很容易引起过载;而且瞬时斜率较大的信号也没有像话音信号那种音节特性,因而也不能采用像音节压扩那样的方法,只能采用瞬时压扩的方法;传输的比特率要比PCM低;一个典型的缺点就是易受到传输线路上噪声的干扰。
⑤、ADPCM(adaptive differential pulse code modulation),自适应差分脉冲编码调制
是DPCM的扩展,区别在于较DPCM在实现上预测器和量化器会随着相关的参数自适应的变化,达到较好的编码效果。
特点:优点在算法复杂度低,压缩比小,编解码延时最短,压缩/解压缩算法非常的简单,低空间消耗。缺点是声音的质量一般。
⑥、M增量调制
只保留每一信号样值与其预测值之差的符号,并用一位二进制数编码的差分脉冲编码调制。
特点:1、电路简单,而脉码调制编码器需要较多逻辑电路;2、数据率低于
40千比特/秒时,话音质量比脉码调制的好;3、抗信道误码性能好,能工作于误码率为10-3的信道,而脉码调制要求信道误码率低于10-5~10-6。
<2>、参数编码
利用人类发声系统的特性来压缩信号,对语音信号的产生赋予特点的声学模型,通过对模型参数的提取和编码,力图使重建的语音信号具有尽可能高的自然度和可懂度。
参数编码主要有两大类:线性预测编码和声码器。线性预测编码包括多脉冲激励LPC、码本激励LPC和矢量和激励LPC编码方式,声码器有四种:信道声码器、共振峰声码器、倒频谱声码器和语音激励声码器。
①、多脉冲激励LPC
激励源一律采用多脉冲序列在给定的一项N个激励样本中,保留M个,其幅度和位置是确定的。使合成语音和原始输入语言之间的感加权误差最小。
特点:MPLPC必须进行量化编码,它传输的内容包括多脉冲激励的脉冲位置和幅度,长时和短时预测器系数,音调周期,MPLPC产生的语音质量和数码率取决于脉冲的数目。一般认为在s的数码率上,有较高的语音质量。它可以尖用于数字动通信、数字保密通信。
②、码本激励LPC
它是一种用码本作为激励源的编码方式,以N样值为一组,构成一个含N维磁量的码字。若以上码字又组成了一套码本,并且收发端的码本设置是相同的,而传送的是码字序号而不是N维样值序列本身,从而压缩了数据率。
特点:建立码本和搜索码字的运算量很大。
③、矢量和激励LPC
其码本(CODE BOOK)仅含少量n个基本矢量的加减组合,得到2n个码字的码本。是码本激励LPC编码的一种类型。
特点:使得VSELP与CELP相比,大大地降低了运算量,VSELP已成为北美和日本数字蜂窝移动通信系统的话音编码标准。
④、声码器
声码器在发送端对语言信号进行分析,提取出语言信号的特征参量加以编码和加密,以取得和信道的匹配,经信息道传递到接受端,再根据收到的特征参量恢复原始语言波形。分析可在频域中进行,对语言信号作频谱分析,鉴别清浊音,测定浊音基频,进而选取清-浊判断、浊音基频和频谱包络作为特征参量加以传送。分析也可在时域中进行,利用其周期性提取一些参数进行线性预测,或对语言信号作相关分析。根据工作原理,声码器可以分成:通道式声码器、共振峰声码器、图案声码器、线性预测声码器、相关声码器、正交函数声码器。
特点:声码器的明显优点是数码率低,因而适合于窄带、昂贵和劣质信道条件下的数字电话通信,能满足节约频带、节省功率和抗干扰编码的要求。低数码率对话音存储和话音加密处理也都很有利。声码器的缺点是音质不如普通数字电话好,而且工作过程较复杂,造价较高。
<2>、混合编码
是将波形编码和参数编码相结合而得到的,综合了参数编码低比特率与波形编码高语音质量优点。应用最广泛的是LPAS(基于线性预测技术的分析-合成编码方式)
LPAS(基于线性预测技术的分析-合成编码方式)
通过线性预测确定系数参数,并通过闭环和分析-合成方法来确定激励序列。
二、图像编码
图像编码是指在满足一定质量(信噪比的要求或主观评价得分)的条件下,以较少比特数表示图像或图像中所包含信息的技术。
图像编码方案分成预测编码和变换域编码两大类。
<1>、变换域编码
用一维、二维或三维正交变换对一维n、二维n×n、三维n×n×n块中的图像样本的集合去相关,得到能量分布比较集中的变换域;在再码化时,图像编码根据变换域中变换系数能量大小分配数码,就能压缩频带。主要是利用像素之间的相关性或是变换域的参数分布特征来进行编码。
下面介绍几种常见的现代信号处理上的函数变换
①、DFT离散傅里叶变换
离散傅里叶变换(DFT),是连续傅里叶变换在时域和频域上都离散的形式,将时域信号的采样变换为在离散时间傅里叶变换(DTFT)频域的采样。在形式上,变换两端(时域和频域上)的序列是有限长的,而实际上这两组序列都应当被认为是离散周期信号的主值序列。即使对有限长的离散信号作DFT,也应当将其看作经过周期延拓成为周期信号再作变换。在实际应用中通常采用快速傅里叶变换以高效计算DFT。
②、DCT离散余弦变换
离散余弦变换是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换,但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数),在有些变形里面需要将输入或者输出的位置移动半个单位。
③、WT小波变换
小波变换是时间(空间)频率的局部化分析,它通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分析的要求,从而可聚焦到信号的任意细节,解决了Fourier变换不能解决的许多困难问题。
④、WT沃尔什变换
在矢量空间用沃尔什函数对图像阵列进行的变换。沃尔什变换主要用于图像变换,属于正交变换。这种变换压缩效率低,所以实际使用并不多。但它快速,因为计算只需加减和偶尔的右移操作。
⑤、HT哈达玛变换
是按Hadamard取序的walsh变换,本质上两者没有区别。HT与WT小波变换之间最大的区别就是变换矩阵的行列排列次序不同,且它的高阶矩阵可以有两个低阶矩阵推出,可参阅③WT小波变换。
⑥、Slant倾斜变换
可参阅《Slant变换与图象数据压缩》张正寅
<2>、预测编码
预测编码是从相邻像素之间的强的相关性特点出发,当前的像素的灰度或颜色信号的数值可用前面的已出现的像素的值进行预测,得到一个预测值,然后将其与实际值求差,对这个差值信号进行编码、传送。
可分为两大类:帧内预测编码和帧间预测编码。