视频技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数字技术论文
摘要:
为了满足数字通信及其它商业应用的需求,语音压缩编码技术得到了迅速发展。介绍了目前语音压缩编码技术的研究进展,主要包括连续可变斜率增量调制(CVSD)、小波分析、多脉冲激励线性预测编码、散布脉冲码(MPD-USACELP)、波形内插(WI)、线谱对(频率)(LSP)的量化。激励线性预测(DP-CELP)、多重脉冲散布非均匀代数码本激励线性预测。
关键词: 数字通信语音压缩编码
近30 年来, 通信技术一直在发生着深刻的变化, 编码技术日臻完善,高质量、低速率的语音编码算法纷纷出现, 各国相继成立了一些国际通信标准化组织, 及时地制定专门的通信编码标准, 语音编码技术的发展也体现在这些不断制定的标准中。由于实现方式的不同, 语音压缩编码技术种类很多, 一直向着高质低速方向发展, 并出现了不少令人振奋的成果。
随着信息技术的发展, 信道资源显得更加宝贵, 为了在有限的信道内进行更多的信息传输, 必须对语音信号进行压缩。语音信号能够压缩的基本依据是语音信号中存在的冗余和人类的听觉感知机理。语音信号存在多种多样的冗余, 可分别从时间域和频率域描述。从时间域分析: 幅度的非均匀分布, 即语音中的小幅度样本出现的概率高, 信息主要集中在低功率上;采样数据间的相关, 相邻的语音信号间有很强的相关性, 研究表明, 当采样率为8 kHz 时, 相邻样值之间的相关系数大于0.85, 如果采样率提高, 相关性将更强; 周期间的相关, 浊音语音段具有准周期性, 反映在波形上出现图形的重复, 即信息冗余; 语音间隙, 实际语音通信中, 存在通话间隙, 通话分析表明, 全双工话路的典型效率约为通话时间的40%, 即静止系数为0.6;长时自相关, 除了本间、同期间的相关外, 在较长的时间间隔上, 语音信号也存在相关, 统计表明, 8 kHz 采样时的平均相关系数高达0.9。从频率域分析: 非均匀的长时功率谱密度, 从相当长的时间内统计平均, 语音信号的功率谱呈现强烈的非平坦性, 这说明语音信号对给定的频段利用的不充分, 存在固定的冗余度; 语音特有的短时功率谱密度, 语音信号的短时功率潜在某些频率上出现峰值, 而在另一些频率上出现谷值, 这些峰值频率是能量较大的频率, 称为共振峰( Formant) , 语音特征主要由前3 个共振峰频率决定, 随着频率的增高, 对整个功率谱的影响会快速递减。语音压缩的第二个依据是人的听觉生理和心理特性对语音的感知,其影响主要表现在: 第一, 人的听觉系统( Human Auditory System, HAS)对声音具有掩蔽效应( Mask Effect) , 即一个强的声音能够抑制另一个同时存在相对较弱的声音, 利用这一性质可以抑制与信号同时存在的量化噪声。第二, 对不同频段的声音的敏感程度不同。人的听觉对低频端比较敏感, 而对高频端不太敏感, 这主要是因为浊音的周期和共振峰在这里。第三, 人耳对语音信号的相位变化不敏感。人耳的听觉不像人的视觉对感知
的信号相位那样敏感, 一定程度的相位失真对听觉来说是可以容忍的。人耳听不到或感知极不灵敏的语音信号都可以认为是冗余, 可以利用这些特性进行语音数据压缩。语音压缩编码的目的是用尽可能低的数码率获得尽可能好的合成语音质量, 同时又使要编码过程的计算代价尽可能小。降低数码率的实质就是压缩频带宽度, 数码率低意味着算法的复杂度增加, 延迟变大。所以语音压缩编码算法的研究一直在这个矛盾中向前发展。
语音压缩编码的发展及应用近10 多年来, 语音编码技术取得了突飞猛进的发展, 出现了多个国际标准和区域标准, 已具备了比较完善的理论和技术体系, 随着高速信号处理器的诞生, 使多种算法复杂、计算量很大的编码技术的实时化变得容易起来, 语音压缩编码进入了实用阶段。目前语音编码主要分为三类: 波形编码、参数编码和混合编码。 1.波形编码最早的语音编码系统采用波形编码方法, 这种方法主要是基于语音信号的波形, 力图使合成语音与原始语音的波形误差最小。由于语音信号的全部信息都蕴含在原始波形里, 所以这种方法编码后的合成语音质量非常好, 且适应能力强, 抗信道干扰性能好。所采用的压缩方法一般是基于各种有效的数学变换, 通过将波形从一个域变换为另一个更易于提取特征参数的域来达到对变换后的参数进行量化编码的目的, 在数学上, 这实质上是一个曲线拟合或数据近似的问题。主要的有以下的编码器: 脉冲编码调制( PCM) 、自适应增量调制( ADM) 、自适应差分编码( ADPCM) 、自适应预测编码( APC) 、自适应子带编码( ASBC) 、自适应变换编码( ATC) 。波形编码的性能和压缩比特率决定于所用的变换方法的性能, 由于语音波形的动态范围很大, 目前所用的变换算子的作用又有限, 因此, 波形编码的比特率不能压得很低, 一般在16 kb/s 以上, 再往下, 性能就下降很快。新近蓬勃发展的小波变换, 尽管具有分层的思想、“显微镜”的功能、与图像的视觉感知相吻合, 但用于语音编码效果不理想, 因为与人的听觉感知不相吻合。国际电报电话咨询委员会CCITT( 现已并入国际电信联盟ITU) 于1972 年制定的G.711 64 kb/s 的脉冲编码调制( PCM) 和ITU 在1984 年公布的G.721 32 kb/s 自适应差分脉冲编码调制( ADPCM) 编码器标准等都属于这一类编码器。 2.参数编码参数编码始于1939 年美国人Homer Dudey 发明的声码器, 它是根据语音信号的特征参数来编码, 所以又叫“声码器技术”。这种编码方法是通过对人的发声生理过程的研究, 建立一个模拟其发声的数字模型来达到提取其特征参数进行量化编码的目的, 它力图使合成语音具有尽可能的可懂性, 保持原语音的语意, 而合成语音的波形与原始语音的波形可能有相当大的差别。由于它是以滤波器为主来构造语音产生模型, 发送的只是滤波器的参数和相关的特征
值, 可以将比特率压得很低, 但合成语音质量不是很好。这种方法在低数率声码器中普遍采用。主要声码器有通道声码器、共振峰声码器、同态声码器、线性预测( LPC) 声码器等。其中LPC 声码器是以线性组合模型均方误差最小意义下逼近原始波形的方法提取参数, 较好地解决了编码速率和语音质量的问题, 以其成熟的算法和参数的精确估计成为研究的主流, 并