语音编码原理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音编码原理
1什么是声音
2语音信号
3 语音编码技术
3.1语音编码的提出
3.2语音编码技术的类别
4语音编码的必要性(含目的)
5语音编码的技术指标
6各种语音编码技术比
7语音信号的数字化和预处理
7.1语音信号的数字化
7.2语音信号的预处理
8 PCM编码
9 自适应差分脉冲编码调制(ADPCM)
9.1 自适应脉冲编码调制(APCM)的概念
9.2差分脉冲编码调制(DPCM)的概念
9.3 自适应差分脉冲编码调制(ADPCM)
1什么是声音
声音是由物体振动产生,正在发声的物体叫声源。声音以声波的形式传播。声音只是声波通过固体或液体、气体传播形成的运动。声波振动内耳的听小骨,这些振动被转化为微小的电子脑波,它就是我们觉察到的声音。内耳采用的原理与麦克风捕获声波或扬声器的发音一样,它是移动的机械部分与气压波之间的关系。自然,在声波音调低、移动缓慢并足够大时,我们实际上可以“感觉”到气压波振动身体。因此我们用混合的身体部分觉察到声音。
2语音信号
声音是携带信息的极重要的媒体,也是多媒体技术研究中的一个重要内容。而声音的种类十分繁多,因而有必要对其特性进行研究以利于计算机进行处理。声音是通过空气传播的连续波,其强弱体现在声波的压力上,音调的高低则体现在频率上。当用电信号表示时,则为时间和幅度均连续的模拟信号。当用计算机进行数字化处理时则需要将其数字化。人耳能够听到的声音频率为20—20kHz,而我们的发声频率则为80—3400Hz。一般我们认为语音信号的频率范围是300—3000Hz。那我们发声的原理又是怎样的呢?当肺里面的空气沿声道通过声门就发出声音。一般男性的声道约为17厘米(从声门到嘴唇),这也意味着声音号中有1毫秒数量级的数据是具有相关性的。由于声道形状和激励方式的变化相对的比较
缓慢,故话音信号在短周期内(约20毫秒)可认为是准定态。又由于声门的准周期性的震动和声道的谐振,话音具有高度的周期性。话音编码器就是要揭示这种周期性以减少数据率而又尽量不牺牲音质。语音编码是把较高码率的数字化的话音通过特定的压缩算法进行压缩编码,变为码率较低的参数进行传输,然后在接受端再进行解码,恢复与重构,其目的就是在保证一定的话音质量的前提下节省传输带宽。
一般来说,语音信号的频谱集中在300—3400Hz的范围内,则其对应的采样频率一般为8KHz。此外,语音信号还有另外一个重要特点就是它的短时性,即认为在一段短时间内(典型为5—50ms ),语音信号有保持相对稳定的特性,这便于我们提取其中的参数。
语音信号的基木组成单位为音素,可以分为“浊音”和“清音”,一般在短时分析的基础上分析一段语音属于哪一类音素,它可以看作是由声带振动或不经声带振动来产生。“浊音”一般对应汉语拼音中的韵母,它是由声带振动产生的,有明显的周期性,可用一周期脉冲发生器进行近似;“清音”一般对应汉语拼音中的声母,不由声带振动产生的,类似于一个随机噪声。
在说话的时候,声门处的气流冲击声带产生振动,然后通过声道响应变成语音。声道是一个分布参数系统,它有许多自然谐振频率,称为共振峰频率,是声道的重要声学特征。语音的频率特性主要是由共振峰决定的,当声音沿着声管传播时,其频谱形状就会随着声管而改变。声门脉冲序列具有丰富的谐波成分,这些频率成分与声道的共振峰频率之间相互作用的结果对语音的音质具有很大的影响。
语音信号压缩的基本依据是根据语音信号和人的听觉特性得到的。
①语音信号的产生机理和结构性质表明,其自身存在着很大的冗余度,语音压缩本质上就是通过识别这些冗余度并设法去掉它们,从而达到压缩比特率的目的。语音信号的冗余度归纳起来主要体现在:
1)语音信号样本间相关性很强,即其短时谱是不平的;
2)浊音语音段具有准周期性;
3)声道形状及其变化的速率是有限的;
4)传输码值的概率分布是非均匀的。
②人的听觉具有“掩蔽”特点:
1)一个强的音能抑制一个同时存在的弱音的听觉;
2)人的听觉对低频端比较敏感;
3)人的听觉对信号的相频特性很不敏感。
3 语音编码技术
3.1语音编码的提出
随着人们对多媒体通信要求的日益提高,现代通信网的传输量越来越大,媒体压缩技术迅速发展。语音压缩技术也处于不断发展中,实用系统的最低压缩速率已经达到2.4kbps甚至更低,在大大节省信道带宽的同时还保证了话音质量。由于大容量通信信道的引入,一段时间内曾认为语音压缩技术已没有研究的必要,因为语音压缩量相对于光纤信道容量来说已微不足道。实际上,光纤信道目前也只是在骨干网上得到应用,在接入网及支线的大规模应用仍需一定时间。另外,无线领域的信道带宽始终是一个突出的问题。由此可见低速率语音编码技术仍然有广泛的应用前景。
3.2语音编码技术的类别
语音数字化的技术基本可以分为两大类:第一类方法是在尽可能遵循波形的前提下,将模拟波形进行数字化编码;第二类方法是对模拟波形进行一定处理,因此,语音编码的方法归纳起来可以分成三大类:波形编码、参数编码和混合编码。
①波形编码
语音信号的波形编码力图使重建语音波形保持原始语音信号的波形形状,也即失真要最小。这类编码器通常将语音信号作为一般的波形信号来处理,它具有适应能力强,语音质量好等优点,但所需用的编码速率高。脉冲编码调制(PCM),自适增量调制(ADM)、自适差分编码(ADPCM)、自适应预测编码(APC)、自适应子带编码(ASBC)、自适应变换编码(ATC)等都属于这类编码器。它们分别在64-16kb/s 的速率上能给出高的编码质量。当速率进一步降低时,其性能会下降较快。
②参数编码
参数编码又称为声码化编码、模型编码。同波形编码不一样,参数编码通过对语音信号特征参数的提取及编码,力图使重建语音信号具有尽可能高的可读性,即保持原语音的语意,而重建信号的波形同原语音信号的波形可能会有相当大的差别。这类编码器的优点是编码速率低,例如可以低到2.4Kb/s,甚至2.4Kb/s以下,它的主要问题是合成语音质量差,特别是自然度较低,连熟人都不一定能听出讲话人是谁。另外,它对讲话噪声敏感,需要安静的讲话环境。这类编码器有通道声码器,共振峰声码器及线性预测声码器。
③混合编码
混合编码是近年来提出的一类新的语音编码技术,它将波形和参数编码结合