杜比AC-3技术及其应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

杜比AC-3技术及其应用
摘要
音频编解码技术是多媒体信息处理领域的一个重要研究方向。

AC-3是第一个专门为编码多声道数字音频信号而设计的感知编码系统，具有较高的音质和较低的复杂度，现已广泛应用于各个领域，如DVD、高清电视HDTV、卫星数字广播DBS、数字视频广播DVB，ATSC等。

杜比AC- 3提供的数字音频压缩编码技术具有较高的编码效率; 而由 5 个全频域声道和 1 个超低音声道组成的AC- 3环绕声系统能完美再现高质量的立体声。

AC-3具有的5.1声道，分别是左、中、右、左环绕、右环绕和0.1低效果声频道，这里的左、右环绕声道是分别制作的独立声道，更具有现场感和真实感。

由于AC-3 系统编码灵活，在消费电子领域，目前大多数的电影制作都使用了该技术，美国等国家的数字电视系统也采用该技术作为音频编码标准。

本文主要研究了AC-3技术，其心理声学特性，以及AC-3技术在家庭影音中的应用。

关键词：杜比AC-3；编解码；心理声学；家庭影音
肖玉亮：杜比AC-3技术及其应用
Dolby AC-3 technology and its application
ABSTRACT
Audio decoding technology is multimedia information processing in one of the important research direction. AC-3 is the first to specifically for coding much channel digital audio signals and the perception of the coding system design, it is of high quality and low complexity, has been widely used in many fields, such as DVD, high definition television HDTV, satellite radio DBS, digital video digital radio DVB, ATSC, etc.
Dolby AC-3 provides the digital audio compression technology has high coding efficiency; And by the five whole frequency domain track and a low sound track of AC-3 surround system can perfect representation of high quality stereo. AC-3 has 5.1 channel, respectively is left, right, left, right around and around 0.1 channel sound less effect, the left and right surround sound channel is made separately independent track and has more annotating and realism.
Because AC-3 system code flexible, in the consumer area now, most of the movie making use of this technology, the United States and other countries digital TV system also USES the technology as audio coding standard.
This paper mainly studies the AC-3 technology, the psychological acoustic properties and AC-3 technology in the family of the application of the video.
Key words: DolbyAC-3;Coding and Decoding;Psychoacoustics; Family video
江西理工大学应用科学学院毕业设计
目录
第一章绪论 (1)
1.1引言 (1)
1.2研究背景 (1)
1.3研究意义 (2)
1.4论文结构 (2)
第二章音频编码解码基本概念 (3)
2.1数字音频格式简介 (3)
2.2音频压缩编码 (3)
2.3音频信息分类 (5)
2.3.1语音编码技术 (5)
2.3.2音乐的编码技术 (6)
2.4语音编解码目的 (6)
2.5在音频编解码的过程中会碰到的问题 (6)
第三章AC-3编解码技术 (8)
3.1什么是AC-3 (8)
3.2AC-3的基本原理 (8)
3.3AC-3编解码流程分析 (9)
3.3.1 AC-3 编码流程 (9)
3.3.2 AC-3 解码流程 (12)
3.4AC-3编解码器工作流程 (14)
肖玉亮：杜比AC-3技术及其应用
3.4.1编码器工作流程 (14)
3.4.2解码器工作流程................................. 错误！未定义书签。

3.4.3 AC-3音频帧结构 ............................... 错误！未定义书签。

3.5杜比AC-3的特点....................................... 错误！未定义书签。

第四章AC-3心理声学的研究................................ 错误！未定义书签。

4.1心理声学...................................................... 错误！未定义书签。

4.1.1临界频带............................................. 错误！未定义书签。

4.2.2听觉掩蔽............................................. 错误！未定义书签。

4.2心理声学的特点.......................................... 错误！未定义书签。

4.3AC-3的听觉心理特性................................. 错误！未定义书签。

第五章基于家庭影院中AC-3的研究.................... 错误！未定义书签。

5.1家庭影院的形成及普及.............................. 错误！未定义书签。

5.2家庭影院的环绕声系统.............................. 错误！未定义书签。

5.2.1杜比基本解码器................................. 错误！未定义书签。

5.2.2杜比定向逻辑解码器......................... 错误！未定义书签。

5.2.3杜比AC-3系统.................................. 错误！未定义书签。

5.3杜比虚拟环绕声技术.................................. 错误！未定义书签。

5.4杜比AC-3的特殊功能............................... 错误！未定义书签。

5.5杜比在家庭影院视图.................................. 错误！未定义书签。

第六章总结 .............................................................. 错误！未定义书签。

致谢 .......................................................................... 错误！未定义书签。

参考文献 .................................................................. 错误！未定义书签。

江西理工大学应用科学学院毕业设计
江西理工大学应用科学学院毕业设计
第一章绪论
1.1引言
数字技术的出现与应用为人类带来了深远的影响，人们如今已生活在一个几乎数字化的世界之中，而数字音频技术则称得上是应用最为广泛的数字技术之一，CD、VCD等早已走进千家万户，数字化广播正在全球范围内逐步得到开展[1]。

随着技术的不断进步和生活水准的不断提高，原有的立体声形式已不能满足受众对声音节目的欣赏要求，具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。

而在三维声音技术中最具代表性的就是多声道环绕声技术[2]。

杜比AC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。

在5.1声道的条件下，可将码率压缩至384kbps，压缩比约为10:1。

杜比AC-3最初是针对影院系统开发的，但目前已成为应用最为广泛的环绕声压缩技术之一[3]。

在杜比AC-3中使用了许多先进的、行之有效的压缩技术如前/后向混合自适应比特分配、公共比特池、TDAC滤波、频谱包络编码、及低码率条件下使用的多声道高频耦合等。

而其中许多技术对其它的多声道环绕声压缩技术的发展都产生了一定的影响[9]。

可以说，AC-3的出现是杜比公司几十年来在声音降噪及编码技术方面的结晶（从一定的角度来看，编码技术实际上就是降低编码噪声影响的技术），在技术上它具有很强的优势。

因而即使作为一项专利技术，DolbyAC-3仍然在影院系统、HDTV、消费类电子产品（如LD、DVD）及直播卫星等方面获得了广泛的应用，得到了众多厂商的支持，成为业界事实上的标准[11]。

1.2研究背景
AC-3 技术起源于为高清晰度电视（High Definition TeleVision，HDTV）提供高质量声音。

美国联邦通信委员会（Federal Communication Committee，FCC）的高级电视咨询委员会（Advisory Committee on Advanced Television Service，ACATS）于1987 年开始美国HDTV 制式的研究。

最初的HDTV系统方案是模拟图象和数字声音传输，其中声音编码采用DolbyAC-1 数字音频编码算法。

AC-1通过4-2-4 多声道矩阵方式把声道数减少一半（这样就可以降低传输信道的带宽），然后采用增量调制技术进行数字编码。

因此，AC-1 的压缩比为2：1。

到1989 年，随着声音编码技术和数字信号处理器（Digital Signal Processor，DSP）的进步，AC-1 系统发展成为基于变换编码技术的AC-2 系统，在提高质量的同时，压缩比提高为4:1，但是多声道矩阵处理技术仍然保留着[6]。

为了最大限度地发挥矩阵方式的优势，必须把编码的信号再解码，而且要边监听效果边加以确认，对于电视现场节目，有时一次解码很难确认其效果，所以用两声道码率提供多声道编码性能的AC-3 系统由此诞生。

到了1991 年中期，AC-3 逐渐被公众所知，并被美国HDTV 组织所接受。

1993 年11 月，ACATS 正式批准大联盟（Great Alliance，GA）HDTV 系统采用AC-3 编码方案。

1994 年ATSC 的建议草案的声音部分采用AC-3 算法，1996 年底美国FCC 采纳ATSC DTV 标准，将AC-3 作为未来高清晰度电视的伴音标准。

北美及日本这些采用NTSC 制式的国家将Dolby AC-3 作为新一代影碟DVD 的音频标准。

事实上，AC-3 很
肖玉亮：杜比AC-3技术及其应用
快被其它国家接受为多声道音频编码标准。

DVD-ROM、个人计算机产品、家庭影院、数字有线电视系统以及一些直播卫星系统都采用AC-3 作为音频编解码器。

1.3研究意义
随着我国经济的高速发展，人民消费水平进一步提高，我国必将会形成一个庞大的数字家庭影院系统市场。

在这个大市场中，Dolby AC-3 是广泛使用的家庭影院环绕声系统，通过采用AC-3 宽带音频压缩技术，在数字家庭影院系统中实现了用十分之一的标准数字音频空间来存储高质量的多声道声音数据。

并且Dolby AC-3 在美国的HDTV，卫星数字广播，数字演播室等领域也广泛应用，潜力很大。

但我国具有自主知识产权的Dolby AC-3 编码器还极少，而且需求量较大的国产DVD 机中的解码芯片也几乎全为美国及日本的厂家所垄断，它限制着国内DVD 产业及音响产业的迅速发展。

因此研究AC-3 编解码技术对我国有着重大的现实意义，它既可以改变依赖进口的馗尬局面，也可以增强开发各种数字多媒体编解码器的能力[12]。

1.4论文结构
本论文的结构安排如下：
第一章绪论
简要的介绍了AC-3的发展前景，研究背景及意义。

第二章音频编码解码基本概念
本章对音频编解码的格式，压缩编解码，音频编码的分类和目的以及在音频编解码的过程中碰到的一些问题做了详细的介绍。

第三章AC-3编解码技术
本章对AC-3及其原理做了深入的阐述，并详细的分析了AC-3具体编解码流程和AC-3编码器的具体编解码流程。

并简单的概述了AC-3的一些特点。

第四章AC-3心理声学的研究
本章对AC-3与心理声学的关系进行了深入的剖析。

了解心理学的特点以及AC-3的心理特性，为研究基于家庭影院中AC-3做铺垫。

第五章基于家庭影院中AC-3的研究
本章简单的介绍了家庭影院的发展前景。

对AC-3在家庭影院中的环绕声系统做了深入的阐述。

并了解了AC-3在家庭影院中的一些特殊功能。

第六章结束语
本章概括总结了本文所作的工作，并给出下一步研究工作的方向。

江西理工大学应用科学学院毕业设计
第二章音频编码解码基本概念
2.1数字音频格式简介
目前数字音频领域流行的音频编码技术以数据量的压缩性能分为非压缩音频（如波形音频、MIDI 音频和CD 音频）和压缩音频（MPEG、AC-3、DTS 等）两类。

以下是几中常用的音频编码技术简介[13]。

（1）波形音频
波形音频编码是一种用于PC 机之间交换声音信息的常用音频编码技术。

波形音频是一种电子数字声音，一般用于存储各种非乐曲的音频数据，包括语音和音效。

播放波形文件时，不论音响设备是何种类型，都会听到相似的声音，唯一的差别是声音的质量。

波形音频文件的格式为RIFF 文件的一种，扩展名为.wav。

（2）MIDI 音频
MIDI 音频也是一种重要的多媒体组成元素。

MIDI 即乐器数字化接口，它是一种通信形式，提供了将电子乐器连结起来的手段和控制乐器所用的软硬件设备的规范，是电子音乐领域中相当重要的标准。

MIDI 音频格式文件的数据结构几乎都是位结构，以.mid 为扩展名。

（3）CD 音频
CD 音频通常被称为红皮书音频标准，即通过计算机的CD-ROM 驱动器来播放的CD 音乐。

CD 音频代表着高质量的数字音频信息，但其所需存储空间也最大。

（4）AC-3
杜比数码（又称作杜比环绕影音），是由美国杜比实验室开发的性能卓越的数字音频编码系统。

其中，AC-1 用于卫星通信和数码有线广播，AC-2 用于专业音频的传输和存储。

AC-3 采用了第三代ATC 技术，被成为感觉编码系统，它将特殊的心理音响知识、人耳效应的最新研究成果与先进的数码信号处理技术很好地结合起来，形成了这种数字多声道音频处理技术。

AC-3 系统开发的目的就是为了改善和提高三唯声场的重现能力。

（5）DTS
DTS 是美国DTS 公司开发成功的一种数字环绕声音响制式。

这种数字影院系统采用相干声学编码（CAC）方式，在声像定位和现场感等音响效果上明显优于传统环绕立体声。

和AC-3 一样也是基于多声道的编码技术，即通用 5.1 声道（三组全频立体声）。

2.2音频压缩编码
与传统的模拟技术相比，数字技术具有无法比拟的优点。

例如传输质量高；易于采用纠错编码技术提高抗干扰能力，易于大规模集成等。

由于模拟信号转换为数字信号后占用的带宽加宽，因此数字信号的带宽很宽。

这给传输和存储带来了不方便。

为此，数字压缩技术应运而生，避免了带宽的限制，使数字音频技术进入了一个更高的领域[15]。

所谓的数据压缩就是用最少的数码来表示多媒体信号。

多媒体数据压缩的方法本质上只有两类：无损压缩和有损压缩。

数据压缩的技术衡量标准主要有三点：压缩比要大、恢复后失真要小、压缩算法要简单，解压速度要快。

肖玉亮：杜比AC-3技术及其应用
（1）无损压缩算法
无损压缩是指能不失真地将数据信息恢复，其基本原理是统计压缩数据中的冗余（重复的数据部分）。

常用的无损压缩算法有RLE 行程编码、Hufmman 编码、算术编码、LZW 编码等。

（2）有损压缩算法
有损压缩是指不能将原始数据进行完全恢复的压缩技术。

有损压缩是压缩技术的重要方法。

其原理为人类视觉和听觉器官对图像和声音的某些频率成分不太敏感，有损压缩以牺牲这部分信息为代价换取了较高的压缩比。

研究表明，音频信号的频谱几乎都集中在中频段和低频段，在10kHz 以上的高频段中是很少的。

而音频数据压缩技术就是通过对音频信号进行实时的频谱分析去掉不存在频谱分量的那一段，或者，对频谱分量少的地方分配以较少的比特数。

另外，音频数据压缩技术积极地利用了人耳的听觉特性，在嘈杂环境中听不到耳语声的现象是掩蔽效应，利用这一效应就可以在存在幅度很大的声音时对其相邻频段分配较少的比特数，而对电平在掩蔽门限以下的信号根本就不分配比特数[7]。

迄今为止产生了许多开发音频信号的高效率编码。

其中具有代表性的就有根据尤利卡计划之一的1986 年数字音响地面广播系统开发计划开发的MUSICAM，向ISO-IEC/SC2/WG11 提议的ASPEC，ATAC 和SB-ADPCM，向CCIR 提议的日本广播协会的低频预测型子带编码，PHILIPS 公司和松下公司推出DCC 中所使用的PASC，美国杜比实验室开发研制的AC-3 的ATC 等。

这些编码技术普遍采用了一种当今最受瞩目的高效率编码技术，就是利用人耳的掩蔽效应和临界频带等听觉特性来进行子带编码和变换编码的方式。

所谓的高效率编码，就是通过某种手段来力图提高音频信号的传输效率的编码，其实质就是将量化过程中引入的量化噪声控制在掩蔽门限以下，从而使人耳感觉不到量化过程的存在。

高效率编码的方法大致可以分为两种：一种是着眼于去除冗余度来达到在无失真的前提条件下节约传输容量的目的；另一种就是降低信号的传输比特率，利用人耳的听觉特性使失真尽可能不被觉察出来[7]。

当前数字音频编码领域存在着不同的编码方案和实现方式，但基本的编码思路大同小异，如图2.1 所示[21]。

图 2.1 数字音频编码系统模型
对每一个声道中的PCM 音频信号，首先都要将它们映射到频域中。

这种时域到频域的映射可通过子带滤波器或变换滤波器组实现。

这两种方法的最大不同之处在于滤波器组中的频率分辨率不同。

每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值，然后由计算出的掩蔽门限值决定从公共比特池中分配给该声道的不同频率域中多少比特数，或由计算出的掩蔽门限值来决定那些频率范围内的量化噪声可引入而不需要去除。

最后将控制参数和辅助数据进行交织产生编码后的数据流。

解码过程则先将编码后的数据流进行解复用，然后通过比特流中传输的控制参数对音频数据进行反量化，或通过心理声学模型参数反向运算得到音频信号，最后得到的音频信号由频域反变换到时域，完成解码过程[21]。

2.3音频信息分类
对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。

音频信息在编码技术中通常分成两类来处理，分别是语音和音乐，各自采用的技术有差异。

2.3.1语音编码技术
语音编码技术又分为三类：波形编码、参数编码以及混合编码[27]。

（1）波形编码
波形编码是在时域上进行处理，力图使重建的语音波形保持原始语音信号的形状，它将语音信号作为一般的波形信号来处理，具有适应能力强、话音质量好等优点，缺点是压缩比偏低。

该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。

非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点，通过为小信号分配小的量化阶，为大信号分配大的量阶来减少总量化误差。

我们最常用的G.711标准用的就是这个技术。

自适应差分编码是利用过去的语音来预测当前的语音，只对它们的差进行编码，从而大大减少了编码数据的动态范围，节省了码率。

自适应量化技术是根据量化数据的动态范围来动态调整量阶，使得量阶与量化数据相匹配。

G.726标准中应用了这两项技术，G.722标准把语音分成高低两个子带，然后在每个子带中分别应用这两项技术。

（2）参数编码
广泛应用于军事领域。

利用语音信息产生的数学模型，提取语音信号的特征参量，并按照模型参数重构音频信号。

它只能收敛到模型约束的最好质量上，力图使重建语音信号具有尽可能高的可懂性，而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。

这种编码技术的优点是压缩比高，但重建音频信号的质量较差，自然度低，适用于窄带信道的语音通讯，如军事通讯、航空通讯等。

美国的军方标准LPC-10，就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。

MPEG-4标准中的HVXC声码器用的也是参数编码技术，当它在无声信号片段时，激励信号与在CELP时相似，都是通过一个码本索引和通过幅度信息描述；在发声信号片段时则应用了谐波综合，它是将基音和谐音的正弦振荡按照传输的基频进行综合。

（3）混合编码
将上述两种编码方法结合起来，采用混合编码的方法，可以在较低的数码率上得到较高的音质。

它的特点是它工作在非常低的比特率(4~16 kbps)。

混合编码器采用合成分析技术。

它的基本原理是合成分析法，将综合滤波器引入编码器，与分析器相结合，在编码器中将激励输入综合滤波器产生与译码器端完全一致的合成语音，然后将合成语音与原始语音相比较（波形编码思想），根据均方误差最小原则，求得最佳的激励信号，然后把激励信号以及分析出来的综合滤波器编码送给解码端。

这种得到综合滤波器和最佳激励的过程称为分析（得到语音参数）；用激励和综合滤波器合成语音的过程称为综合；由此我们可以看出CELP编码把参数编码和波形编码的优点结合在了一起，使得用较低码率产生较好的音质成为可能。

通过设计不同的码本和码本搜索技术，产生了很多编码标准，目前我们通讯中用到的大多数语音编码器都采用了混合编码技术。

例如在互联网上的G.723.1和G.729标准，在GSM上的EFR、HR标准，在3GPP2上的EVRC、QCELP标准，在3GPP
上的AMR-NB/WB标准等等。

2.3.2音乐的编码技术
音乐的编码技术主要有自适应变换编码（频域编码）、心理声学模型和熵编码等技术[27]。

（1）自适应变换编码
利用正交变换，把时域音频信号变换到另一个域，由于去相关的结果，变换域系数的能量集中在一个较小的范围，所以对变换域系数最佳量化后，可以实现码率的压缩。

理论上的最佳量化很难达到，通常采用自适应比特分配和自适应量化技术来对频域数据进行量化。

在MPEG layer3和AAC标准及Dolby AC-3标准中都使用了改进的余弦变换（MDCT）；在ITU G.722.1标准中则用的是重叠调制变换（MLT）。

本质上它们都是余弦变换的改进。

（2）心理声学模型
其基本思想是对信息量加以压缩，同时使失真尽可能不被觉察出来，利用人耳的掩蔽效应就可以达到此目的，即较弱的声音会被同时存在的较强的声音所掩盖，使得人耳无法听到。

在音频压缩编码中利用掩蔽效应，就可以通过给不同频率处的信号分量分配以不同的量化比特数的方法来控制量化噪声，使得噪声的能量低于掩蔽阈值，从而使得人耳感觉不到量化过程的存在。

在MPEG layer2、3和AAC标准及AC-3标准中都采用了心理声学模型，在目前的高质量音频标准中，心理声学模型是一个最有效的算法模型。

（3）熵编码
根据信息论的原理，可以找到最佳数据压缩编码的方法，数据压缩的理论极限是信息熵。

如果要求编码过程中不丢失信息量，即要求保存信息熵，这种信息保持编码叫熵编码，它是根据信息出现概率的分布特性而进行的，是一种无损数据压缩编码。

常用的有霍夫曼编码和算术编码。

在MPEG layer1、2、3和AAC标准及ITU G.722.1标准中都使用了霍夫曼编码；在MPEG4 BSAC工具中则使用了效率更高的算术编码。

2.4语音编解码目的
语音编解码器的主要功能就是把用户语音的PCM(脉冲编码调制)样值编码成少量的比特(帧)。

这种方法使得语音在链路产生误码、网络抖动和突发传输时具有鲁棒性(Robustness)。

在接收端，语音帧先被解码为PCM语音样值，然后再转换成语音波形。

2.5在音频编解码的过程中会碰到的问题
（1）回声抵消EC
AEC(adaptive echo canceller)是对扬声器信号与由它产生的多路径回声的相关性为基础，建立远端信号的语音模型，利用它对回声进行估计，并不断地修改滤波器的系数，使得估计值更加逼近真实的回声。

然后，将回声估计值从话筒的输入信号中减去，从而达到消除回声的目的，AEC还将话筒的输入与扬声器过去的值相比较，从而消除延长延迟的多次反射的声学回声。

根椐存储器存放的过去的扬声器的输出值的多少，AEC可以消除各种延迟的回声。

（2）混音
混音就是把两个以上的声音（文件形式或码流形式）混合为一个。

目前，混音主要有
硬件合成和软件叠加这两种方法。

为了防止混音后的溢出问题，一般采用的算法是累加取平均值，这种方法会产生声强失真现象。

加权叠加的算法可以有效解决这个问题，加权系数的优化成为这个算法的关键。

在多方会议时，混音还有一个策略的问题。

（3）背景噪声抑制ANS
背景噪音抑制的英文缩写为ANS（Automatic Noise Suppression）。

ANS可探测出背景固定频率的杂音并消除背景噪音，例如：风扇、空调声自动滤除。

呈现出与会者清晰的声音。

（4）静音压缩
电它利用了在总会话时间中静音时间占了大约50%这一事实。

其基本思路是在静音期间减少传送的比特数，从而节省了所需传输的总比特数。

在话网中，多年来对模拟语音信号都是用时间分配语音插值(TASI, Time-Assigned Speech Interpolation)方法进行处理。

这一技术也就是将其他语音信号或者数据信号放置在谈话的静音期间内，从而为多信道链路提供附加容量。

现今，TASI已被运用于数字信号中并被赋予新名称—其中的一个例子就是时分多址(TDMA, Time Division Multiple Access)。

简要地讲，TDMA是将通常的信号划分成很小的、数字化的片段(slots即时隙)。

这些时隙和其他时隙一起在一个信道中进行时分复用。

（5）自动增益控制AGC
AGC可以自动调麦克风的收音量，使与会者收到一定的音量水平，不会因发言者与麦克风的距离改变时，声音有忽大忽小声的缺点。

AGC可分为模拟AGC和数字AGC电路。

AGC环路可以放在模拟与数字电路之间，增益控制算法在数字部分来实现，合适的增益设置反馈给模拟可变增益放大器（VGA）。

AGC电路的实现有前馈、反馈和混合环路等三种。

（6）唇音同步
唇音同步是指语音和画面播放的时间差小于一定范围。

它实际上是一个牵涉多种技术的综合问题，包括编解码时延，网络QOS等等。

这里只针对关键的一个因素进行阐述：Internet是基于分组交换的传输技术，因此会出现语音包不会等时到达目的地的现象，表现在语音不连贯。

这就需要先对语音包进行排队，经过动态调整后使语音稳定输出。

一般采用jitter buffer等技术，使语音流畅清晰。

（7）包丢失隐藏PLC
包丢失隐藏(PLC)算法也被称为帧消除隐藏算法，它隐藏了音频系统的传输包丢失现象。

很多基于CELP算法的语音编码器都把PLC算法写入它们的算法中。

（8）PLC的目标
是产生一个合成的语音信号以替代在接收的码流中丢失(消除)的数据。

理想情况下，合成的信号会有和丢失信号同样的音质和频谱特性，并且不会产生不自然的伪音。

（9）PLC算法的依据
由于语音信号通常是局部静止的，所以可以利用以前的信号来产生对丢失语音段合理近似。

（10）PLC应用条件
丢失的包不是很长；丢失的包不发生在快速变化的区域内。

在满足PLC应用条件的前提下，包丢失可以完全被隐藏。