视频压缩算法 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

视频压缩算法的相关知识

MPEG-1

MPEG 视频压缩编码后包括三种元素：I帧（I-frames）、P帧（P-frames）和B 帧（B-frames）。在MPEG编码的过程中，部分视频帧序列压缩成为I帧；部分压缩成P帧；还有部分压缩成B帧。I帧法是帧内压缩法，也称为“关键帧”压缩法。I帧法是基于离散余弦变换DCT（Discrete Cosine Transform ）的压缩技术，这种算法与JPEG压缩算法类似。采用I帧压缩可达到1/6的压缩比而无明显的压缩痕迹。

在保证图像质量的前提下实现高压缩的压缩算法，仅靠帧内压缩是不能实现的，MPEG采用了帧间和帧内相结合的压缩算法。P帧法是一种前向预测算法，它考虑相邻帧之间的相同信息或数据，也即考虑运动的特性进行帧间压缩。P帧法是根据本帧与相邻的前一帧（I帧或P帧）的不同点来压缩本帧数据。采取P帧和I帧联合压缩的方法可达到更高的压缩且无明显的压缩痕迹。

然而，只有采用B帧压缩才能达到200：1的高压缩。B帧法是双向预测的帧间压缩算法。当把一帧压缩成B帧时，它根据相邻的前一帧、本帧以及后一帧数据的不同点来压缩本帧，也即仅记录本帧与前后帧的差值。B帧数据只有I帧数据的百分之十五、P帧数据的百分之五十以下。

MPEG 标准采用类似4：2：2的采用格式，压缩后亮度信号的分辨率为352×240，两个色度信号分辨率均为176×120，这两种不同分辨率信息的帧率都是每秒30帧。其编码的基本方法是在单位时间内，首先采集并压缩第一帧的图像为I帧。然后对于其后的各帧，在对单帧图像进行有效压缩的基础上，只存储其相对于前后帧发生变化的部分。帧间压缩的过程中也常间隔采用帧内压缩法，由于帧内（关键帧）的压缩不基于前一帧，一般每隔15帧设一关键帧，这样可以减少相关前一帧压缩的误差积累。MPEG编码器首先要决定压缩当前帧为I帧或P帧或B 帧，然后采用相应的算法对其进行压缩。一个视频序列经MPEG全编码压缩后可能的格式为：IBBPBBPBBPBBPBBIBBPBBPBBPBBPBBI......

压缩成B帧或P帧要比压缩成I帧需要多得多的计算处理时间。有的编码器不具备B帧甚至P帧的压缩功能，显然其压缩效果不会很好。

MPEG-2

MPEG 组织在1994年推出MPEG-2压缩标准，以实现视/音频服务与应用互操作的可能性。MPEG-2标准是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定，编码码率从每秒3兆比特～100兆比特，标准的正式规范在ISO/IEC13818中。MPEG-2不是MPEG-1的简单升级，MPEG-2在系统和传送方面作了更加详细的规定和进一步的完善。MPEG-2特别适用于广播级的数字电视的编码和传送，被认定为SDTV和HDTV的编码标准。MPEG-2还专门规定了多路节目的复分接方式。MPEG-2标准目前分为9个部分，统称为ISO/IEC13818国际标准。

MPEG -2图像压缩的原理是利用了图像中的两种特性：空间相关性和时间相关性。一帧图像内的任何一个场景都是由若干像素点构成的，因此一个像素通常与它周围的某些像素在亮度和色度上存在一定的关系，这种关系叫作空间相关性；一个节目中的一个情节常常由若干帧连续图像组成的图像序列构成，一个图像序列中前后帧图像间也存在一定的关系，这种关系叫作时间相关性。这两种相关性使得图像中存在大量的冗余信息。如果我们能将这些冗余信息去除，只保留少量非相关信息进行传输，就可以大大节省传输频带。而接收机利用这些非相关信息，按照一定的解码算法，可以在保证一定的图像质量的前提下恢复原始图像。一个好的压缩编码方案就是能够最大限度地去除图像中的冗余信息。

MPEG-2的编码图像被分为三类，分别称为I帧，P帧和B帧。

I帧图像采用帧内编码方式，即只利用了单帧图像内的空间相关性，而没有利用时间相关性。I帧使用帧内压缩，不使用运动补偿，由于I帧不依赖其它帧，所以是随机存取的入点，同时是解码的基准帧。I帧主要用于接收机的初始化和信

道的获取，以及节目的切换和插入，I帧图像的压缩倍数相对较低。I帧图像是周期性出现在图像序列中的，出现频率可由编码器选择。

P帧和B帧图像采用帧间编码方式，即同时利用了空间和时间上的相关性。P帧图像只采用前向时间预测，可以提高压缩效率和图像质量。P帧图像中可以包含帧内编码的部分，即P帧中的每一个宏块可以是前向预测，也可以是帧内编码。B帧图像采用双向时间预测，可以大大提高压缩倍数。值得注意的是，由于B 帧图像采用了未来帧作为参考，因此MPEG-2编码码流中图像帧的传输顺序和显示顺序是不同的。

P 帧和B帧图像采用帧间编码方式，即同时利用了空间和时间上的相关性。P帧图像只采用前向时间预测，可以提高压缩效率和图像质量。P帧图像中可以包含帧内编码的部分，即P帧中的每一个宏块可以是前向预测，也可以是帧内编码。B帧图像采用双向时间预测，可以大大提高压缩倍数。值得注意的是，由于B 帧图像采用了未来帧作为参考，因此MPEG-2编码码流中图像帧的传输顺序和显示顺序是不同的。

MPEG-2的编码码流分为六个层次。为更好地表示编码数据，MPEG-2用句法规定了一个层次性结构。它分为六层，自上到下分别是：图像序列层、图像组(GOP)、图像、宏块条、宏块、块。

MPEG-4

MPEG －4于1998年11月公布，MPEG－4是针对一定比特率下的视频、音频编码，更加注重多媒体系统的交互性和灵活性。MPEG－4标准力求做到两个目标：低比特率下的多媒体通信；是多工业的多媒体通信的综合。为此，MPEG－4引入了A V对象（Audio/Visual Objects），使得更多的交互操作成为可能：

"A V对象"可以是一个孤立的人，也可以是这个人的语音或一段背景音乐等。它具有高效编码、高效存储与传播及可交互操作的特性。

MPEG －4对A V对象的操作主要有：采用A V对象来表示听觉、视觉或者视听组合内容；组合已有的A V对象来生成复合的A V对象，并由此生成A V场景；对A V对象的数据灵活地多路合成与同步，以便选择合适的网络来传输这些A V 对象数据；允许接收端的用户在A V场景中对A V对象进行交互操作等。MPEG－4标准则由6个主要部分构成：

①DMIF（The Dellivery Multimedia Integration Framework）

DMIF 即多媒体传送整体框架，它主要解决交互网络中、广播环境下以及磁盘应用中多媒体应用的操作问题。通过传输多路合成比特信息来建立客户端和服务器端的交互和传输。通过DMIF，MPEG4可以建立起具有特殊品质服务（QoS）的信道和面向每个基本流的带宽。

②数据平面

MPEG4中的数据平面可以分为两部分：传输关系部分和媒体关系部分。

为了使基本流和A V对象在同一场景中出现，MPEG4引用了对象描述（OD）和流图桌面（SMT）的概念。OD 传输与特殊A V对象相关的基本流的信息流图。桌面把每一个流与一个CAT（Channel Assosiation Tag）相连，CAT可实现该流的顺利传输。

③缓冲区管理和实时识别

MPEG4定义了一个系统解码模式（SDM），该解码模式描述了一种理想的处理比特流句法语义的解码装置，它要求特殊的缓冲区和实时模式。通过有效地管理，可以更好地利用有限的缓冲区空间。

④音频编码

MPEG4的优越之处在于--它不仅支持自然声音，而且支持合成声音。MPEG4的音频部分将音频的合成编码和自然声音的编码相结合，并支持音频的对象特征。

⑤视频编码

与音频编码类似，MPEG4也支持对自然和合成的视觉对象的编码。合成的视觉对象包括2D、3D 动画和人面部表情动画等。

⑥场景描述

MPEG4 提供了一系列工具，用于组成场景中的一组对象。一些必要的合成信息就组成了场景描述，这些场景描述以二进制格式BIFS（Binary Format for Scene