DCT算法的相关知识与原理

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

DCT变换后的数据

左上角是低频

右下角是高频

忽略了高频（量化），并且用ZigZag方式排列DCT系数，前几个都是比较大的值，后面都是0

这种有规律的排列就可以找出规律压缩（游程编码）

对直流分量进行的是Huffman编码

DCT和FFT有关联，反正可以变到频域

色度和亮度原来也是二进制的，只不过随机一些

DCT本身不是用来压缩的，只是把数据组织得便于压缩而已，特别是用于有损压缩。

DCT变换后的数据如果不经量化，再反变换后是可以无损还原的。

简而言之，DCT变换后的数据，左上角的非常重要，要精确存储，右下角的可以粗略存储，甚至扔掉也没关系。

图象压缩（JPEG）编码算法及压缩过程的实现

摘要

本文首先介绍了静态图像压缩（JPEG）编码算法的基本原理、压缩的实现过程及其重要过程的离散余弦变换（DCT）算法的实现原理及软件实现的例程，其次着重介绍了压缩过程中的DCT、量化和编码三个重要步骤的实现原理。

关键词：图像压缩有损压缩JPEG 离散余弦变换DCT 量化

第一章图像压缩编码的综述

1.1 图象压缩的目的和方法

图象的数字化表示使得图象信号可以高质量地传输，并便于图像的检索、分析、处理和存储。但是数字图像的表示需要大量的数据，必须进行数据的压缩。即使采用多种方法对数据进行了压缩，其数据量仍然巨大，对传输介质、传输方法和存储介质的要求较高。因此图象压缩编码技术的研究显得特别有意义，也正是由于图象压缩编码技术及传输技术的不断发展、更新，推动了现代多媒体技术应用的迅速发展。

1.1.1 图象压缩的目的

图象采样后，如果对之进行简单的8bit量化和PCM编码，其数据量是巨大的。以CIF（Common Intermediate Format）格式的彩色视频信号为例，若采样速率为25帧/秒，采样样点的Y、U、V分量均为8bit量化，则一秒钟的数据量为：

352×288×3×8×25＝60.83Mbit

要传输或存储这样大的数据量是非常困难的，必需对其进行压缩编码，在满足实际需要的前提下，尽量减少要传输或存储的数据量。

虽然数字图象的数据量巨大，但图象数据是高度相关的。一幅图象的内部相邻象素之间，相邻行之间的视频序列中相邻图象之间有大量冗余信息—空间相关性和时间相关性，可以使用各种方法尽量去除这些冗余信息，减少图象的数据量。

除了时间冗余和空间冗余外，在一般的图象数据中还存在信息熵冗余、结构冗余、知识冗余和视觉冗余。各种冗余就是压缩图象数据的出发点。图象编码的目的就在于采用各种方法去除冗余，以尽量少的数据量来表示个重建图象。

1.1.2图象压缩的几种方法

1.统计和字典的压缩方法

常规程序和计算机熵的数据对于那些基于利用统计变种的压缩，效果很好，这些统计变种表现在单个符号的频率以及符号或短语字符串的频率等方面，而基于字典的系统实际山就是假扮统计程序。可是遗憾的是，这类压缩对于连续色调图象的作用并不很好。

这些程序的主要问题产生于这样的一个事实：照片图象的象素广泛地分布在整个范围。如果将图象中的彩色用频率分布画出，那么频率分布图中，没有我们在统计压缩的成功的情况下所看到的“尖峰”状，实际上，如果延长这个分布图，那么从类似于电视那样的生活图象源中得出的分布图会趋于平展。这意味着，每个象素代码彼此是大约相同的出现机会，决定不存在挖掘熵差的任何机会。

基于字典的压缩程序的运行也有类似的问题，基于扫描照片的图象决定没有任何类型的数据特征以产生相同的短语的多次出现。例如，一个栅格化的图象，类似房子墙边的垂直部分，在图片的许多连续的行中可能可以给出相似的字符串。但不幸的是，由于真实世界是变化多端的，每行中的相同的性能将彼此地略有不同，对于20个象素的

一个字符串，其中的一两个象素会因扫描而彼此出现一步长的变化，虽然这些不同点小到人眼不能探测或对人眼不起作用，但他们毕竟妨碍了基于字典压缩的工作，对于这类压缩方法来说，字符串必须严格匹配，由于小的变化，而使匹配的字符串长度趋于很小，这就限制了压缩的效率。

2.有损压缩

类似于音频数据，图形图象也同样有一个比常规计算机数据文件优越的地方：在压缩/扩展的循环中，他们可以被略微改动，而不会影响用户的立即质量。如果仔细修改，那么各处象素的精确灰度可以完全不被注意地进行小的改变。由于计算机栅的图形图象通常来自对真实世界源的扫描，所有他们通常表达一个已经不完美的照片的表达或是不完美的其他打印接着的表达。没有改变图象基本性能的有损压缩程序应该是可行的。

假设图形图象的有损压缩是可能的，那么它是如何实现的呢？研究人员最初试验了用于语音信号的同样的技术，如差分编码和自适应编码，虽然这些技术对图象有帮助，但并没有达到所希望的那么好，原因之一是音频数据和视频数据根本不同。

用常规格式采样的音频数据是趋于反复的，声音，包括讲话，是由每次几秒的重复的正弦波组成的。虽然计算机上DAC的输入流可能由许多不同的频率叠加在一起而成，但是正弦波通常产生反复的波形。

音频反复的本性自然使他利于压缩，线性预言编码和自适应差分脉冲编码调制等技术就利于了这一点，因此将音频数据流压缩了50％到95％。

但开始研究图形压缩时，人们也试图用相似的技术压缩数字化的图象，取得了一些成功。最初，研究人员进行栅格化数据流的压缩，如显示在电视机栅的数据。

图形数据栅格化时，图形显示成一个象素流，每次一行地显示在屏幕上，从左到右，从上到下。这样，当完成一行时，图片的一个细片就画出了，直到整个屏幕填满。数字化时，象素可以使用从1位到24位，如今的琢磨图形常常使用8位来定义一个象素。

3.差分调制

差分调制依赖余模拟数据趋于“平缓”

的变化，信号幅度撒谎那个的大的跳变是例外，而不是常规。在音频数据中，只要信号的采样率一定程度地高于信息本身的最大的频率分量，那么大的跳变就不会产生。

音频信号的差分调制通过编码一个样点与前一个样点的不同来利用这一个特点。例如，如果单频样点位8位，差分编码系统可能用4位来编码样点之差，这就将输入数据压缩了50％。这种压缩方法中所产生的损失是来自于：使用标准的差分方法不可能总是精确地编码。信号的增长可能快于比编码的允许，或者，编码可能太粗而不能容纳下的差别，差分编码的有损性可以很好的处理，以产生出好的信号。

当压缩图形数据时，差分调制有很多问题。首先，图形中的象素依赖于平缓的增加或减少时不可靠的，一幅图中不同的分量间的明显界限时常有的事情。这意味着，使用差分编码的系统需要接受样点间的大的不同和小的不同。这就限制了压缩的效率。带有数据长结构的许多图象可以压缩的很好。长结构中的象素，彼此之间没有什么差别或差别很少；但时，带有突变部分的那些图象不可能压缩的很好。

通常，图形图象的差分的编码似乎不产生非常强于最好的无损算法的压缩结果，他当然也不会产生所需要的、对压缩的数量级上的改进。

4.自适应编码

自适应编码（常常于差分编码一同使用）根据前面看到的一些象素而对将要到来的一些象素的信息做预言。例如，如果一幅灰度级照片中的最新的十个象素的值都在45到50之间，那么自适应压缩系统可能预言，下一个象素很大可能也在这个范围中，之后，类似于霍夫曼或算术编码那样的基于熵的编码方案可能给将来到来的各种代码赋以概率值。可以代替地使用压缩－扩展方法，将最细的粒度赋给最接近预言猜测的范围。

第二章JPEG编码算法

2.1JPEG压缩编码基础

七十年代末八十年代初，研究工作开始着眼于新的图像压缩类型，希望能够大大地优于前面所讨论过的那些非常一般的压缩技术。到八十年代末，开始可为桌面系统的图像处理而寻找应用的工作，大多是是为UNIX和Macintosh工作站