信息论基础——数据压缩

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据压缩-理论
另外值得一提的是 LZR (LZ-Renau) 方法,它是 Zip 方法的基础。LZ R方法使用基于表格的压缩模 型,其中表格中的条目用重复的数据串替换。对于大 多数的 LZ 方法来说,这个表格是从最初的输入数据 动态生成的。这个表格经常采用霍夫曼编码维护(例 如,SHRI、LZX)。 目前一个性能良好基于 LZ 的 编码机制是 LZX,它用于微软公司的 CAB 格式。
数据压缩-理论
最好的压缩工具将概率模型预测结果用于算术编码。 算术编码由 Jorma Rissanen 发明,并且由 Witten、 Neal 以及 Cleary 将它转变成一个实用的方法。这种 方法能够实现比众人皆知的哈夫曼算法更好的压缩, 并且它本身非常适合于自适应数据压缩,自适应数据 压缩的预测与上下文密切相关。算术编码已经用于二 值图像压缩标准 JBIG、文档压缩标准 DejaVu。文本 输入系统 Dasher 是一个逆算术编码器。
数据压缩-应用
一种非常简单的压缩方法是行程长度编码,这种 方法使用数据及数据长度这样简单的编码代替同样 的连续数据,这是无损数据压缩的一个实例。这种 方法经常用于办公计算机以更好地利用磁盘空间、 或者更好地利用计算机网络中的带宽。对于电子表 格、文本、可执行文件等这样的符号数据来说,无 损是一个非常关键的要求,因为除了一些有限的情 况,大多数情况下即使是一个数据位的变化都是无 法接受的。
数据压缩-类型
有损压缩和无损压缩(图片格式 )
无损压缩 无损压缩的基本原理是相同的颜色信 息只需保存一次。压缩图像的软件首先会确定图像 中哪些区域是相同的,哪些是不同的。包括了重复 数据的图像(如蓝天)就可以被压缩,只有蓝天的起 始点和终结点需要被记录下来。但是蓝色可能还会 有不同的深浅,天空有时也可能被树木、山峰或其 他的对象掩盖,这些就需要另外记录。从本质上看, 无损压缩的方法可以删除一些重复数据,大大减少 要在磁盘上保存的图像尺寸。
香农-费诺码 LZW算法
等长码
定义: 设χ为信源字母表,Ц={0,1,…,D-1}为D 进码元(码符号)集. 分 映射f : χn→Цk (x1 ,…, xn)→(u1 ,…, uk) 组 等长编码;若k不唯一,则为变长编码. 码 映射ψ: Цk →χn称为相应的译码; 称上述编码为D元码.
等长码
数据压缩-概要
由于可以帮助减少如硬盘空间与连接带宽这样 的昂贵资源的消耗,所以压缩非常重要,然而压缩 需要消耗信息处理资源,这也可能是费用昂贵的。 所以数据压缩机制的设计需要在压缩能力、失真度、 所需计算资源以及其它需要考虑的不同因素之间进 行折衷。
一些机制是可逆的,这样就可以恢复原始的数 据,这种机制称为无损数据压缩;另外一些机制为 了实现更高的压缩率允许一定程度的数据损失,这 种机制称为有损数据压缩。
数据压缩-概要
然而,经常有一些文件不能被无损数据压缩算法 压缩,实际上对于不含可以辨别样式的数据任何压 缩算法都不能压缩。试图压缩已经经过压缩的数据 通常得到的结果实际上是扩展数据,试图压缩经过 加密的数据通常也会得到这种结果。
实际上,有损数据压缩也会最终达到不能工作的 地步。我们来举一个极端的例子,压缩算法每次去 掉文件最后一个字节,那么经过这个算法不断的压 缩直至文件变空,压缩算法将不能继续工作。
数据压缩-类型
有损压缩和无损压缩(图片格式 ) 有损压缩 例如,对于蓝色天空背景上的一朵白 云,有损压缩的方法就是删除图像中景物边缘的某 些颜色部分。当在·屏幕上看这幅图时,大脑会利用 在景物上看到的颜色填补所丢失的颜色部分。利用 有损压缩技术,某些数据被有意地删除了,而被取 消的数据也不再恢复。 无可否认,利用有损压 缩技术可以大大地压缩文件的数据,但是会影响图 像质量。如果使用了有损压缩的图像仅在屏幕上显 示,可能对图像质量影响不太大,至少对于人类眼 睛的识别程度来说区别不大。可是,如果要把一幅 经过有损压缩技术处理的图像用高分辨率打印机打 印出来,那么图像质量就会有明显的受损痕迹。
数据压缩-目的
一、可以节省空间。 二、可以减少对带宽 的占用。
MPEG编码技术的基本原理 : MPEG数字视频编码技术实质上是一种统计方 法。在时间和空间方向上,视频列通常包含 统计冗余度。MPEG压缩技术所依赖的 基本 统计特性为像素之间(interpel)的相关性,这里 包含这样一个设想:即在各连续帧之间存在 简单的相关性平移运动。
数据压缩-理论
许多无损数据压缩系统都可以看作是四步模型,有 损数据压缩系统通常包含更多的步骤,例如它包括预 测、频率变换以及量化。
Lempel-Ziv(LZ)压缩方法是最流行的无损存储算 法之一。DEFLATE是 LZ 的一个变体,它针对解压 速度与压缩率进行了优化,虽然它的压缩速度可能非 常缓慢,PKZIP、gzip 以及 PNG 都在使用EFLATE。 LZW (Lempel-Ziv-Welch)是 Unisys 的专利,直到 2003年6月专利到期限,这种方法用于 GIF 图像。
数据压缩-应用
对于视频和音频数据,只要不损失数据的重要部 分一定程度的质量下降是可以接受的。通过利用人 类感知系统的局限,能够大幅度得节约存储空间并 且得到的结果质量与原பைடு நூலகம்数据质量相比并没有明显 的差别。这些有损数据压缩方法通常需要在压缩速 度、压缩数据大小以及质量损失这三者之间进行折衷。
有损图像压缩用于数码相机中,大幅度地提高了 存储能力,同时图像质量几乎没有降低。用于DVD的 有损MPEG-2编解码视频压缩也实现了类似的功能。
数据压缩-理论
压缩的理论基础是信息论(它与算法信息论密切相 关)以及率失真理论,这个领域的研究工作主要是由 Claude Shannon 奠定的,他在二十世纪四十年代末 期及五十年代早期发表了这方面的基础性的论文。
Doyle 和 Carlson 在2000年写道数据压缩“是所有 的 工程领域最简单、最优美的设计理论之一”。密码学 与编码理论也是密切相关的学科,数据压缩的思想与 统计推断也有很深的渊源。
最优码的存在性
数据压缩和信源编码
将信道编码和译码看成是信道的一部分, 而突出信源编码;
数据压缩和信源编码
通过信源编码,用尽可能少的信道符号来 表达信源,即对信源数据用最有效的表达 方式表达,尽可能减少编码后的数据的剩 余度;
数据压缩和信源编码
3.1 等长码 3.2 变长编码 3.3 哈夫曼码 3.4 算术码 3.5 通用信源编码 习题三
数据压缩-作用
通俗地说,就是用最少的数码来表示信号。 其作用是:能较快地传输各种信号,如 、Modem 通信等;在现有的通信干线并行开通更多的多媒体业 务,如各种增值业务;紧缩数据存储容量,如CD- ROM、VCD和DVD等;降低发信机功率,这对于多 媒体移动通信系统尤为重要。由此看来,通信时间、 传输带宽、存储空间甚至发射能量,都可能成为数据 压缩的对象。
有效输入信息文本的界面
数据压缩和信源编码
3.1 等长码 3.2 变长编码 3.3 哈夫曼码 3.4 算术码 3.5 通用信源编码 习题三
香农-费诺码 LZW算法
数据压缩和信源编码
信源编码定理(定理)
设X1,X2…为无记忆信源,服从共同分
布p(x) ,则 当码率R1nlogMH(X)时,存在码率为R的 编码,使得当n→∞时,误差码率Pe→0.
定义(续):
又称信源的信息率-信
源编码后平均每个码元载荷
f(xn)=uk称为码字,k为码长;的最大信息量
R=k/n∙logD称为f的编码速率,即码率;
由f编出的所有码字的集合称为码字集:
C={f(xn), xn € χn}
若任一码字只能被唯一译成所对应的信源
数据压缩-类型
有损压缩和无损压缩(图片格式 )
无损压缩 但是,无损压缩的方法并不能减少图 像的内存占用量,这是因为,当从磁盘上读取图像 时,软件又会把丢失的像素用适当的颜色信息填充 进来。如果要减少图像占用内存的容量,就必须使 用有损压缩方法。 无损压缩方法的优点是能够 比较好地保存图像的质量,但是相对来说这种方法 的压缩率比较低。但是,如果需要把图像用高分辨 率的打印机打印出来,最好还是使用无损压缩几乎 所有的图像文件都采用各自简化的格式名作为文件 扩展名。从扩展名就可知道这幅图像是按什么格式 存储的,应该用什么样的软件去读/写等等。
信息论基础——数据压缩
数据压缩
“数据压缩”在汉英词典中的解释: data compression (A method of reducing the amount of memory required to store data by encoding it and minimizing redundancy. Compressed data takes less time to transmit, but more computation time to restore it to its original form when needed for processing.)
数据压缩-概要
在计算机科学和信息论中,数据压缩或者信源编码 是按照特定的编码机制用比未经编码少的数据位元 (或者其它信息相关的单位)表示信息的过程。例 如,如果我们将“compression”编码为“comp”那么
这 篇文章可以用较少的数据位表示。一种流行的压缩 实例是许多计算机都在使用的ZIP 文件格式,它不仅 仅提供了压缩的功能,而且还作为归档工具Archiver) 使用,能够将许多文件存储到同一个文件中。
数据压缩-概要
对于任何形式的通信来说,只有当信息的发送 方和接受方都能够理解编码机制的时候压缩数据通 信才能够工作。例如,只有当接受方知道这篇文章 需要用英语字符解释的时候这篇文章才有意义。同 样,只有当接受方知道编码方法的时候他才能够理 解压缩数据。一些压缩算法利用了这个特性,在压 缩过程中对数据进行加密,例如利用密码加密,以 保证只有得到授权的一方才能正确地得到数据。
数据压缩-应用
在有损音频压缩中,心理声学的方法用来去除信号 中听不见或者很难听见的成分。人类语音的压缩经常 使用更加专业的技术,因此人们有时也将“语音压缩” 或者“语音编码”作为一个独立的研究领域与“音频
压 缩”区分开来。不同的音频和语音压缩标准都属于音 频编解码范畴。例如语音压缩用于因特网 ,而音 频压缩被用于CD翻录并且使用 MP3 播放器解码。
数据压缩-类型
有损压缩和无损压缩(图片格式 ) 有损压缩 有损压缩可以减少图像在内存和磁盘 中占用的空间,在屏幕上观看图像时,不会发现它 对图像的外观产生太大的不利影响。因为人的眼睛 对光线比较敏感,光线对景物的作用比颜色的作用 更为重要,这就是有损压缩技术的基本依据。 有损压缩的特点是保持颜色的逐渐变化,删除图像 中颜色的突然变化。生物学中的大量实验证明,人 类大脑会利用与附近最接近的颜色来填补所丢失的 颜色。
数据压缩-目的
一、可以节省空间。 二、可以减少对带宽的占用。
JPEG压缩编码技术的基本原理 : JPEG专家组开发了两种基本的压缩算法,一种是采 用以离散余弦变换(DCT-Discrete Cosine Transform) 为基础的有损压缩算法,另一种是以空间线性预测 技术(DPCM)为基础的无损压缩算法。现在应用 得较多的是有损压缩算法。 JPEG标准只处理单帧图像,而不必顾及到前后左右 帧,将每帧图像作为基础进行处理,利用了空间压 缩编码原理。
数据压缩-概要
数据压缩能够实现是因为多数现实世界的数据都有统计 冗余。例如,字母“e”在英语中比字母“z”更加常用,字母
“q” 后面是“z”的可能性非常小。无损压缩算法通常利用利用了
统 计冗余,这样就能更加简练地、但仍然是完整地表示发送方 的数据。
如果允许一定程度的保真度损失,那么还可以实现进一 步的压缩。例如,人们看图画或者电视画面的时候可能并不 会注意到一些细节并不完善。同样,两个音频录音采样序列 可能听起来一样,但实际上并不完全一样。有损压缩算法在 带来微小差别的情况下使用较少的位数表示图像、视频或者
相关文档
最新文档