数据压缩技术PPT
合集下载
数据压缩课件人教中图版高中信息技术必修1
常见的有损压缩格式:MP3(音频数据压缩格式)、 JPEG/JPG(图像数据压缩格式)、MPEG/MPG(视频数据 压缩格式)等。
数据压缩的方法-有损压缩
常使用的有损压缩软件:格式工厂、CoolEditPro、 Photoshop等。
实践任务二
电脑中图片文件夹的4张BMP 图片文件不符合图片上传要求, 请按照上传格式进行压缩处理 (可使用格式工厂等软件)。
数据压缩的方法-无损压缩
无损压缩一般运用于文本、程序和特殊应用场合图像的压缩。
常使用的压缩方法有zip压缩算法、7z压缩算法等; 压缩软件:WinRAR软件、360压缩等; 压缩包:压缩后所生成的文件。 解压缩:压缩包的数据利用压缩软件还原,即恢复原始状态的过程。
实践任务一
要求:将电脑的数十张图片和 文档压缩成压缩包后通过社交工 具进行发送(可使用360压缩软 件、或WinRAR软件)。
ห้องสมุดไป่ตู้
实践任务一——操作流程
数据压缩的方法-有损压缩
有损压缩指在压缩过程中会损失一定的信息,压缩后 的数据无法还原成压缩前的样子。
其原理是利用了人类对图像或声波中的某些频率成分 不敏感的特性,允许压缩过程中损失一部分信息。所以 有损压缩常对图像、音频以及视频文件使用。
数据压缩的方法-有损压缩
有损压缩其实就相当于格式的转换,将内存大、清晰度高的 格式转换为内存小、清晰度较低而不影响使用的格式。
实践任务二——操作流程
课后练习
同学之间利用微信或QQ互相发送图片,讨 论点击原图发送和不点击原图发送的区别。
小结
数据压缩
日常生活中,你遇见过这样的问题吗?
日常生活中,你遇见过这样的问题吗?
思考
那什么是数据压缩呢?数据压缩的方法 有哪些?
数据压缩的方法-有损压缩
常使用的有损压缩软件:格式工厂、CoolEditPro、 Photoshop等。
实践任务二
电脑中图片文件夹的4张BMP 图片文件不符合图片上传要求, 请按照上传格式进行压缩处理 (可使用格式工厂等软件)。
数据压缩的方法-无损压缩
无损压缩一般运用于文本、程序和特殊应用场合图像的压缩。
常使用的压缩方法有zip压缩算法、7z压缩算法等; 压缩软件:WinRAR软件、360压缩等; 压缩包:压缩后所生成的文件。 解压缩:压缩包的数据利用压缩软件还原,即恢复原始状态的过程。
实践任务一
要求:将电脑的数十张图片和 文档压缩成压缩包后通过社交工 具进行发送(可使用360压缩软 件、或WinRAR软件)。
ห้องสมุดไป่ตู้
实践任务一——操作流程
数据压缩的方法-有损压缩
有损压缩指在压缩过程中会损失一定的信息,压缩后 的数据无法还原成压缩前的样子。
其原理是利用了人类对图像或声波中的某些频率成分 不敏感的特性,允许压缩过程中损失一部分信息。所以 有损压缩常对图像、音频以及视频文件使用。
数据压缩的方法-有损压缩
有损压缩其实就相当于格式的转换,将内存大、清晰度高的 格式转换为内存小、清晰度较低而不影响使用的格式。
实践任务二——操作流程
课后练习
同学之间利用微信或QQ互相发送图片,讨 论点击原图发送和不点击原图发送的区别。
小结
数据压缩
日常生活中,你遇见过这样的问题吗?
日常生活中,你遇见过这样的问题吗?
思考
那什么是数据压缩呢?数据压缩的方法 有哪些?
第三章 数据压缩的基本技术
3.2.2信源的相关性与序列熵的关系 平稳序列:序列中的各符号有相同的概率分布; 无记忆序列:序列中的各符号间为统计独立; 联合熵:又称序列熵,随机序列中包含两个符号X、Y, X、Y取自各自的离散信源,则新序列的平均信息量为
独立熵:离散信源X、Y如果统计独立,则H(X)、 H(Y)称为独立熵。 此时有:
逆DCT变换来重构原图像,不会引起明显误差,从而实 现数据压缩。
二维DCT变换
原图像 将基系数绝对值<10的分量置零 (DCT截断量化) 二维逆DCT变换 重构图像
图像清晰 (截断量化误差较小)
(数据压缩程度较小)
对DCT数据的截断量化示意图1
二维DCT变换
原图像 将基系数绝对值<100的分量置零 (DCT截断量化) 二维逆DCT变换 重构图像
•均匀量化(量化步长均匀);
•最小均方误差量化(非均匀量化,可使均方误差量化最
小);
•最小熵量化(使输出熵为最小值); •自适应量化(自动动态选择切换到步长不同的某一组均 匀量化器);
模数转换
模数转换,又称ADC(Analog-to-Digital Converter), 是将连续变化的、平滑的模拟量转化成采用二进制(0,1) 编码的数字量的过程。
i m i a 2 i n 1
其中 ai-取值只有两个数码:0和1 2i-为二进制的权,基数为2 n 为整数位的个数、m 为小数位的个数 如(11011.101)2=1×24 +1×23 +0×22 +1×21 +1×20
+1×2-1+0×2-2 +1×2-3 =(27.625)10
i m i a 10 i n 1
其中: ai-称为数制的系数,表示第i位的数码,十进制 数码为0 ~ 9 十个数; 10 i-表示第i位的权值,10为基数,即采用数码的 个数; n 为整数位的个数、m 为小数位的个数;
第3章 数据压缩技术
3.3 多媒体文件
• 除此之外,许多在电视中播放的电影现在也提供英文字幕, 使讲英语但是听力较弱的人可以观看,结果,数字电影实 际上可能由多个文件组成:一个视频文件、多个音频文件 以及多个包含各种语言字幕的文本文件。DVD能够存放至 多32种语言的字幕文件。
3.3 多媒体文件
• 因此,文件系统需要跟踪每个文件的多个“子文件”。一 种可能的方案是像传统的文件一样管理每个子文件(例如, 使用i节点来跟踪文件的块),并且要有一个新的数据结构 列出每个多媒体文件的全部子文件。另一方法是创造一种 二维的i节点,使每一列列出每个子文件的全部块。一般而 言,其组织必须能够使观众观看电影时可以动态地选择使 用哪个音频及字幕轨迹。在各种情况下,还必须有保持子 文件同步的某种方法,才能保证当选中的音频轨迹回放时 与视频保持同步。
Hale Waihona Puke 3.1 多媒体信息的计算机表示
• 多媒体信息的主要类型有文本(text)、语音(voice)、音 响(audio)、矢量图(vector graphics)、位图(bitmap) 和视频(video)等。 • 通常,数字化的视频和音频信号其数据量是十分巨大的。 例如,一幅640×480点阵的彩色图像(6位色,即65536种 颜色/像素)数据量约为4.92MB;对于电视信号,如果以每 秒25帧图像的速度进行播放,则要求这种信号必须以不低 于122.9Mb/s速度进行数据传输,才不至于造成失真;而音 频信号,如果采样频率为 44.1kHz,量化为16位双声道立体 声,则650MB的光盘只能存放l个小时的播放量,并且要求 其传输速率不低于1.4Mb/s。
• 说多媒体数据是可以被压缩的,是因为多媒体数据中存在 着上述各种各样的冗余。针对不同类型的冗余,人们已经 提出了许多方法用于实施对多媒体数据的压缩。
多媒体技术之数据无损压缩PPT课件
多媒体技术பைடு நூலகம்础(第3版)
第2章 数据无损压缩
2008年9月
第2章 数据无损压缩目录
2.1 数据的冗余
2.1.1 冗余概念 2.1.2 决策量 2.1.3 信息量 2.1.4 熵 2.1.5 数据冗余量
2.2 统计编码
2.2.1 香农-范诺编码 2.2.2 霍夫曼编码 2.2.3 算术编码
2.3 RLE编码 2.4 词典编码
三种多媒体数据类型
➢ 文字 (text)数据——无损压缩
根据数据本身的冗余(Based on data redundancy)
➢ 声音(audio)数据——有损压缩
根据数据本身的冗余(Based on data redundancy) 根据人的听觉系统特性( Based on human hearing system)
➢ 视听冗余
由于人的视觉系统和听觉系统的局限性,在图像数据和声 音数据中,有些数据确实是多余的,使用算法将其去掉后 并不会丢失实质性的信息或含义,对理解数据表达的信息 几乎没有影响
➢ 数据冗余
不考虑数据来源时,单纯数据集中也可能存在多余的数据, 去掉这些多余数据并不会丢失任何信息,这种冗余称为数 据冗余,而且还可定量表达
➢ 1948年创建的数学理论的一个分支学科,研究信息的编码、 传输和存储
➢ 该术语源于Claude Shannon (香农)发表的“A Mathematical Theory of Communication”论文题目,提议用二进制数据对信 息进行编码
➢ 最初只应用于通信工程领域,后来扩展到包括计算在内的其 他多个领域,如信息的存储、信息的检索等。在通信方面, 主要研究数据量、传输速率、信道容量、传输正确率等问题。
第2章 数据无损压缩
2008年9月
第2章 数据无损压缩目录
2.1 数据的冗余
2.1.1 冗余概念 2.1.2 决策量 2.1.3 信息量 2.1.4 熵 2.1.5 数据冗余量
2.2 统计编码
2.2.1 香农-范诺编码 2.2.2 霍夫曼编码 2.2.3 算术编码
2.3 RLE编码 2.4 词典编码
三种多媒体数据类型
➢ 文字 (text)数据——无损压缩
根据数据本身的冗余(Based on data redundancy)
➢ 声音(audio)数据——有损压缩
根据数据本身的冗余(Based on data redundancy) 根据人的听觉系统特性( Based on human hearing system)
➢ 视听冗余
由于人的视觉系统和听觉系统的局限性,在图像数据和声 音数据中,有些数据确实是多余的,使用算法将其去掉后 并不会丢失实质性的信息或含义,对理解数据表达的信息 几乎没有影响
➢ 数据冗余
不考虑数据来源时,单纯数据集中也可能存在多余的数据, 去掉这些多余数据并不会丢失任何信息,这种冗余称为数 据冗余,而且还可定量表达
➢ 1948年创建的数学理论的一个分支学科,研究信息的编码、 传输和存储
➢ 该术语源于Claude Shannon (香农)发表的“A Mathematical Theory of Communication”论文题目,提议用二进制数据对信 息进行编码
➢ 最初只应用于通信工程领域,后来扩展到包括计算在内的其 他多个领域,如信息的存储、信息的检索等。在通信方面, 主要研究数据量、传输速率、信道容量、传输正确率等问题。
《数据无损压缩》课件
《数据无损压缩》PPT课 件
数据无损压缩是一种重要的数据处理技术,本课件将向您介绍数据无损压缩 的概念、方法和应用,以及其优缺点和未来发展。
什么是数据无损压缩
数据无损压缩是一种将数据进行压缩存储的技术,目的是减少数据所占用的 空间,而不会丢失任何原始数据。
有损压缩与无损压缩的区别在于有损压缩会损失一部分数据,而无损压缩可 以完全还原原始数据。
等长编码
将数据按照固定长度进行编码,不考虑数据的 出现频率。
数据无损压缩技术应用
图像压缩
减少图像占用的存储空间,使图像在传输和存储过 程中更高效。
音频压缩
减少音频文件的大小,保持音质的同时提高传输和 存储效率。
视频压缩
实现对视频文件的压缩,使得视频在传输和播放过 程中更加流畅。
文本文件压缩
减少文本文件的大小,提高传输速度和存储效率。
总结
数据无损压缩的重要性及优点
数据无损压缩保证了数据的完整性,同时具有较高的压缩率,对各个领域的数据处理至关重 要。
不同压缩技术的适用领域
根据不同领域的需求,选择合适的压缩技术,如图像压缩、音频压缩等。
发展前景和挑战
数据无损压缩技术在未来将迎来更广阔的发展前景,但也面临着提高压缩效率和适应大规模 数据处理的挑战。
数据无损压缩通过一定的算法和编码方法,实现对数据的紧凑表示,从而节 省存储空间。
数据无损压缩的方法
字典编码
通过构建字典表,将数据序列映射为较短的编 码序列,从而实现数据的压缩。
游程编码
将连续出现的相同数据用一个数值和重复次数 表示,从而减少数据的存储空间。
霍夫曼编码
根据数据出现的频率,采用不等长的二进制编 码,将频率较高的数据用短编码表示。
数据无损压缩是一种重要的数据处理技术,本课件将向您介绍数据无损压缩 的概念、方法和应用,以及其优缺点和未来发展。
什么是数据无损压缩
数据无损压缩是一种将数据进行压缩存储的技术,目的是减少数据所占用的 空间,而不会丢失任何原始数据。
有损压缩与无损压缩的区别在于有损压缩会损失一部分数据,而无损压缩可 以完全还原原始数据。
等长编码
将数据按照固定长度进行编码,不考虑数据的 出现频率。
数据无损压缩技术应用
图像压缩
减少图像占用的存储空间,使图像在传输和存储过 程中更高效。
音频压缩
减少音频文件的大小,保持音质的同时提高传输和 存储效率。
视频压缩
实现对视频文件的压缩,使得视频在传输和播放过 程中更加流畅。
文本文件压缩
减少文本文件的大小,提高传输速度和存储效率。
总结
数据无损压缩的重要性及优点
数据无损压缩保证了数据的完整性,同时具有较高的压缩率,对各个领域的数据处理至关重 要。
不同压缩技术的适用领域
根据不同领域的需求,选择合适的压缩技术,如图像压缩、音频压缩等。
发展前景和挑战
数据无损压缩技术在未来将迎来更广阔的发展前景,但也面临着提高压缩效率和适应大规模 数据处理的挑战。
数据无损压缩通过一定的算法和编码方法,实现对数据的紧凑表示,从而节 省存储空间。
数据无损压缩的方法
字典编码
通过构建字典表,将数据序列映射为较短的编 码序列,从而实现数据的压缩。
游程编码
将连续出现的相同数据用一个数值和重复次数 表示,从而减少数据的存储空间。
霍夫曼编码
根据数据出现的频率,采用不等长的二进制编 码,将频率较高的数据用短编码表示。
第五讲 无损数据压缩
等长与不等长编码
• 例如:符号序列x=“aa bb cccc dddd eeeeeeee • 采用ASCII编码: 等长编码:24*8=192bit
– – – – – – a=01100001 b=01100010 c=01100011 d=01100100 e=01100101 空=00100000
技术准备:编码
通过模型,我们可以确定对某一个符号该用多少位二进制数进行编码。 现在的问题是,如何设计一种编码方案,使其尽量精确地用模型计算出 来的位数表示某个符号。
前缀编码规则:任何一个符号的编码都不是另一个符号编码的前缀。 最简单的前缀编码
字符 A B C D E 0 10 110 1110 11110 编码
字典编码时代:LZ77和LZ78压缩算法 字典编码时代:
LZW算法
Terry Welch
1984 年 发表论文:“高性能数据压缩技术” A Technique for High-Performance Data Compression Welch 实现了 LZ78 算法的一个变种 —— LZW算法 LZW算法 UNIX:使用 LZW 算法的 Compress 程序 MS-DOS:ARC 程序,以及PKWare、PKARC 等仿制品。
• 有损压缩
– 指使用压缩后的数据进行重构,重构后的数据与原来 的数据有所不同,但不影响人对原始资料表达的信息 造成误解。 – 图像和声音的压缩就可以采用有损压缩,因为其中包 含的数据往往多于我们的视觉系统和听觉系统所能接 收的信息,丢掉一些数据而不至于对声音或者图像所 表达的意思产生误解,但可大大提高压缩比。
Shannon-Fano编码例1
• 有一幅40个象素组成的灰度图像,灰度共有5级,分别用 符号A、B、C、D和E表示,40个象素中出现灰度A的象素 数有15个,出现灰度B的象素数有7个,出现灰度C的象素 数有7个等等。如果用3个位表示5个等级的灰度值,也就 是每个象素用3位表示,编码这幅图像总共需要120位。 符 号 A 出现的次数 15 H(S) = (15/40)* + (5/40) ∗ B 7 C 7 D 6 E 5
信息论基础-数据压缩
由于Huffman编码是前缀编码,所以没有歧义,可以直接 解码。
算术编码
1 2 3
基本原理
算术编码将输入的消息符号概率空间映射到实数 轴上的一个子区间,然后对子区间进行编码。
编码过程
首先计算输入消息的概率,然后根据概率计算出 子区间的长度,最后将子区间长度转换为二进制 编码。
解码过程
根据编码的二进制值找到对应的子区间,然后找 到对应的概率值,最后根据概率值还原出原始消 息。
03
常见的数理
Huffman编码是一种基于统计的压缩算法,它使用变长码 来对数据进行压缩。对于频繁出现的字符,使用较短的码; 对于不常出现的字符,使用较长的码。
编码过程
首先统计字符出现的频率,然后构建一个Huffman树,最 后根据Huffman树生成编码表。
解码过程
数据压缩可以应用于各种类型的数据, 如文本、图像、音频和视频等。
数据压缩的必要性
随着数据量的不断增加,存储和传输成本也相应增加,数据压缩可以有效降低存储 和传输成本。
数据压缩可以减少数据传输时间,提高数据传输效率,特别是在网络传输中具有重 要意义。
数据压缩可以保护隐私和机密信息,通过加密和压缩技术可以降低数据泄露的风险。
视频会议
视频压缩能够减小视频会议的数据传输量,提高会议的流畅度和清 晰度。
视频存储
通过压缩视频数据,可以减小视频文件的存储空间,降低存储成本。
文件压缩
减小文件大小
通过去除文件中的冗余数据,降低文件的存储空间,便于传输和 分享。
备份和恢复
压缩文件可以减小备份的数据量,加快备份速度,同时便于快速恢 复数据。
频率来压缩数据。
编码过程
02
首先统计每个字符的频率,然后将字符按照频率大小排序,最
算术编码
1 2 3
基本原理
算术编码将输入的消息符号概率空间映射到实数 轴上的一个子区间,然后对子区间进行编码。
编码过程
首先计算输入消息的概率,然后根据概率计算出 子区间的长度,最后将子区间长度转换为二进制 编码。
解码过程
根据编码的二进制值找到对应的子区间,然后找 到对应的概率值,最后根据概率值还原出原始消 息。
03
常见的数理
Huffman编码是一种基于统计的压缩算法,它使用变长码 来对数据进行压缩。对于频繁出现的字符,使用较短的码; 对于不常出现的字符,使用较长的码。
编码过程
首先统计字符出现的频率,然后构建一个Huffman树,最 后根据Huffman树生成编码表。
解码过程
数据压缩可以应用于各种类型的数据, 如文本、图像、音频和视频等。
数据压缩的必要性
随着数据量的不断增加,存储和传输成本也相应增加,数据压缩可以有效降低存储 和传输成本。
数据压缩可以减少数据传输时间,提高数据传输效率,特别是在网络传输中具有重 要意义。
数据压缩可以保护隐私和机密信息,通过加密和压缩技术可以降低数据泄露的风险。
视频会议
视频压缩能够减小视频会议的数据传输量,提高会议的流畅度和清 晰度。
视频存储
通过压缩视频数据,可以减小视频文件的存储空间,降低存储成本。
文件压缩
减小文件大小
通过去除文件中的冗余数据,降低文件的存储空间,便于传输和 分享。
备份和恢复
压缩文件可以减小备份的数据量,加快备份速度,同时便于快速恢 复数据。
频率来压缩数据。
编码过程
02
首先统计每个字符的频率,然后将字符按照频率大小排序,最
第6讲—第三章 数据压缩技术(2)
6
变换编码原理 ● 变换编码 (Transform coding) 卡胡南·劳埃夫变换 卡胡南 劳埃夫变换 有损压缩编码, 图像数据)的压缩 有损压缩编码,用于对统计冗余 (图像数据 的压缩。 离散傅里叶变换 图像数据 的压缩。 离散余弦变换 WHT变换 变换
● 工作原理 然后在频域上对变换后的信号进行编码。在频域上, 然后在频域上对变换后的信号进行编码。在频域上, 信息是按照频谱的能量和频率分布进行排列的。 信息是按照频谱的能量和频率分布进行排列的。 统计编码原理
编码方法得到的代码为: 用RLE编码方法得到的代码为:80315084180。 编码方法得到的代码为 。 ● 编码特点 [1] 适合于拥有大面积相同颜色区域的图像 出现极限情况,即每个相邻的像素颜色均不相同, [2] 出现极限情况,即每个相邻的像素颜色均不相同,这时经过 RLE压缩出来的数据串会比原数据串长一倍 压缩出来的数据串会比原数据串长一倍
12
算术编码原理 ● 算术编码 —— 无损压缩编码,属于统计编码。 无损压缩编码,属于统计编码。 20世纪 年代由 世纪60年代由 提出, 世纪 年代由Elias提出,某些方面优于霍夫曼编码。因此, 提出 某些方面优于霍夫曼编码。因此, 标准的扩展系统中, 在JPEG标准的扩展系统中,算术编码已经取代了霍夫曼编码。 标准的扩展系统中 算术编码已经取代了霍夫曼编码。 ● 基本原理 将被编码的信息表示成实数轴上0和 之间的间隔 信息越长,间隔越小, 之间的间隔, 将被编码的信息表示成实数轴上 和1之间的间隔,信息越长,间隔越小, 表示这一间隔所需的二进制位数就越多。 表示这一间隔所需的二进制位数就越多。 ● 特点 1) 算术编码有基于概率统计的固定模式,也有相对灵活的自适应模式。 算术编码有基于概率统计的固定模式,也有相对灵活的自适应模式。 2) 自适应模式适用于不进行概率统计的场合。 自适应模式适用于不进行概率统计的场合。 3) 当信号源符号的出现概率接近时,算术编码的效率高于霍夫曼编码。 当信号源符号的出现概率接近时,算术编码的效率高于霍夫曼编码。 4) 算术编码的实现相应地比霍夫曼编码复杂,但在图像测试中表明, 算术编码的实现相应地比霍夫曼编码复杂,但在图像测试中表明, 算术编码效率比霍夫曼编码效率高5%左右。 算术编码效率比霍夫曼编码效率高 %左右。
变换编码原理 ● 变换编码 (Transform coding) 卡胡南·劳埃夫变换 卡胡南 劳埃夫变换 有损压缩编码, 图像数据)的压缩 有损压缩编码,用于对统计冗余 (图像数据 的压缩。 离散傅里叶变换 图像数据 的压缩。 离散余弦变换 WHT变换 变换
● 工作原理 然后在频域上对变换后的信号进行编码。在频域上, 然后在频域上对变换后的信号进行编码。在频域上, 信息是按照频谱的能量和频率分布进行排列的。 信息是按照频谱的能量和频率分布进行排列的。 统计编码原理
编码方法得到的代码为: 用RLE编码方法得到的代码为:80315084180。 编码方法得到的代码为 。 ● 编码特点 [1] 适合于拥有大面积相同颜色区域的图像 出现极限情况,即每个相邻的像素颜色均不相同, [2] 出现极限情况,即每个相邻的像素颜色均不相同,这时经过 RLE压缩出来的数据串会比原数据串长一倍 压缩出来的数据串会比原数据串长一倍
12
算术编码原理 ● 算术编码 —— 无损压缩编码,属于统计编码。 无损压缩编码,属于统计编码。 20世纪 年代由 世纪60年代由 提出, 世纪 年代由Elias提出,某些方面优于霍夫曼编码。因此, 提出 某些方面优于霍夫曼编码。因此, 标准的扩展系统中, 在JPEG标准的扩展系统中,算术编码已经取代了霍夫曼编码。 标准的扩展系统中 算术编码已经取代了霍夫曼编码。 ● 基本原理 将被编码的信息表示成实数轴上0和 之间的间隔 信息越长,间隔越小, 之间的间隔, 将被编码的信息表示成实数轴上 和1之间的间隔,信息越长,间隔越小, 表示这一间隔所需的二进制位数就越多。 表示这一间隔所需的二进制位数就越多。 ● 特点 1) 算术编码有基于概率统计的固定模式,也有相对灵活的自适应模式。 算术编码有基于概率统计的固定模式,也有相对灵活的自适应模式。 2) 自适应模式适用于不进行概率统计的场合。 自适应模式适用于不进行概率统计的场合。 3) 当信号源符号的出现概率接近时,算术编码的效率高于霍夫曼编码。 当信号源符号的出现概率接近时,算术编码的效率高于霍夫曼编码。 4) 算术编码的实现相应地比霍夫曼编码复杂,但在图像测试中表明, 算术编码的实现相应地比霍夫曼编码复杂,但在图像测试中表明, 算术编码效率比霍夫曼编码效率高5%左右。 算术编码效率比霍夫曼编码效率高 %左右。
《数据压缩技术》课件
根据数据特点选择合适的压缩算 法,并对算法进行优化,提高压 缩效率。
后处理优化
在对数据进行解压缩后,对数据 进行处理和优化,提高数据使用 效率。
压缩技术在实际应用中的应用
压缩技术广泛应用于数据存储、网络传输、图像处理、音视频传输和存储等领域,提高了数据的传输和存储效 所有类型的数据,可能存在数据丢失、压缩时间过长、解压缩质量变差等风险。在采用压缩 技术时需注意数据的重要性和可恢复性。
数据压缩的未来发展方向
数据量的爆发式增长使得数据压缩技术更加重要,未来的发展方向包括优化 压缩算法、提高压缩质量、兼顾压缩和解压缩的效率等。
《数据压缩技术》PPT课 件
通过本课件,我们将详细介绍数据压缩的概念和意义,以及无损压缩算法、 有损压缩算法、压缩格式等内容。让我们一起探索数据压缩技术的奥秘与应 用。
数据压缩的概念和意义
数据压缩是将数据经过某种算法处理后,使得数据所占用的存储空间减少的技术。压缩数据既可以节省存储空 间,又可以提高数据传输效率。
霍夫曼压缩的步骤
2
据的无损压缩。
1. 统计字符频率
2. 构建霍夫曼树
3. 给每个字符分配霍夫曼编码
3
阿姆斯特朗-魏勒编码
4. 进行数据压缩
通过给出每个字符的变长编码,实现对数 据的无损压缩。
算术编码
4
利用统计概率,对每个字符进行编码,实 现对数据的无损压缩。
有损压缩算法
1
JPEG压缩
针对图像的有损压缩算法,通过分块、变换、量化和编码等步骤,实现对图像的 高压缩比率。
GZIP压缩格式
用于在网络传输中对数据进行压缩和解压缩的文件格式,节省传输带宽和减少传输时间。
压缩性能评估标准
压缩性能评估标准包括压缩比率、压缩速度、压缩质量、解压缩速度等指标,用于衡量压缩算法的效果。
后处理优化
在对数据进行解压缩后,对数据 进行处理和优化,提高数据使用 效率。
压缩技术在实际应用中的应用
压缩技术广泛应用于数据存储、网络传输、图像处理、音视频传输和存储等领域,提高了数据的传输和存储效 所有类型的数据,可能存在数据丢失、压缩时间过长、解压缩质量变差等风险。在采用压缩 技术时需注意数据的重要性和可恢复性。
数据压缩的未来发展方向
数据量的爆发式增长使得数据压缩技术更加重要,未来的发展方向包括优化 压缩算法、提高压缩质量、兼顾压缩和解压缩的效率等。
《数据压缩技术》PPT课 件
通过本课件,我们将详细介绍数据压缩的概念和意义,以及无损压缩算法、 有损压缩算法、压缩格式等内容。让我们一起探索数据压缩技术的奥秘与应 用。
数据压缩的概念和意义
数据压缩是将数据经过某种算法处理后,使得数据所占用的存储空间减少的技术。压缩数据既可以节省存储空 间,又可以提高数据传输效率。
霍夫曼压缩的步骤
2
据的无损压缩。
1. 统计字符频率
2. 构建霍夫曼树
3. 给每个字符分配霍夫曼编码
3
阿姆斯特朗-魏勒编码
4. 进行数据压缩
通过给出每个字符的变长编码,实现对数 据的无损压缩。
算术编码
4
利用统计概率,对每个字符进行编码,实 现对数据的无损压缩。
有损压缩算法
1
JPEG压缩
针对图像的有损压缩算法,通过分块、变换、量化和编码等步骤,实现对图像的 高压缩比率。
GZIP压缩格式
用于在网络传输中对数据进行压缩和解压缩的文件格式,节省传输带宽和减少传输时间。
压缩性能评估标准
压缩性能评估标准包括压缩比率、压缩速度、压缩质量、解压缩速度等指标,用于衡量压缩算法的效果。
10-2-2第二讲 数据压缩方法
如数字序列: 编码为:
742300000000000000000055 7423Z1855
统计编码
行程编码法 任何重复的字符序列可被一个短格式取代。 该算法适合于任何重复的字符。 一组 n 个连续的字符 c 将被 c 和一个特殊 的字符取代。当然,若给定字符仅重复两次就不 要用此方法。任何重复4次或4次以上的字符由 “该字符+记号(M)+重复次数”代替。
3.1.3 常用数据压缩方法的基本原理
(3) 霍夫曼编码
1952年Huffman提出了对统计独立信源能达到 最小平均码长的编码方法,也即最佳码。最佳性 可从理论上证明。 该编码是常见的一种统计编码。对给定的数 据流计算其每个字节的出现频率。根据频率表, 运用霍夫曼算法可确定分配各字符的最小位数, 然后给出一个最优的编码。
有失真压缩,大多数图像、声音、动态 视频等数据的压缩是采用有失真压缩。
图像压缩系统组成
有损压缩
输入图像
变换器 量化器 编码器
二进制流
无损压缩
输入图像 二进制流
变换器
ቤተ መጻሕፍቲ ባይዱ量化器
编码器
图像压缩系统组成
变换器: 把输入的图像数据加上一对一的变换,经过变换以 后所形成的图像数据比原始图像数据更有利于压缩。 量化器: 生成一组有限个符号用来表示压缩的图像。量化是 多到一的映射,是丢失信息和不可逆的。 编码器: 给量化器输出的每个符号指定一个码字,即生成二 进制位流。 定长编码:每个符号指定的码字具有相同的长度。 变长编码:根据符号出现的频率来决定为其指定码 字的长度,频率高则码字短,反之则长。
按解码后数据与原始数据是否完全一致性 分类 • 可逆编码:其压缩是完全可恢复的或没有偏 差的,解码图像与原始图像严格相同,也称 无损压缩法、无失真压缩法;
第二章 多媒体数据压缩技术
的一个间隔,信息越长,编码表示它的间隔就
越小,表示这一间隔所需的二进制位就越多。 2、编码方法:后一个编码字符是在前面编码字符 的范围内,利用原概率分配区间重新求解该编 码字符的范围。
33
2.2.2 常用无损压缩算法
3、编码过程举例:假设信源符号为{a,e,i,o,u},
这些符号的概率分别为{ 0.2, 0.3, 0.1, 0.2, 0.2 },根据这些概率可把间隔[0, 1)分成5个子 间隔(如下图): 字符 概率 范围 a 0.2 e 0.3 i 0.1 o 0.2 u 0.2
概述
(1)数据压缩研究主要集中于图像和视频信号的压缩 (2)数据压缩是以一定的质量损失为代价, 质量损失 一般都是在人眼允许的误差范围之内。 (3)压缩处理过程:
编码过程:将原始数据经过编码进行压缩,以便存 储与传输; 解码过程:对编码数据进行解码,还原为可以使用 的数据。
18
2.1
概述
四、衡量数据压缩技术的指标
第二章 多媒体数据压缩技术
2.1
概述
2.2
常用的数据压缩技术
1
2.1 概述
一、为什么要进行数据压缩
1. 多媒体信息数据量大
例:对语音信号来说(20HZ—4KHZ) 依据采样定理,设数字化精度为8bit,则1秒
数据量为:
4k 2 8b 64kb
2
2.1 概述
对动态图像信息来说,采用代表光强、色彩和饱 和度的YIQ彩色空间,如果带宽分别为: 4.2MHZ、1.5MHZ、0.5MHZ,则1秒钟数据量为:
(1)第一个字符e被编码时: rangelow=0.2, rangehigh=0.5 low=low+range*rangelow = 0+1*0.2=0.2, high=low+range*rangehigh=0+1*0.5=0.5 Range=high-low=0.5-0.2=0.3 此时分配给e的范围为[0.2,0.5)
第4章 多媒体数据压缩技术
行程长度编码是指将一系列的重复值(如像素值) 由一个单独的值和一个计数值代替的编码方法。行 程长度编码是一种无损压缩编码方法,它是视频压 缩编码中最简单、但十分常见的方法 。
如上图的行程长度编码可写为:白8黑5白3黑8白6……
2023/4/20
Multimedia Technology & Application
2023/4/20
Multimedia Technology & Application
24
4.2 静态图像的压缩标准JPEG
4.2.1 JPEG标准简介 4.2.2 JPEG标准中的主要技术 4.2.3 JPEG标准的压缩过程 4.2.4 JPEG2000
2023/4/20
Multimedia Technology & Application
8
方式3:不等长编码
考查字符串中不同字符出现的概率并对其重新定义一 个编码字如表4.2所示:
则其编码的总长度为:8×1+4×3×3+2×4×2=60(bit)
2023/4/20
Multimedia Technology & Application
9
4.1.3 常用的数据压缩方法
1.行程长度(也称游程长度编码)
2023/4/20
Multimedia Technology & Application
19
5.熵编码
2) 熵编码实例——哈夫曼编码
算法可描述为: (1) 对图像中出现的不同像素值进行概率统计,得到n个不同概率的信 息符号。 (2) 按符号出现的概率由大到小、由上到下排列。 (3) 对两个最低概率符号分别以二进制0、1赋值。 (4) 两最低概率相加后作为一个新符号的概率重新置入符号序列中。 (5) 对概率按从大到小重新排列。 (6) 重复(2)~(5),直到只剩下两个概率符号的序列。 (7) 分别以二进制0、1赋值后,以此为根结点,沿赋值的顺序的逆序依 次写出该路径上的二进制代码,得到哈夫曼编码。
如上图的行程长度编码可写为:白8黑5白3黑8白6……
2023/4/20
Multimedia Technology & Application
2023/4/20
Multimedia Technology & Application
24
4.2 静态图像的压缩标准JPEG
4.2.1 JPEG标准简介 4.2.2 JPEG标准中的主要技术 4.2.3 JPEG标准的压缩过程 4.2.4 JPEG2000
2023/4/20
Multimedia Technology & Application
8
方式3:不等长编码
考查字符串中不同字符出现的概率并对其重新定义一 个编码字如表4.2所示:
则其编码的总长度为:8×1+4×3×3+2×4×2=60(bit)
2023/4/20
Multimedia Technology & Application
9
4.1.3 常用的数据压缩方法
1.行程长度(也称游程长度编码)
2023/4/20
Multimedia Technology & Application
19
5.熵编码
2) 熵编码实例——哈夫曼编码
算法可描述为: (1) 对图像中出现的不同像素值进行概率统计,得到n个不同概率的信 息符号。 (2) 按符号出现的概率由大到小、由上到下排列。 (3) 对两个最低概率符号分别以二进制0、1赋值。 (4) 两最低概率相加后作为一个新符号的概率重新置入符号序列中。 (5) 对概率按从大到小重新排列。 (6) 重复(2)~(5),直到只剩下两个概率符号的序列。 (7) 分别以二进制0、1赋值后,以此为根结点,沿赋值的顺序的逆序依 次写出该路径上的二进制代码,得到哈夫曼编码。
数据压缩技术
2)压缩/解压缩速度 压缩算法的好坏直接影响压缩和解压缩速度,因
此,实现压缩的算法要简单,压缩/解压缩速度要
快,尽可能做到实时压缩/解压缩。
3.1.3 压缩原理
4. 数据压缩主要的4个技术指标 3)数据恢复效果
好的恢复质量和高的压缩比是一对矛盾。高的压 缩比是以好的恢复质量为代价的。
3.1.3 压缩原理
在图像压缩系统组成中,变换和编码是无损耗的,而量化 是有损耗的。无损压缩方法仅利用了统计冗余,而没有利用 量化器。有损压缩方法既利用了统计冗余又采用了量化器, 利用了心理视觉冗余。
3.1.3 压缩原理
4. 数据压缩主要的4个技术指标
1)压缩比 压缩比是指压缩前后的数据量之比。如果文件的
大小为2MB,经过压缩后文件大小为1MB,则压 缩比为2:1。在同样的压缩效果下,压缩比越大越 好。
第3章 数据压缩技术
3.1 概述 3.2 静态图像压缩标准JPEG 3.3 运动图像压缩标准MPEG 3.4 视频通信编码标准
3.1 概述
3.1.1 数据压缩的基本概念 3.1.2 数据冗余的种类 3.1.3 压缩原理 3.1.4 常用的无损数据压缩方法
3.1.1 数据压缩的基本概念
1. 什么是数据压缩?
3.1.1 数据压缩的基本概念
3. 数据压缩的可能性
➢多媒体数据是可以压缩的,因为多媒体数据包 括两部分内容:信息和冗余数据,信息是有用 的数据,而冗余数据就是无用的内容,可以压 缩掉。 ➢冗余的具体表现就是相同或者相似信息的重复。 ➢冗余为数据压缩技术的应用提供了可能。
3.1.2 数据冗余的种类
3.1.3 压缩原理
2.图像压缩说明
视频压缩与语音相比,语音的数据量较小,且基本压 缩方法已经成熟,目前的数据压缩研究主要集中于图 像和视频信号的压缩方面。 压缩处理过程有两个过程,编码过程是将原始数据经 过编码进行压缩,以便存储与传输;解码过程是对编 码数据进行解码,还原为可以使用的数据。
此,实现压缩的算法要简单,压缩/解压缩速度要
快,尽可能做到实时压缩/解压缩。
3.1.3 压缩原理
4. 数据压缩主要的4个技术指标 3)数据恢复效果
好的恢复质量和高的压缩比是一对矛盾。高的压 缩比是以好的恢复质量为代价的。
3.1.3 压缩原理
在图像压缩系统组成中,变换和编码是无损耗的,而量化 是有损耗的。无损压缩方法仅利用了统计冗余,而没有利用 量化器。有损压缩方法既利用了统计冗余又采用了量化器, 利用了心理视觉冗余。
3.1.3 压缩原理
4. 数据压缩主要的4个技术指标
1)压缩比 压缩比是指压缩前后的数据量之比。如果文件的
大小为2MB,经过压缩后文件大小为1MB,则压 缩比为2:1。在同样的压缩效果下,压缩比越大越 好。
第3章 数据压缩技术
3.1 概述 3.2 静态图像压缩标准JPEG 3.3 运动图像压缩标准MPEG 3.4 视频通信编码标准
3.1 概述
3.1.1 数据压缩的基本概念 3.1.2 数据冗余的种类 3.1.3 压缩原理 3.1.4 常用的无损数据压缩方法
3.1.1 数据压缩的基本概念
1. 什么是数据压缩?
3.1.1 数据压缩的基本概念
3. 数据压缩的可能性
➢多媒体数据是可以压缩的,因为多媒体数据包 括两部分内容:信息和冗余数据,信息是有用 的数据,而冗余数据就是无用的内容,可以压 缩掉。 ➢冗余的具体表现就是相同或者相似信息的重复。 ➢冗余为数据压缩技术的应用提供了可能。
3.1.2 数据冗余的种类
3.1.3 压缩原理
2.图像压缩说明
视频压缩与语音相比,语音的数据量较小,且基本压 缩方法已经成熟,目前的数据压缩研究主要集中于图 像和视频信号的压缩方面。 压缩处理过程有两个过程,编码过程是将原始数据经 过编码进行压缩,以便存储与传输;解码过程是对编 码数据进行解码,还原为可以使用的数据。
第四章 数据压缩技术
三、数据压缩算法的综合评价指标
衡量一种数据压缩技术好坏的指标综合起 来就是:
1、压缩比要大 2、实现压缩的算法要简单、压缩与 解压的速度要快 3、恢复效果要好
1、压缩的倍数
压缩的倍数也称压缩率或压缩比,通常有 两种衡量的方法: 1)由压缩前与压缩后的总的数据量之比来表示。(或 者也可是压缩过程中输入数据量和输出数据量之比,希望压 缩比尽量的大)。
由此我们知道,整理图
像的描述方法可以达到 压缩的目的。
描述语言 1、“这是一幅 2*2 的图像,图像的第一 个像素是红的,第二 个像素是红的,第三 个像素是红的,第四 个像素是红的”。 2、“这是一幅2*2的 图象,整幅图都是红 色的”。
图像冗余无损压缩的原理
RGB RGB RGB RGB RGB RGB RGB RGB RGB RGB RGB RGB RGB RGB RGB RGB
表面物体特性具有相关性,这些相关性的光成像结果在数 字化图像中就表现为数据冗余。
2)时间冗余 3)信息熵冗余 4)结构冗余 5)知识冗余 6)视觉冗余
4、数据冗余的主要类型
1)空间冗余
2)时间冗余:时间冗余反应在视频帧序列中,相邻帧图
像之间有较大的相关性,一帧图像中的某 物体或场景可由其他帧图像中的物体或场 景重构出来。语音中也有大量的时间冗余。
客观尺度通常用以下三种指标表示
1)均方误差; 2)信噪比(SNR); 3)峰值信噪比(PSNR)
3、压缩与解压的速度
目标是使压缩与解压的速度尽量的
快。
在许多应用中,压缩和解压将在不同的 时间,不同的地点、不同的系统中进行, 因而必须分别评价压缩和解压速度。
行程编码(RLE编码)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
2. 香侬理论的要点
• 信源中含有自然冗余度,这些冗余度既来自于信源本身的相 关性,又来自于信源概率分布的不均匀性,只要找到去除相 关性或改变概率分布不均匀性的手段和方法,也就找到了信 息熵编码的方法。
• 但信源所含有的平均信息量(熵)是进行无失真编码的理论 的极限,只要不低于此极限,就能找到某种适宜的编码方法, 去逼近信息熵,实现数据压缩。
5.2.7 算术编码原理 5.2.8 LZW压缩编码 5.3 静态图像JPEG压缩编码技术 5.3.1 JPEG标准的由来 5.3.2 JPEG压缩算法 5.3.3 无失真预测编码 5.3.4 有失真DCT压缩编码 5.4 动态图像MPEG压缩编码技术 5.4.1 基本原理 5.4.2 MPEG技术标准
2
5.1 数据压缩基本原理 ● 数据压缩原理
• 数据压缩的对象是数据。数据是信息的载体,用来记录和 传送信息。真正有用的不是数据本身,而是数据所携带的 信息。大的数据量并不代表含有大的信息量 。
• 而对于去掉冗余的数据对信息没有本质的影响称为压缩。
3
5.1.1 信息、数据与编码
自然现象 例
我们了解的东西,描述它用的信息量少,不了解的东 西,描述它用的信息量大。 在信息论中,可以说:信息是用不确定的度量来定义 的;一个消息的可能性越小,其信息含量越大;消息 的可能性越大,则信息含量越小。
12
5.1.2 数据压缩的条件
● 数据冗余度 (重复数据、可忽略数据) ● 人类不敏感因素 (颜色、亮度、细节等)
重复数据 可忽略数据
i=1
i=1
6
2. 信息与数据
信息可以用函数表示,该函数由信息论创始人C.E.Shannon香农提出, 以概率论的观点对信息进行定量描述,具体的信息函数表达式为:
I(ai ) = -log2Pi
(i = 1,2,…,r )
公式中,Pi (i = 1,2,…,r )是随机消息组合X{a1,a2,…,ar}中的 消息ai (i = 1,2,…,r )的先验概率。 Pi 可以度量ai (i = 1,2,…,r )所含的信息量。 而I(ai) (i = 1,2,…,r )在X的先验概率空间P{p1,p2,…,pr}中的 统计平均值为信息源X的熵:
4
5.1 数据压缩基本原理
5.1.1 信息、数据与编码
1.信息和熵
● 信息量的大小和消息有一定的关系。在数学上,消息是其出现概率 的单调下降函数。信息量越大,消息的可能性越小,反之亦然。
● 信息量:为了从N个相等的可能事件中挑选出一个事件所需的信息 度量和含量,所提问“是或否”的次数。也就是说,在N个事件中
辨 识特定的一个事件要询问“是或否”次数。
例
要从256个数中选定某一个数,可以先提问“是否大于128?”,不 论 回答是与否,则半数的可能事件被取消。如果继续询问下去,每次 询问将对应一个1bit的信息量。
5
●例 随着每次询问,有半数的可能事件被取消,这个过程由公式表示:
log2256 = 8 bit 可看出:对于256个数的询问只要进行8次,即可确定一个具体的数。 设:从N个数中选定任意一个数x的概率为p(x),假定选定任意一个数 的概率都相等,即p (x)=1/N,则信息量为:
n
H(X) = H{p1,p2,…,pr} = - ∑ Pilog2pi
i=1
信息源X的熵用来度量X中每种消息所包含的平均信息量。信息熵 主要表示信息系统的有序程度,而不是热力学中系统的无序程度。
7
例
例2-1 设信源有16种符号,其出现的概率相同,即 P(Xi)
=1/16。计算其平均信息熵。
8
例 例2-2 某信源有8种符号,其出现的概率如下:
10
3. 多媒体信息的数据量
1) 文本 —— 假设屏幕显示分辨率为1024×768,字符为16×16点阵, 每个字符用4个字节表示,则显示一屏字符所需要的存储空间为: (1024/16)×(768/16)×4 B = 12288 B(约合12KB)
2) 图像 —— 假定图像显示在1024×768分辨率的屏幕上,则满ห้องสมุดไป่ตู้幕 像点所占用的空间为: 1024×768×log2256 = 768 KB
MULTIMEDIA TECHNOLOGY
1
第5章
第5章
多媒体数据压缩技术
5.1 数据压缩基本原理 5.1.1 信息、数据与编码 5.1.2 数据压缩的条件 5.1.3 数据冗余
5.2 数据压缩算法 5.2.1 数据压缩算法分类 5.2.2 预测编码原理 5.2.3 变换编码原理 5.2.4 统计编码原理 5.2.5 霍夫曼编码原理 5.2.6 行程编码原理
I (x) = log2N = - log21/N = - log2p(x) = I [p(x)]
如果将信息源所有可能事件的信息量进行平均,即可得到信息的“熵” (熵是平均信息量),信息源X的符号集为xi(i=1,2,…,N)。 设:xi出现的概率为p(xi),则信息源X的熵为:
n
n
H(x) = ∑ P(xi ) I [p(xi )] = -∑ P(xi )log2p(xi )
3) 音频 —— 假定模拟声音频率22050 Hz,其数字采样频率44100 Hz, 采样精度为16bit,双声道立体声模式,则1min所需数据量为: 44100Hz×2B (16bit采样精度)×2 (双声道)×60s = 10 MB/min
4) 视频 —— 采用带宽为5MHz的PAL制视频信号,扫描速度25帧/ s, 样本宽度24bit,采样频率最低10MHz,则一帧数字化图像所占用的 最少存储空间为: 10 (采样频率)÷25 (扫描速度)×24 (样本宽度) = 9.6Mbit (合1.2 MB)
11
例 考虑一张 640×480 的全彩影像 640×480×3×8= 7,372,800 Bits 调制解调器(Modem)为 36Kbps 7372800/36000= 204.8 (sec)= 3.41 (min) 假设压缩算法(JPEG)的压缩率为1:12 (7372800/12)/36000= 17.1 (sec) 对图片压缩效果较好,但对色彩单纯的图形則效果一般不很理 想。
2. 香侬理论的要点
• 信源中含有自然冗余度,这些冗余度既来自于信源本身的相 关性,又来自于信源概率分布的不均匀性,只要找到去除相 关性或改变概率分布不均匀性的手段和方法,也就找到了信 息熵编码的方法。
• 但信源所含有的平均信息量(熵)是进行无失真编码的理论 的极限,只要不低于此极限,就能找到某种适宜的编码方法, 去逼近信息熵,实现数据压缩。
5.2.7 算术编码原理 5.2.8 LZW压缩编码 5.3 静态图像JPEG压缩编码技术 5.3.1 JPEG标准的由来 5.3.2 JPEG压缩算法 5.3.3 无失真预测编码 5.3.4 有失真DCT压缩编码 5.4 动态图像MPEG压缩编码技术 5.4.1 基本原理 5.4.2 MPEG技术标准
2
5.1 数据压缩基本原理 ● 数据压缩原理
• 数据压缩的对象是数据。数据是信息的载体,用来记录和 传送信息。真正有用的不是数据本身,而是数据所携带的 信息。大的数据量并不代表含有大的信息量 。
• 而对于去掉冗余的数据对信息没有本质的影响称为压缩。
3
5.1.1 信息、数据与编码
自然现象 例
我们了解的东西,描述它用的信息量少,不了解的东 西,描述它用的信息量大。 在信息论中,可以说:信息是用不确定的度量来定义 的;一个消息的可能性越小,其信息含量越大;消息 的可能性越大,则信息含量越小。
12
5.1.2 数据压缩的条件
● 数据冗余度 (重复数据、可忽略数据) ● 人类不敏感因素 (颜色、亮度、细节等)
重复数据 可忽略数据
i=1
i=1
6
2. 信息与数据
信息可以用函数表示,该函数由信息论创始人C.E.Shannon香农提出, 以概率论的观点对信息进行定量描述,具体的信息函数表达式为:
I(ai ) = -log2Pi
(i = 1,2,…,r )
公式中,Pi (i = 1,2,…,r )是随机消息组合X{a1,a2,…,ar}中的 消息ai (i = 1,2,…,r )的先验概率。 Pi 可以度量ai (i = 1,2,…,r )所含的信息量。 而I(ai) (i = 1,2,…,r )在X的先验概率空间P{p1,p2,…,pr}中的 统计平均值为信息源X的熵:
4
5.1 数据压缩基本原理
5.1.1 信息、数据与编码
1.信息和熵
● 信息量的大小和消息有一定的关系。在数学上,消息是其出现概率 的单调下降函数。信息量越大,消息的可能性越小,反之亦然。
● 信息量:为了从N个相等的可能事件中挑选出一个事件所需的信息 度量和含量,所提问“是或否”的次数。也就是说,在N个事件中
辨 识特定的一个事件要询问“是或否”次数。
例
要从256个数中选定某一个数,可以先提问“是否大于128?”,不 论 回答是与否,则半数的可能事件被取消。如果继续询问下去,每次 询问将对应一个1bit的信息量。
5
●例 随着每次询问,有半数的可能事件被取消,这个过程由公式表示:
log2256 = 8 bit 可看出:对于256个数的询问只要进行8次,即可确定一个具体的数。 设:从N个数中选定任意一个数x的概率为p(x),假定选定任意一个数 的概率都相等,即p (x)=1/N,则信息量为:
n
H(X) = H{p1,p2,…,pr} = - ∑ Pilog2pi
i=1
信息源X的熵用来度量X中每种消息所包含的平均信息量。信息熵 主要表示信息系统的有序程度,而不是热力学中系统的无序程度。
7
例
例2-1 设信源有16种符号,其出现的概率相同,即 P(Xi)
=1/16。计算其平均信息熵。
8
例 例2-2 某信源有8种符号,其出现的概率如下:
10
3. 多媒体信息的数据量
1) 文本 —— 假设屏幕显示分辨率为1024×768,字符为16×16点阵, 每个字符用4个字节表示,则显示一屏字符所需要的存储空间为: (1024/16)×(768/16)×4 B = 12288 B(约合12KB)
2) 图像 —— 假定图像显示在1024×768分辨率的屏幕上,则满ห้องสมุดไป่ตู้幕 像点所占用的空间为: 1024×768×log2256 = 768 KB
MULTIMEDIA TECHNOLOGY
1
第5章
第5章
多媒体数据压缩技术
5.1 数据压缩基本原理 5.1.1 信息、数据与编码 5.1.2 数据压缩的条件 5.1.3 数据冗余
5.2 数据压缩算法 5.2.1 数据压缩算法分类 5.2.2 预测编码原理 5.2.3 变换编码原理 5.2.4 统计编码原理 5.2.5 霍夫曼编码原理 5.2.6 行程编码原理
I (x) = log2N = - log21/N = - log2p(x) = I [p(x)]
如果将信息源所有可能事件的信息量进行平均,即可得到信息的“熵” (熵是平均信息量),信息源X的符号集为xi(i=1,2,…,N)。 设:xi出现的概率为p(xi),则信息源X的熵为:
n
n
H(x) = ∑ P(xi ) I [p(xi )] = -∑ P(xi )log2p(xi )
3) 音频 —— 假定模拟声音频率22050 Hz,其数字采样频率44100 Hz, 采样精度为16bit,双声道立体声模式,则1min所需数据量为: 44100Hz×2B (16bit采样精度)×2 (双声道)×60s = 10 MB/min
4) 视频 —— 采用带宽为5MHz的PAL制视频信号,扫描速度25帧/ s, 样本宽度24bit,采样频率最低10MHz,则一帧数字化图像所占用的 最少存储空间为: 10 (采样频率)÷25 (扫描速度)×24 (样本宽度) = 9.6Mbit (合1.2 MB)
11
例 考虑一张 640×480 的全彩影像 640×480×3×8= 7,372,800 Bits 调制解调器(Modem)为 36Kbps 7372800/36000= 204.8 (sec)= 3.41 (min) 假设压缩算法(JPEG)的压缩率为1:12 (7372800/12)/36000= 17.1 (sec) 对图片压缩效果较好,但对色彩单纯的图形則效果一般不很理 想。