数据压缩技术 PPT
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3) 音频 —— 假定模拟声音频率22050 Hz,其数字采样频率44100 Hz, 采样精度为16bit,双声道立体声模式,则1min所需数据量为: 44100Hz×2B (16bit采样精度)×2 (双声道)×60s = 10 MB/min
4) 视频 —— 采用带宽为5MHz的PAL制视频信号,扫描速度25帧/ s, 样本宽度24bit,采样频率最低10MHz,则一帧数字化图像所占用的 最少存储空间为: 10 (采样频率)÷25 (扫描速度)×24 (样本宽度) = 9.6Mbit (合1.2 MB)
n
H(X) = H{p1,p2,…,pr} = - ∑ Pilog2pi
i=1
信息源X的熵用来度量X中每种消息所包含的平均信息量。信息熵 主要表示信息系统的有序程度,而不是热力学中系统的无序程度。
例
例2-1 设信源有16种符号,其出现的概率相同,即 P(Xi)
=1/16。计算其平均信息熵。
大家有疑问的,可以询问和交流
例 考虑一张 640×480 的全彩影像 640×480×3×8= 7,372,800 Bits 调制解调器(Modem)为 36Kbps 7372800/36000= 204.8 (sec)= 3.41 (min) 假设压缩算法(JPEG)的压缩率为1:12 (7372800/12)/36000= 17.1 (sec) 对图片压缩效果较好,但对色彩单纯的图形則效果一般不很理 想。
MULTIMEDIA TECHNOLOGY
第5章
第5章
多媒体数据压缩技术
5.1 数据压缩基本原理 5.1.1 信息、数据与编码 5.1.2 数据压缩的条件 5.1.3 数据冗余
5.2 数据压缩算法 5.2.1 数据压缩算法分类 5.2.2 预测编码原理 5.2.3 变换编码原理 5.2.4 统计编码原理 5.2.5 霍夫曼编码原理 5.2.6 行程编码原理
I (x) = log2N = - log21/N = - log2p(x) = I [p(x)]
如果将信息源所有可能事件的信息量进行平均,即可得到信息的“熵” (熵是平均信息量),信息源X的符号集为xi(i=1,2,…,N)。 设:xi出现的概率为p(xi),则信息源X的熵为:
n
n
H(x) = ∑ P(xi ) I [p(xi )] = -∑ P(xi )log2p(xi )
可以互相讨论下,但要小声点
9
例 例2-2 某信源有8种符号,其出现的概率如下:
2. 香侬理论的要点
• 信源中含有自然冗余度,这些冗余度既来自于信源本身的相 关性,又来自于信源概率分布的不均匀性,只要找到去除相 关性或改变概率分布不均匀性的手段和方法,也就找到了信 息熵编码的方法。
• 但信源所含有的平均信息量(熵)是进行无失真编码的理论 的极限,只要不低于此极限,就能找到某种适宜的编码方法, 去逼近信息熵,实现数据压缩。
5.2.7 算术编码原理 5.2.8 LZW压缩编码 5.3 静态图像JPEG压缩编码技术 5.3.1 JPEG标准的由来 5.3.2 JPEG压缩算法 5.3.3 无失真预测编码 5.3.4 有失真DCT压缩编码 5.4 动态图像MPEG压缩编码技术 5.4.1 基本原理 5.4.2 MPEG技术标准
5.1 数据压缩基本原理 ● 数据压缩原理
• 数据压缩的对象是数据。数据是信息的载体,用来记录和 传送信息。真正有用的不是数据本身,而是数据所携带的 信息。大的数据量并不代表含有大的信息量 。
• 而对于去掉冗余的数据对信息没有本质的影响称为压缩。
5.1.1 信息、数据与编码
自然现象 例
我们了解的东西,描述它用的信息量少,不了解的东 西,描述它用的信息量大。 在信息论中,可以说:信息是用不确定的度量来定义 的;一个消息的可能性越小,其信息含量越大;消息 的可能性越大,则信息含量越小。
5.1.2 数据压缩的条件
● 数据冗余度 (重复数据、可忽略数据) ● 人类不敏感因素 (颜色、亮度、细节等)
3. 多媒体信息的数据量
1) 文本 —— 假设屏幕显示分辨率为1024×768,字符为16×16点阵, 每个字符用4个字节表示,则显示一屏字符所需要的存储空间为: (1024/16)×(768/16)×4 B = 12288 B(约合12KB)
2) 图像 —— 假定图像显示在1024×768分辨率的屏幕上,则满屏幕 像点所占用的空间为: 1024×768×log2256 = 768 KB
辨 识特定的一个事件要询问“是或否”次数。
例
要从256个数中选定某一个数,可以先提问“是否大于128?”,不 论 回答是与否,则半数的可能事件被取消。如果继续询问下去,每次 询问将对应一个1bit的信息量。
●例 随着每次询问,有半来自百度文库的可能事件被取消,这个过程由公式表示:
log2256 = 8 bit 可看出:对于256个数的询问只要进行8次,即可确定一个具体的数。 设:从N个数中选定任意一个数x的概率为p(x),假定选定任意一个数 的概率都相等,即p (x)=1/N,则信息量为:
i=1
i=1
2. 信息与数据
信息可以用函数表示,该函数由信息论创始人C.E.Shannon香农提出, 以概率论的观点对信息进行定量描述,具体的信息函数表达式为:
I(ai ) = -log2Pi
(i = 1,2,…,r )
公式中,Pi (i = 1,2,…,r )是随机消息组合X{a1,a2,…,ar}中的 消息ai (i = 1,2,…,r )的先验概率。 Pi 可以度量ai (i = 1,2,…,r )所含的信息量。 而I(ai) (i = 1,2,…,r )在X的先验概率空间P{p1,p2,…,pr}中的 统计平均值为信息源X的熵:
5.1 数据压缩基本原理
5.1.1 信息、数据与编码 1.信息和熵
● 信息量的大小和消息有一定的关系。在数学上,消息是其出现概率 的单调下降函数。信息量越大,消息的可能性越小,反之亦然。
● 信息量:为了从N个相等的可能事件中挑选出一个事件所需的信息 度量和含量,所提问“是或否”的次数。也就是说,在N个事件中
4) 视频 —— 采用带宽为5MHz的PAL制视频信号,扫描速度25帧/ s, 样本宽度24bit,采样频率最低10MHz,则一帧数字化图像所占用的 最少存储空间为: 10 (采样频率)÷25 (扫描速度)×24 (样本宽度) = 9.6Mbit (合1.2 MB)
n
H(X) = H{p1,p2,…,pr} = - ∑ Pilog2pi
i=1
信息源X的熵用来度量X中每种消息所包含的平均信息量。信息熵 主要表示信息系统的有序程度,而不是热力学中系统的无序程度。
例
例2-1 设信源有16种符号,其出现的概率相同,即 P(Xi)
=1/16。计算其平均信息熵。
大家有疑问的,可以询问和交流
例 考虑一张 640×480 的全彩影像 640×480×3×8= 7,372,800 Bits 调制解调器(Modem)为 36Kbps 7372800/36000= 204.8 (sec)= 3.41 (min) 假设压缩算法(JPEG)的压缩率为1:12 (7372800/12)/36000= 17.1 (sec) 对图片压缩效果较好,但对色彩单纯的图形則效果一般不很理 想。
MULTIMEDIA TECHNOLOGY
第5章
第5章
多媒体数据压缩技术
5.1 数据压缩基本原理 5.1.1 信息、数据与编码 5.1.2 数据压缩的条件 5.1.3 数据冗余
5.2 数据压缩算法 5.2.1 数据压缩算法分类 5.2.2 预测编码原理 5.2.3 变换编码原理 5.2.4 统计编码原理 5.2.5 霍夫曼编码原理 5.2.6 行程编码原理
I (x) = log2N = - log21/N = - log2p(x) = I [p(x)]
如果将信息源所有可能事件的信息量进行平均,即可得到信息的“熵” (熵是平均信息量),信息源X的符号集为xi(i=1,2,…,N)。 设:xi出现的概率为p(xi),则信息源X的熵为:
n
n
H(x) = ∑ P(xi ) I [p(xi )] = -∑ P(xi )log2p(xi )
可以互相讨论下,但要小声点
9
例 例2-2 某信源有8种符号,其出现的概率如下:
2. 香侬理论的要点
• 信源中含有自然冗余度,这些冗余度既来自于信源本身的相 关性,又来自于信源概率分布的不均匀性,只要找到去除相 关性或改变概率分布不均匀性的手段和方法,也就找到了信 息熵编码的方法。
• 但信源所含有的平均信息量(熵)是进行无失真编码的理论 的极限,只要不低于此极限,就能找到某种适宜的编码方法, 去逼近信息熵,实现数据压缩。
5.2.7 算术编码原理 5.2.8 LZW压缩编码 5.3 静态图像JPEG压缩编码技术 5.3.1 JPEG标准的由来 5.3.2 JPEG压缩算法 5.3.3 无失真预测编码 5.3.4 有失真DCT压缩编码 5.4 动态图像MPEG压缩编码技术 5.4.1 基本原理 5.4.2 MPEG技术标准
5.1 数据压缩基本原理 ● 数据压缩原理
• 数据压缩的对象是数据。数据是信息的载体,用来记录和 传送信息。真正有用的不是数据本身,而是数据所携带的 信息。大的数据量并不代表含有大的信息量 。
• 而对于去掉冗余的数据对信息没有本质的影响称为压缩。
5.1.1 信息、数据与编码
自然现象 例
我们了解的东西,描述它用的信息量少,不了解的东 西,描述它用的信息量大。 在信息论中,可以说:信息是用不确定的度量来定义 的;一个消息的可能性越小,其信息含量越大;消息 的可能性越大,则信息含量越小。
5.1.2 数据压缩的条件
● 数据冗余度 (重复数据、可忽略数据) ● 人类不敏感因素 (颜色、亮度、细节等)
3. 多媒体信息的数据量
1) 文本 —— 假设屏幕显示分辨率为1024×768,字符为16×16点阵, 每个字符用4个字节表示,则显示一屏字符所需要的存储空间为: (1024/16)×(768/16)×4 B = 12288 B(约合12KB)
2) 图像 —— 假定图像显示在1024×768分辨率的屏幕上,则满屏幕 像点所占用的空间为: 1024×768×log2256 = 768 KB
辨 识特定的一个事件要询问“是或否”次数。
例
要从256个数中选定某一个数,可以先提问“是否大于128?”,不 论 回答是与否,则半数的可能事件被取消。如果继续询问下去,每次 询问将对应一个1bit的信息量。
●例 随着每次询问,有半来自百度文库的可能事件被取消,这个过程由公式表示:
log2256 = 8 bit 可看出:对于256个数的询问只要进行8次,即可确定一个具体的数。 设:从N个数中选定任意一个数x的概率为p(x),假定选定任意一个数 的概率都相等,即p (x)=1/N,则信息量为:
i=1
i=1
2. 信息与数据
信息可以用函数表示,该函数由信息论创始人C.E.Shannon香农提出, 以概率论的观点对信息进行定量描述,具体的信息函数表达式为:
I(ai ) = -log2Pi
(i = 1,2,…,r )
公式中,Pi (i = 1,2,…,r )是随机消息组合X{a1,a2,…,ar}中的 消息ai (i = 1,2,…,r )的先验概率。 Pi 可以度量ai (i = 1,2,…,r )所含的信息量。 而I(ai) (i = 1,2,…,r )在X的先验概率空间P{p1,p2,…,pr}中的 统计平均值为信息源X的熵:
5.1 数据压缩基本原理
5.1.1 信息、数据与编码 1.信息和熵
● 信息量的大小和消息有一定的关系。在数学上,消息是其出现概率 的单调下降函数。信息量越大,消息的可能性越小,反之亦然。
● 信息量:为了从N个相等的可能事件中挑选出一个事件所需的信息 度量和含量,所提问“是或否”的次数。也就是说,在N个事件中