第五章 数据压缩编码讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
叫做还原,解压缩),重构后的数据与原来的数据完全 相同;无损压缩用于要求重构的信号与原始信号完全 一致的场合。
有损压缩是指使用压缩后的数据进行重构,重构
后的数据与原来的数据有所不同,但不影响人对原始 资料表达的信息造成误解。有损压缩适用于重构信号 不一定非要和原始信号完全相同的场合。
9
经典数据压缩理论
多媒体技术
第五章
数据压缩基础
主要内容
• 数据压缩概述 • 经典数据压缩理论 • 香农-范诺与霍夫曼编码 • 算术编码 • 行程编码 • 词典编码 • 预测编码 • 变换编码
2
什么是数据压缩
• 数据压缩就是在一定的精度损失条件下,以最 少的数码表示信源所发出的信号
信源
信源 编码
信道 编码
信道
信宿
信源 译码
• 熵的大小与信源的概率分布模型有着密 切的关系。
• 最大离散熵定理:当与信源对应的字符 集中的各个字符为等概率分布时,熵具 有极大值log2m。m为字符集中字符个数。
m
H ( x) p j log p j j 1 m
pj 1 j 1 14
二进制信源的熵
H
1
0 0.5 1
• 只要信源不是等概率分布,就存在着数据压缩 的可能性。
• 数据压缩的基本途径之一:使各字符的编码长 度尽量等于字符的信息量。
19
熵编码
• 熵编码包括香农-范诺编码、霍夫曼编 码和算术编码,其宗旨在于找到一种编 码使得平均码长到达熵极限,基本思想 就是对出现概率较大的符号取较短的码 长,而对出现概率较小的符号取较大的 码长。
信息论中的信源编码理论解决的主要问题: (1)数据压缩的理论极限 (2)数据压缩的基本途径
10
离散事件的非平均自信息量
• 为了完全确定事件x(使后验概率为1)所必 须提供的信息量称为x事件的非平均自信息 量I(x)
I (x) log 1 log p(x) p(x)
11
熵(Entropy)
16
信源
编码
{X1, X2, …,XL}
消息分组
{a1, a2, a3, …aK}
信源字母表
编码器
码字
{Y1, Y2, …, YN}
码元表
{b1, b2, b3, …bD}
{0,1}
17
平均码长与熵
• 如果采用单字符二进制编码方式,设字符aj的 编码长度为Lj,则信源字母表的平均码长为:
K
L p j L j j 1
公用中间 352×288 亮度 3; 亮度、色差
格式(CIF)
×30
4:1:1
共 12
PAL720× CCIR 601 号 480×30
建议 NTSC720× 576×25
亮度 13.5 4:2:2
亮度、色差 共 16
HDTV
1280×720
亮度信号
×60
60
8
270
1620 1620
3600
6
数据压缩的好处
带宽 取样率 (KHz) (KHz)
3.2
8
7
16
20
44.1
20
48
20
48
量化 存储容 位数 量(MB)
8
0.48
14
1.68
16 5.292×2
16 5.76×2
16 5.756×6
1分钟数字视频信号需要的存储空间
数字电视 空间×时间 取样率
格 式 ×分辨率
(MHz)
量化位数
存储容量 (MB)
信道 译码
3
数据压缩的必要性
多媒体
多媒体信源引起了“数据爆炸” 数据 如果不进行数据压缩
传输和存储都难以实用化。
4
1分钟数字音频信号需要的存储空间
数字音 频格式 电话
会议电 视伴音 CD-DA
DAT
数字音 频广播
频带 (Hz)
200~3400
50~7000 20~20000 20~20000
20~20000
时间域压缩──迅速传输媒体信源 频率域压缩──并行开通更多业务 空间域压缩──降低存储费用 能量域压缩──降低发射功率
7
数据压缩技术实现的衡量标准
压缩比要大 恢复后的失真小 压缩算法要简单、速度快 压缩能否用硬件实现
8
数据压缩技术的分类
无损压缩是指使用压缩后的数据进行重构(或者
p
• 二进制信源输出一个二进制数码所携带 的平均信息量最大为1bit。
15
最大离散熵定理的应用
• 对于同一个信源其总的信息量是不变的, 如果能够通过某种变换(编码),使信 源尽量等概率分布,则每个输出符号所 独立携带的信息量增大,那么传送相同 信息量所需要的序列长度就越短。
• 离散无记忆信源的冗余度隐含在信源符 号的非等概率 分布之中。只要H(X)小 于log2m,就存在数据压缩的可能。
20
霍夫曼编码
• 具体步骤: (1)初始化 (2)合并概率最小的两个事件 (3)排序 (4)如果事件个数大于2则重复(2)和(3) (5)赋值 (6)编码
21
霍夫曼编码举例
符号
S1
S2
S3
S4
出现概率 1/2
1/4
1/8
1/8
等长编码
00
01
10
11
霍夫曼
0
10
110
111
H(X) = 1.75 L1=2 L2=1.75
• 根据前面对二进制信源的分析,有:
H(X) 1 L H(X) L
K
K
p j L j p j log 2 p j
j来自百度文库1
j 1
在Lj = -log2pj时,平均码长取得极小值H(X) 18
关于离散无记忆平稳信源的结论
• 一阶熵即为离散无记忆平稳信源的压缩极限。 (基本极限)
源 S1 S2 S1 S3 S2 S1 S1 S4 等 00 01 00 10 01 00 00 11 霍 0 10 0 110 10 0 0 111
22
霍夫曼编码的局限性
• 利用霍夫曼编码,每个符号的编码长度只能为 整数,所以如果源符号集的概率分布不是2负n 次方的形式,则无法达到熵极限。
• 称H(X)为一阶信息熵或者简称为熵(Entropy)
12
熵(Entropy)
• 在符号出现之前,熵表示符号集中的符 号出现的平均不确定性;在符号出现之 后,熵代表接收一个符号所获得的平均 信息量。
• 根据直觉,信源编码的数据输出速率 (平均码长)与信源熵之间应该有某种 对应关系。
13
信源的概率分布与熵的关系
• 事件集合(样本空间)X中每个事件的自信息 量I(x)是定义在这个样本空间上的一个随机变 量,所以我们要研究它的统计特性。其数学期 望为:
H ( X ) p(x) I (x) p(x) log p(x)
xX
xX
• H(X)表明了集合X中随机事件的平均不确定性, 或者说平均信息量。
有损压缩是指使用压缩后的数据进行重构,重构
后的数据与原来的数据有所不同,但不影响人对原始 资料表达的信息造成误解。有损压缩适用于重构信号 不一定非要和原始信号完全相同的场合。
9
经典数据压缩理论
多媒体技术
第五章
数据压缩基础
主要内容
• 数据压缩概述 • 经典数据压缩理论 • 香农-范诺与霍夫曼编码 • 算术编码 • 行程编码 • 词典编码 • 预测编码 • 变换编码
2
什么是数据压缩
• 数据压缩就是在一定的精度损失条件下,以最 少的数码表示信源所发出的信号
信源
信源 编码
信道 编码
信道
信宿
信源 译码
• 熵的大小与信源的概率分布模型有着密 切的关系。
• 最大离散熵定理:当与信源对应的字符 集中的各个字符为等概率分布时,熵具 有极大值log2m。m为字符集中字符个数。
m
H ( x) p j log p j j 1 m
pj 1 j 1 14
二进制信源的熵
H
1
0 0.5 1
• 只要信源不是等概率分布,就存在着数据压缩 的可能性。
• 数据压缩的基本途径之一:使各字符的编码长 度尽量等于字符的信息量。
19
熵编码
• 熵编码包括香农-范诺编码、霍夫曼编 码和算术编码,其宗旨在于找到一种编 码使得平均码长到达熵极限,基本思想 就是对出现概率较大的符号取较短的码 长,而对出现概率较小的符号取较大的 码长。
信息论中的信源编码理论解决的主要问题: (1)数据压缩的理论极限 (2)数据压缩的基本途径
10
离散事件的非平均自信息量
• 为了完全确定事件x(使后验概率为1)所必 须提供的信息量称为x事件的非平均自信息 量I(x)
I (x) log 1 log p(x) p(x)
11
熵(Entropy)
16
信源
编码
{X1, X2, …,XL}
消息分组
{a1, a2, a3, …aK}
信源字母表
编码器
码字
{Y1, Y2, …, YN}
码元表
{b1, b2, b3, …bD}
{0,1}
17
平均码长与熵
• 如果采用单字符二进制编码方式,设字符aj的 编码长度为Lj,则信源字母表的平均码长为:
K
L p j L j j 1
公用中间 352×288 亮度 3; 亮度、色差
格式(CIF)
×30
4:1:1
共 12
PAL720× CCIR 601 号 480×30
建议 NTSC720× 576×25
亮度 13.5 4:2:2
亮度、色差 共 16
HDTV
1280×720
亮度信号
×60
60
8
270
1620 1620
3600
6
数据压缩的好处
带宽 取样率 (KHz) (KHz)
3.2
8
7
16
20
44.1
20
48
20
48
量化 存储容 位数 量(MB)
8
0.48
14
1.68
16 5.292×2
16 5.76×2
16 5.756×6
1分钟数字视频信号需要的存储空间
数字电视 空间×时间 取样率
格 式 ×分辨率
(MHz)
量化位数
存储容量 (MB)
信道 译码
3
数据压缩的必要性
多媒体
多媒体信源引起了“数据爆炸” 数据 如果不进行数据压缩
传输和存储都难以实用化。
4
1分钟数字音频信号需要的存储空间
数字音 频格式 电话
会议电 视伴音 CD-DA
DAT
数字音 频广播
频带 (Hz)
200~3400
50~7000 20~20000 20~20000
20~20000
时间域压缩──迅速传输媒体信源 频率域压缩──并行开通更多业务 空间域压缩──降低存储费用 能量域压缩──降低发射功率
7
数据压缩技术实现的衡量标准
压缩比要大 恢复后的失真小 压缩算法要简单、速度快 压缩能否用硬件实现
8
数据压缩技术的分类
无损压缩是指使用压缩后的数据进行重构(或者
p
• 二进制信源输出一个二进制数码所携带 的平均信息量最大为1bit。
15
最大离散熵定理的应用
• 对于同一个信源其总的信息量是不变的, 如果能够通过某种变换(编码),使信 源尽量等概率分布,则每个输出符号所 独立携带的信息量增大,那么传送相同 信息量所需要的序列长度就越短。
• 离散无记忆信源的冗余度隐含在信源符 号的非等概率 分布之中。只要H(X)小 于log2m,就存在数据压缩的可能。
20
霍夫曼编码
• 具体步骤: (1)初始化 (2)合并概率最小的两个事件 (3)排序 (4)如果事件个数大于2则重复(2)和(3) (5)赋值 (6)编码
21
霍夫曼编码举例
符号
S1
S2
S3
S4
出现概率 1/2
1/4
1/8
1/8
等长编码
00
01
10
11
霍夫曼
0
10
110
111
H(X) = 1.75 L1=2 L2=1.75
• 根据前面对二进制信源的分析,有:
H(X) 1 L H(X) L
K
K
p j L j p j log 2 p j
j来自百度文库1
j 1
在Lj = -log2pj时,平均码长取得极小值H(X) 18
关于离散无记忆平稳信源的结论
• 一阶熵即为离散无记忆平稳信源的压缩极限。 (基本极限)
源 S1 S2 S1 S3 S2 S1 S1 S4 等 00 01 00 10 01 00 00 11 霍 0 10 0 110 10 0 0 111
22
霍夫曼编码的局限性
• 利用霍夫曼编码,每个符号的编码长度只能为 整数,所以如果源符号集的概率分布不是2负n 次方的形式,则无法达到熵极限。
• 称H(X)为一阶信息熵或者简称为熵(Entropy)
12
熵(Entropy)
• 在符号出现之前,熵表示符号集中的符 号出现的平均不确定性;在符号出现之 后,熵代表接收一个符号所获得的平均 信息量。
• 根据直觉,信源编码的数据输出速率 (平均码长)与信源熵之间应该有某种 对应关系。
13
信源的概率分布与熵的关系
• 事件集合(样本空间)X中每个事件的自信息 量I(x)是定义在这个样本空间上的一个随机变 量,所以我们要研究它的统计特性。其数学期 望为:
H ( X ) p(x) I (x) p(x) log p(x)
xX
xX
• H(X)表明了集合X中随机事件的平均不确定性, 或者说平均信息量。