哈夫曼编码

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（又称“熵编码法”），用于数据的无损耗压缩。这一术语是指使用一张特殊的编码表将源字符（例如某文件中的一个符号）进行编码。这张编码表的特殊之处在于，它是根据每一个源字符出现的估算概率而建立起来的（出现概率高的字符使用较短的编码，反之出现概率低的则使用较长的编码，这便使编码之后的字符串的平均期望长度降低，从而达到无损压缩数据的目的）。实际上，哈夫曼编码是传真图像的压缩标准。
➢是可变长编码(VLC)的一种
School of Information and Mathematics
哈夫曼编码哈夫曼编码(Huffman Coding)
基本思想 • 完全依据字符出现概率进行编码 • 出现概率高的字符使用较短的编码 • 出现概率低的字符使用较长的编码 • 编码后平均码字长最短
School of Information and Mathematics
例题
例题：设一个信源变量X 服从以下概率分布
X:p(x)~(0.4,0.2,0.2,0.1,0.1)
设计二进哈夫曼编码
School of Information and Mathematics
例题
方法一：合并后概率下放
结论
定理：在变长编码中，若各码字长度严格按照所对应符号出现概率的大小逆序排列，则其平均长度为最小。结论：哈夫曼编码方法，它完全依据字符出现概率来构造平均长度最短的异字头码字，有时称之为最佳编码。
School of Information and Mathematics
哈夫曼编码的应用
➢ 无损压缩在计算机信息处理中，“哈夫曼编码”是一种一致性编码法
i 1
School of Information and Mathematics
例题
可见：第二种编码方法的码长方差要小许多。意味着第二种编码方法的码长变化较小，比较接近于平均码长。第一种方法编出的5个码字有4种不同的码长；第二种方法编出的码长只有两种不同的码长；显然，第二种编码方法更简单、更容易实现，所以更好。
School of Information and Mathematics
哈夫曼编码哈夫曼编码(Huffman Coding)
➢ 1952年，David A. Huffman在麻省理工攻读博士时发表了《一种构建极小多余编码的方法》（A Method for the Construction of Minimum-Redundancy Codes）一文，提出Huffman编码算法。
1 x1 0.4
01 x2 0.2 000 x3 0.2 0010 x4 0.1 0011 x5 0.1
0 0 1 0.2 1
0.4 0 1
0.6 0
1
1.0
School of Information and Mathematics
例题
方法二：合并后概率上放
00 x1 0.4
0.6 0
0.4
1 1.0
回顾：最优码的构造 ➢ 等长码：每个码字的码长相等 ➢变长编码：每个码字的码长可以不相等
School of Information and Mathematics
引例—色子游戏
顺序编码是否最优？
School of Information and Mathematics
引例—色子游戏
点数出现的频率
5
L2 P(si )li 0.4 2 0.2 2 0.2 2 0.1 3 0.1 3 2.2 i 1
码方差
q
2 E[(li L)2 ] P(si )(li L )2
i 1
5
2 1
P(si )(li L1)2 1.36
i 1
5
2 2
P(si )(li L2 )2 0.16
0
10 x2 0.2 11 x3 0.2
0.2
1
0
1
010 x4 0.1 0
011 x5 0.1 1
＊两法平均码长相同，故信
息率R、冗余度相同；
School of Information and Mathematics
例题
两种方法的比较
平均码长
5
L1 P(si )li 0.41 0.2 2 0.2 3 0.1 4 0.1 4 2.2 i 1
School of Information and Mathematics
引例—色子游戏
按概率编码
School of Information and Mathematics
引例—莫尔斯电报码
莫尔斯电报码：按照英文字母出现的概率编码，在英文中，e的出现概率很高，而z的出现概率则最低。思考：国际求救信号SOS
哈夫曼编码
邹健
School of Information and Mathematics
回顾：通信系统模型
信源信源编码器信道编码器
ቤተ መጻሕፍቲ ባይዱ
干扰源
调
制
信道
器
编码信道
信宿
信源译码器
解
调
信道译码器
器
➢ 信源：产生消息和消息序列的来源。 ➢ 信源编码器：将信源的输出进行适当的变换，以提高
信息传输的有效性。
School of Information and Mathematics
School of Information and Mathematics
哈夫曼编码
哈夫曼编码算法： (1) 信源符号按概率分布大小，以递减次序排列； (2) 取两个最小的概率，分别赋以“0”,“1”; 然后把这两个概率值相加，作为新概率值与其他概率重新排序 (3) 按重排概率值，重复(2)…,
直到概率和达到1为止 (4) 由后向前排列码序，即得哈夫曼编码
回顾：信源编码定理
➢ 信源编码定理（定理2.4.1）
设X1，X2…为无记忆信源，服从共同分布p(x) ，则当码率 R 1 log M H (X ) 时，存在码率为R 的编码，使得当
n
n→∞ 时，误差码率Pe→0.
最优码的存在性
如何构造最优码？
School of Information and Mathematics
School of Information and Mathematics
结论
结论：在哈夫曼编码过程中，对缩减信源符号按概率由大到小的顺序重新排列时，应使合并后的新符号尽可能排在靠前的位置，这样可使合并后的新符号重复编码次数减少，使短码得到充分利用。
School of Information and Mathematics