现代编码技术(章 (2)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

a9 0.01
试求Huffman三元和四元编码。解本例的三元Huffman编码过程见图2.6，三元Huffman
编码如下：
第2章信源编码
a1 2 a2 00 a3 01 a4 10 a5 11 a6 02 a7 120 a8 121 a9 122
第2章信源编码图 2.6 三元Huffman编码过程
第2章信源编码定理2.1.1(q元Huffman编码) 设离散无记忆信源
p
X
X
p
a1
a1
a2
p a2
an
p an
按下述步骤进行编码，获得的码一定具有最小平均码长。
第一步，根据出现概率的大小，按从大到小的顺序重排字
符符号。
第二步，在重组的信源中X ，从最小概率的
p
X
符号开始，按概率从小到大的方式取q个符号作为q片树叶合并
第2章信源编码
2. 举例 CCITT T.4对三类传真机的扫描线长度和每行像素作了如下规定： (1) A4纸文本的一行(215 mm±1%)扫描后构成一条扫描线，线上有1728个黑白像素； (2) B4纸文本的一行(255 mm±1%)扫描后构成一条扫描线，线上有2048个黑白像素； (3) A3纸文本的一行(303 mm±1%)扫描后构成一条扫描线，线上有2432个黑白像素。三类传真机对扫描线的编码的结构如图2.8所示。
设离散无记忆信源
p
X
X
a1 0.25
a2 0.2
a3 0.25
a4 0.1
a3 a4 a5 a6 0.25 0.1 0.05 0.15
，构建平均码长最短的二元码。
第2章信源编码
解第一次合并：按概率从大到小的顺序重排字符，并合并最后两个字符为新的临时字符d1。
p
X
X
a1 0.25
第2章信源编码图 2.3 改进图2.2后的码树
第2章信源编码
图2.3所示的码树对应的符号编码如下：
a1 00 a2 10 a3 01 a4 110 a5 1110 图2.3所示码树对应编a码6 的平11均11码长和编码效率分别为
L(C)=2.15 bit， η≈85.1%
第2章信源编码
a3 0.25
a2 0.2
a6 0.15
a4 0.1
a5 0.05
p
X
X
a1 0.25
a3 0.25
a2 0.2
a6 0.15
d1 0.15
p
X
X
第2章信源编码
第二次合并：按照概率从大到小的顺序重排字符，并合并最后两个字符为新的临时字符d2。
p
X
X
a1 0.25
a3 0.25
(2.1.1)
式(2.1.1)说明Huffman编码的平均码长最短。
第2章信源编码
从Huffman编码过程来看，如果完成编码共引入了r个临时字符，除第一次合并用了信源的q个字符外，其余各次合并都只使用了信源的q－1个符号，所以信源符号的数量应当为
n=r(q－1)+q (2.1.2)
例2.1.4
第2章信源编码
n
LC
p ai li p ak l j p a j lk
i 1
ik ,i j
n
p ai li p ak l j p a j lk p ak lk p a j l j i 1
L C lk lj p aj p ak
L C
第2章信源编码
图 2.8 (a) 一维编码方案；(b) 二维编码方案
第2章信源编码
经过大量统计发现游程长度有以下特点： (1) 游程长度的概率分布表现为对扫描的文本的行与行间不同，对扫描的文本的页与页间不同； (2) 出现于每一扫描线中的游程长度的种类非常多，例如，在一条有1728个黑白像素的扫描线上出现的可能游程长度为1， 2，3，…，1728。 MH码表见表2.1和表2.2。
=1.6477 bit (1) L(C1)=2×0.5+2×0.3+2×0.15+2×0.05=2 bit
HX 1 L C1 82.4%
(2) L(C2)=0.5×1+0.3×2+0.15×3+0.05×3=1.7 bit
HX 2 LC2 96.9%
第2章信源编码
2.1.1 Huffman编码 1. 编码原理利用概率匹配原则，编码时，码长应当选择满足式(1.1.8)
第2章信源编码图 2.4 例2.1.3编码的另一码树
第2章信源编码
图2.4所示码树对应的符号编码如下：
a1 0 a2 10 a3 110 a4 1110 a5 11110 a6 11111 图2.4所示码树对应编码的平均码长和编码效率分别为 L(C)=2.05 bit， η≈89.3%
X
d2 0.3
a1 0.25
d3 0.45
p
X
X
第2章信源编码
第四次合并：按照概率从大到小的顺序重排字符，并合并最后两个字符为新的临时字符d4。
p
X
X
d3 0.45
d2 0.3
a1 0.25
p
X
X
d3 0.45
d4 0.55
p
X
X
第五次合并：按照概率从大到小的顺序重排字符，并合并最后两个字符为新的临时字符d5。因为p(X″)=1，故编码结束。
H(X)=2.42 bit，L(C)=2.45 bit，η≈98.8%
第2章信源编码图 2.5 例2.1.4的Huffman编码过程
第2章信源编码例2.1.5 已知离散无记忆信源
p
X
X
a1 0.24
a2 0.2
a3 0.14
a4 0.11
a5 0.10
a6 0.14
a7 0.04
a8 0.02
2
4
8
32
32
所以，获得的编码效率为 η=100%
例2.1.2的二元码的码树见图2.1。
第2章信源编码图 2.1 例2.1.2编码的码树
第2章信源编码
例2.1.3
无记忆信源
p
X
X
a1 0.4
a2 0.3
a3 0.2
a4 0.05
a5 0.025
a6 0.025
，试利用概率匹配原则进行编码，并求出平均码长和编码效率。
解根据式(1.1.8)，字符a1、a2、a3、a4、a5、a6对应码长分别为2、2、3、5、6、6，用二进制符号来表示字符，即
a1 00 a2 10 a3 110 a4 11110 a5 111110 a6 111111
第2章信源编码
计算后，得到 H(X)=1.83 bit， L(C)=2.55 bit，
的整数，但并非每次应用都能获得理想的编码。看下面两个例题。
例2.1.2
无记忆信源
X
pX
a1
1
2
a2 1 4
a3 1 8
a4 1 32
a5 1
，
32
利用概率匹配原则进行编码，并求出平均码长和编码效率。
解根据式(1.1.8)，字符a1、a2、a3、a4、a5对应的码长分别为1、2、3、4、4，用二进制符号来表示字符，即
a2 0.2
a6 0.15
d1 0.15
p
X
X
a1 0.25
a3 0.25
a2 0.2
d2 0.3
p
X
X
第2章信源编码
第三次合并：按照概率从大到小的顺序重排字符，并合并最后两个字符为新的临时字符d3。
p
X
X
d2 0.3
a1 0.25
a3 0.25
a2 0.2
p
X
Huffman编码是在信源符号与可变长度码字之间建立一个
1-1对应关系而实现编码的，算术编码则是对信源的输出符号
流进行编码，因此，算术编码不需要像Huffman编码那样为每
一个信源符号指定一个码字。本节先介绍算术编码的思想和基
本概念，具体编码方法的介绍将在后续各小节中
陆续展开。
设有无记忆信源空间
p
X
X
a1 0.5
a2 0.3
a3 0.15
a4 0.05
，进行以下两种方式的二进制编码：
(1) a1→00，a2→01，a3→10，a4→11； (2) a1→0，a2→10，a3→110，a4→111 试求两种编码方式的平均码长和编码效率。
第2章信源编码
解信源熵为 H(X)=－(0.5 lb0.5+0.3 lb0.3+0.15 lb0.15+0.05 lb0.05)
例2.1.3编码的码树见图2.2。
η≈71.8%
第2章信源编码图 2.2 例2.1.3编码的码树
第2章信源编码
由例2.1.3的计算可知，该编码效率很低。从码树上我们可以看到，离树根较近的地方有许多空枝，如果不考虑式 (1.1.8)而把其他码字移到这些空枝上会出现什么情况呢？图 2.3就是移动码字后的码树。
那么，平均码长为
第2章信源编码
a1 0 a2 10 a3 110 a4 1110 a5 1111
L C 1 1 1 2 1 3 1 4 1 4 1.875 bit
2 4 8 32 32
又因为
第2章信源编码
H X 1 l b 2 1 l b 4 1 l b8 1 l b32 1 l b32 1.875 bit
第 p五(X步X ，)从，树转根到开第始一，步沿。枝到达树叶，途中遇到p的 X数字按
行走顺序组合就得到该树叶字符所对应的码字，找完全部树叶，
编码完成。
第2章信源编码
证明设Huffman编码完成后，ai→ci(i=1，2，…，n)，
并且码ci的长度为li，则Huffman编码的平均码长 L C n p ai li
到一个节点上，将0，1，2，…，q－1这q个数不重复地分配到
这q个个临时字符代替，这个临
时字符的概率为被合并的q个字符的概率之和，其余字符及概
率不变，从而形成一个新的信源空间
X 。
p
X
第四步，如果新的信源空间的概率分布p(X″)=1，这时的
节点就是码树的树根，则转到第五步，否则， X
p
X
X
d4 0.55
d3 0.45
p
X
X
d5 1
第2章信源编码
从图2.5所示的码树的树根开始，可以读出对应于每一字符的Huffman编码如下：
a1 01 a2 11 a3 10 a4 0000 a5 0001 经计算，本例的熵、平均a码6 长和00编1码效率分别为
第2章信源编码第2章信源编码
2.1 无失真信源编码 2.2 限失真信源编码习题
第2章信源编码
2.1 无失真信源编码无失真信源编码的理论基础就是第1章介绍的香农第一定理，实现的途径之一是概率匹配原则，最终目的是找到一种平均码长最短的码。先来看一个例子。
例2.1.1
设有离散无记忆信源
p
X
X
a1 p1
a2 p2
中，p1≥p2≥…≥pn，定义信源字符的累积概率为
an ，其
pn
第2章信源编码
i 1
li1 pk k 1
(i 1, 2, , n 1)
很明显，有下列关系：
并且
l0=0，l1=p1，l2=p1+p2，…
。再设p(ak)≥p(aj)，根据Huffman编码，则有lj≥lk。如果i1 重新构造一个编码C′，其对应关系如下：
ak a j ai i 1, 2, , n,i k,i j
c j ck ci i 1, 2, , n,i k,i j
即交换字符ak与aj所对应的码字，而其余字符对应码字不变，形成码C′，那么码C′的平均码长为
第2章信源编码
由于不满足式(2.1.2)，因此添加一个字符a10，并取 p(a10)=0。本例的四元Huffman编码过程见图2.7，四元 Huffman编码如下：
a1 1 a2 2 a3 3 a4 01 a5 02 a6 00 a7 030 a8 031 a9 032
第2章信源编码图 2.7 四元Huffman编码过程
由此可见，改进后的码树(图2.3)的编码效率明显提高。例2.1.3启示我们编码时码树不能留有空枝，单纯地应用概率匹配原则不一定能得到最佳编码。例2.1.3获得较高编码效率实质上是对码树实行了全局性能匹配，图2.2所示的码树只是在局部枝上实行概率匹配原则，而忽略了全局优化，因而效率较低。那么图2.3是否是例2.1.3的最佳编码呢？我们再来观察针对例2.1.3的另一码树——图2.4。
第2章信源编码表2.1 一维改进Huffman编码表——构造码
第2章信源编码表2.2 一维改进Huffman编码表——结尾码
第2章信源编码传真机传输一页文件文本是按图2.9所示的数据传输格式进行传输的。
图 2.9 一页文件传真的数据传输格式
第2章信源编码
2.1.2 算术编码
1. 基本概念