信息论及编码第5章
信息论:第5章 无失真信源编码定理
(7)码的N次扩展码
假定某码C,它把信源 S {s1 , s2 ,, sq }中的符号
s i 一一变换成码C中的码字 Wi ,则码C的N次扩展 码是所有N个码字组成的码字序列的集合。
24
例如:若码 C {W1 ,W2 ,,Wq } 满足:si Wi ( xi1 , xi 2 ,, xil ), si S , xil X 则码C的N次扩展码集合 B {B1 , B2 , , Bq } ,其中:
为了解决这两个问题,就要引入信源编码和信 道编码。
2
一般来说,抗干扰能力与信息传输率二者相互矛盾。 然而编码定理已从理论上证明,至少存在某种最佳 的编码能够解决上述矛盾,做到既可靠又有效地传 输信息。 信源虽然多种多样,但无论是哪种类型的信源, 信源符号之间总存在相关性和分布的不均匀性,使 得信源存在冗余度。
q r
N
l
(5.2)
36
25
(8)惟一可译码
若任意一串有限长的码符号序列只能被惟一地 译成所对应的信源符号序列,则此码称为惟一可译 码(或称单义可译码)。否则就称为非惟一可译码 或非单义可译码。
若要使某一码为惟一可译码,则对于任意给定 的有限长的码符号序列,只能被惟一地分割成一个 个的码字。
26
例如:对于二元码 C1 {1, 01, 00},当任意给定一串 码字序列,例如“10001101”,只可唯一地划分为 1,00,01,1,01,因此是惟一可译码; 而对另一个二元码 C 2 {0,10, 01},当码字序列 为“01001”时,可划分为0,10,01或01,0,01,所以是 非惟一可译的。
i
N
Bi {Wi1 ,Wi2 ,,WiN }; i1 ,, i N 1,, q; i 1,, q N
信息论与编码(第二版)陈运主编课件第五章 (1)
6
H ( x) 89.63% R
作业
5.1
2
3 4
令p(a0 ) 0, 用pa (a j )( j i 1)表示第i个码字的 累加概率pa (a j ) p(ai )
j 1 i 0
log 2 p(ai ) ki 1 log 2 p(ai ) ki 为第i个码字的长度
把pa (a j )用二进制表示,并取小数点后的ki 位 作为ai的码字
码序列:C W1W2 ...WK Wk {b1 , b2 ...bm }
定长 消息序列
码序列
变长
定理说明
m-码序列中每个符号的可能取值,单个符号的 信息量为 log m K-定长编码的长度,总信息量 K log m L-信源符号的长度,平均每个符号的信息量为 K log m
K log m H(X ) 信息率: R L H(X ) 编码效率字是否可分离?
消息 概率 a1 0.5 a2 0.25 a3 0.125 0.125 a4
码A 0 0 1 10
不可 分离
码B 0 1 00 11
不可 分离
可分离 可分离 即时码 有延时 异前置码
码C 0 01 011 0111
码D 0 10 110 1110
克拉夫特不等式
L
信息率略大于信源熵,可做到无失真译码
例题
P66 例2.4.1
结论:定长编码简单,但要达到一定的差错 率不易实现,且编码效率低。
2
变长编码定理:
对离散无记忆信源,消息长度为L,符号熵为H(X), 对信源进行m元变长编码,一定存在无失真的信源编 码方法
其码字平均长度
K 满足:
信息论与编码第5章限失真信源编码
第一节 失真测度
• 以上所举的三个例子说明了具体失真度的定义. 一般情况下根据实际信源的失真, 可以定义不同 的失真和误差的度量.
• 另外还可按照其他标准, 如引起的损失、风险、 主观感受上的差别大小等来定义失真度d(ui,vj).
• 从实用意义上说, 研究符号实际信源主观要求的、 合理的失真函数是很重要的.
第一节 失真测度
设信源变量为U={u1,…,ur}, 接收端变量为 V={v1,…,vs}, 对于每一对(u,v), 指定一个非负 函数
d(ui,vj)≥0 称为单个符号的失真度(或称失真函数). 失真函数用来表征信源发出符号ui, 而接收端再现 成符号vj所引起的误差或失真. d越小表示失真越小, 等于0表示没有失真.
➢ 应该指出, 研究R(D)时, 条件概率p(v|u)并没有 实际信道的含义. 只是为了求互信息的最小值而引 用的、假想的可变试验信道. ➢ 实际上这些信道反映的仅是不同的有失真信源编 码或信源压缩. 所以改变试验信道求平均互信息最 小值, 实质上是选择编码方式使信息传输率为最小.
率失真理论与信息传输理论的对偶关系
– 接收端获得的平均信息量可用平均互信息量I(U;V)表示;
– 这就变成了在满足保真度准则的条件下 D D 找平均互信息量I(U;V)的最小值.
,寻
– 因为BD是所有满足保真度准则的试验信道集合, 即可以 在D失真许可的试验信道集合BD中寻找某一个信道 p(vj|ui), 使I(U;V)取最小值.
本章所讨论的内容是量化、数模转换、频带 压缩和数据压缩的理论基础.
前言
本章主要介绍信息率失真理论的基本内容, 侧 重讨论离散无记忆信源.
首先给出信源的失真度和信息率失真函数的定 义与性质, 然后讨论离散信源的信息率失真函数计 算. 在这个基础上论述保真度准则下的信源编码定 理.
信息论与编码第5章(2)
2.48
3
011
a4
0.17
0.57
2.56
3
100
a5
0.15
0.74
2.743101 Nhomakorabeaa6
0.10
0.89
3.34
4
1110
a7
0.01
0.99
6.66
7
1111110
10
香农编码
• 由上表可以看出,一共有5个三位的代码组,各代 码组之间至少有一位数字不相同,故是唯一可译码。 还可以判断出,这7个代码组都属于即时码。
相等。如编二进制码就分成两组,编m进制码就分成 m组。 给每一组分配一位码元。 将每一分组再按同样原则划分,重复步骤2和3,直至概 率不再可分为止。
13
费诺编码
xi
符号概 率
x1
0.32
0
编码 0
码字 00
码长 2
x2
0.22
1
01
2
x3
0.18
0
10
2
x4
0.16
1
0
110
3
x5
0.08
1
0
的码字总是0、00、000、0…0的式样; ✓ 码字集合是唯一的,且为即时码; ✓ 先有码长再有码字; ✓ 对于一些信源,编码效率不高,冗余度稍大,因此
其实用性受到较大限制。
12
费诺编码
费诺编码属于概率匹配编码 。
编码步骤如下: 将概率按从大到小的顺序排列,令
p(x1)≥ p(x2)≥…≥ p(xn) 按编码进制数将概率分组,使每组概率尽可能接近或
15
哈夫曼编码
哈夫曼编码也是用码树来分配各符号的码字。 哈夫曼(Huffman)编码是一种效率比较高的变长无失
信息论与编码第五章习题参考答案
5.1某离散无记忆信源的概率空间为采用香农码和费诺码对该信源进行二进制变长编码,写出编码输出码字,并且求出平均码长和编码效率。
解:计算相应的自信息量1)()(11=-=a lbp a I 比特 2)()(22=-=a lbp a I 比特 3)()(313=-=a lbp a I 比特 4)()(44=-=a lbp a I 比特 5)()(55=-=a lbp a I 比特 6)()(66=-=a lbp a I 比特 7)()(77=-=a lbp a I 比特 7)()(77=-=a lbp a I 比特根据香农码编码方法确定码长1)()(+<≤i i i a I l a I平均码长984375.164/6317128/17128/1664/1532/1416/138/124/112/1L 1=+=⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=由于每个符号的码长等于自信息量,所以编码效率为1。
费罗马编码过程5.2某离散无记忆信源的概率空间为使用费罗码对该信源的扩展信源进行二进制变长编码,(1) 扩展信源长度,写出编码码字,计算平均码长和编码效率。
(2) 扩展信源长度,写出编码码字,计算平均码长和编码效率。
(3) 扩展信源长度,写出编码码字,计算平均码长和编码效率,并且与(1)的结果进行比较。
解:信息熵811.025.025.075.075.0)(=--=lb lb X H 比特/符号 (1)平均码长11=L 比特/符号编码效率为%1.81X)(H 11==L η(2)平均码长为84375.0)3161316321631169(212=⨯+⨯+⨯+⨯=L 比特/符号 编码效率%9684375.0811.0X)(H 22===L η(3)当N=4时,序列码长309.3725617256362563352569442569242562732562732256814=⨯+⨯+⨯⨯+⨯⨯+⨯⨯+⨯+⨯⨯+⨯=L平均码长827.04309.34==L %1.98827.0811.0X)(H 43===L η可见,随着信源扩展长度的增加,平均码长逐渐逼近熵,编码效率也逐渐提高。
信息论与编码第5章
信息论与编码第5章第五章信源编码(第⼗讲)(2课时)主要内容:(1)编码的定义(2)⽆失真信源编码重点:定长编码定理、变长编码定理、最佳变长编码。
难点:定长编码定理、哈夫曼编码⽅法。
作业:5。
2,5。
4,5。
6;说明:本堂课推导内容较多,枯燥平淡,不易激发学⽣兴趣,要注意多讨论⽤途。
另外,注意,解题⽅法。
多加⼀些内容丰富知识和理解。
通信的实质是信息的传输。
⽽⾼速度、⾼质量地传送信息是信息传输的基本问题。
将信源信息通过信道传送给信宿,怎样才能做到尽可能不失真⽽⼜快速呢?这就需要解决两个问题:第⼀,在不失真或允许⼀定失真的条件下,如何⽤尽可能少的符号来传送信源信息;第⼆,在信道受⼲扰的情况下,如何增加信号的抗⼲扰能⼒,同时⼜使得信息传输率最⼤。
为了解决这两个问题,就要引⼊信源编码和信道编码。
⼀般来说,提⾼抗⼲扰能⼒(降低失真或错误概率)往往是以降低信息传输率为代价的;反之,要提⾼信息传输率常常⼜会使抗⼲扰能⼒减弱。
⼆者是有⽭盾的。
然⽽在信息论的编码定理中,已从理论上证明,⾄少存在某种最佳的编码或信息处理⽅法,能够解决上述⽭盾,做到既可靠⼜有效地传输信息。
这些结论对各种通信系统的设计和估价具有重⼤的理论指导意义。
§3.1 编码的定义编码实质上是对信源的原始符号按⼀定的数学规则进⾏的⼀种变换。
讨论⽆失真信源编码,可以不考虑⼲扰问题,所以它的数学描述⽐较简单。
图 3.1是⼀个信源编码器,它的输⼊是信源符号},,, {21q s s s S =,同时存在另⼀符号},,,{21r x x x X =,⼀般来说,元素xj 是适合信道传输的,称为码符号(或者码元)。
编码器的功能就是将信源符号集中的符号s i (或者长为N 的信源符号序列)变换成由x j (j=1,2,3,…r)组成的长度为l i 的⼀⼀对应的序列。
输出的码符号序列称为码字,长度l i 称为码字长度或简称码长。
可见,编码就是从信源符号到码符号的⼀种映射。
信息论基础第5章无失真信源编码
r 元霍夫曼编码步骤:
1) 验证所给 q 是否满足 q (r 1) r ,若不满足该式,
可以人为地增加 t 个概率为零的符号,满足式
n (r 1) r ,以使最后一步有 r 个信源符号;
2) 取概率最小的 r 个符号合并成一个新符号,并分别用 0, 1,…,(r 1) 给各分支赋值,把这些符号的概率相加作为该新 符号的概率;
上述不等式只是即时码存在的充要条件,而不能作为判别的依据。
需要注意的是,克拉夫特不等式是即时码存在的充要条件,而 不能作为判别的依据。后来麦克米伦(B. McMillan)证明唯一可译 码也满足克拉夫特不等式。这说明在码长选择的条件上,即时码与 唯一可译码是一致的。
【例】 对于二元码,即 r 2 ,如果 q 4 , L1 2 , L2 2 ,
原始信源普遍存在剩余度,香农信息论认为信源的剩余度主 要来自两个方面:一是信源符号间的相关性,二是信源符号概率 分布的不均匀性。为了去除信源剩余度,提高信源的信息传输率, 必须对信源进行压缩编码。
目前去除信源符号间相关性的主要方法是预测编码和变换编 码,而去除信源符号概率分布不均匀性的主要方法是统计编码。
《信息论基础》
第5章 无失真信源编码
第 2 章已经讨论了离散信源的信息度量—信源熵, 本章将讨论信源的另一个重要问题:如何对信源的输出 进行适当的编码,才能用尽可能少的码元来表示信源信 息,做到以最大的信息传输率无差错地传输信息呢?即 无失真信源编码,它解决的是通信的有效性问题。
本章将首先介绍信源编码器;然后从理论上阐述无 失真信源编码定理,得出“平均码长的理论极限值就是
信息论与编码第5章 信源编码技术
哈夫曼码的主要特点 1、哈夫曼码的编码方法保证了概率大的符号对 应于短码,概率小的符号对应于长码,充分 利用了短码; 2、缩减信源的两个码字的最后一位总是不同, 可以保证构造的码字为即时码。 3、哈夫曼码的效率是相当高的,既可以使用单 个信源符号编码,也可以对信源序列编码。 4、要得到更高的编码效率,可以使用较长的序 列进行编码。
5.1.2费诺码
费诺码的基本思想: 1、按照累加概率尽可能相等的原则对信源符号 进行分组: 对于二元码,则每次分为两组; 对于d元码,则每次分为d个组。 并且给不同的组分配一个不同的码元符号。 2、对其中的每组按照累计概率尽可能相等的原 则再次进行分组,并指定码元符号,直到不能 再分类为止。 3、然后将每个符号指定的码元符号排列起来就 得到相应的码字。
算术编码
适用于JPEG2000,H.263等图像压缩标准。 特点: 1、随着序列的输入,就可对序列进行编码 2、平均符号码长 L 满足
1 H (X ) L H (X ) N
(最佳编码)
3、需要知道信源符号的概率 是对shanno-Fanno-Elias编码的改进。
累计分布函数的定义
H(X ) H(X ) L 1 log d log d
费诺码的最佳性
1、保证每个集合概率和近似相等,保证d个码元近 似等概率,每个码字承载的信息量最大,码长近似 最短。 2、是次最佳的编码方法,只在当信源符号概率满足:
p(ai ) d
时达最佳。
li
信源符号
a1 a2 a3 a4 a5 a6 a7 a8 a9
费诺二元码的编码步骤
1、将源消息符号按概率大小排序:
p1 p2 p3 pn
2、将依次排列的信源符号分为两大组,使每组的概 率和尽可能相等,且每组赋与二进制码元“0”和 “1”。 3、将每一大组的信源符号再分为两组,使每组的概 率和尽可能相等,且每组赋与二进制码元“0”和 “1”。 4、如此重复,直至每组只剩下一个符号。 信源符号所对应的码字即费诺码。
《信息论与编码》第5章哈夫曼编码
什么是哈夫曼编码方法
1952年由美国计算机科学家戴维· 哈夫曼先生提出 是一种数据压缩技术 该方法依据字符出现的概率进行编码 ,其基本思想为: 出现概率高的字符使用较短的编码 出现概率低的则使用较长的编码 使编码之后的码字的平均长度最短
哈夫曼编码方法
哈夫曼编码方法包含两个过程
哈夫曼编码方法包含两个过程
编码过程和译码过程
编码过程 译码过程
构建哈夫曼树 CreatHT(W,&HT)
输入是字符频度表W
表中记录的是原码报文中出现的不同符号个数和频率
输出是哈夫曼树HT
进行哈夫曼译码 HuffmanDecod(HT,CC,W,&OC)
输入的是哈夫曼树HT、代码报文CC和字符频度表W 输出的是原码报文OC
OC
输出OC 到哈夫曼译码系统之外 返回开头
字母a的编码为110 字母n的编码为111
1
4 n
因此,在电文中出现频率 高的字母的编码相对短, 而出现频率低的字母的编 码相对长
111 字符编码表HC=((d,0),(i,10),(a,110),(n,111))
哈夫曼编码过程演示
编码 A1 A2 A3 0.23 0.21 0.18
1
0 1 0 1 0.10 0
编码过程和译码过程
编码过程
构建哈夫曼树 CreatHT(W,&HT)
输入是字符频度表W
表中记录的是原码报文中出现的不同符号个数和频率
输出是哈夫曼树HT
进行哈夫曼编码 HuffmanCoding(HT,&HC)
输入是哈夫曼树HT 输出是字符编码表HC
信息论基础与编码(第五章)
5-1 有一信源,它有六种可能的输出,其概率分布如下表所示,表中给出了对应的六种编码12345C C C C C 、、、、和6C 。
(1) 求这些码中哪些是唯一可译码; (2) 求哪些是非延长码(即时码);(3) 对所有唯一可译码求出其平均码长。
解:(1(2)1,3,6是即时码。
5-2证明若存在一个码长为12,,,q l l l ⋅⋅⋅的唯一可译码,则一定存在具有相同码长的即时码。
证明:由定理可知若存在一个码长为Lq L L ,,2,1 的唯一可译码,则必定满足kraft 不等式∑=-qi l ir1≤1。
由定理44⋅可知若码长满足kraft 不等式,则一定存在这样码长的即时码。
所以若存在码长Lq L L ,,2,1 的唯一可译码,则一定存在具有相同码长P (y=0)的即时码。
5-3设信源126126()s s s S p p p P s ⋅⋅⋅⎡⎤⎡⎤=⎢⎥⎢⎥⋅⋅⋅⎣⎦⎣⎦,611i i p ==∑。
将此信源编码成为r 元唯一可译变长码(即码符号集12{,,,}r X x x x =⋅⋅⋅),其对应的码长为(126,,,l l l ⋅⋅⋅)=(1,1,2,3,2,3),求r 值的最小下限。
解:要将此信源编码成为 r 元唯一可译变长码,其码字对应的码长(l 1 ,l 2 ,l 3, l 4,l 5, l 6)=(1,1,2,3,2,3) 必须满足克拉夫特不等式,即132321161≤+++++=------=-∑r r r r r r ri li所以要满足122232≤++r r r ,其中 r 是大于或等于1的正整数。
可见,当r=1时,不能满足Kraft 不等式。
当r=2, 1824222>++,不能满足Kraft 。
当r=3,127262729232<=++,满足Kraft 。
所以,求得r 的最大值下限值等于3。
5-4设某城市有805门公务和60000门居民。
作为系统工程师,你需要为这些用户分配。
(信息论)第5章无失真信源编码
定长编码定理
定长信源编码定理讨论了编码的有关参数对译 码差错的限制关系
sq p s q
定理 5.3.1 设离散无记忆信源
S s1 P p s 1 p s 2 s2
的熵为H S ,其 N 次扩展信源为
S N 1 p 1 P
2 q p 2 p q
N N
现在用码符号集 X x1 , x2 ,, xr 对N次扩展信源 S N 进行长度为 l 的定长编码,对于 0, 0 ,只要满足
l H S N log r
则当 N 足够大时,译码错误概率为任意小,几乎可以实 现无失真编码。 反之,若满足
l H S 2 N log r
则不可能实现无失真编码。而当N足够大时,译码错误概 14 率近似等于1。
以上的定理5.3.1 和定理5.3.2实际上说明的是一个 问题,虽然该定理是在平稳无记忆离散信源的条件下 证明的,但它也同样适合于平稳有记忆信源,只要要 2 求有记忆信源的极限熵 H S 和极限方差 存在 即可。对于平稳有记忆信源,式(5.6)和式(5.7 ) 中 H S 应该为极限熵 H S 。
变长码(可变长度码)
2
奇异码:若码中所有码字都不相同,则称此码为非
奇异码。反之,称为奇异码。
同价码:每个码符号所占的传输时间都相同的码。定
长码中每个码字的传输时间相同。而变长码中的每个码 字的传输时间不一定相等。
表 5.1
信源符号si
信源符号出现概率 si p
信息论与编码-曹雪虹-第五章-课后习题答案
信息论与编码-曹雪虹-第五章-课后习题答案第五章(2) 哪些码是⾮延长码?(3) 对所有唯⼀可译码求出其平均码长和编译效率。
解:⾸先,根据克劳夫特不等式,找出⾮唯⼀可译码31123456231244135236:62163:22222216463:164:22421:2521:2521C C C C C C --------------?<+++++=<<++?=+?>+?<5C ∴不是唯⼀可译码,⽽4C :⼜根据码树构造码字的⽅法1C ,3C ,6C 的码字均处于终端节点∴他们是即时码(1) 因为A,B,C,D四个字母,每个字母⽤两个码,每个码为0.5ms, 所以每个字母⽤10ms当信源等概率分布时,信源熵为H(X)=log(4)=2平均信息传递速率为bit/ms=200bit/s(2) 信源熵为H(X)==0.198bit/ms=198bit/s5-541811613216411281128H(U)=1 2Log2() 14Log4() +18Log8() +116Log16 ()+132Log32 ()Log64()+1128Log128()+1128Log128()+ 1.984= (2) 每个信源使⽤3个⼆进制符号,出现0的次数为出现1的次数为P(0)=P(1)=(3)相应的费诺码(5)⾹农码和费诺码相同平均码长为编码效率为:5-11(1)信源熵(2)⾹农编码:平均码长:编码效率为(3)平均码长为:编码效率:4平均码长为:编码效率:5.16 已知⼆元信源{0,1},其p0=1/4,p1=3/4,试⽤式(4.129)对序列11111100编算术码,并计算此序列的平均码长。
解:根据算术编码的编码规则,可得:P(s=11111100) = P2(0)P6(1) = (3/4)6 (1/4)27)(1log =??=S P l根据(4.129)可得:F(S) = P(0) + P(10) + P(110) + P(1110) + P(11110) + P(111110) = 1–∑≥sy y P )(= 1 – P(11111111) – P(11111110) – P(11111101) – P(11111100)= 1– P(111111) = 1– (3/4)6 = 0.82202 = 0.110100100111⼜P(S) = A(S)= 0.0000001011011001,所以F(S) + P(S) = 0.1101010 即得C = 0.1101010 得S 的码字为1101010平均码长L 为 0.875。
信息论与编码 第5章(1)
信源编码
2015-1-13 1
数字通信系统的一般模型
干扰源
信源
编码器
调制器
物理信道 实际信道
解调器
译码器
信宿
编码信道
等效信道
2 2015-1-13
信息通过信道传输到信宿的过程即为通信。要做到 既不失真又快速地通信,需要解决两个问题: 在不失真或允许一定失真条件下,如何提高信息 传输速度----这是本章要讨论的信源编码问题.
17 2015-1-13
编码的定义
(2)唯一可译码 非即时码: 如果接收端收到一个完整的码字后不能立即译码,还 需等下一个码字开始接收后才能判断是否可以译码 即时码(非延长码,异前缀码): 在译码时无需参考后续的码符号就能立即作出判断, 译成对应的信源符号。 任意一个码字都不是其它码字的前缀部分 在延长码中,有的码是唯一可译的,取决于码的总体结 构,如码3, “1,10,100,1000”.
减少冗余,提高编码效率。具体的说,就是针对信源输 出符号序列的统计特性,寻找一定的把信源输出符号序 列变换为最短码字序列的方法。 符号变换:使信源输出符号与信道的输入符号相匹配。
信源编码的基本途径有两个:
一是编码后使序列中的各个符号之间尽可能地互相独立, 即解除相关性----方法包括预测编码和变换编码. 二是使编码后各个符号出现的概率尽可能相等,即均匀 化分布----方法主要是统计编码.
首先观察是否是非奇异码。若是奇异码,肯定不是唯一可 译码 其次,计算是否满足Kraft不等式。若不满足一定不是唯 一可译码; 然后将码画成一棵树图,观察是否满足异前缀码的树图的 构造,若满足则是唯一可译码。 缺点:若是前缀码时,则无法判断是否是唯一可译码。
信息论与编码技术第五章课后习题答案
码,并求出其编码效率。
解:
信源符号 概率 编码
码字 码长
X1
3/8 0
0
1
X2
1/6 1
0
10 2
X3
1/8
1
11 2
X4
1/8 2
0
20 2
X5
1/8
1
21 2
X6
1/12
2
22 2
H(X)=-((3/8)*log(3/8)+(1/6)*log(1/6)+(1/8)*log(1/8)+(1/8)*log(1/8)+(1/8)*log(1/8)+(1/12)*log(1/12))
=2.3852 (三进制单位/信源符号)
H3(X)= H(X)/ 1.5850=2.3852/1.5850= 1.5049(三进制单位/信源符号)
L =(3/8)*1+ (1/6)*2+ (1/8)*2+ (1/8)*2+ (1/8)*2+ (1/12)*2=1.625(码符号/信源符号)
η= H3(X)/ L =1.5049/1.625= 92.61 %
5.8 已知符号集合 {x1, x2 , x3,"} 为无限离散消息集合,它们出现的概率分别为 p(x1) = 1/ 2 , p(x2 ) = 1/ 4 , p(x3 ) = 1/ 8 , p(xi ) = 1/ 2i ,……。
(1) 用香农编码方法写出各个符号消息的码字。 (2) 计算码字的平均信息传输速率。
L =4*(1/4)*1=1(码符号/信源符号)
Rt= H(X)/(t* L )=1/(1*10*10-2)=10(比特/秒)
信息理论与编码课后答案第5章
第5章 有噪信道编码5.1 基本要求通过本章学习,了解信道编码的目的,了解译码规则对错误概率的影响,掌握两种典型的译码规则:最佳译码规则和极大似然译码规则。
掌握信息率与平均差错率的关系,掌握最小汉明距离译码规则,掌握有噪信道编码定理(香农第二定理)的基本思想,了解典型序列的概念,了解定理的证明方法,掌握线性分组码的生成和校验。
5.2 学习要点5.2.1 信道译码函数与平均差错率5.2.1.1 信道译码模型从数学角度讲,信道译码是一个变换或函数,称为译码函数,记为F 。
信道译码模型如图5.1所示。
5.2.1.2 信道译码函数信道译码函数F 是从输出符号集合B 到输入符号集合A 的映射:*()j j F b a A =∈,1,2,...j s =其含义是:将接收符号j b B ∈译为某个输入符号*j a A ∈。
译码函数又称译码规则。
5.2.1.3 平均差错率在信道输出端接收到符号j b 时,按译码规则*()j j F b a A =∈将j b 译为*j a ,若此时信道输入刚好是*j a ,则称为译码正确,否则称为译码错误。
j b 的译码正确概率是后验概率:*(|)()|j j j j P X a Y b P F b b ⎡⎤===⎣⎦ (5.1)j b 的译码错误概率:(|)()|1()|j j j j j P e b P X F b Y b P F b b ⎡⎤⎡⎤=≠==-⎣⎦⎣⎦ (5.2)平均差错率是译码错误概率的统计平均,记为e P :{}1111()(|)()1()|1(),1()|()s se j j j j j j j ssj j j j j j j P P b P e b P b P F b b P F b b P F b P b F b ====⎡⎤==-⎣⎦⎡⎤⎡⎤⎡⎤=-=-⎣⎦⎣⎦⎣⎦∑∑∑∑ (5.3)5.2.2 两种典型的译码规则两种典型的译码规则是最佳译码规则和极大似然译码规则。
第5章信源编码-信息论与编码(第3版)-曹雪虹-清华大学出版社
普通高等教育“十五”国家级规划教材《信息论与编码》 曹雪虹等编著
7
5.1 编码的概念
码可分为两类: 一、固定长度的码,码中所有码字的长度
都相同,如表5-1中的码1就是定长码 二、可变长度码,码中的码字长短不一,
如表中码2就是变长码。
普通高等教育“十五”国家级规划教材《信息论与编码》 曹雪虹等编著
8
1
第5章 信源编码
信源编码的作用可归纳为:
(1) 符号变换:使信源的输出符号与信 道的输入符号相匹配;
(2)信息匹配:使信息传输率达到信道 容量;
(3) 冗余度压缩:使编码效率等于或接 近100%。
普通高等教育“十五”国家级规划教材《信息论与编码》 曹雪虹等编著
2
第5章 信源编码
信源编码的基础是信息论中的两个编码定理:
每个符号序列xi依照固定码表映射成一个码字yi, yi=(yi1yi2…yil…yiL), yilB={b1,b2,…,bi,…,bm}
这样的码称为分组码,有时也叫块码。只有分组码才有对 应的码表,而非分组码中则不存在码表。
普通高等教育“十五”国家级规划教材《信息论与编码》 曹雪虹等编著
6
5.1 编码的概念
9
5.1 编码的概念
(1)奇异码和非奇异码 若信源符号和码字是一一对应的,则该 码为非奇异码。反之为奇异码。 如表5-2中的码1是奇异码,码2是非奇异 码。
普通高等教育“十五”国家级规划教材《信息论与编码》 曹雪虹等编著
10
5.1 编码的概念
(2)唯一可译码 任意有限长的码元序列,只能被唯一地 分割成一个个的码字,便称为唯一可译 码
如图5-1所示,如果信源输出符号序列长度L=1,
信源符号集A(a1,a2,…,an)
信息论讲义-第五章(13讲)
信息理论基础第13讲北京航空航天大学201教研室陈杰21.编码器—信源符号集S =(s 1,s 2, …s q )—码符号集X =(x 1,x 2…x r )—代码组(Source Code ) C =(W 1, W 2,…W q )—码字(Codeword ) W i =(x l1,x l2,…x li )2. 分组码—奇异性(Non-singular )—唯一可译性(Uniquely decodable )—即时码(Instantaneous )All codesNon-singular codesUniquely decodable codesInstantaneous codesFigure 5.1. Classes of codes343. 定长编码3.1 唯一可译定长码编码速率编码效率log log L ql N r=≥log 1log q r +>log log L r R qN=≥()()log H S H S R qη=≤例:英文字符数q =27,且log 2q=4.754 bit 信源熵H (S )=4.03 bit ,取编码速率R=log 2q 则编码效率η=85%53. 定长编码3.2 定长码编码定理(1)正定理:(2)逆定理:log ()L rR H S Nε=≥+2[()]i E D I s p N ε≤log ()2L rR H S Nε=≤−12N E p ε−≥−0E p →1E p →63. 定长编码3.2 定长码编码定理根据正定理,令p E <δlog ()L rR H S Nε=≥+2[()]i E D I s p N δε≤<2[()]i D I s N εδ≥()H S Rη=()()H s H s ε≤+[]222()()(1)i D I s N H S ηηδ≥⋅−1()H s ηεη−=75.4 变长码•引入1. 变长码无需很长的码长就能实现高效率的无失真信源编码2.变长码必须是唯一可译码,才能实现无失真编码3.变长码是唯一可译码的充要条件:(1)非奇异码(2)任意有限次扩展码是非奇异码4. 变长码必须即时码85.4.1码的分类和主要编码方法信源编码方法:⑴匹配编码:概率大的信源符号,代码长度短;反之,代码长度长⑵变换编码:从一种空间变换成另一种空间,然后进行编码⑶识别编码:对有标准形状的文字、符号和数据进行编码9定理:设信源符号集为S=(s 1,s 2, …,s q,),码符号集为X=(x 1,x 2, …x r ),对信源进行编码,代码组C=(W 1,W 2, …W q ),相应码长分别l 1,l 2,…l q ,即时码存在(唯一可译码存在)的充要条件为:11≤∑=−qi l ir10释:(1)克拉夫特(Kraft)不等式为即时码存在充要条件(2)麦克米伦(McMilan )不等式为唯一可译码存在充要条件(3)该定理不能作为判别一种码是否为即时码(唯一可译码)的判据(4)当码字长度和码符号满足该不等式时,必可构造出即时码(唯一可译码)115.4.3 唯一可译码判别准则•唯一可译码:如果一个分组码对于任意有限的整数N ,其N 次扩展码均为非奇异码,则为唯一可译码•唯一可译码的充要条件:(见书上128页)121.码平均长度离散无记忆信源为编码后的码子码字的长度因为是唯一可译码,s i 和W i 一一对应则码字平均长度为[]1212()()()q q s s s S P p s p s p s ⎡⎤=⎢⎥⎣⎦""12,,,qW W W "ql l l ,,,21"()()i i p s p W =11()()q qi i i ii i L p W l p s l ====∑∑13释:(1)是每个信源符号编码需要的平均码符号个数;(2) 编码后,每个信源符号s i 平均用个码符号来表示,平均每个码符号携带的信息量是信道的信息传输率(3) 若传输一个码符号需要t 秒,则每秒传输率为故L L L s H X H R )()(==Ls H R t R t )(1==bit/码符号bit/秒L R t 信息传输率高2.紧致码定义:对于某一个信源和某一码符号集,若有一L个唯一可译码,其平均码长度小于所有其它唯一可译码的平均码长度,则称该码为紧致码(也称最佳码)•释:无失真信源编码核心问题是寻找紧致码14153.定理:(平均码长下界)设离散无记忆信源的信源熵为H (S ),用码符号集进行编码,则存在一种编码方式构成唯一可译码,平均码长满足[]1212()()()q q s s s SP p s p s p s ⎡⎤=⎢⎥⎣⎦""},,,{21q x x x X "=L rS H L r S H log )(1log )(+<≤16释:(1) 的极限值为,即下界;小于下界,则唯一可译码不存在(2) 当选择时,才能达到下界(3) 紧致码平均码长不一定达到下界(4) 达到下界的唯一可译码是紧致码(5) 紧致码最短码长L ()log H S r Llog ()log i i p s l r=−rS H L log )(=174 变长无失真信源编码定理(香农第一定理)定理:设离散无记忆信源其信源熵为H (S ),它的N 次扩展信源为[]1212()()()q q s s s SP p s p s p s ⎡⎤=⎢⎥⎣⎦""1212()()()N N qN q S P p p p αααααα⎡⎤⎡⎤=⎢⎥⎣⎦⎢⎥⎣⎦""18扩展信源熵为H (S N ),码符号集X =(x 1,x 2, …x r ),用X 对S N 编码,则总可以找到一种编码方法,构成唯一可译码,使信源S 中的每个信源符号所需要的码字平均长度满足或rS H N L N r S H N log )(1log )(≥>+)(1)(S H NL N S H r N r ≥>+19当时,则其中,是扩展信源中每个信源符号对应的平均码长式中,是对应的码字长度∞→N )(lim S H N L r N N =∞→rS H N L N N log )(lim =∞→N L i α1()Nq N i ii L p αλ==∑i λi α20释:对于平稳遍历的离散有记忆信源(如马尔可夫信源),有其中,为有记忆信源的极限熵N L N L 原始信源平均码长N次扩展信源编码后每原始信源符号的平均码长≥rH N L N N log lim ∞∞→=∞H5.4.4变长信源编码定理5.编码速率、编码效率、剩余度(1) 编码速率:变长编码的编码速率为 LN R= log r N (2) 编码效率:编码效率定义为H ( S ) NH r ( S ) NH ( S ) = = η= R LN LN log r(3) 剩余度:定长码的剩余度为NH r ( S ) γ = 1 −η = 1 − LN21例题 例5.2 设离散无记忆信源Ss2 ⎤ ⎡S ⎤ ⎡ s1 ⎢ P( S ) ⎥ = ⎢0.75 0.25⎥ ⎣ ⎦ ⎣ ⎦ 对信源S及其扩展信源进行二元变长编码, 求当信源扩展次数N=2,3,4时的平均码长和 编码效率。
(完整版)信息论第五章答案
5.1 设信源⎭⎬⎫⎩⎨⎧=⎥⎦⎤⎢⎣⎡01.01.015.017.018.019.02.0)(7654321x x x x x x x X P X (1) 求信源熵H(X); (2) 编二进制香农码;(3) 计算平均码长和编码效率。
解: (1)symbolbit x p x p X H i i i /609.2)01.0log 01.01.0log 1.015.0log 15.017.0log 17.018.0log 18.019.0log 19.02.0log 2.0()(log )()(2222222712=⨯+⨯+⨯+⨯+⨯+⨯+⨯-=-=∑=%1.8314.3609.2)()(14.301.071.0415.0317.0318.0319.032.03)(=====⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑KX H R X H x p k K ii i η5.2 对信源⎭⎬⎫⎩⎨⎧=⎥⎦⎤⎢⎣⎡01.01.015.017.018.019.02.0)(7654321x x x x x x x X P X 编二进制费诺码,计算编码效率。
%2.9574.2609.2)()(74.201.041.0415.0317.0218.0319.032.02)(=====⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑KX H R X H x p k K ii i η5.3 对信源⎭⎬⎫⎩⎨⎧=⎥⎦⎤⎢⎣⎡01.01.015.017.018.019.02.0)(7654321x x x x x x x X P X 编二进制和三进制哈夫曼码,计算各自的平均码长和编码效率。
解:%9.9572.2609.2)()(72.201.041.0415.0317.0318.0319.022.02)(=====⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑KX H R X H x p k K ii i η%4.913log 8.1609.2log )()(8.1)01.01.015.017.018.019.0(22.01)(22=⨯====+++++⨯+⨯==∑m LK X H R X H x p k K ii i η5.4 设信源⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧=⎥⎦⎤⎢⎣⎡12811281641321161814121)(87654321x x x x x x x x X P X (1) 求信源熵H(X);(2) 编二进制香农码和二进制费诺码;(3) 计算二进制香农码和二进制费诺码的平均码长和编码效率; (4) 编三进制费诺码;(5) 计算三进制费诺码的平均码长和编码效率;解: (1)symbolbit x p x p X H i i i /984.1128log 1281128log 128164log 64132log 32116log 1618log 814log 412log 21)(log )()(22222222812=⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=-=∑==127/64 bit/symbol (2)二进制费诺码:香农编码效率:%100984.1984.1)()(64/127984.17128171281664153214161381241121)(======⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑KX H R X H x p k K ii i η费诺编码效率:%100984.1984.1)()(984.17128171281664153214161381241121)(=====⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑KX H R X H x p k K ii i η(5)%3.943log 328.1984.1log )()(328.14128141281364133212161281141121)(22=⨯=⋅===⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑m K X H R X H x p k K ii i η5.5 设无记忆二进制信源⎭⎬⎫⎩⎨⎧=⎥⎦⎤⎢⎣⎡1.09.010)(X P X先把信源序列编成数字0,1,2,……,8,再替换成二进制变长码字,如下表所示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 信源编码(第十讲)(2课时)主要内容:(1)编码的定义(2)无失真信源编码 重点:定长编码定理、变长编码定理、最佳变长编码。
难点:定长编码定理、哈夫曼编码方法。
作业:5。
2,5。
4,5。
6;说明:本堂课推导内容较多,枯燥平淡,不易激发学生兴趣,要注意多讨论用途。
另外,注意,解题方法。
多加一些内容丰富知识和理解。
通信的实质是信息的传输。
而高速度、高质量地传送信息是信息传输的基本问题。
将信源信息通过信道传送给信宿,怎样才能做到尽可能不失真而又快速呢?这就需要解决两个问题:第一,在不失真或允许一定失真的条件下,如何用尽可能少的符号来传送信源信息;第二,在信道受干扰的情况下,如何增加信号的抗干扰能力,同时又使得信息传输率最大。
为了解决这两个问题,就要引入信源编码和信道编码。
一般来说,提高抗干扰能力(降低失真或错误概率)往往是以降低信息传输率为代价的;反之,要提高信息传输率常常又会使抗干扰能力减弱。
二者是有矛盾的。
然而在信息论的编码定理中,已从理论上证明,至少存在某种最佳的编码或信息处理方法,能够解决上述矛盾,做到既可靠又有效地传输信息。
这些结论对各种通信系统的设计和估价具有重大的理论指导意义。
§3.1 编码的定义编码实质上是对信源的原始符号按一定的数学规则进行的一种变换。
讨论无失真信源编码,可以不考虑干扰问题,所以它的数学描述比较简单。
图 3.1是一个信源编码器,它的输入是信源符号},,,{21q s s s S ,同时存在另一符号},,,{21r x x x X ,一般来说,元素xj 是适合信道传输的,称为码符号(或者码元)。
编码器的功能就是将信源符号集中的符号s i (或者长为N 的信源符号序列)变换成由x j (j=1,2,3,…r)组成的长度为l i 的一一对应的序列。
输出的码符号序列称为码字,长度l i 称为码字长度或简称码长。
可见,编码就是从信源符号到码符号的一种映射。
若要实现无失真编码,则这种映射必须是一一对应的,并且是可逆的。
码符号的分类: 下图是一个码分类图下面,我们给出这些码的定义。
1. 二元码若码符号集为X={0;1},所有码字都是一些二元序列,则称为二元码。
二元码是数字通信和计算机系统中最常用的一种码。
2. 等长码:若一组码中所有码字的码长都相同,即l i=l(i=1,2,…q),则称为等长码。
3. 变长码:若一组码组中所有码字的码长各不相同,则称为变长码。
4. 非奇异码:若一组码中所有码字都不相同,则称为非奇异码。
5. 奇异码:若一组码中有相同的码字,则称为奇异码。
6. 唯一可译码:若码的任意一串有限长的码符号序列只能唯一地被译成所对应的信源符号序列,则此码称为唯一可译码,否则就称为非唯一可译码。
7. 非即时码和即时码:如果接收端收到一个完整的码字后,不能立即译码,还要等下一个码字开始接收后才能判断是否可以译码,这样的码叫做非即时码。
如果收到一个完整的码字以后,就可以立即译码,则叫做即时码。
即时码要求任何一个码字都不是其他码字的前缀部分,也叫做异前缀码。
码树:即时码的一种简单构造方法是树图法。
对给定码字的全体集合C={W1,W2,…W q}来说,可以用码树来描述它。
所谓树,就是既有根、枝,又有节点,如图 5.2(80业)所示,图中,最上端A为根节点,A、B、C、D、E皆为节点,E为终端节点。
A、B、C、D为中间节点,中间节点不安排码字,而只在终端节点安排码字,每个终端节点所对应的码字就是从根节点出发到终端节点走过的路径上所对应的符号组成,如图5.2中的终端节点E,走过的路径为ABCDE,所对应的码符号分别为0、0、0、1,则E对应的码字为0001。
可以看出,按树图法构成的码一定满足即时码的定义(一一对应,非前缀码)。
从码树上可以得知,当第i阶的节点作为终端节点,且分配码字,则码字的码长为i。
任一即时码都可以用树图法来表示。
当码字长度给定后,用树图法安排的即时码不是唯一的。
如图3.2中,如果把左树枝安排为1,右树枝安排为0,则得到不同的结果。
对一个给定的码,画出其对应的树,如果有中间节点安排了码字,则该码一定不是即时码。
每个节点上都有r个分支的树称为满树,否则为非满树。
即时码的码树图还可以用来译码。
当收到一串码符号序列后,首先从根节点出发,根据接收到的第一个码符号来选择应走的第一条路径,再根据收到的第二个符号来选择应走的第二条路径,直到走到终端节点为止,就可以根据终端节点,立即判断出所接收的码字。
然后从树根继续下一个码字的判断。
这样,就可以将接收到的一串码符号序列译成对应的信源符号序列。
⏹克拉夫特(Kraft)不等式定理3.1 对于码符号为X={x1,x2,…x r}的任意唯一可译码,其码字为W1,W2,…W q,所对应的码长为l1,l2…l q,则必定满足克拉夫特不等式反之,若码长满足上面的不等式,则一定存在具有这样码长的即时码。
注意:克拉夫特不等式只是说明唯一可译码是否存在,并不能作为唯一可译码的判据(可以排除,不能肯定)。
如{0,10,010,111}满足克拉夫特不等式,但却不是唯一可译码。
例题:设二进制码树中X={x1,x2,x3,x4},对应的l1=1,l2=2,l3=2,l4=3,由上述定理,可得因此不存在满足这种码长的唯一可译码。
可以用树码进行检查。
⏹唯一可译码的判断法(变长):将码C中所有可能的尾随后缀组成一个集合F,当且仅当集合F中没有包含任一码字,则可判断此码C为唯一可译码。
集合F的构成方法:首先,观察码C中最短的码字是否是其它码字的前缀,若是,将其所有可能的尾随后缀排列出。
而这些尾随后缀又有可能是某些码字的前缀,再将这些尾随后缀产生的新的尾随后缀列出,然后再观察这些新的尾随后缀是否是某些码字的前缀,再将产生的尾随后缀列出,依此下去,直到没有一个尾随后缀是码字的前缀为止。
这样,首先获得了由最短的码字能引起的所有尾随后缀,接着,按照上述步骤将次短码字、…等等所有码字可能产生的尾随后缀全部列出。
由此得到由码C的所有可能的尾随后缀的集合F。
例题:设码C={0,10,1100,1110,1011,1101},根据上述测试方法,判断是否是唯一可译码。
解:1. 先看最短的码字:“0”,它不是其他码字前缀,所以没有尾随后缀。
2. 再观察码字“10”,它是码字“1011”的前缀,因此有尾随后缀。
所以,集合F={11,00,10,01},其中“10”为码字,故码C不是唯一可译码。
§3.2 定长编码定理前面已经说过,所谓信源编码,就是将信源符号序列变换成另一个序列(码字)。
设信源输出符号序列长度为L,码字的长度为K L,编码的目的,就是要是信源的信息率最小,也就是说,要用最少的符号来代表信源。
在定长编码中,对每一个信源序列,K L都是定值,设等于K,我们的目的是寻找最小K值。
要实现无失真的信源编码,要求信源符号X i(i=1,2,…q)与码字是一一对应的,并求由码字组成的符号序列的逆变换也是唯一的(唯一可译码)。
定长编码定理:由L 个符号组成的、每个符号熵为H L (X)的无记忆平稳信源符号序列X 1X 2X 3…X L 用K L 个符号Y 1Y 2…Y KL (每个符号有m 种可能值)进行定长变码。
对任意0,0 ,只要)(log X H m LK L L则当L 足够大时,必可使译码差错小于 ;反之,当 时,译码差错一定是有限值,当L 足够大时,译码几乎必定出错。
式中,左边是输出码字每符号所能载荷的最大信息量所以等长编码定理告诉我们,只要码字传输的信息量大于信源序列携带的信息量,总可以实现几乎无失真的编码。
条件时所取得符号数L 足够大。
设差错概率为 P ,信源序列的自方差为 则有:当)(2X 和2均为定值时,只要L 足够大, P 可以小于任一整数 ,即此时要求:只要 足够小,就可以几乎无差错地译码,当然代价是L 变得更大。
令为码字最大平均符号信息量。
定义编码效率为: 最佳编码效率为无失真信源编码定理从理论上阐明了编码效率接近于1的理想编码器的存在性,它使输出符号的信息率与信源熵之比接近于1,但要在实际中实现,则要求信源符号序列的L 非常大进行统一编码才行,这往往是不现实的。
例如:例题:设离散无记忆信源概率空间为 信源熵为 自信息方差为对信源符号采用定长二元编码,要求编码效率%90 ,无记忆信源有)()(X H X H L ,因此%90)()(X H X H可以得到28.0如果要求译码错误概率610 ,则872210108.9()X L 由此可见,在对编码效率和译码错误概率的要求不是十分苛刻的情况下,就需要810 L 个信源符号一起进行编码,这对存储和处理技术的要求太高,目前还无法实现。
如果用3比特来对上述信源的8个符号进行定长二元编码,L=1,此时可实现译码无差错,但编码效率只有2.55/3=85%。
因此,一般说来,当L 有限时,高传输效率的定长码往往要引入一定的失真和译码错误。
解决的办法是可以采用变长编码。
§3.3 最佳编码最佳码:对于某一信源和某一码符号集来说,若有一唯一可译码,其平均码长K 小于所有其他唯一可译码的平均长度。
为此必须将概率大的信息符号编以短的码字,概率小的符号编以长的码字,使得平均码字长度最短。
能获得最佳码的编码方法: 香农(Shannon ) 费诺(Fano ) 哈夫曼(Huffman ) 1、香农编码方法香农第一定理指出了平均码长与信源之间的关系,同时也指出了可以通过编码使平均码长达到极限值,这是一个很重要的极限定理。
香农第一定理指出,选择每个码字的长度K i 满足下式: K i = [ip 1log]——取整 即: -log 2p i ≤K i ≤1-log 2p i 就可以得到这种码。
这种编码方法称为香农编码。
例:设无记忆信源的概率空间为: 计算各符号的码字长度: K 1= log2=1 K 2= log4=2 K 3= K 4 =log8=3用图示码树,可得各自的码字:u 1:(0),u 2:(10),u 3:(110),u 4:(111) 信息熵H(U): 信源符号的平均码长: 编码效率对于这种信源,香农编码是最佳编码。
码树达到满树。
香农编码法多余度稍大,实用性不大,但有重要的理论意义。
编码方法如下:⑴ 将信源消息符号按其出现的概率大小依次排列 p(u 1)≥p(u 2)≥…≥ p(u n ) ⑵ 确定码长K i (整数) :K i = [ip 1log]——取整 ⑶ 为了编成唯一可译码,计算第i 个消息的累加概率 ⑷ 将累加概率P i 变换成二进制数。
⑸ 取p i 二进制数的小数点后K i 位即为该消息符号的二进制数。
例:05.005.02.03.04.0)(54321u u u u u u p U 以i = 3为例,计算各符号的码字长度:K 3 = [-log0.2] = 3累加概率P 4 = 0.7 —— 0.10110… —— 101由图,这些码字没有占满所有树叶,所以是非最佳码。