005 信息论与编码 第5章 信源编码
信息论与编码Chapter 5
15
5.2 无失真信源编码
更一般的弱大数定理
C SWUST 2011 - All rights reserved
16
5.2 无失真信源编码
AEP( Asymptotic Equipartition Property) 渐进等同分割原理
n→∞
等同分割-> 等概率-> 最大熵定理-> 定长编码定理
C SWUST 2011 - All rights reserved
信源编码
source coding
C SWUST 2011 - All rights reserved
西南科大信息工程学院—马强
引子
信源熵:H∞ (X)是理论上传输信源所需的最少比 特数;实际中存在信息冗余,如何减少或消除这 些冗余? 信息率失真函数:在一定失真允许下,所需要的 传输信源的最小比特数;如何来实现这一过程? 信源编码:无失真信源编码(第一极限定理)、限 失真信源编码(第三极限定理)、信道编码定理(第 二极限定理)
C SWUST 2011 - All rights reserved
27
5.2 无失真信源编码
香农编码方法 Fano编码方法 Huffman编码方法
Huffman编码注意: Huffman编码注意:
1. 如何使得码方差变得很小? 1. 如何使得码方差变得很小? 2. 初始编码时,符号数目的个数应该满足什么条件? 2. 初始编码时,符号数目的个数应该满足什么条件? 28 3. 长序列编码,可以使平均码长降低 SWUST 2011 - All rights reserved 3. 长序列编码,可以使平均码长降低
17
5.2 无失真信源编码
AEP的另外一种描述
信息论与编码(第二版)陈运主编课件第五章 (1)
6
H ( x) 89.63% R
作业
5.1
2
3 4
令p(a0 ) 0, 用pa (a j )( j i 1)表示第i个码字的 累加概率pa (a j ) p(ai )
j 1 i 0
log 2 p(ai ) ki 1 log 2 p(ai ) ki 为第i个码字的长度
把pa (a j )用二进制表示,并取小数点后的ki 位 作为ai的码字
码序列:C W1W2 ...WK Wk {b1 , b2 ...bm }
定长 消息序列
码序列
变长
定理说明
m-码序列中每个符号的可能取值,单个符号的 信息量为 log m K-定长编码的长度,总信息量 K log m L-信源符号的长度,平均每个符号的信息量为 K log m
K log m H(X ) 信息率: R L H(X ) 编码效率字是否可分离?
消息 概率 a1 0.5 a2 0.25 a3 0.125 0.125 a4
码A 0 0 1 10
不可 分离
码B 0 1 00 11
不可 分离
可分离 可分离 即时码 有延时 异前置码
码C 0 01 011 0111
码D 0 10 110 1110
克拉夫特不等式
L
信息率略大于信源熵,可做到无失真译码
例题
P66 例2.4.1
结论:定长编码简单,但要达到一定的差错 率不易实现,且编码效率低。
2
变长编码定理:
对离散无记忆信源,消息长度为L,符号熵为H(X), 对信源进行m元变长编码,一定存在无失真的信源编 码方法
其码字平均长度
K 满足:
第5章:信源编码
可以看出,编码效率并不是很高。
4、费诺编码
将概率按从大到小的顺序排列,令:
p(x1)≥ p(x2)≥…≥ p(xn)
按编码进制数将概率分组,使每组概率尽可能接近或相
等。如编二进制码就分成两组,编 m 进制码就分成 m
组。
给每一组分配一位码元。 将每一分组再按同样原则划分,重复步骤 2 和 3,直 至概率不再可分为止。
麦克米伦不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则唯一可译码 存在的充要条件是:
r
i 1
n
li
1
不同编码方式的衡量标准
平均码长:对离散无记忆信源进行信源编码,设编码后各个 码字的码长分别为
信源熵为:H(X)=2.75(比特/符号) 平均码长为:
K (0.25 0.25) 2 0.12 2 3 0.0625 4 4 2.75 (比特/符号)
编码效率为η=1。之所以如此,因为每次所分两组的 概率恰好相等。
5、哈弗曼编码 哈夫曼(Huffman) 编码是一种效率比较高的变长无失 真信源编码方法。
0 1
即时
s2
任何一个码字不是其它码字的延长或前缀
即 时 码
即时码的判决准则
克拉夫特不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则即时码存在 的充要条件是:
r
i 1
n
li
1
唯一可译码的判决准则
2、编码的分类 信源编码可看成是从信源符号集到码符号集的一种映射,即将 信源符号集中的每个元素(可以是单符号,也可以是符号序列)映 射成一个长度为n的码字。对于同一个信源,编码方法是多种的。 【例5.1】 用{u1 ,u2 ,u3,u4, } 表示信源的四个消息,码符号集 为{0,1},表1列出了该信源的几种不同编码。 表1 同一信源的几种不同编码 信 源 消息 u1 u2 u3 各消息 概率 q(u1) q(u2) q(u3)
信息论与编码原理信源编码
信息论与编码原理信源编码
信息论是一门涉及了信息处理的学科,它研究信息生成、传输、接收、存储、利用等过程的一般性理论。
它探讨涉及信息的一切问题,强调掌握
信息所必需的体系性的体系知识,其主要内容有:信息的定义、信息测度,信息的熵,信息编码,信息的可计量性,信息传输,信息和随机性,信息
编译,信息安全,信息认证,解码准确性,信息的保密,校验,系统复杂性,信息的加密等。
信源编码是一种在信息论中常用的编码技术,其目的是用最少的信息
量表示最多的信息内容,以提高信息发送效率。
它主要包括概率信息源编
码和确定性信息源编码两种。
概率信息源编码是根据一个信息源的发生概率来编码,是根据发出信
息的概率来决定编码方式的。
它根据一个消息源中发出的不同信息的概率
来决定信息的编码,并确定每种信息的编码长度。
在这种情况下,越高概
率的信息,编码长度越短。
确定性信息息源编码,是根据一个消息源中出现特定信息的概率确定
编码方式的。
在这种情况下,编码长度取决于消息源的熵,也就是期望的
信息量。
信源编码的基本思想是以最小的编码来传输最多的信息量。
信息论与编码第5章限失真信源编码
第一节 失真测度
• 以上所举的三个例子说明了具体失真度的定义. 一般情况下根据实际信源的失真, 可以定义不同 的失真和误差的度量.
• 另外还可按照其他标准, 如引起的损失、风险、 主观感受上的差别大小等来定义失真度d(ui,vj).
• 从实用意义上说, 研究符号实际信源主观要求的、 合理的失真函数是很重要的.
第一节 失真测度
设信源变量为U={u1,…,ur}, 接收端变量为 V={v1,…,vs}, 对于每一对(u,v), 指定一个非负 函数
d(ui,vj)≥0 称为单个符号的失真度(或称失真函数). 失真函数用来表征信源发出符号ui, 而接收端再现 成符号vj所引起的误差或失真. d越小表示失真越小, 等于0表示没有失真.
➢ 应该指出, 研究R(D)时, 条件概率p(v|u)并没有 实际信道的含义. 只是为了求互信息的最小值而引 用的、假想的可变试验信道. ➢ 实际上这些信道反映的仅是不同的有失真信源编 码或信源压缩. 所以改变试验信道求平均互信息最 小值, 实质上是选择编码方式使信息传输率为最小.
率失真理论与信息传输理论的对偶关系
– 接收端获得的平均信息量可用平均互信息量I(U;V)表示;
– 这就变成了在满足保真度准则的条件下 D D 找平均互信息量I(U;V)的最小值.
,寻
– 因为BD是所有满足保真度准则的试验信道集合, 即可以 在D失真许可的试验信道集合BD中寻找某一个信道 p(vj|ui), 使I(U;V)取最小值.
本章所讨论的内容是量化、数模转换、频带 压缩和数据压缩的理论基础.
前言
本章主要介绍信息率失真理论的基本内容, 侧 重讨论离散无记忆信源.
首先给出信源的失真度和信息率失真函数的定 义与性质, 然后讨论离散信源的信息率失真函数计 算. 在这个基础上论述保真度准则下的信源编码定 理.
信息论与编码第5章
信息论与编码第5章第五章信源编码(第⼗讲)(2课时)主要内容:(1)编码的定义(2)⽆失真信源编码重点:定长编码定理、变长编码定理、最佳变长编码。
难点:定长编码定理、哈夫曼编码⽅法。
作业:5。
2,5。
4,5。
6;说明:本堂课推导内容较多,枯燥平淡,不易激发学⽣兴趣,要注意多讨论⽤途。
另外,注意,解题⽅法。
多加⼀些内容丰富知识和理解。
通信的实质是信息的传输。
⽽⾼速度、⾼质量地传送信息是信息传输的基本问题。
将信源信息通过信道传送给信宿,怎样才能做到尽可能不失真⽽⼜快速呢?这就需要解决两个问题:第⼀,在不失真或允许⼀定失真的条件下,如何⽤尽可能少的符号来传送信源信息;第⼆,在信道受⼲扰的情况下,如何增加信号的抗⼲扰能⼒,同时⼜使得信息传输率最⼤。
为了解决这两个问题,就要引⼊信源编码和信道编码。
⼀般来说,提⾼抗⼲扰能⼒(降低失真或错误概率)往往是以降低信息传输率为代价的;反之,要提⾼信息传输率常常⼜会使抗⼲扰能⼒减弱。
⼆者是有⽭盾的。
然⽽在信息论的编码定理中,已从理论上证明,⾄少存在某种最佳的编码或信息处理⽅法,能够解决上述⽭盾,做到既可靠⼜有效地传输信息。
这些结论对各种通信系统的设计和估价具有重⼤的理论指导意义。
§3.1 编码的定义编码实质上是对信源的原始符号按⼀定的数学规则进⾏的⼀种变换。
讨论⽆失真信源编码,可以不考虑⼲扰问题,所以它的数学描述⽐较简单。
图 3.1是⼀个信源编码器,它的输⼊是信源符号},,, {21q s s s S =,同时存在另⼀符号},,,{21r x x x X =,⼀般来说,元素xj 是适合信道传输的,称为码符号(或者码元)。
编码器的功能就是将信源符号集中的符号s i (或者长为N 的信源符号序列)变换成由x j (j=1,2,3,…r)组成的长度为l i 的⼀⼀对应的序列。
输出的码符号序列称为码字,长度l i 称为码字长度或简称码长。
可见,编码就是从信源符号到码符号的⼀种映射。
信息论与编码chapter5
渐进均分特性
典型序列的概率估计
设 x G 1 ( 满 足 公 式 5 .3 )
log p ( x ) N H (X )
N [ H ( X ) ] log p ( x ) N [ H ( X ) ]
设取2为底 2 N [ H ( X ) ] p ( x ) 2 N [ H ( X ) ]
(适用于离散信源的编码)
限失真信源编码: 信源符号不能通过编码序列无 差错地恢复。
(可以把差错限制在某一个限度内)
信源编码的目的:提高传输有效性,即用尽可能短 的码符号序列来代表信源符号。
§5.1 信源编码的相关概念
本节主要内容
一、信源编码器 二、码的分类 三、分组码
§5.1.1 信源编码器
将信源符号集中的每一个符号固定映 射成一个码字的码 分组码单符号信源编码器
第五章 无失真信源编码
主要内容
本章主要介绍无失真信源编码定理与一 些重要的无失真信源编码方法
一、概述 二、定长码 三、变长码
四、哈夫曼编码
信源编码:将信源符号序列按一定的数学规律映射 成由码符号组成的码序列的过程。 信源译码: 根据码序列恢复信源序列的过程。 无失真信源编码: 即信源符号可以通过编码序列 无差错地恢复。
若不满足上式 =
H (X
N
l N
l l
log r H ( X )
;Y )
N
l
) H (X
N
/ Y ) H (Y ) lH (Y ) l log r
H (X
) NH ( X )
H (X
N
/ Y ) NH ( X ) l log r 0
第5章信源编码
• 平均码长:
二元码符号 / 信源符号
• 编码效率:
• 输出的信息传输率:
再对长度 L 为 2 的信源序列进行 变长编码,其即时码如表: • 码字平均长度:
• 单个符号的平均码长 • 编码效率 • 输出的信息传输率: R2 = 0.961bit/ 二元码符号
H ( X )H ( X )
log m
log m
+1
离散平稳无记忆序列变长编码定理 对于平均符号熵为 HL(X) 的离散平稳无记忆信
源,必存在一种无失真编码方法,使平均信息率R
满足不等式:
其中 ε 为任意小正数。
无失真变长信源编码定理(香农第一定理)
对于平均符号熵为 HL(X) 的离散平稳无记忆信源(离散 无记忆信源 X 的 L 次扩展信源
非即时码 唯一可译码
即时码
非即时码 接收端收到一个完整的码字后,不能立即译码,还需 等下一个码字开始接收后才能判断是否可以译码。 码 3
即时码 ( 非延长码 ) ( 异前缀码 )
在译码时无需参考后续的码符号就能立即作出判断,
译成对应的信源符号。
码4
任意一个码字都不是其它码字的前缀部分
ai
码1
码2
编码后码字 Y1 , Y 2 , ‥ , Y n 码长分别为 K 1 , K 2 , ‥ , K n
码的平均长度为:
编码后的信息传输率为:
对于某一信源和某一码符号集,若有一个唯一可译 码,其平均长度小于所有其他唯一可译码的平均长 度,则称该码为最佳码(紧致码)。
单个符号变长编码定理
若离散无记忆信源的符号熵为 H(X) ,每个信源符号 用 m 进制码元进行变长编码,一定存在一种无失真 编码方法,其码字平均长度 K 满足下列不等式:
信息论与编码第五章课后习题答案
第五章课后习题【5.1】某信源按43)0(=P ,41)1(=P 的概率产生统计独立的二元序列。
(1)试求0N ,使当0N N >时有01.005.0)()(≤≥−S H N I P i α 式中,)(S H 是信源的熵。
(2)试求当0N N =时典型序列集N G ε中含有的信源序列个数。
解:(1)该信源的信源熵为811.0)(log )()(=−=∑i i s p s p S H 比特/符号自信息的方差为4715.0811.04log 4134log 43)()]([)]([22222=−+=−=S H s I E s I D i i 根据等长码编码定理,我们知道δεα−≤≥−1)()(S H N I P i 根据给定条件可知,05.0=ε,99.0=δ。
而[]2)(εδN s I D i =因此[]5.19099.0*05.04715.0)(220==≥δεi s I D N 取1910=N 。
(2)ε典型序列中信源序列个数取值范围为:])([])([22)1(εεεδ+−<<−S H N N S H N G代入上述数值得451.164351.1452201.0<<×N G ε【5.2】有一信源,它有六个可能的输出,其概率分布如下表所示,表中给出了对应的码A 、B 、C 、D 、E 和F 。
表5.2消息 )(i a P A B C D E F 1a 1/2 000 0 0 0 0 0 2a 1/4 001 01 10 10 10 100 3a 1/16 010 011 110 110 1100 101 4a 1/16 011 0111 1110 1110 1101 110 5a 1/16 100 01111 11110 1011 1110 111 6a1/1610101111111111011011111011(1) 求这些码中哪些是惟一可译码; (2) 求哪些码是非延长码(即时码); (3) 求对所有惟一可译码求出其平均码长L 。
信息论与编码第五章习题参考答案
5.1某离散无记忆信源的概率空间为采用香农码和费诺码对该信源进行二进制变长编码,写出编码输出码字,并且求出平均码长和编码效率。
解:计算相应的自信息量1)()(11=-=a lbp a I 比特 2)()(22=-=a lbp a I 比特 3)()(313=-=a lbp a I 比特 4)()(44=-=a lbp a I 比特 5)()(55=-=a lbp a I 比特 6)()(66=-=a lbp a I 比特 7)()(77=-=a lbp a I 比特 7)()(77=-=a lbp a I 比特根据香农码编码方法确定码长1)()(+<≤i i i a I l a I平均码长984375.164/6317128/17128/1664/1532/1416/138/124/112/1L 1=+=⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=由于每个符号的码长等于自信息量,所以编码效率为1。
费罗马编码过程5.2某离散无记忆信源的概率空间为使用费罗码对该信源的扩展信源进行二进制变长编码,(1) 扩展信源长度,写出编码码字,计算平均码长和编码效率。
(2) 扩展信源长度,写出编码码字,计算平均码长和编码效率。
(3) 扩展信源长度,写出编码码字,计算平均码长和编码效率,并且与(1)的结果进行比较。
解:信息熵811.025.025.075.075.0)(=--=lb lb X H 比特/符号 (1)平均码长11=L 比特/符号编码效率为%1.81X)(H 11==L η(2)平均码长为84375.0)3161316321631169(212=⨯+⨯+⨯+⨯=L 比特/符号 编码效率%9684375.0811.0X)(H 22===L η(3)当N=4时,序列码长309.3725617256362563352569442569242562732562732256814=⨯+⨯+⨯⨯+⨯⨯+⨯⨯+⨯+⨯⨯+⨯=L平均码长827.04309.34==L %1.98827.0811.0X)(H 43===L η可见,随着信源扩展长度的增加,平均码长逐渐逼近熵,编码效率也逐渐提高。
第五章信源编码——信息论与编码
04:48
5
5.1 编码器及相关概念
为了分析方便和突出问题的重点,当研究信源 编码时,我们把信道编码和译码看成是信道的 一部分,从而突出信源编码。同样,在研究信 道编码时,可以将信源编码和译码看成是信源 和信宿的一部分,从而突出信道编码。
由码符号 xi 组成的输出序列 Wi 称为码字.
其长度 li称为码字长度或码长,全体码字 Wi 的 集合C称为码或码书 .
编码器将信源符号集中的信源符号 s(i 或长为N 的信源符号序列 i)变成由码符号组成的长为 的与信源符号一一对应的输出序列。即 :
si (i 1, 2, , q) Wi (i 1, 2, , q) ( xi1, xi2, , xili ), xij X
p(ai ) }
其中,
LN
p(i )li
为N次扩展信源的平均码长,
i 1
li 为信源符号扩展序列i 的码长.
LN N
为对扩展信源进行编码后,每个信源符号
编码所需的等效的平均码长。
04:48
33
要做到无失真的信源编码,平均每个信源符号 所需最少的r元码元数为信源的熵 Hr (S)。 即 它是无失真信源压缩的极限值。
04:48
3
信源编码的基本途径有两个:
一是编码后使序列中的各个符号之间尽可能地 互相独立,即解除相关性----方法包括预测编 码和变换编码.
二是使编码后各个符号出现的概率尽可能相等, 即均匀化分布----方法主要是统计编码.
04:48
4
信源编码常分为无失真信源编码和限失真信源 编码,前者主要用于文字、数据信源的压缩, 后者主要用于图像、语音信源的压缩。
信息论与编码第5章信源编码技术
5.1 最佳变长编码
回顾: 1、根据信源编码理论,将能够荷载一定信息量,
且码字的平均长度最短,可分离的变长码字 集合称为最佳变长码。 2、最佳变长码编码的基本原则是:概率大的信 源符号分配短的码字,而概率小的信源符号 分配长码字,从而使得平均码长最短。 具有代表性变长编码方法有:香农码,费诺码 和哈夫曼码等。
例5.2对例5.1的信源进行费诺编码,,具体编码过程参 见表5.2
根据每个信源符号的码长,得到每个符号的平均码长
为
7
L p(ai )li 2.74 码元/符号
i 1
用树码表示的费诺码编码过程
a1, a2 ,, a7
0
1
a1, a2 , a3
0
1
a1
00
a2 , a3
0
1
a2 a3
010
011
p(ai ) d li
时达最佳。
信源符号 概率
a1
1/ 3
a2
1/ 9
a3
1/ 9
a4
1/ 9
a5
1/ 9
a6
1/ 9
a7
1/ 27
a8
1/ 27
a9
1/ 27
0
2
1
a1
0
2 1
01 2
a2
a3
a4 a5
a6
0
2
1
a7 a8 a9
p(a1)=3-1
p(a2)= p(a3)= p(a4)= 3-2
p(a7)= p(a8)= p(a9)= 3-3
满足
3li 1
i
Kraft不等式取1,此时费诺码
最佳。
信息论与编码技术第五章课后习题答案
码,并求出其编码效率。
解:
信源符号 概率 编码
码字 码长
X1
3/8 0
0
1
X2
1/6 1
0
10 2
X3
1/8
1
11 2
X4
1/8 2
0
20 2
X5
1/8
1
21 2
X6
1/12
2
22 2
H(X)=-((3/8)*log(3/8)+(1/6)*log(1/6)+(1/8)*log(1/8)+(1/8)*log(1/8)+(1/8)*log(1/8)+(1/12)*log(1/12))
=2.3852 (三进制单位/信源符号)
H3(X)= H(X)/ 1.5850=2.3852/1.5850= 1.5049(三进制单位/信源符号)
L =(3/8)*1+ (1/6)*2+ (1/8)*2+ (1/8)*2+ (1/8)*2+ (1/12)*2=1.625(码符号/信源符号)
η= H3(X)/ L =1.5049/1.625= 92.61 %
5.8 已知符号集合 {x1, x2 , x3,"} 为无限离散消息集合,它们出现的概率分别为 p(x1) = 1/ 2 , p(x2 ) = 1/ 4 , p(x3 ) = 1/ 8 , p(xi ) = 1/ 2i ,……。
(1) 用香农编码方法写出各个符号消息的码字。 (2) 计算码字的平均信息传输速率。
L =4*(1/4)*1=1(码符号/信源符号)
Rt= H(X)/(t* L )=1/(1*10*10-2)=10(比特/秒)
信息论与编码第5章
定长编码定理
• 定长编码定理:
• 由L个符号组成的、每个符号的熵为HL(X)的无记 忆平稳信源符号序列X1…Xl…XL,可用 K个符号 Y1…Yk…YK(每个符号有m种可能值)进行定长编 码。对任意ε>0,δ>0,只要
K L
log
m
H
L
(
X
)
则当L足够大时,必可使译码差错小于δ;反之,当
K L
L
log 2 n log 2 m
log 2
27
5
每个英文电报符号至少
要用5位二元符号编码 21
定长编码
• 实际英文电报符号信源,在考虑了符号出现的 概率以及符号之间的依赖性后,平均每个英文 电报符号所提供的信息量约等于1.4比特,大大 小于5比特。
• 编码后5个二元符号只携带约1.4比特信息量。 • 定长编码的信息传输效率极低。
X
Y
信源
信源编码器
信道
L长序列
码表
K长码字
20
定长编码
• 若对信源进行定长编码,必须满足:
nL mK 或 K log n L log m
• 只有当K长的码符号序列数 mK大于或等于信源的 符号数nL时,才可能存在定长非奇异码。
• 例如英文电报有27个符号,n=27,L=1,m=2(二元编码)
K
• 针对信源输出符号序列的统计特性,寻找一定的方 法把信源输出符号序列变换为最短的码字序列。
X
Y
信源
信源编码器
信道
码表
5
编码的定义
• 编码定理证明:
– 必存在一种编码方法,使代码的平均长度可任意 接近但不能低于符号熵;
– 达到这目标的途径就是使概率与码长匹配。 • 统计匹配编码:
信息论基础与编码(第五章)
信息论基础与编码(第五章)5-1 有一信源,它有六种可能的输出,其概率分布如下表所示,表中给出了对应的六种编码12345C C C C C 、、、、和6C 。
(1) 求这些码中哪些是唯一可译码; (2) 求哪些是非延长码(即时码); (3) 对所有唯一可译码求出其平均码长。
001111解:(1)1,2,3,6是唯一可译码; (2)1,3,6是即时码。
5-2证明若存在一个码长为12,,,ql l l ⋅⋅⋅的唯一可译码,则一定存在具有相同码长的即时码。
证明:由定理可知若存在一个码长为的唯一可译码,则必定满足kraft 不等式1。
由定理4可知若码长满足kraft 不等式,则一定存在这样码长的即时码。
所以若存在码长的唯一可译码,则一定存在具有相同码长P (y=0)的即时码。
5-3设信源126126()s s s S p p p P s ⋅⋅⋅⎡⎤⎡⎤=⎢⎥⎢⎥⋅⋅⋅⎣⎦⎣⎦,611i i p ==∑。
将此信源编码成为r 元唯一可译变长码(即码符号集12{,,,}r X x x x =⋅⋅⋅),其对应的码长为(126,,,l l l ⋅⋅⋅)=(1,1,2,3,2,3),求r 值的最小下限。
解:要将此信源编码成为 r 元唯一可译变长码,其码字对应的码长(l 1 ,l 2 ,l 3, l 4,l 5, l 6)=(1,1,2,3,2,3) 必须满足克拉夫特不等式,即LqL L ,,2,1 ∑=-qi l ir1≤4⋅LqL L ,,2,1132321161≤+++++=------=-∑r r r r r r ri li所以要满足 122232≤++rr r ,其中 r 是大于或等于1的正整数。
可见,当r=1时,不能满足Kraft 不等式。
当r=2, 1824222>++,不能满足Kraft 。
当r=3, 127262729232<=++,满足Kraft 。
所以,求得r 的最大值下限值等于3。
第五章信源编码
(每个符号有m种可能值)进行定长编码。对任意的 0,0
只要
KLHL(X)ε L logm
,则:当L足够大时,必可使译码差
错小于 (几乎无失真编码);反之,当 KLHL(X)2ε L logm
时,译码差错一定是有限值,而当L足够大时,译码几乎必定 出错(译码错误概率接近于1)。
1、解释: KL/L-----编码时,每个信源符号输出的 码长。即每个信源符
其中:左边--KL长码字所能携带的最大信息量, 右边--L长信源序列携带的信息量。
定理表明,只要码字所能携带的信息量大于信源序列输出的信 息量,则可以实现几乎无失真编码,当然条件是L足够大。 反之,不可能实现无失真的编码,也就是不可能做一种编码 器,能使收端译码时差错概率趋于零。
2、举例: (1 单 ) 符号 X A 信 {a1,a源 2...8} ., .n,a 8 ,等,L 概 1 。 分 H 1(X )H (X )lb3 8b /信 it 源符号。 若进行二进B制 {0编 ,1}m ,码 2,据定理,只要 K LLKLH lo(X g)m 3码元 /信源符号,就 无可 失以 真实 编现 码 事实上 3位,二进制码确实示 可8种 以信 表源符号。
或映射规则 元 b 转 j,j换 1,2..m 成 .构由 成码 的码 (也元 称序 为列
y i,i1,2..n.L。
f:xiyi
码K 长 L, i i1,2..n.L .; 平 均_KL 码 nL长 KLPi(: yi)码/元 符 号 序
i1 _
定长编 KL1 码 KL: 2...K .L .L n.KL, KLKL
注:奇异码一定非惟一可译。(非奇异码则不一定)
4、即时码和非即时码:
收到一个完整的码字后能立即译码,或曰及时可译---即时码
第五章信源编码(编码定义及定长编码)
所以送一个信源符号x需要的平均信息率为:
K KL logm L
信息率最小就是找到一种编码方式使
KL logm L
最小。
5.2.1定长编码定理
定义:各个码字码长都相等的码 定长码中每个码字长度相等,所以只要定长码是非奇异
码,则必为唯一可译码
非奇异码 唯一可译码
即时码
非奇异码 唯一可译码
即时码
变长码
等长码
消息
概率
C1
C2
C3
C4
C5
C6
u1
1/2
000
0
0
0
1
01
u2
1/4
001
01
10
10
000
001
u3
1/16
010
011
110
1101 001
100
u4
1/16
011
0111 1110 1100 010
101
u5
1/16
100
01111 11110 1001 110
110
u6
1/16
101
解码:按照码符号的顺序,从根节点依次查询到终端节点,就得到对应的 信源符号。再从根节点对剩下的码符号序列做相同的处理,直到处理完码 符号序列中所有的码符号
对应表中的码4分析
A01Fra bibliotek01
1
0
0
1
0
10 1
0
1
000
001 010
011 100 101 110
111
一阶节点 二阶节点 三阶节点
唯一可译码存在的充要条件
我们之后介绍的是二元信道中的编码。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对变长码的译码: (1) 加标识信息,如同步信号(增加大量非信息位的 开销,效率低);(2) 在变长码中寻找内在规律(现实可行)
12
5.3 限失真信源编码定理
该定理与香农第二编码定理一样,只是码的存在性定理。当R>R(D) 时,译码失真小于或等于D+ε的码一定存在,但定理并未告知码的 构造方法。当R< R(D)时,译码失真必大于D,且找不到满足条件的 码。 无失真信源编码定理,是寻求与信源消息(符号)熵相匹配的编码, 即 K K R (或 ) H ( X ) L L 限失真信源编码定理,则是寻求与信源单个消息的信息率失真 R(D)函数相匹配的编码
R R( D)
13
5.4 编码方式
实现无失真信源编码的方式
改造信源方式:将实际不理想的不等概率信源变换成理想的 具有最大熵值的等概率信源,再采用等长编码进行匹配。
适应信源方式:对实际的不等概率信源采用与之匹配的变长 编码方法,如Huffman编码、算术编码、游离编码等。
实现限失真信源编码的方式
Huffman编码是最优变长信源编码(前提:信源具有稳定、确知 的概率统计特性)
15
3
编码的概念
将信源消息分成若干组,即符号序列xi, xi=(xi1xi2…xil…xiL), xilA={a1,a2,…,ai,…,an} 每个符号序列xi依照固定码表映射成一个码字yi, yi=(yi1yi2…yil…yiL), yilB={b1,b2,…,bi,…,bm} 这样的码称为分组码,有时也叫块码。只有分组码才有 对应的码表,而非分组码中则不存在码表。
无失真等长编码,求H(X),η。 等长码,k=2,编码效率η=H(X)/K=7/4/2=7/8=87.5% H(X)=-∑i=1,..,4 p(xi)logp(xi)=1.75 bit/sym。 等长编码编码效率低。为提高编码效率(编码有效性),需将单消 息扩展成消息序列,然后进行联合编码。
11
7
无失真等长编码
为满足有效性——引入信源的统计特性——只对少数大概率典型序 列编码,对大批小概率非典型组合根本不编码——可能出现译码错 误(非一一对应编码)。
所谓无失真等长编码是指无失真或者近似无失真的信源编码。 由K/L ≥logn/logm=H(X)/logm,得Shannon第一等长编码定理: 当K/L logm≥H(X)+ε时,有效无失真信源编码存在,可构造; 反之,当K/L logm<H(X) - 2ε时,无失真信源编码不存在不可构造。
第五章
信源编码
本章内容
5.1 编码的概念 5.2 无失真信源编码 5.3 限失真信源编码
5.4 常用信源编码方法简介
2
5.1 编码的概念
编码分为信源编码和信道编码,其中信源
编码又分为无失真和限失真。
一般称
第一极限定理:无失真信源编码定理
第二极限定理:信道编码定理
第三极限定理:限失真信源编码定理
x2 x2 x3 x3 x4 x4 X X x1 x1 , x x2 x3 10, x4 x 11 , x1 00, 00, x2 01, 01, x3 10, 1 p( x) 1 4 11 88 1 8 21124 1148 11 i p ( xi )
8
不等长编码定理:若信源编码器用不同长度符号(K不定值)来 表示信源的输出符号,则K’/L ≥H(X)/logm,即将等长码中的K变 为变长码中的平均码长K’。 典型的ε)> K’/L ≥H(X)/logm 对二进制(m=2) 则 H(X)+ε> K’/L ≥H(X)。 其中K’/L表示平均每个信源符号的编码长度。
9
若对离散无记忆信源的输出符号进行变长编码,则必存在一 种编码方式,可以使信源平均每符号的编码长度R= K’/L *log2m 接近于信源的信息熵 H(X),即编码器输出符号的最小 信息率R略大于信息熵 H(X),可做到无失真译码,条件是L必 须足够大。
变长码可以无失真编码,无差错译码。 编码效率η=H(X)/ R,R信源平均每个符号的编码长度。
变长编码: 如上例中信源进行不等长编码, X x1
平均码长 K’=∑i=1,..,4 p(xi)Ki=1/2*1+1/4*2+1/8*2*3=7/4=1.75 可得编码效率η= H(X)/K’=100%,即采用变长编码,逐位编码(L=1)可 达到100%的编码效率。
变长码的译码与等长码的按码位数周期性译码不同
X x1 x2 x3 x4 p ( x ) 1 2 1 4 1 8 1 8 i x2 x3 x4 变长码 0 1 0 110 111 p( x ) 1 2 1 4 1 8 1 8 i 解:H(X)=1.75 bit/sym 变长码 进行逐位编码 (L =1) , 0 1 0 110 111
4
5.2 无失真信源编码定理
• 只讨论最简单情况下的信源无失真编码定理: 离散、无记忆、平稳、遍历、二(多)进制等 (变)长编码条件下的信源编码定理。
5
等长编码定理
x: 输入无记忆符号序列,共L位,每一位有n种可 能取值,S为信源编码输出的无记忆符号序列,共 K位,每一位有m种取值可能(等概),因K为定 值,其相应的编码定理为等长编码定理。
适应信源方式:认识信源的实际客观概率统计特性,寻找适 应此类概率统计特性的编码方法 ,如矢量量化编码。
改造信源方式:改造信源的客观统计特性,即解除实际信源 消息序列各消息间的统计相关性,使之成为无记忆信源,甚 至还可以进一步将无记忆信源化为理想最大熵等概率信源, 例如:预测编码和变换编码。
14
6
无失真等长编码
独立等概信源条件下,为实现无失真有效编码,应分别满 足:
无失真要求:nL≤mK 即每个消息序列必须有对应的编码码组
有效性要求: nL≥ mK 即编码的码组总数要小于信源消息序列 总数
由无失真条件: nL≤mK ==>K/L ≥logn/logm
若n=m 则 K ≥ L,即对独立等概信源编码,编码器输出的码 序列总数mK等于信源消息序列数nL ,可无失真编译码,但效 率低,不能进行压缩编码。
一般变长码要求的信源消息序列长度比等长码要小很多。
10
无失真离散信源编码
离散无失真信源编码是与信源符号熵互相匹配的编码——通常称为熵 编码。 实现形式:等长编码、变长编码 等长编码: 例 设一简单离散单消息信源如下,其中n=4, L=1, nL=4, k=2, m=2, mK=4. 有概率分布为
哈夫曼编码
Huffman编码—变长编码,异前置码—编码效率高,无失真编译 码 Huffman编码规则: 1. 将信源消息X按概率大小进行自上而下的排序 2. 从最小两概率开始编码,并赋予一定规则,如上支路为“0” ,下支路为“1”;若两支路概率相等,规则不变,且该规则 在整个编译码中保持不变 3. 将已编码的两支路概率合并,并重新排序、编码 4. 重复步骤3,直至合并概率归一时为止 5. 从概率归一端沿树图路线逆行至对应消息和概率,并将沿线 已编的“0”和“1”编为一组,即为该消息(符号)的编码。