第5章无失真信源编码定理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如果我们要对信源的N次扩展信源进行编码,也必须满足
qN rl , 两边取对数得: l log q
l
N log r
N 表示平均每个信源符号所需的码符号个数。
5.2 等长码
例:对英文电报得32个符号进行二元编码,根据上述关系:
l log 32 5 log 2
我们继续讨论上面得例子,我们已经知道英文的极限 熵是1.4bit,远小于5bit,也就是说,5个二元码符号只携带 1.4bit的信息量,实际上,5个二元符号最多可以携带5bit 信息量。我们可以做到让平均码长缩短,提高信息传输率
0.8112
0.4715
若采用等长二元编码,要求编码效率 0.96 ,允许错误率
105 ,则: N 4.13107
也就是长度要达到4130万以上。
5.5 变长码
1、唯一可译变长码与及时码
信源符号 出现概率 码1
码2
码3
码4
s1
1/2
0
0
1
1
s2
1/4
11
10
10
01
s3
1/8
00
00
密码:是以提高通信系统的安全性为目的的编码。通常通过加 密和解密来实现。从信息论的观点出发,“加密”可视为增熵 的过程,“解密”可视为减熵的过程。
5.1 编码器
信源编码理论是信息论的一个重要分支,其理论基础是信源编 码的两个定理。 无失真信源编码定理:是离散信源/数字信号编码的基础; 限失真信源编码定理:是连续信源/模拟信号编码的基础。
5.1 编码器
信源编码:以提高通信有效性为目的的编码。通常通过压缩信 源的冗余度来实现。采用的一般方法是压缩每个信源符号的平 均比特数或信源的码率。即同样多的信息用较少的码率传送, 使单位时间内传送的平均信息量增加,从而提高通信的有效性。
信道编码:是以提高信息传输的可靠性为目的的编码。通常通 过增加信源的冗余度来实现。采用的一般方法是增大码率/带宽。 与信源编码正好相反。
编码效率: Hr (s)
L
码的剩余度:1 在二元无噪无损信道中: H (s)
L
在二元无噪无损信道中信息传输率:R H (s)
L
5.6 变长信源编码定理
例:
S P(S )
s1 3 /
4
s2 1
/
4
其熵为:H(S)=0.811我们令s1=0,s2=1,这时平均码长 L 1,编码的效 率为 0.81。1
在每个节点上都有r个分枝的树称为整树,否则称为非 整树。
即时码的树图还可以用来译码
5.5 变长码
3、克拉夫特(Kraft)不等式 定理5.5 对于码符号为 X {x1, x2,..., xq}的任意即时码,所
对应的码长为 l1, l2 ,..., lq ,则必定满足:
q
r li 1
i 1
反之,若码长满足上式,则一定存在这样的即时码 。(定 理5.4可以根据即时码的树图构造法来证明,略)
S {S1, S2 ,..., Sq}
编码器
C :{W1,W2 ,...,Wq}
X {x1, x2,..., xr}
wi 称为码字,Li为码字wi 的码元个数,称为码字wi 的码字 长度,简称码长。
5.1 编码器
1、二元码: 码符号集X={0,1},如果要将信源通过二元信道传输,必
须将信源编成二元码,这也是最常用的一种码。 2、等长码:
长度,则称此码为紧致码或最佳码,无失真信源编码的基本
问题就是寻找紧致码。
5.6 变长信源编码定理
定理5.7 若一个离散无记忆信源S具有熵为H(s),并且编 码符号集为A:{1,2,...,q} 对信源进行编码,总可找到一种 编码方法,构成单义可译码,使其平均码长满足
H(S) L 1 H(S)
log r
N
LN log r 就是编码后每个信源符号所携带的平均信息量
N
定义: R' LN log r
N
第一定理可以表述如下:若 R' H (S ) 就存在唯一可译 变长码,若 R' H (S ) 则不存在唯一可译变长码。
若从信道角度讲,信道的信息传输率 R H (S)
因为:L LN H (S)
N log r
现的概率为0,此信源只有4个字符,可得码长 l' 2 ,
但平均每个信源符号所需码符号为
l' 1 N
5.2 等长码
我们仍以英文电报为例,在考虑了英文字母间的相关性 之后,我们对信源作N次扩展,在扩展后形成的信源(也 就是句子)中,有些句子是有意义的,而有些句子是没有 意义的,我们可以只对有意义的句子编码,而对那些没有 意义的句子不进行编码,这样就可以缩短每个信源符号所 需的码长。
还可以证明,如果我们不确切知道信源的概率分布, 我们用估计的概率分布去进行编码时,平均码长会加长, 但是如果估计的偏差不大的话,平均码长也不会增加太多 (定理4.9的内容)。
5.6 变长信源编码定理
由
H (S) log r
LN N
H (S) log r
1 N
得:H (S) LN log r H (S)
定义,在唯一可译码中,有一类码,它在译码是无须参 考后面的码字就可以作出判断,这种码称为即时码。
即时码也称为非延长码,前缀条件码。
5.5 变长码
定义:如果一个码组中的任一个码字都不是另一个码字的续 长,或者说,任何一个码字后加上若干码元后都不是码组中 另一个码字,则称为即时码。
所有的码 非奇异码 唯一可译码 即时码
H (S) LN H (S) 1 log r N log r N
当
N
则得:lim N
L
Hr
(S
)
5.6 变长信源编码定理
这个定理是香农信息论中非常重要的一个定理,它指 出,要做到无失真的信源编码,信源每个符号所需要的平 均码元数就是信源的熵值,如果小于这个值,则唯一可译 码不存在,可见,熵是无失真信源编码的极限值。定理还 指出,通过对扩展信源进行编码,当N趋向于无穷时,平 均码长可以趋进该极限值。
5.2 等长码
我们举例说明:
设信源
S P(
s)
s1 P(s1
)
s2 P(s2 )
s3 P(s3 )
s4
P(s4
)
4
P(si ) 1
i 1
而其依赖关系为:
P(s2 / s1) P(s1 / s2 ) P(s4 / s3) P(s3 / s4 ) 1, 其余P(s j / si ) 0
B.McMillan证明了对于唯一可译码也必须满足上面的不等式。
5.5 变长码
定理5.6 若存在一个码长为 l1,l2, ,lq 唯一可译码,则一定 存在一个同样长度的即时码。
这说明,其他唯一可译码在码长方面并不比即时码占优。所 以在讨论唯一可译码时,只需要讨论即时码就可以了。
5.6 变长信源编码定理
若码的任意一串有限长的码符号序列只能被唯一的译成 所对应的信源符号序列,则称此码为唯一可译码。
5.2 等长码
若对信源进行等长编码,则必须满足 q r l
其中,l是码长,r是码符号集中的码元数,q信源符号个数。 例:如果有四个信源符号{s1,s2,s3,s4},采用二元编码, l=2,则可以编成s1=00,s2=01,s3=10,s4=11。
所以
R log r
L
当平均码长达到极限值时,编码后信道的信息传输率为:R log r
5.6 变长信源编码定理
无噪信道编码定理 若信道的信息传输率R不大于信道容 量C,总能对信源的输出进行适当的编码,使得在无噪无 损信道上能无差错的以最大信息传输率C传输信息,若R 小于C,则无差错传输是不可能的。
log r
5.6 变长信源编码定理
定理5.8 无失真变长信源编码定理(香农第一定理)
离散无记忆信源S的N次扩展信源 S N,其熵为 H (S N ) ,并且
编码器的码元符号集为A:{1,2,...,q} 对信源 S N 进行编码, 总可以找到一种编码方法,构成单义可译码,使信源S中每
个符号si所需要的平均码长满足
设信源
X P
a1 p1
a2 p2
... ...
xq pn
编码后的码字为:W1,W2,...,Wq 码长为:l1, l2 ,..., lq
则这个码的平均长度为: L q P(Si )li i 1
平均每个码元携带的信息量即编码后的信息传输率为:R H (S)
L
若有一个唯一可译码,它的平均码长小于其他唯一可译码的
•定理5.3的条件式也可写成:
l N
log
r
H
(S)
令率:大R于' 信Nl源lo的g r熵称,之才为能编实码现信无息失率真。编可码见。,编码信息
5.4 等长信源编码定理
为了衡量编码效果,引进
H (S) R'
H (S) l log r
称为编码效率。
N
最佳编码效率为:
H (S ) R'
H (S ) H(S)
等长信源编码定理给出了进行等长信源编码所需码长的 极限值。
5.3 渐近等分割性和ε典型序列
(本节略) 本节的主要是为了证明信源编码定理,而引入了一种 渐近等分割性和ε典型序列的重要概念。
5.4 等长信源编码定理
定理5.3(等长信源编码定理) 一个熵为H(S)的离散无记 忆信源,若对其N次扩展信源进行等长r元编码,码长为l,
信源编码的分类:离散信源编码、连续信源编码和相关信源编 码三类。 离散信源编码:独立信源编码,可做到无失真编码; 连续信源编码:独立信源编码,只能做到限失真信源编码; 相可以看作这样一个系统,它的输入端为原始信
源S,其符号集为S {S1, S2,..., Sq};而信道所能传输的符号集 为 X {x1, x2,..., xr} 编码器的功能是用符号集X中的元素,将 原始信源的符号 Si 变换为相应的码字符号wi ,所以编码器 输出端的符号集为 C :{W1,W2,...,Wq}
1 H(S)
5.4 等长信源编码定理
例:设离散无记忆信源:
S P( s)
s1
3
4
s2
1
4
H (S ) 1 log 4 3 log 4 0.811
4
43
D[I (si )]
2 i 1
pi (log
pi )2
[H (S )]2
1 (log 4)2 4
3 (log 4)2 43
对于任意 大于0,只要满足
l H(S)
N log r
当N无穷大时,则可以实现几乎无失真编码,反之,若:
l H (S) 2
N log r
则不可能实现无失真编码,当N趋向于无穷大时,译码错 误率接近于1。
5.4 等长信源编码定理
•定理5.3的条件式可写成: l log r NH (S)
左边表示长为 l 的码符号所能载荷的最大信息量, 而右边代表长为N的序列平均携带的信息量。因此, 只要码字传输的信息量大于信源序列携带的信息量, 总可以实现无失真编码 。
5.2 等长码
若不考虑符号间的依赖关系,可得码长l=2
若考虑符号间的依赖关系,则对此信源作二次扩展
S2
P(
s
2
)
s1s2
P(
s1s2
)
s2 s1 P( s2 s1 )
s3s4 P(s3s4 )
s4s3
P(s4
s3
)
P(sisj ) 1 ij
可见,由于符号间依赖关系的存在,扩展后许多符号出
若一组码中所有码字的长度都相同,称为等长码。 3、变长码:
若一组码中所有码字的长度各不相同,称为变长码。 4、非奇异码:
若一组码中所有码字都不相同,称为非奇异码。
5.1 编码器
5、奇异码: 若一组码中有相同的码字,称为奇异码。
6 、同价码: 每个码字占相同的传输时间 7、码的N次扩展:
若码 C :{W1,W2,...,Wq} , 码 B :{Bi (Wi1Wi2...WiN )} 则称码B为 码C的N次扩展码。 8、唯一可译码:
100
001
s4
1/8
11
01
1000
0001
5.5 变长码
码1是一个奇异码,不是唯一可译码;码2也不是唯一 可译码,因为收到一串序列是,无法唯一译出对应的原符 号序列,如0100,即可译作s4s3s1,也可译作s4s1s3,s1s2s3或 s1s2s1s1;码3和码4都是唯一可译的。
但码3和码4也不太一样,码4称作逗点码,只要收到1, 就可以立即作出译码;而码3不同,当受到一个或几个码 是,必须参考后面的码才能作出判断。
二次扩展信源进行编码:
i
P(i ) 即时码
5.5 变长码
2、即时码的树图构造法 我们可以用树图的形式构造即时码,如
0
1 1
1
0 1
01
0
001
1
0001
码4的树图
1 1
0 00
10
0
1
100
0
1000
码3的树图
树根——码字的起点 树枝数——码的数 节点数——码字的一部分 节数——码长 端点——码字 满树——等长码 非满树——变长码
5.5 变长码