第5章 无失真信源编码定理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5.1 编码器
编码器可以看作这样一个系统,它的输入端为原始信 源S,其符号集为 S {S1, S2 ,..., Sq };而信道所能传输的符号集 为 X {x1, x2 ,..., xr } 编码器的功能是用符号集X中的元素,将 原始信源的符号 S i 变换为相应的码字符号 wi ,所以编码器 输出端的符号集为 C :{W1,W2 ,...,Wq }
一个编码不是惟一可译的当且仅当存在编码字符的一个 有限序列,它能以两种不同方式分解为两个码字序列。也 就是出现如下的情形:
A1 B1 B2
A2
A3 Am B3 Bn
图5.10 有限长码符号序列译成两种不同的码字序列
惟一可译码的判断方法是
将码C中所有码字可能的尾随后缀组成一个集合F, 当且仅当集合F中没有任一码字,则可判断此码C为唯一 可译变长码。 集合F的构成:①观察码C中最短的码字是否是其他 码字的前缀。若是,将其所有可能的尾随后缀排列出。 ②再观察这些新的尾随后缀是否是某些码字的前缀,再
i j ij
可见,由于符号间依赖关系的存在,扩展后许多符号出 现的概率为0,此信源只有4个字符,可得码长 l ' 2 但平均每个信源符号所需码符号为
l' 1 l 2. N
,
由此可见,当考虑信源符号之间依赖关系后,有些信
源符号序列不会出现,这样信源符号序列个数会减少,再
进行编码时,所需平均码长就可以缩短。 我们仍以英文电报为例,在考虑了英文字母间的相关
s1 s2 s3 s4
00 01 10 11
00 11 10 11
若对一个信源S进行等长编码,那么信源S存在惟一
可译等长码的条件是 信源S的 符号个数 等长码的码长
q ≤r
l
码符号个数
若对信源S的N次扩展信源 S N 进行等长编码,要编得 等长码是惟一可译则必须满足
q ≤r
N
l
两边取对数有 或 若N=1,则有
s3 s2 s4 S s1 P( s ) P( s ) P( s ) P( s ) P( s ) 1 2 3 4
4
P( s ) 1
i 1 i
而其依赖关系为:
P(s2 / s1 ) P(s1 / s2 ) P(s4 / s3 ) P(s3 / s4 ) 1, 其余P(s j / si ) 0
但码3和码4也不太一样,码4称作逗点码,只要收到1,就
可以立即作出译码;而码3不同,当收到一个或几个码时,
必须参考后面的码才能作出判断。 定义 在唯一可译码中,有一类码,它在译码是无须参考 后面的码字就可以作出判断,这种码称为即时码。 定义 如果一个码组中的任一个码字都不是另一个码字 的续长,或者说,任何一个码字后加上若干码元后都不是
码组中另一个码字,则称为即时码,也称非延长码或前缀
条件码。 这两个定义是一致的。
所有的码 非奇异码 唯一可译码 即时码
5.5.2 即时码的树图构造法 我们可以用树图的形式构造即时码,如 0 0 0 1 1 1 1 1 1 1 1 0 树根——码字的起点 0 10 100 1000 节点数——码字的一部分
将产生的尾随后缀列出。依此下去,直至没有一个尾随 后缀是码字的前缀或没有新的尾随后缀产生为止。由此 得到由码C的所有可能的尾随后缀组成的集合F。
例5.2 (p210) C={0,10,1100,1110,1011,1101}
码字 00 11 10 10 01 尾随后缀 0 11 1 0 100 110 011 101 0 0 1 11 1
足:
r li 1
i 1
q
反之,若码长满足上式,则一定存在这样的即时码 。 可以根据即时码的树图构造法来证明。 1956年,B.McMillan证明了对于唯一可译码也必须满足 上面的不等式, 定理5.5 对于码符号为 X {x1 , x2 ,..., xr }的任意r元唯一 可译码,其码字为 W1 ,W2 ,...,Wq 所对应的码长为l1 , l2 ,..., lq
性之后,我们对信源作N次扩展,在扩展后形成的信源
(也就是句子)中,有些句子是有意义的,而有些句子是 没有意义的,我们可以只对有意义的句子编码,而对那些
没有意义的句子不进行编码,这样就可以缩短每个信源符
号所需的码长。
5.4 等长信源编码定理
定理5.3(等长信源编码定理) 一个熵为H(S)的离散无记 忆信源,若对其N次扩展信源进行等长r元编码,码长为 l 对于任意 大于0,只要满足 l H (S ) N log r 当N无穷大时,则可以实现几乎无失真编码,反之,若: l H ( S ) 2
码 C 2 的二次扩展码
二次扩展信源符号 码字
αi ,i = 1,2, ,16
Wi,i 1, 2,, 16
1 s1s1 2 s1s2 3 s1s3
16 s4 s4
00 001 0001
111111
5.2
信源符号 s i
等长码
表5.2 等长码
码 C1
码 C2
N log q ≤ l log r
l log q ≥ N log r
log q l≥ log r
平均每个信 源符号所需 码符号个数
当r=2(二元码),则有
l ≥ log q N
例:对英文电报的32个符号进行二元编码,根据上述关系:
若N 1
log 32 l 5 log 2
我们继续讨论上面的例子,我们已经知道英文的极限 熵是1.4bit,远小于5bit,也就是说,5个二元码符号只携 带1.4bit的信息量,实际上,5个二元符号最多可以携带 5bit信息量。我们可以做到让平均码长缩短,提高信息传 输率。下面举例阐明 设信源
2、等长码:
若一组码中所有码字的长度都相同,称为等长码。 3、变长码: 若一组码中所有码字的长度各不相同,称为变长码。 4、非奇异码:
若一组码中所有码字都不相同,称为非奇异码。
si s j Wi Wj si , s j S Wi ,Wj C
5、奇异码:
若一组码中有相同的码字,称为奇异码。
2、信道编码:是以提高信息传输的可靠性为目的的编码。
通常通过增加信源的冗余度来实现。采用的一般方法是 增大码率/带宽。与信源编码正好相反。
3、密码:是以提高通信系统的安全性为目的的编码。通
常通过加密和解密来实现。从信息论的观点出发,“加
密”可视为增熵的过程,“解密”可视为减熵的过程。 4、信源编码理论是信息论的一个重要分支,其理论基础是 信源编码的两个定理。
l log r H ( S ) N
令:R ' log r 称之为编码信息率。可见,编码信息 N 率大于信源的熵,才能实现无失真编码。
l
为了衡量编码效果,引进
H (S ) H (S ) l R' log r N
称为编码效率。 最佳编码效率为:
H (S ) H (S ) ' R H (S )
1
H (S )
5.5 变长码
5.5.1 唯一可译变长码与即时码
表5.2
信源符号 s1 s2 s3 s4 出现概率 1/2 1/4 1/8 1/8 码1 0 11 00 11 码2 0 10 00 01 码3 1 10 100 1000 码4 1 01 001 0001
码1是一个奇异码,不是唯一可译码;码2也不是唯一可译码, 因为收到一串序列时,无法唯一译出对应的原符号序列,如 01000,即可译作s4s3s1,也可译作s4s1s3,s1s2s3或s1s2s1s1;码 3和码4都是唯一可译的。
si s j Wi Wj si , s j S Wi ,Wj C
6、若码符号集 X ( x1 , x2 ,, xr ) 中每个码符号所占的传
输时间都相同,则编码所得的码C为同价码。
7、码的N次扩展:
若码 C :{W1,W2 ,...,Wq } , 码 B :{Bi (Wi1Wi 2 ...WiN )} 则称码B为 码C的N次扩展码。 8、唯一可译码: 若码的任意一串有限长的码符号序列只能被唯一的译成
第5章 无失真信源编码定理
◆ 编码器 ◆ 等长码 ◆ 等长信源编码定理 ◆ 变长码
◆ 变长信源编码定理
引 言
1、信源编码:以提高通信有效性为目的的编码。通常通 过压缩信源的冗余度来实现。采用的一般方法是压缩每
个信源符号的平均比特数或信源的码率。即同样多的信
息用较少的码率传送,使单位时间内传送的平均信息量 增加,从而提高通信的有效性。
F={11,00,10,01,0,1,100,110,011,101}
定理5.6 若存在一个码长为 l1, l2 ,, lq 唯一可译码,则一定
存在一个同样长度的即时码。
这说明,其他唯一可译码在码长方面并不比即时码占 优。所以在讨论唯一可译码时,只需要讨论即时码就可 以了。
5.5.4 惟一可译变长码的判断法
萨得纳斯(Sardinas)-彼得森(Patterson)准则
无失真信源编码定理:是离散信源/数字信号编码的基础;
限失真信源编码定理:是连续信源/模拟信号编码的基础。 5、信源编码的分类:离散信源编码、连续信源编码和相关 信源编码三类。 离散信源编码:独立信源编码,可做到无失真编码; 连续信源编码:独立信源编码,只能做到限失真信源编码; 相关信源编码:非独立信源编码。
若不考虑符号间的依赖关系,可得码长 l 2 若考虑符号间的依赖关系,则对此信源作二次扩展
S 2 s1s2 s3 s4 s4 s3 s2 s1 2 P( s ) P( s1s2 ) P( s2 s1 ) P( s3 s4 ) P( s4 s3 )
P(s s ) 1
所对应的信源符号序列,则称此码为唯一可译码。
举例讨论N次扩展码
s2 s3 s4 S s1 p( s ) p( s ) p( s ) p( s ) p( s ) 1 2 3 4
p( s ) 1
i 1 i
4
表5.1 信源S的两种不同编码码字
N log r
则不可能实现无失真编码,当N趋向于无穷大是,译码错 误率接近于1。
•定理5.3的条件式可写成:
l log r NH ( S )
左边表示长为 l 的码符号所能载荷的最大信息量,而右
边代表长为N的序列平均携带的信息量。因此,只要码字
传输的信息量大于信源序列携带的信息量,总可以实现无 失真编码 。 •定理5.3的条件式也可写成:
则必定满足Kraft不等式:
r li 1
i 1
q
反之,若码长满足上式,则一定存在这样的唯一可译码 。
证明
由定理5.4和定理5.5可知,若码字长度和码符号数满 足克拉夫特(或麦克米伦)不等式时,必可构造出即时 码或惟一可译码。但是,这两个定理不能作为判别一种 码是否为即时码或惟一可译码的依据。
S {S1 , S2 ,..., Sq }
编码器
C :{W1 ,W2 ,...,Wq }
X {x1 , x2 ,..., xr }
wi 称为码字,Li 为码字wi 的码元个数,称为码字 w 的码字 i 长度,简称码长。 编码就是从信源符号到码符号的一种映射。
1、二元码:
码符号集X={0,1},如果要将信源通过二元信道传输,必 须将信源编成二元码,这也是最常用的一种码。
0
0 0
01
001 0001
树枝数——码的数
节数——码长 端点——码字 满树——等长码 非满树——变长码
码4的树图
Βιβλιοθήκη Baidu
码3的树图
在每个节点上都有r个分枝的树称为整树,否则称为非 整树。即时码的树图还可以用来译码。
5.5.3 克拉夫特(Kraft)不等式
定理5.4 对于码符号为 X {x1 , x2 ,..., xr } 的任意即时码,其 码字为 W1 ,W2 ,...,Wq 所对应的码长为 l1 , l2 ,..., lq ,则必定满
信源符号 s i 符号出现概率p( si ) 码 C1 码C 2
s1
p( s1 )
p ( s2 ) p( s3 ) p ( s4 )
00
0 01 001 111
s2
s3 s4
01 10 11
信源S的二次扩展信源为
S 2 [1 s1s1 2 s1s2 3 s1s3 16 s4 s4 ]