信息论与编码纠错第3章
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息论与编码
7.唯一可译码
定义:如果码的任意N次扩展码都是非奇异码,则称该码为惟一可译码。
信源消息 u1 各消息概率 p(u1) 码1 00 码2 00 码3 0 码4 1
u2
u3 u4
p(u2)
p(u3) p(u4)
11
10 11
01
10 11
1
00 11
10
100 1000
例中的码1不是唯一可译码。
11 1000
3.变长码
若码字集合C中的所有码字cm (m = 1,2, …,M),其码长不都相同,称 码C为变长码,例中列出的码3、码4 就是变长码。
信息论与编码
4.奇异码
对奇异码来说,从信源消息到码字的映射不是一一对应的。例中的码 1,信源消息u2和u4都用码字11对其编码,因此这种码就是奇异码,奇异码 不具备惟一可译性。
输效率,这是信源编码应考虑的问题,这章讨论在不允
许失真情况下的信源编码。等长编码定理给出了等长编 码条件下,其码长的下限值,变长编码定理(香农第一 定理)给出了信源无失真变长编码时其码长的上、下限 值。本章还介绍了三种通用信源编码方法:香农编码法、
费诺编码法和霍夫曼编码法。
信息论与编码
§3.1 概 述
消息
信源
um=um1um2...umL
信源编码器
码字cm=cm1cm2...cmn
信源符号集{a1,a2,...ak}
信道符号(码符号)集{b1,b2,...bD}
信息论与编码
【例】中文电报编码:
信 源
10000个常 用汉字
信源编码器I
四位二进制数 0000-9999
信源编码器II
二进制信道
A={0,1,...,9}
扩展信源
信源编码器
信道符号(码符号)集{b1,b2,...bD}
信源符号集{a1,a2,...ak}
原码的N次扩展码是将信源作N次扩展得到的新信源符号序列u(N) =u1 …uN = (u11 u12 … u1L) … (uN1 uN2 … uNL),对应码符号序列c(N) =c1 …cN = (c11 c12 … c1n) … (cN1 cN2 … cNn) ,记集合C (N) = {c1(N), c2(N), …},C (N) 即原码C的N次扩展码。
一.信源编码的模型
为了实现高质量、高效率的通信,引入了信源编码和信道编码。信源 编码和信道编码主要需要解决以下两个问题。
(1)提高传输效率:
用尽可能少的信道传输符号来传递信源消息,目的是提高传输效率, 这是信源编码主要应考虑的问题。这里又分两种情况讨论,即允许接收信 号有一定的失真或不允许失真。
如何增加信号的抗干扰能力,提高传输的可靠性,这是信道编码主要 的,而为了提高传输效率又往往削弱了其抗干扰能力。这样, 考虑的问题。解决这一问题,一般是采用冗余编码法,赋予信码自身一定 设计者在取舍之间就要作均衡考虑。 的纠错和检错能力,只要采取适当的信道编码和译码措施,就可使信道传 输的差错概率降到允许的范围之内。
x0 : 00 x1 : 01 x2 :110 x :101 3
x4 :1000 x5 :1001 x6 :1110 x7 :1111
1 1 1 1 1 1 H X 2 log 2 log 4 log 2.75 (比特/符号) 4 4 8 8 16 16
A={0,1}
四个五位二进 制等重码(码 重3)
信源编码器I :1-10000个汉字分别对应0000-9999
信源编码器II:每位数字对应五位二进制等重码。对应关系如下: (1→01011,2→11001,...,9→10011,0→01101) 如:
中 国 0022 0948 01101 01101 11001 11001
信源 各消息 码1 码2 码3 消息 概率 码4 1 10 100 1000
5.非奇异码
从信源消息到码字的映射是一一对 应的,每一个不同的信源消息都用不同 的码字对其编码,例中的码2、码3和码 4都是非奇异码。
u1 u2 u3 u4
p(u1) p(u2) p(u3) p(u4)
00 11 10 11
RD H X n
(比特/码元时间)
信息论与编码
【例】给定信源
x0 X 1 p( X ) 4 x1 1 4 x2 1 8 x3 1 8 x4 1 16 x5 1 16 x6 1 16 x7 1 16
为提高传输效率,使平均码长尽可能短,遵照 概率大取码长短,概率小取码长长的原则对上 述信源进行二进制不等长编码,得到如右编码 方案 ,求编码后的信息传输率RD。
信息论与编码
三.平均码长的计算
对于变长码,码集C的平均码长定义为码C中每个码字cm( m = 1, 2, …,M)其码长的概率加权平均值,用符号 n 表示
n nm p (c m )
m 1
M
式中nm是码字cm所对应的码字的长度,p ( cm )是码字cm出现的概率。
对于等长码,由于码集C中的每个码字的码长都相同,平均码长就 等于每个码字的码长
信息论与编码
二.码的分类
信源编码可看成是从信源符号集到码符号集的一种映射,即将信源符 号集中的每个元素(可以是单符号,也可以是符号序列)映射成一个长度 为n的码字。对于同一个信源,编码方法是多种的。 【例】 用{u1 ,u2 ,u3,u4}表示信源的四个消息,码符号集为{0,1},下表 列出了该信源的几种不同编码。
n 2 2
1 4
2 3
1 8
4 4
1 16
2.75
(码元/符号)
RD
H X n
2.75 2.75
1 (比特/码元时间)
信息论与编码
§3.2 等长码及等长编码定理
一.等长编码定理
考虑对一简单信源S进行等长编码,信源符号集有K个符号,码符号集 含D个符号,码字长度记为n。对信源作等长无差错编码,要得到惟一可译 码,必须满足下式:
信息论与编码
即时码的树图构造 方法:对于D进制码,从树根出发,可引出D根树枝,每根树枝分别赋予 一个不同的码符号,树枝的端点为节点,每一个节点又可引出D根 分枝,又分别赋予这D根分枝每根一个不同的码符号,如某一节点 被定为码字后,就不再引出树枝,该节点称为终节点。码字就是从 树根出发,到达终节点所对应的码符号序列。
信息论与编码
四.信息传输速率
定义:信道的信息传输速率为信道单位时间内所传输的实际信息量。 (1)若信息量以比特为单位,时间以秒为单位,则信息传输速率定义为:
Rt
H
X
tn
(比特/秒)
式中:H(X)为信源熵;n 为编码后的平均码长;t为传输一个码符号的时间。
(2)若信息量以比特为单位,时间以码元时间(传输一个码符号的时间) 为单位,则信息传输率记为:
d进制码字集合cc对应的码长分别是n克拉夫特不等式定理只是说是存在惟一可译码的充要条件这里强调的是存在但它并不是唯一可译码的充要条件换言之惟一可译码一定满足克拉夫特不等式反之满足克拉夫特不等式的码不一定是惟一可译码
信息论与编码
第三章
离散信源无失真编码
信息论与编码
内容提要
用尽可能少的符号来传输信源消息,目的是提高传
即时码:例中码3,收到“1”后就知道一个码字已经完结,无须等待下 一个符号抵达,所以无前缀码能够即时译码,称之为即时可译 码,简称即时码。
而对于码2,收到“1”后,并不能立即做出判决,就是收到“10”也 不能立即做出判决,则还要收到下面的码元才能做出判决。所以非异字 头码不能即时译码,称为非即时码,由于非异字头码的其中一些码字是 另一些码字的延长,故也称延长码。 即时码是惟一可译码,而惟一可译码不一定是即时码。
信源消息 u1 u2 u3 u4 各消息概率 p(u1) p(u2) p(u3) p(u4) 码1 00 11 10 11 码2 00 01 10 11 码3 0 1 00 11 码4 1 10 100 1000
信息论与编码
一般,可以将码简单的分成如下几类:
1.二元码
若码符号集为{0,1},则码字就是二元序列,称为二元码,二元码通 过二进制信道传输,这是数字通信和计算机通信中最常见的一种码,例子 列出的4两个定义:
码3是无前缀码;其他
都不是无前缀码。
(1)前缀:对于码字C= c1 c2 … cn,称c’ = c1 c2 … ci (i< n)为码字c的 字头(前缀)。 (2)异字头码:若码中任一码字都不是另一码字的字头,称该码为异 字头码(无前缀码)。
信息论与编码
信源消息 u1 u2 u3 u4 各消息概率 p(u1) p(u2) p(u3) p(u4) 码1 0 1 00 11 码2 1 10 100 1000 码3 1 01 001 0001
2.等长码
在一组码字集合C中的所有码字cm (m = 1,2, …,M),其码长都相同,则称这组码 C为等长码,例中的码1、码2 就码长n = 2 等长码。
信源 各消息 码1 码2 码3 码4 消息 概率 u1 u2 u3 u4 p(u1) p(u2) p(u3) p(u4) 00 11 10 11 00 01 10 11 0 1 00 1 10 100
【例】用树图法表示码(1,01,001,0001)。
树 根 0 0 0 1 u4 1 1 u3 1 u2 编码
u1
1 01 001 0001
信息论与编码
码的分类结构图
码 奇异码 非奇异码 唯一可译码 变长码 即时码 等长码 延长码 非唯一可译码
由上面的结构图可看出,将码分为奇异码和非奇异码两大类,我们 只讨论非奇异码。非奇异码又分为惟一可译码和非惟一可译码两大类, 我们只讨论惟一可译码
00 01 10 11
0 1 00 11
信息论与编码
6.原码C的N次扩展码
原码C的N次扩展码中的每个元素是N次扩展信源中的序列所对应的N 个码字组成的序列。
消息
u1...uN=(u11u12...u1L)...(uN1uN2...uNL)
N次扩展码字
=(c11c12...c1n)...(n)
【推广】N次扩展码的平均码长 n 等于扩展码中码字长度的概率加权平均值。
对于2次扩展码,有:
n nm ns p um p us
m s
设nm,ns分别是原信源消息um,us所对应的码长,cm,cs是um,us所对 应的码字,则式中的nm + ns是扩展后新的信源序列umus所对应的码字cmcs的 长度,p(um) p (us)是cmcs出现的概率。
(2)增强通信的可靠性: 综上所述,提高抗干扰能力往往是以降低信息传输效率为代价
信息论与编码
信源编码的概念:对信源的原始符号按一定的数学规则进行变换的一种
代码。
信源编码包括两个功能:
(1)将信源符号变换成适合信道传输的符号; {b1, b2,…, bD}是适合 编码输出码字cm = cm1 cm2 … {a1, a2, …, (2)压缩信源冗余度,提高传输效率。 ak}为信 信道传输的D个符号, cmn, c mk∈{b1, b2,…, bD}, 源符号集,序列中 用作信源编码器的 k = 1, 2 , …, n ,n表示码字 每一个符号uml都取 信源编码模型: 编码符号。 长度,简称码长。 自信源符号集。
对于定长码,若原码是惟一可译码,则它的N次扩展码也是惟一可译 的,而对于变长码则不尽然。
信息论与编码
信源消息 u1 u2 u3 u4 各消息概率 p(u1) p(u2) p(u3) p(u4) 码1 0 1 00 11 码2 1 10 100 1000 码3 1 01 001 0001
码1不是唯一可译码,码2、码3是唯一可译码。
K≤Dn
对单符号信源S的L次扩展信源S(L)进行等长编码,要得到长为n的惟 一可译码,必须满足: KL≤Dn 对上式两边取对数,得:
n L log K log D
信息论与编码
对于那些出现概率极小的字符序列不予编码,这样可以减小平均码长, 当然这样会带来一定的失真。 下面的定理将证明,当满足一定的条件时,在L →∞时,失真pe →0 。 【定理】等长编码定理 设离散无记忆信源S ={x1, x2, …, xk}的熵为H(X),S的L维扩展信源为
M M
n nm p (c m ) n p (c m ) n
m 1 m 1
信息论与编码
【例】计算下表各码的平均码长:
信源消息 各消息概率 u1 u2 u3 u4 码长 0.4 0.2 0.2 0.2 码1 00 11 10 11 2 码2 00 01 10 11 2 码3 0 1 00 11 1.4 码4 1 10 100 1000 2.2