信息论第4章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
q
对 N 长的信源符号序列编出的码字平均码长为
LN P( i )Li (码元/信源符号序列)
i 1
qN
所以,信源各符号编码的平均码长为
LN L (码元/信源符号) N
2.编码后信道的信息传输率 编码后信息传输率 R 又称为码率,是指编码后 平均每个码元载荷的信息量。单位为“比特 /码元” 或“比特/码符号” 。 当原始信源 S 给定时,信源熵 H (S ) 就给定了, 而编码后每个信源符号平均用 L 个码元来表示,故 编码后信息传输率
我们提出问题: 1)能否使每个信源符号所需要的编码符号数减少,以 提高传输效率呢? 2)最小平均码长为多少时,才能得到无失真的译码? 3)若小于这个平均码长是否还能无失真地译码? 这就是无失真信源编码定理要研究的内容。
一、 无失真定长信源编码定理 设离散无记忆信源的熵为 H (S ) , 其 N 次扩展信源用 LN 个 码符号进行定长编码,对于任意 >0 ,只要满足
其中 R L log r (bit/信源符号), 称为编码后信源信息率,它表示编码后平 均每个码字能载荷的最大信息量。编码效率表征了信源熵 H (S ) 和编码后平均 每个信源符号能载荷的最大信息量 R 的比值。
《信息论基础》
4.2 无失真信源编码定理
对 N 次扩展信源进行等长编码,如果要求编得的等长码是 唯一可译码,由于扩展信源符号共有 q N 个,则相应的输出码字 应不少于 q N 个,即必须满足
W1
0
1 0
W2
1 0
W3
1
W4
W1 0 , W3 110, W1 0 , W2 10 。
对较简单的信源, 可以很方便地用码树法直观地构造出即时码。 但是 当信源较复杂时,直接画码树就比较复杂。1949 年 L. G. Kraft 提出一个 在数学上与码树等效的、表达即时码存在充要条件的不等式。 定理 4.1 对于码长分别为 L1 , L2 ,, Lq 的 r 元码,若此码为即时码, 则必定满足
5.即时码和非即时码 在唯一可译码中有一类码,它在译码时无需参考后续的码元就能 立即做出判断,译成对应的信源符号序列,则这类码称为即时码。否 则称为非即时码。即时码不能在一个码字后面添上一些码元构成另一 个码字, 即任一码字都不是其它码字的前缀, 所以它也称为异前缀码。 即时码一定是唯一可译码,但唯一可译码不一定是即时码。
它与 S 中的 q 个信源符号一一 W1,W2 ,,Wq 等 q 个码字, 对应。
2、N 次扩展信源的无失真信源编码器
S N :{1 , 2 , , q N }
编码器
C :{W1 ,W2 ,,Wq N }
(Wi 是由 Li 个 aj 组成的码 元序列,它与 αi 一一对应)
X :{a1 , a2 , , ar }
《信息论基础》
第 4章
无失真信源编码
第 3 章已经讨论了离散信源的信息度量—信源熵, 本章将讨论信源的另一个重要问题:如何对信源的输出 进行适当的编码,才能用尽可能少的码元来表示信源信 息,做到以最大的信息传输率无差错地传输信息呢?即 无失真信源编码,它解决的是通信的有效性问题。 本章将首先介绍信源编码器;然后从理论上阐述无 失真信源编码定理,得出“平均码长的理论极限值就是 信源熵 H r S ”这个结论;最后给出几种无失真信源编 码方法。
S :{s1 , s2 , , sq }
编码器
C :{W1 , W2 , , Wq }
(Wi 是由 Li 个 aj 组成的码 元序列,它与 si 一一对应)
X :{a1 , a2 , , ar }
几个术语 ①码元(码符号) ②码元集X ③码字(由码元组成)
④码字长度
⑤平均码长
编码器将信源符号 si 变换成码字 Wi ,表示为
Li r 1 i 1 q
反之,若码长满足上式,则一定存在具有这种码长的 r 元即时码。 克拉夫特(Kraft)不等式是即时码存在的充要条件。其中,r 为码元 的进制数, q 为信源的符号数,Li 为信源符号对应的码字长度。 注意的是, 上述不等式只是即时码存在的充要条件,而不能作为判别的依据。
si Wi (ai1 , ai2 ,, aiL )
i
(i 1, 2,, q)
其中,aik X (k 1, 2,, Li ) , X 为构成码字的码符号集。 编 码器的 输入 为 原始信 源 S, 样本空 间为
{s1 , s2 , sq } ; 编 码 器 输 出 的 码 字 集 合 为 C , 共 有
L3 2 , L4 2 ,是否存在这样的唯一可译码和即时码?
解:因为
Li 2 2 2 2 2 2 2 2 2 1 i 1 q
所以满足克拉夫特不等式,则一定可以构成至少一种具有这样码长 的唯一可译码和即时码。
在 1956 年,麦克米伦(B. McMillan)证明唯一可译码也满足该不等 式。这说明唯一可译码在码长的选择上并不比即时码有什么更宽松的条 件。在码长选择的条件上,两者是一致的。如前所述,即时码必定是唯 一可译码,它可以很容易地用码树法来构造,因此要构造唯一可译码, 只需讨论构造即时码即可。 【例 4.1】 对四进制信源符号 s1 、s 2 、s3 和 s 4 采用二元码进行信源编码。 (1) 如果 L1 2 , L2 2 , L3 2 , L4 2 ,是否存在这样码长的二 元即时码? (2) 如果将此信源编码为 r 元唯一可译码, 对应的码长 L1 1 , L2 2 ,
需要注意的是,克拉夫特不等式是即时码存在的充要条件,而 不能作为判别的依据。后来麦克米伦(B. McMillan)证明唯一可译 码也满足克拉夫特不等式。这说明在码长选择的条件上,即时码与 唯一可译码是一致的。 【例】 对于二元码,即 r 2 ,如果 q 4 , L1 2 , L2 2 ,
4.唯一可译码和非唯一可译码 如果一种码的任何一串有限长的码元序列,只能被唯一地译成对 应的信源符号序列,则称该码为唯一可译码。 否则称为非唯一可译码。 为了实现无失真信源编码,必须采用唯一可译码。 例如,{0, 10, 11}是一种唯一可译码,因为任意一串有限长的码序 列,比如 10001100,只能被分割为{10, 0, 0, 11, 0, 0},任何其它分割 方法都会产生一些非定义的码字。
W1,W2 ,,Wq ,各码字对应的码长分别为 L1 , L2 ,, Lq 。
则该码的平均码长为
L P( si )Li (码元/信源符号)
i 1
q
(2)对 N 次扩展信源符号进行编码 对长度为 N 的信源符号序列 1 , 2 ,,
q qN
编码, 码字分别
为 W1 , W2 ,, W N , 各码字对应的码长分别为 L1 , L2 ,, L N 。 则
L3 2 , L4 3 ,求 r 值的最佳下限。
编码效率:
衡量信源编码的效果.
1.平均码长 2.编码后信道的信息传输率 R 3.编码效率
1.平均码长 平均码长 L 表示编码后每个信源符号平均所需的码元个数。 单位为“码元/信源符号” 。 (1)对单个信源符号进行编码 对 单 个 信 源 符 号 s1 , s2 ,, sq 编 码 , 码 字 分 别 为
上式变为 L log q 。例如英文电报中有 32 个符号(26 个 字母加 6 个字符) ,即 q 32 ,如采用等长码,为了实现 无失真信源编码,则每个信源符号至少需要 5 位二元码符 号编码才行。
实际英文电报符号信源, 在考虑了符号出现概率以及符 号之间的依赖性后, 平均每个英文电报符号所能提供的信息 量约等于 1.4 比特,即编码后的 5 个二元码符号只携带了大 约 1.4 比特的信息量,而 5 个二元码符号最大能载荷的信息 量为 5 比特。可见,这种编码方式的传输效率极低。
《信息论基础》
4.1 信源编码的基本概念
信源编码的实质是对原始信源符号按照一定规则进行变换,以 码字代替原始信源符号,使变换后得到的码符号接近等概分布。 需要指明的是,在研究信源编码时,通常将信道编码和信道译 码看作是信道的一部分,而且不考虑信道干扰问题. 一、信源编码的数学描述 1、单符号的无失真信源编码器
H S R (比特/码元) L
3.编码效率
编码效率表示编码后实际信息量和能载荷最大信息量的比值。 1) 定义: 每个码元载荷的平均信息量与它所能载荷的最大信息量的比值。
H (S ) R L Rmax log r
2) 编码效率也可以表示为
H (S ) H (S ) R L log r
本章的主要内容 4.1 信源编码的基本概念 4.1.1 信源编码的数学模型 4.1.2 信源编码的分类 4.1.3 唯一可译码和即时码 4.1.4 编码效率 4.2 无失真信源编码定理 4.3 常见的无失真信源编码方法 4.3.1 香农(Shannon)码 4.3.2 霍夫曼(Huffman)码 4.3.3 费诺(Fano)码
(2)从没有选用的分支终点再画出两条分支,因为 L2 2 ,选用其中的一 个分支终点来表示 W2 。 (3)继续下去,直到所有的 Wi 都有分支终点来表示为止。
(4)从顶点(树根)到 Wi ,要经过 Li 条分支,把这些分支所代表的码元 依照先后次序就可以写出该码字。
码树还可以用来对即时码进行译码。例如 收到一串码字 100110010。从码树的树根出发, 第一个码符号为 1,向右走一节; 第二个码符号 为 0,向左走一节,遇到了码字 W2 。然后再回 到树根,从头开始,遇到了码字后又回到树根。 这样就可完成对即时码的即时 译码。码字 100110010 译码得到的码字分别为 W2 10 ,
q N r LN
LN r 其Leabharlann Baidu, LN 是等长码的码长,码符号有 r 种可能值, 表示长
度为 L N 的等长码数目。
LN log q 两边取对数,得到 L N log r
可见对于等长唯一可译码, 平均每个信源符号所需的
log q 码元个数至少为 个。当采用二元码时,即 r 2 时, log r
LN H ( S ) N log r
则当 N 足够大时,可使译码错误概率为任意小。
LN H ( S ) 2 反之,当 时,则不可能实现无失真编码, N log r
而当 N 足够大时,译码几乎必定出错。
定理蕴含了如下思想: ( 1) 定长无失真信源编码的错误概率可以任意小, 但并非为零。 ( 2) 定长无失真信源编码通常是对非常长的消息 序列进行的,特别是信源符号序列长度 N 趋 于无穷时,才能实现 Shannon 意义上的有效 信源编码。
s2 1 8
s3 1 4
s4 1 2
采用两种信源编码方案编出的码字如下表所示。 信源符号 概率 S1 S2 S3 S4 1/8 1/8 1/4 1/2 方案一的码字 00 01 10 11 方案二的码字 000 001 01 1
试问方案一和方案二的码字哪个有效性较好?
1.定长码和变长码 如果码字集合 C 中所有码字的码长都相同,称为定长码(或等长码) 。 反之,如果码字长度不同,则称为变长码。 2.二元码 如果码元集 X {0,1} ,对应的码字称为二元码。 3.奇异码和非奇异码 一般说来,无论是定长码还是变长码,如果码字集合 C 中含有相同码 字, 则称为奇异码。 否则称为非奇异码。 非奇异性是正确译码的必要条件。
编码器将长度为 N 的信源符号序列 i 变换成码字 Wi :
i Wi (ai , ai ,, ai )
1 2 Li
(i 1, 2 , qN ,
)
二、信源编码涉及的几个概念 【例】 设一个离散无记忆信源的概率空间为
s S 1 Ps 1 8
即 时 码 可 以 采 用 码 树 法 来 构 造 。 例 如 即 时 码
W {W1,W2 ,W3 ,W4} {0,10,110,111} ,可以按以下步骤得到即时码的码树。
(1)最上端为树根,从根开始,画出两条分支(树枝) ,每条分支代表一
个码元。因为 W1 的码长 L1 1 ,任选一条分支的终点(称为节点)来表示 W1 。
对 N 长的信源符号序列编出的码字平均码长为
LN P( i )Li (码元/信源符号序列)
i 1
qN
所以,信源各符号编码的平均码长为
LN L (码元/信源符号) N
2.编码后信道的信息传输率 编码后信息传输率 R 又称为码率,是指编码后 平均每个码元载荷的信息量。单位为“比特 /码元” 或“比特/码符号” 。 当原始信源 S 给定时,信源熵 H (S ) 就给定了, 而编码后每个信源符号平均用 L 个码元来表示,故 编码后信息传输率
我们提出问题: 1)能否使每个信源符号所需要的编码符号数减少,以 提高传输效率呢? 2)最小平均码长为多少时,才能得到无失真的译码? 3)若小于这个平均码长是否还能无失真地译码? 这就是无失真信源编码定理要研究的内容。
一、 无失真定长信源编码定理 设离散无记忆信源的熵为 H (S ) , 其 N 次扩展信源用 LN 个 码符号进行定长编码,对于任意 >0 ,只要满足
其中 R L log r (bit/信源符号), 称为编码后信源信息率,它表示编码后平 均每个码字能载荷的最大信息量。编码效率表征了信源熵 H (S ) 和编码后平均 每个信源符号能载荷的最大信息量 R 的比值。
《信息论基础》
4.2 无失真信源编码定理
对 N 次扩展信源进行等长编码,如果要求编得的等长码是 唯一可译码,由于扩展信源符号共有 q N 个,则相应的输出码字 应不少于 q N 个,即必须满足
W1
0
1 0
W2
1 0
W3
1
W4
W1 0 , W3 110, W1 0 , W2 10 。
对较简单的信源, 可以很方便地用码树法直观地构造出即时码。 但是 当信源较复杂时,直接画码树就比较复杂。1949 年 L. G. Kraft 提出一个 在数学上与码树等效的、表达即时码存在充要条件的不等式。 定理 4.1 对于码长分别为 L1 , L2 ,, Lq 的 r 元码,若此码为即时码, 则必定满足
5.即时码和非即时码 在唯一可译码中有一类码,它在译码时无需参考后续的码元就能 立即做出判断,译成对应的信源符号序列,则这类码称为即时码。否 则称为非即时码。即时码不能在一个码字后面添上一些码元构成另一 个码字, 即任一码字都不是其它码字的前缀, 所以它也称为异前缀码。 即时码一定是唯一可译码,但唯一可译码不一定是即时码。
它与 S 中的 q 个信源符号一一 W1,W2 ,,Wq 等 q 个码字, 对应。
2、N 次扩展信源的无失真信源编码器
S N :{1 , 2 , , q N }
编码器
C :{W1 ,W2 ,,Wq N }
(Wi 是由 Li 个 aj 组成的码 元序列,它与 αi 一一对应)
X :{a1 , a2 , , ar }
《信息论基础》
第 4章
无失真信源编码
第 3 章已经讨论了离散信源的信息度量—信源熵, 本章将讨论信源的另一个重要问题:如何对信源的输出 进行适当的编码,才能用尽可能少的码元来表示信源信 息,做到以最大的信息传输率无差错地传输信息呢?即 无失真信源编码,它解决的是通信的有效性问题。 本章将首先介绍信源编码器;然后从理论上阐述无 失真信源编码定理,得出“平均码长的理论极限值就是 信源熵 H r S ”这个结论;最后给出几种无失真信源编 码方法。
S :{s1 , s2 , , sq }
编码器
C :{W1 , W2 , , Wq }
(Wi 是由 Li 个 aj 组成的码 元序列,它与 si 一一对应)
X :{a1 , a2 , , ar }
几个术语 ①码元(码符号) ②码元集X ③码字(由码元组成)
④码字长度
⑤平均码长
编码器将信源符号 si 变换成码字 Wi ,表示为
Li r 1 i 1 q
反之,若码长满足上式,则一定存在具有这种码长的 r 元即时码。 克拉夫特(Kraft)不等式是即时码存在的充要条件。其中,r 为码元 的进制数, q 为信源的符号数,Li 为信源符号对应的码字长度。 注意的是, 上述不等式只是即时码存在的充要条件,而不能作为判别的依据。
si Wi (ai1 , ai2 ,, aiL )
i
(i 1, 2,, q)
其中,aik X (k 1, 2,, Li ) , X 为构成码字的码符号集。 编 码器的 输入 为 原始信 源 S, 样本空 间为
{s1 , s2 , sq } ; 编 码 器 输 出 的 码 字 集 合 为 C , 共 有
L3 2 , L4 2 ,是否存在这样的唯一可译码和即时码?
解:因为
Li 2 2 2 2 2 2 2 2 2 1 i 1 q
所以满足克拉夫特不等式,则一定可以构成至少一种具有这样码长 的唯一可译码和即时码。
在 1956 年,麦克米伦(B. McMillan)证明唯一可译码也满足该不等 式。这说明唯一可译码在码长的选择上并不比即时码有什么更宽松的条 件。在码长选择的条件上,两者是一致的。如前所述,即时码必定是唯 一可译码,它可以很容易地用码树法来构造,因此要构造唯一可译码, 只需讨论构造即时码即可。 【例 4.1】 对四进制信源符号 s1 、s 2 、s3 和 s 4 采用二元码进行信源编码。 (1) 如果 L1 2 , L2 2 , L3 2 , L4 2 ,是否存在这样码长的二 元即时码? (2) 如果将此信源编码为 r 元唯一可译码, 对应的码长 L1 1 , L2 2 ,
需要注意的是,克拉夫特不等式是即时码存在的充要条件,而 不能作为判别的依据。后来麦克米伦(B. McMillan)证明唯一可译 码也满足克拉夫特不等式。这说明在码长选择的条件上,即时码与 唯一可译码是一致的。 【例】 对于二元码,即 r 2 ,如果 q 4 , L1 2 , L2 2 ,
4.唯一可译码和非唯一可译码 如果一种码的任何一串有限长的码元序列,只能被唯一地译成对 应的信源符号序列,则称该码为唯一可译码。 否则称为非唯一可译码。 为了实现无失真信源编码,必须采用唯一可译码。 例如,{0, 10, 11}是一种唯一可译码,因为任意一串有限长的码序 列,比如 10001100,只能被分割为{10, 0, 0, 11, 0, 0},任何其它分割 方法都会产生一些非定义的码字。
W1,W2 ,,Wq ,各码字对应的码长分别为 L1 , L2 ,, Lq 。
则该码的平均码长为
L P( si )Li (码元/信源符号)
i 1
q
(2)对 N 次扩展信源符号进行编码 对长度为 N 的信源符号序列 1 , 2 ,,
q qN
编码, 码字分别
为 W1 , W2 ,, W N , 各码字对应的码长分别为 L1 , L2 ,, L N 。 则
L3 2 , L4 3 ,求 r 值的最佳下限。
编码效率:
衡量信源编码的效果.
1.平均码长 2.编码后信道的信息传输率 R 3.编码效率
1.平均码长 平均码长 L 表示编码后每个信源符号平均所需的码元个数。 单位为“码元/信源符号” 。 (1)对单个信源符号进行编码 对 单 个 信 源 符 号 s1 , s2 ,, sq 编 码 , 码 字 分 别 为
上式变为 L log q 。例如英文电报中有 32 个符号(26 个 字母加 6 个字符) ,即 q 32 ,如采用等长码,为了实现 无失真信源编码,则每个信源符号至少需要 5 位二元码符 号编码才行。
实际英文电报符号信源, 在考虑了符号出现概率以及符 号之间的依赖性后, 平均每个英文电报符号所能提供的信息 量约等于 1.4 比特,即编码后的 5 个二元码符号只携带了大 约 1.4 比特的信息量,而 5 个二元码符号最大能载荷的信息 量为 5 比特。可见,这种编码方式的传输效率极低。
《信息论基础》
4.1 信源编码的基本概念
信源编码的实质是对原始信源符号按照一定规则进行变换,以 码字代替原始信源符号,使变换后得到的码符号接近等概分布。 需要指明的是,在研究信源编码时,通常将信道编码和信道译 码看作是信道的一部分,而且不考虑信道干扰问题. 一、信源编码的数学描述 1、单符号的无失真信源编码器
H S R (比特/码元) L
3.编码效率
编码效率表示编码后实际信息量和能载荷最大信息量的比值。 1) 定义: 每个码元载荷的平均信息量与它所能载荷的最大信息量的比值。
H (S ) R L Rmax log r
2) 编码效率也可以表示为
H (S ) H (S ) R L log r
本章的主要内容 4.1 信源编码的基本概念 4.1.1 信源编码的数学模型 4.1.2 信源编码的分类 4.1.3 唯一可译码和即时码 4.1.4 编码效率 4.2 无失真信源编码定理 4.3 常见的无失真信源编码方法 4.3.1 香农(Shannon)码 4.3.2 霍夫曼(Huffman)码 4.3.3 费诺(Fano)码
(2)从没有选用的分支终点再画出两条分支,因为 L2 2 ,选用其中的一 个分支终点来表示 W2 。 (3)继续下去,直到所有的 Wi 都有分支终点来表示为止。
(4)从顶点(树根)到 Wi ,要经过 Li 条分支,把这些分支所代表的码元 依照先后次序就可以写出该码字。
码树还可以用来对即时码进行译码。例如 收到一串码字 100110010。从码树的树根出发, 第一个码符号为 1,向右走一节; 第二个码符号 为 0,向左走一节,遇到了码字 W2 。然后再回 到树根,从头开始,遇到了码字后又回到树根。 这样就可完成对即时码的即时 译码。码字 100110010 译码得到的码字分别为 W2 10 ,
q N r LN
LN r 其Leabharlann Baidu, LN 是等长码的码长,码符号有 r 种可能值, 表示长
度为 L N 的等长码数目。
LN log q 两边取对数,得到 L N log r
可见对于等长唯一可译码, 平均每个信源符号所需的
log q 码元个数至少为 个。当采用二元码时,即 r 2 时, log r
LN H ( S ) N log r
则当 N 足够大时,可使译码错误概率为任意小。
LN H ( S ) 2 反之,当 时,则不可能实现无失真编码, N log r
而当 N 足够大时,译码几乎必定出错。
定理蕴含了如下思想: ( 1) 定长无失真信源编码的错误概率可以任意小, 但并非为零。 ( 2) 定长无失真信源编码通常是对非常长的消息 序列进行的,特别是信源符号序列长度 N 趋 于无穷时,才能实现 Shannon 意义上的有效 信源编码。
s2 1 8
s3 1 4
s4 1 2
采用两种信源编码方案编出的码字如下表所示。 信源符号 概率 S1 S2 S3 S4 1/8 1/8 1/4 1/2 方案一的码字 00 01 10 11 方案二的码字 000 001 01 1
试问方案一和方案二的码字哪个有效性较好?
1.定长码和变长码 如果码字集合 C 中所有码字的码长都相同,称为定长码(或等长码) 。 反之,如果码字长度不同,则称为变长码。 2.二元码 如果码元集 X {0,1} ,对应的码字称为二元码。 3.奇异码和非奇异码 一般说来,无论是定长码还是变长码,如果码字集合 C 中含有相同码 字, 则称为奇异码。 否则称为非奇异码。 非奇异性是正确译码的必要条件。
编码器将长度为 N 的信源符号序列 i 变换成码字 Wi :
i Wi (ai , ai ,, ai )
1 2 Li
(i 1, 2 , qN ,
)
二、信源编码涉及的几个概念 【例】 设一个离散无记忆信源的概率空间为
s S 1 Ps 1 8
即 时 码 可 以 采 用 码 树 法 来 构 造 。 例 如 即 时 码
W {W1,W2 ,W3 ,W4} {0,10,110,111} ,可以按以下步骤得到即时码的码树。
(1)最上端为树根,从根开始,画出两条分支(树枝) ,每条分支代表一
个码元。因为 W1 的码长 L1 1 ,任选一条分支的终点(称为节点)来表示 W1 。