通信原理第五章-无失真信源编码定理及方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例如,英文电报有 32 个符号(26 个英文字母加上 6 个字符) ,即 q=32。若对信源 S 的 每个符号进行二元编码,则
l
log q log32 5 log r
这就是说,每个英文电报符号至少要用 5 位二元符号编码才行。 在前面考虑的等长编码中, 采用的是对每个符号单独编码的方法。 在编码中没有考虑信 源符号出现的概率,以及信源符号之间的依赖关系。当考虑了信源符号的概率关系后,在等 长编码中每个信源符号平均所需的码长可以进一步减少。 现举以下一特例, 来阐明为什么每 个信源符号平均所需的码符号个数可以减少。 设信源
5.2 等长码
一 般 来 说 , 若要 实 现 无失 真 的 编 码 ,这 不 但 要求 信 源 符 号 si (i 1,2,
, q) 与 码 字
Wi ( i 1, 2,
,q 是一一对应的,而且要求码符号序列的反变换也是唯一的。也就是说,所编 )
的码必须是唯一可译码。否则,所编的码不具有唯一可译码性,就会引起译码带来的错误与 失真。 对于等长码来说,若等长码是非奇异码,则它的任意有限长 N 次扩展码一定也是非奇 异码。因此等长非奇异码一定是唯一可译码。在表 5.1 中,码 2 显然不是唯一可译码。因为 信源符号 s2 和 s4 都对应于同一码字 11,当我们接收到码符号 11 后,既可译成 s2 ,也可译 成 s4 ,所以不能唯一地译码。而码 1 是等长非奇异码,因此,它是一个唯一可译码。
i
, li )
或者
i (si ,si , ,si ) Wi ( xi xi
1 2 N 1
2
xil )
i
sik S (k 1,2,
, N ); xik X (k 1,
, li )
这种码符号序列 Wi 称为码字。长度称为码字长度或简称码长。所有这些码字的集合 C 称为码。可见,编码就是从信源符号到码符号的一种映射。若要实现无失真编码,这种映射 必须是一一对应的、可逆的。 下面,我们给出一些码的定义,并举例说明。 1)二元码 若码符号集为 X={0,1},所得码字都是一些二元序列,则称为二元码。 若将信源通过一个二元信道进行传输, 为使信源适合信道传输, 就必须把信源符号变换 成 0,1 符号组成的码符号序列(二元序列) ,这种编码所得的码为二元码。二元码是数字通 信和计算机系统中最常用的一种码。
5.3 等长信源编码定理
定理 5.1(等长信源编码定理)一个熵为 H(S)的离散无记忆信源,若对信源长为 N 的符号序 列进行等长编码,设码字是从 r 个字母的码符号集中选取 l 个码元组成。对于任意 ε>0,只 要满足
Байду номын сангаас
l H (S ) N log r
(5-5)
则当 N 足够大时,可实现几乎无失真编码,即译码错误概率能为任意小。反之,若
第五章 无失真信源编码定理及方法
通信的目的是高速、高质量地传送信息。为了将信源产生的信息通过信道传送给信宿, 需要解决两个问题:1.在不失真或允许一定失真的条件下,如何用尽可能少的符号来传送信 源信息。2. 在信道传输过程中,如何增加信号的抗干扰能力。为解决这两个问题,我们引 入了信源编码和信道编码。 在前面已建立的信源统计特性和信息熵概念的基础上, 本章将着重讨论对离散信源进行 无失真信源编码的方法及理论极限。
l H ( S )+ N log r
当二元编码 r=2 时,式(5-5)和式(5-7)成为
(5-7)
l H ( S )+ N l H ( S )+ N
(5-8)
(5-9)
可见,定理 5.1 给出了等长编码时平均每个信源符号所需的二元码符号的理论极限,这 极限值由信源熵 H ( S ) 或 H ( S ) 决定。 定理 5.1 中的条件式(5-5)可改写成
si s j Wi W j si , s j S Wi ,W j C
则称码 C 为非奇异码。 5)奇异码 若一组码中有相同的码字,即
si s j Wi W j si , s j S Wi ,W j C
则称码 C 为奇异码。 6)唯一可译码 若码的任意一串有限长的码符号序列只能被唯一地译成所对应的信源符号序列, 则此码 称为唯一可译码。 若要所编的码是唯一可译码, 不但要求编码时不同的信源符号变换成不同的码字, 而且 还必须要求任意有限长的信源序列所对应的码符号序列各不相同, 即要求码的任意有限长 N 次扩展码都是非奇异码。 因为只有任意有限长的信源序列所对应的码符号序列各不相同, 才 能把该码符号序列唯一地分割成一个个对应的信源符号,从而实现唯一地译码。所以,某码 若对任意有限整数 N,其 N 次扩展码都是非奇异码,则该码为唯一可译码。 下面, 我们分别讨论等长码和变长码的最佳编码问题, 也就是是否存在一种唯一可以编 码方法,使平均每个信源符号所需的码符号最短。也就是寻找无失真信源压缩的极限值。
, q N ) 变换成长度为 l 的码符号序列 Wi ( xi1 xi2
xil ) ,
( xi1 ,
, xil X ) 。根据前面的分析,若要求编得的等长码是唯一可译码,则必须满足
qN rl
(5-2)
此式表明, 只有当长度为 l 的码符号序列数 ( rl ) 大于或等于 N 次扩展信源的符号数 ( qN ) 时,才可能存在等长非奇异码。 对式(5-2)两边取对数,则得
2)等长码(或称固定长度码) 若一组码中所有码字的码长都相同,即 li l (i 1, 3)变长码 若一组码中所有码字的码长各不相同,即任意码字由不同长度 li 的码符号序列组成,则 称为变长码。 4)非奇异码 若一组码中所有码字都不相同,即所有信源符号映射到不同的码符号序列
, q) ,则称为等长码。
l log q N log r
式(5-3)中
(5-3)
l 是平均每个信源符号所需要的码符号个数。所以式(5-3)表示:对于 N 等长唯一可译码, 每个信源符号所需最短码长为 log q / log r 个。 当 r=2 (二元码) 时, 式 (5-3)
成为
l (5-4) log q N 因此,对信源进行二元等长不失真编码时,每个信源符号所需码长的极限值为 log q 。
s2 , s3 , s4 S s1 , P( s) P( s ), P( s ), P( s ), P( s ) 1 2 3 4
而其依赖关系为 P(s2 | s1 ) P(s1 | s2 ) P(s4 | s3 ) P(s3 | s4 ) 1
表 5.1 信源符号
s1 s2 s3 s4
码1 00 01 10 11
码2 00 11 10 11
若对信源 S 进行等长编码,则必须满足
q rl
(5-1)
式中, l 是等长码的码长,r 是符号集中的码元数。 例如,表 5.1 中,信源 S 共有 q=4 个信源符号,现进行二元等长编码,其中码符号个数 为 r=2。根据式(5-1)可知,信源 S 存在唯一可译等长码的条件是码长 l 必须大于等于 2。 如果我们对信源 S 的 N 次扩展信源进行等长编码。 设信源 S {s1 , 那么它的 N 次扩展信源 S N {1 , 2 ,
5.1 信源编码器
S : s1 , s2 ,
, sq
信源编码器
C : W1 , W2 ,
, Wq
X : x1 , x2 ,
, xr
图 5.1 无失真信源编码器 信源编码实质上是对信源的原始符号按一定的数学规则进行的一种变换。 为了分析方便和突出问题的重点, 当研究信源编码时, 我们将信道编码和译码看成是信 道的一部分,只考虑信源编解码对信息传输的影响。图 5.1 就是一个信源编码器。它的输入 是信源符号集 S {s1 , s2 ,
, sq } , 有 q 个符号,
其中 i ( si1 si2 , q N } 共有 q N 个符号,
siN ) (sik S , k
1,2,
, N ) 是长度为 N 的信源符号序列。又设码符号集为 X [ x1 , x2 ,
, xr ] 。现在需要把
这些长为 N 的信源符号序列 i (i 1,2,
P( s s ) 1
i 1 i j
4
因为由上述依赖关系可知, 除 P( s1s2 ) , 其余 si s j P( s2 s1 ) , P( s2 s1 ) 和 P( s3 s4 ) 不等于零外, 出现的概率皆为零。因此,二次扩展信源 S 2 由 42 16 个符号缩减到只有 4 个符号。此时, 对二次扩展信源 S 2 进行等长编码,所需码长仍为 l ' =2。但平均每个信源符号所需码符号为 l' 1 2 。由此可见,当考虑信源符号之间依赖关系后,有些信源符号序列不会出现,这 N 样会使信源符号序列的个数减少,再进行编码时,所需平均码长就可以缩短。 我们仍以英文电报为例, 在考虑了英文字母之间的依赖关系后, 每个英文电报所需的码 字长度可以少于 5。因为英文字母之间有很强的关联性,当字母组合成不同的英文字母序列 时,并不是所有的字母组合都是有意义的单字,若再把单字组合成更长的字母序列时,也不 是任意的单字组合都是有意义的句子。因此,考虑了这种关联性后,在 N 为足够长的英文 字母序列中,就有许多是无用和无意义的序列,也就是说,这些信源序列出现的概率等于零 或任意小。 那么, 当我们对长为 N 的英文字母序列进行编码时, 对于那些无用的字母组合, 无意义的句子都可以不编码。也就是相当于在 N 次扩展信源中去掉一些字母序列,使扩展 信源中符号总数小于 q N ,这样平均每个信源符号所需的码符号个数就可以大大减少,从而 使传输效率提高。当然,这就会引入一定的误差。但是,当 N 足够长后,这种误差概率可 以任意小, 即可做到几乎无失真地编码。 等长编码定理给出了信源进行等长编码所需码长的 理论极限值。
l H ( S ) 2 N log r
(5-6)
则不可能实现无失真编码,而当 N 足够大时,译码错误概率近似等于 1。 典型序列集和非典型序列集。 离散无记忆信源的 N 次扩展信源可以分成互补的两类: 当 N 足够大时, 典型序列集中的序列个数约等于 2 N [ H (S) ] , 典型序列集出现的概率 接近 1. 非典型序列集中虽包含的元素较多,但出现概率趋于零。因此,我们只对 典型序 列集中的信源序列进行编码,而将低概率集中的信源序列舍弃,不编码。这样所需的平均码 长可以减少,而所引起的错误概率却很小,趋于零。 定理 5.1 是在平稳离散无记忆信源的条件下论证的。 但它同样适合于平稳离散有记忆信 源。对于平稳离散有记忆信源,式(5-5)和式(5-6)中 H(S)应改为极限熵 H ( S ) 。即为
, sq } 。同时存在另一符号集 X {x1 , x2 ,
, xr } ,我们将 x j 称为
码符号(或称码元) 。编码器是将信源符号集中的符号 si (或者长为 N 的信源符号序列 i ) 变换成由 x j ( j 1, 2,
, r ) 组成的长度为 li 的一一对应的序列。即
si (i 1, , q) Wi ( xi1 xi2 xil ), xik X (k 1,
P( s ) 1
i 1 i
4
若不考虑符号之间依赖关系,此信源 q=4,那么,进行等长二元编码, l =2。若考虑符 号之间依赖关系,此特殊信源的二次扩展信源为
S 2 s1s2 , s2 s1 , s3 s4 , s3 s4 P( si s j ) P( s1s2 ), P( s2 s1 ), P( s3 s4 ), P(s3 s4 )
l log r NH (S )
(5-10)
这个不等式左边表示长为 l 的码符号序列能载荷的最大信息量, 而右边代表长为 N 的需 要序列平均携带的信息量。 所以等长编码定理告诉我们, 只要码字传输的信息量大于信源序 列携带的信息量,总可实现几乎无失真编码。 将条件式(5-10)移项又可得
l
log q log32 5 log r
这就是说,每个英文电报符号至少要用 5 位二元符号编码才行。 在前面考虑的等长编码中, 采用的是对每个符号单独编码的方法。 在编码中没有考虑信 源符号出现的概率,以及信源符号之间的依赖关系。当考虑了信源符号的概率关系后,在等 长编码中每个信源符号平均所需的码长可以进一步减少。 现举以下一特例, 来阐明为什么每 个信源符号平均所需的码符号个数可以减少。 设信源
5.2 等长码
一 般 来 说 , 若要 实 现 无失 真 的 编 码 ,这 不 但 要求 信 源 符 号 si (i 1,2,
, q) 与 码 字
Wi ( i 1, 2,
,q 是一一对应的,而且要求码符号序列的反变换也是唯一的。也就是说,所编 )
的码必须是唯一可译码。否则,所编的码不具有唯一可译码性,就会引起译码带来的错误与 失真。 对于等长码来说,若等长码是非奇异码,则它的任意有限长 N 次扩展码一定也是非奇 异码。因此等长非奇异码一定是唯一可译码。在表 5.1 中,码 2 显然不是唯一可译码。因为 信源符号 s2 和 s4 都对应于同一码字 11,当我们接收到码符号 11 后,既可译成 s2 ,也可译 成 s4 ,所以不能唯一地译码。而码 1 是等长非奇异码,因此,它是一个唯一可译码。
i
, li )
或者
i (si ,si , ,si ) Wi ( xi xi
1 2 N 1
2
xil )
i
sik S (k 1,2,
, N ); xik X (k 1,
, li )
这种码符号序列 Wi 称为码字。长度称为码字长度或简称码长。所有这些码字的集合 C 称为码。可见,编码就是从信源符号到码符号的一种映射。若要实现无失真编码,这种映射 必须是一一对应的、可逆的。 下面,我们给出一些码的定义,并举例说明。 1)二元码 若码符号集为 X={0,1},所得码字都是一些二元序列,则称为二元码。 若将信源通过一个二元信道进行传输, 为使信源适合信道传输, 就必须把信源符号变换 成 0,1 符号组成的码符号序列(二元序列) ,这种编码所得的码为二元码。二元码是数字通 信和计算机系统中最常用的一种码。
5.3 等长信源编码定理
定理 5.1(等长信源编码定理)一个熵为 H(S)的离散无记忆信源,若对信源长为 N 的符号序 列进行等长编码,设码字是从 r 个字母的码符号集中选取 l 个码元组成。对于任意 ε>0,只 要满足
Байду номын сангаас
l H (S ) N log r
(5-5)
则当 N 足够大时,可实现几乎无失真编码,即译码错误概率能为任意小。反之,若
第五章 无失真信源编码定理及方法
通信的目的是高速、高质量地传送信息。为了将信源产生的信息通过信道传送给信宿, 需要解决两个问题:1.在不失真或允许一定失真的条件下,如何用尽可能少的符号来传送信 源信息。2. 在信道传输过程中,如何增加信号的抗干扰能力。为解决这两个问题,我们引 入了信源编码和信道编码。 在前面已建立的信源统计特性和信息熵概念的基础上, 本章将着重讨论对离散信源进行 无失真信源编码的方法及理论极限。
l H ( S )+ N log r
当二元编码 r=2 时,式(5-5)和式(5-7)成为
(5-7)
l H ( S )+ N l H ( S )+ N
(5-8)
(5-9)
可见,定理 5.1 给出了等长编码时平均每个信源符号所需的二元码符号的理论极限,这 极限值由信源熵 H ( S ) 或 H ( S ) 决定。 定理 5.1 中的条件式(5-5)可改写成
si s j Wi W j si , s j S Wi ,W j C
则称码 C 为非奇异码。 5)奇异码 若一组码中有相同的码字,即
si s j Wi W j si , s j S Wi ,W j C
则称码 C 为奇异码。 6)唯一可译码 若码的任意一串有限长的码符号序列只能被唯一地译成所对应的信源符号序列, 则此码 称为唯一可译码。 若要所编的码是唯一可译码, 不但要求编码时不同的信源符号变换成不同的码字, 而且 还必须要求任意有限长的信源序列所对应的码符号序列各不相同, 即要求码的任意有限长 N 次扩展码都是非奇异码。 因为只有任意有限长的信源序列所对应的码符号序列各不相同, 才 能把该码符号序列唯一地分割成一个个对应的信源符号,从而实现唯一地译码。所以,某码 若对任意有限整数 N,其 N 次扩展码都是非奇异码,则该码为唯一可译码。 下面, 我们分别讨论等长码和变长码的最佳编码问题, 也就是是否存在一种唯一可以编 码方法,使平均每个信源符号所需的码符号最短。也就是寻找无失真信源压缩的极限值。
, q N ) 变换成长度为 l 的码符号序列 Wi ( xi1 xi2
xil ) ,
( xi1 ,
, xil X ) 。根据前面的分析,若要求编得的等长码是唯一可译码,则必须满足
qN rl
(5-2)
此式表明, 只有当长度为 l 的码符号序列数 ( rl ) 大于或等于 N 次扩展信源的符号数 ( qN ) 时,才可能存在等长非奇异码。 对式(5-2)两边取对数,则得
2)等长码(或称固定长度码) 若一组码中所有码字的码长都相同,即 li l (i 1, 3)变长码 若一组码中所有码字的码长各不相同,即任意码字由不同长度 li 的码符号序列组成,则 称为变长码。 4)非奇异码 若一组码中所有码字都不相同,即所有信源符号映射到不同的码符号序列
, q) ,则称为等长码。
l log q N log r
式(5-3)中
(5-3)
l 是平均每个信源符号所需要的码符号个数。所以式(5-3)表示:对于 N 等长唯一可译码, 每个信源符号所需最短码长为 log q / log r 个。 当 r=2 (二元码) 时, 式 (5-3)
成为
l (5-4) log q N 因此,对信源进行二元等长不失真编码时,每个信源符号所需码长的极限值为 log q 。
s2 , s3 , s4 S s1 , P( s) P( s ), P( s ), P( s ), P( s ) 1 2 3 4
而其依赖关系为 P(s2 | s1 ) P(s1 | s2 ) P(s4 | s3 ) P(s3 | s4 ) 1
表 5.1 信源符号
s1 s2 s3 s4
码1 00 01 10 11
码2 00 11 10 11
若对信源 S 进行等长编码,则必须满足
q rl
(5-1)
式中, l 是等长码的码长,r 是符号集中的码元数。 例如,表 5.1 中,信源 S 共有 q=4 个信源符号,现进行二元等长编码,其中码符号个数 为 r=2。根据式(5-1)可知,信源 S 存在唯一可译等长码的条件是码长 l 必须大于等于 2。 如果我们对信源 S 的 N 次扩展信源进行等长编码。 设信源 S {s1 , 那么它的 N 次扩展信源 S N {1 , 2 ,
5.1 信源编码器
S : s1 , s2 ,
, sq
信源编码器
C : W1 , W2 ,
, Wq
X : x1 , x2 ,
, xr
图 5.1 无失真信源编码器 信源编码实质上是对信源的原始符号按一定的数学规则进行的一种变换。 为了分析方便和突出问题的重点, 当研究信源编码时, 我们将信道编码和译码看成是信 道的一部分,只考虑信源编解码对信息传输的影响。图 5.1 就是一个信源编码器。它的输入 是信源符号集 S {s1 , s2 ,
, sq } , 有 q 个符号,
其中 i ( si1 si2 , q N } 共有 q N 个符号,
siN ) (sik S , k
1,2,
, N ) 是长度为 N 的信源符号序列。又设码符号集为 X [ x1 , x2 ,
, xr ] 。现在需要把
这些长为 N 的信源符号序列 i (i 1,2,
P( s s ) 1
i 1 i j
4
因为由上述依赖关系可知, 除 P( s1s2 ) , 其余 si s j P( s2 s1 ) , P( s2 s1 ) 和 P( s3 s4 ) 不等于零外, 出现的概率皆为零。因此,二次扩展信源 S 2 由 42 16 个符号缩减到只有 4 个符号。此时, 对二次扩展信源 S 2 进行等长编码,所需码长仍为 l ' =2。但平均每个信源符号所需码符号为 l' 1 2 。由此可见,当考虑信源符号之间依赖关系后,有些信源符号序列不会出现,这 N 样会使信源符号序列的个数减少,再进行编码时,所需平均码长就可以缩短。 我们仍以英文电报为例, 在考虑了英文字母之间的依赖关系后, 每个英文电报所需的码 字长度可以少于 5。因为英文字母之间有很强的关联性,当字母组合成不同的英文字母序列 时,并不是所有的字母组合都是有意义的单字,若再把单字组合成更长的字母序列时,也不 是任意的单字组合都是有意义的句子。因此,考虑了这种关联性后,在 N 为足够长的英文 字母序列中,就有许多是无用和无意义的序列,也就是说,这些信源序列出现的概率等于零 或任意小。 那么, 当我们对长为 N 的英文字母序列进行编码时, 对于那些无用的字母组合, 无意义的句子都可以不编码。也就是相当于在 N 次扩展信源中去掉一些字母序列,使扩展 信源中符号总数小于 q N ,这样平均每个信源符号所需的码符号个数就可以大大减少,从而 使传输效率提高。当然,这就会引入一定的误差。但是,当 N 足够长后,这种误差概率可 以任意小, 即可做到几乎无失真地编码。 等长编码定理给出了信源进行等长编码所需码长的 理论极限值。
l H ( S ) 2 N log r
(5-6)
则不可能实现无失真编码,而当 N 足够大时,译码错误概率近似等于 1。 典型序列集和非典型序列集。 离散无记忆信源的 N 次扩展信源可以分成互补的两类: 当 N 足够大时, 典型序列集中的序列个数约等于 2 N [ H (S) ] , 典型序列集出现的概率 接近 1. 非典型序列集中虽包含的元素较多,但出现概率趋于零。因此,我们只对 典型序 列集中的信源序列进行编码,而将低概率集中的信源序列舍弃,不编码。这样所需的平均码 长可以减少,而所引起的错误概率却很小,趋于零。 定理 5.1 是在平稳离散无记忆信源的条件下论证的。 但它同样适合于平稳离散有记忆信 源。对于平稳离散有记忆信源,式(5-5)和式(5-6)中 H(S)应改为极限熵 H ( S ) 。即为
, sq } 。同时存在另一符号集 X {x1 , x2 ,
, xr } ,我们将 x j 称为
码符号(或称码元) 。编码器是将信源符号集中的符号 si (或者长为 N 的信源符号序列 i ) 变换成由 x j ( j 1, 2,
, r ) 组成的长度为 li 的一一对应的序列。即
si (i 1, , q) Wi ( xi1 xi2 xil ), xik X (k 1,
P( s ) 1
i 1 i
4
若不考虑符号之间依赖关系,此信源 q=4,那么,进行等长二元编码, l =2。若考虑符 号之间依赖关系,此特殊信源的二次扩展信源为
S 2 s1s2 , s2 s1 , s3 s4 , s3 s4 P( si s j ) P( s1s2 ), P( s2 s1 ), P( s3 s4 ), P(s3 s4 )
l log r NH (S )
(5-10)
这个不等式左边表示长为 l 的码符号序列能载荷的最大信息量, 而右边代表长为 N 的需 要序列平均携带的信息量。 所以等长编码定理告诉我们, 只要码字传输的信息量大于信源序 列携带的信息量,总可实现几乎无失真编码。 将条件式(5-10)移项又可得