第5章_无失真信源编码定理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
则称码C为奇异码。
si , s j S Wi ,W j C
信源符号
概率
编码1
编码2
编码3
编码4
编码5
p(ai )
a1 a2 a3 a4
1/2
00
0
0
0
1
1/4
01
0
1
10
01
1/8
10
1
00
1100011/8111011
111
0001
如表中的“编码2”是奇异码,其他码是非奇异码。
(6)同价码
P( s ) 1
i 1 i
4
而其依赖关系为:
P(s2 / s1 ) P(s1 / s2 ) P(s4 / s3 ) P(s3 / s4 ) 1, 其余P(s j / si ) 0
s1 s2 s3 s4
s1 0 1 P 0 0
s2 1 0 0 0
s3 0 0 0 1
s4
p (s4)
11
101
(4)非奇异码
若一组码中所有码字都不相同(即所有信源符号
映射到不同的码符号序列),则称为非奇异码。
si s j Wi W j
则称码C为非奇异码。
si , s j S Wi ,W j C
(5)奇异码 若一组码中有相同的码字,则为奇异码。
si s j Wi W j
P(s2 / s1 ) P(s1 / s2 ) P(s4 / s3 ) P(s3 / s4 ) 1, 其余P(s j / si ) 0
s3 s2 s4 S s1 P( s ) P( s ) P( s ) P( s ) P( s ) 1 2 3 4
i
N
Bi {Wi1 ,Wi2 ,
,WiN }; i1,
, iN 1,
, q; i 1,
,q
N
即码C的N次扩展码中,每个码字 Bi与信源的N次扩 展信源 S N 中的每个信源符号 i {si1 , si 2 , , siN } 是一一对应的: i Bi (Wi1 ,Wi2 , ,WiN ), i S N ,Wil C
例如:对于二元码 C1 {1, 01, 00},当任意给定一 串码字序列,例如“10001101”,只可唯一地划 分为1,00,01,1,01,因此是惟一可译码;而对另 一个二元码 C2 {0,10,01} ,当码字序列为 “01001”时,可划分为0,10,01或01,0,01,所以
是非惟一可译的。
5.1
编码器
编码实质上是对信源的原始符号按一定 的数学规则进行的一种变换。
一、编码器模型 由于信源编码可以不考虑抗干扰问题,所以 它的数学模型比较简单。
• 输入是信源符号集: S {s1, s2 , , sq } • x为编码器所用的编码符号集,包含r个元素 { x1 , x2 ,...,xr },称为码符号(码元) 。 • 由码符号 xi 组成的输出序列 Wi 称为码字。 其长度 l i 称为码字长度或码长,全体码字 Wi 的 集合C称为码或码书 。 • 编码器将信源符号集中的信源符号 s i (或长为N 的信源符号序列 i )变成由码符号组成的长为的 与信源符号一一对应的输出序列。即 :
高效率、高质量传送信息是信息传输的基本问题!
需要解决两个问题: 第一,在不失真或允许一定失真的条件下,如何 用 尽可能少的符号来传送信源信息;
第二,在信道受干扰的情况下,如何增加信号的抗
干扰能力,同时又使得信息传输率最大。 为了解决这两个问题,就要引入信源编码和信道 编码。
一般来说,抗干扰能与信息传输率二者相互矛盾。 然而编码定理已从理论上证明,至少存在某种最 佳的编码能够解决上述矛盾,做到既可靠又有效 地传输信息。
可以做到让平均码长缩短,提高信息传输率
举例说明为什么每个信源符号平均所需的码长可以减少:
设信源
s3 s2 s4 S s1 P( s ) P( s ) P( s ) P( s ) P( s ) 1 2 3 4
P( s ) 1
i 1 i
4
而其依赖关系为:
(2) 等长码 若一组码中所有码字的长度都相同---(即 li l , i 1,
, q ),则称为等长码。
(3) 变长码
若一组码中码字的码长各不相同(即码字长度 l i 不等),则称为变长码 。 如表中“编码1”为等长码,“编码2”为变长码。
信源符号si s1 s2 s3 符号出现概率p(si) p(s1) p (s2) p (s3) 编码1 00 01 10 编码2 0 01 001
对惟一可译码又分为即时码和非即时码: 如果在接收端收到一个完整的码字后,就能立即进行 译码,这样的码叫做即时码; 而在接收端收到一个完整的码字后,还需等下一个码 字接收后才能判断是否可以译码,这样的码叫做非即 时码。 即时码又称为非延长码,对即时码而言,在码本中 任意一个码字都不是其它码字的前缀部分。对非即时 信源符号si 符号出现概率p(si) 编码1 编码2 码来说,有的码是惟一可译的,有的码是非惟一可译 p(s1) s1 1 1 的,主要取决于码的总体结构。
若码符号集X:{ x1 , x2 ,...,xr }中每个码符号所占的传输 时间都相同,则所得的码为同价码。 我们一般讨论同价码,对同价码来说等长码中每个码 字的传输时间相同,而变长码中每个码字的传输时间就 不一定相同。 如:电报中常用的莫尔斯码是非同价码,其码符号点 (.)和划(-)所占的传输时间不相同。
性,寻找一定的方法把信源输出符号序列变换为最 短的码字序列。
信源编码常分为无失真信源编码和限失真信 源编码, 前者主要用于文字、数据信源的压缩; 后者主要用于图像、语音信源的压缩。 由于这些定理都要求符号数很大才能使它的值 接近所规定的值,因而这些定理被称为极限定理。
无失真编码
无失真编码是可逆编码的基础。 可逆是指当信源符号转换成代码后,可从代 码无失真地恢复原信源符号。
信源虽然多种多样,但无论是哪种类型的信源, 信源符号之间总存在相关性和分布的不均匀性, 使得信源存在冗余度。信源编码的目的就是要减 少冗余,提高编码效率。
由于信源符号之间存在分布不均匀和相关性,
使得信源存在冗余度,信源编码的主要任务就是减
少冗余,提高编码效率。
具体说,就是针对信源输出符号序列的统计特
P(s s ) 1
i j ij
可见,由于符号间依赖关系的存在,扩展后许多符号出 现的概率为0,此信源只有4个字符,可得码长 l ' 2 , 平均每个信源符号所需码符号为
l' 1 l 2 N
例:英文电报
考虑到英文字母间的相关性,对信源作N次扩展,在 扩展后的信源(也就是句子)中,有些句子是有意义的,而
的编码方法。
变长编码:码字长度是变值,相应的编码定理称为变 长编码定理。这里的码字长度最小意味着 数学期望最小。
定理中的公式改写成 l log 2 r NH ( S ) 不等式左边表示长为L的码符号序列能载荷的最 大信息量, 右边代表长为N的信源序列平均携带的信息量。 所以定长编码定理告诉我们:只要码字传输 的信息量大于信源携带的信息量,总可实现几乎 无失真编码。
5.2
等长码
一般说来,若要实现无失真的编码,这不但要 求信源符号与码字是一一对应的,而且要求所编的 码必须是唯一可译码。否则,所编的码不具有唯一 可译码性,就会引起译码带来的错误与失真。
对于等长码来说,若等长码是非奇异码, 则它的任意有限长N次扩展码一定也是非奇 异码。因此等长非奇异码一定是唯一可译码。
l N
log 32 / log 2 5
即:l 5
例:对英文电报得32个符号进行二元编码,根据上述关系:
log 32 l 5 log 2
P60页知道英文的极限熵是1.4bit,远小于5bit,也就是 说,5个二元码符号只携带1.4bit的信息量,实际上,5个
二元符号最多可以携带5bit信息量。
码1 0 11 00
码2 0 10 00
码3 1 10 100
码4 1 01 001
a4
1/8
11
01
1000
0001
即时码要求任何一个码字都不是其他码字的前缀部分,所 以也叫做异前缀码/非延长码。如上表中的码4。 如果接收端收到一个完整的码字后,不能立即译码,必须 结合后续的码元序列才能进行译码,称为非即时码。如码3。 可见,唯一可译码不一定是即时码,因为非即时码(延长码)也 具有唯一可译性。
s4 0 0 1 0
传递矩阵
若不考虑符号间的依赖关系,可得码长l=2 若考虑符号间的依赖关系,则对此信源作二次扩展
S 2 s1s2 s3 s4 s4 s3 s2 s1 P( s s ) P( s s ) P( s s ) P( s s ) 2 P ( s ) 2 1 3 4 4 3 1 2
一是编码后使序列中的各个符号之间尽可能地互相独立即解除相关性方法包括预测编码和变换编码二是使编码后各个符号出现的概率尽可能相等即均匀化分布方法主要是统计编码信源编码常分为无失真信源编码和限失真信源编码前者主要用于文字数据信源的压缩
第5章 无失真信源编码定理
邹小林 2014.11.
通信的实质是信息的传输。
si (i 1, 2, , q) Wi (i 1, 2, , q) ( xi1, xi 2 , , xili ), xij X
二、码的分类
根据码符号集合X中码元的个数不同以及码
字长度是否一致,有以下一些常用的编码形式: (1) 二元码和r元码 若码符号集 X {0,1} ,编码所得码字为一些 二元序列,则称二元码。二元码是数字通信与计 算机系统中最常用的一种码。 若码符号集有 r 个元素,则称 r 元码。
010 0101
… 111111
(8)惟一可译码 若任意一串有限长的码符号序列只能被惟一 地译成所对应的信源符号序列,则此码称为惟一 可译码(或称单义可译码)。否则就称为非惟一 可译码或非单义可译码。 若要使某一码为惟一可译码,则对于任意给 定的有限长的码符号序列,只能被惟一地分割成 一个个的码字。
例
信源符号si s1 s2 s3 符号出现概率p(si) p(s1) p (s2) p (s3) 编码1 00 01 10 编码2 0 01 001
s4
p (s4)
11
111
求编码2的2次扩展
信源符号ai 码字 信源符号ai 码字
a1 a2
a3 a4
00 001
0001 0111
a5 a6
… a16
(7)码的N次扩展码 假定某码C,它把信源 S {s1, s2 , , sq } 中的符号 s i 一一变换成码C中的码字 Wi ,则码C的N次扩 展码是所有N个码字组成的码字序列的集合。
例如:若码 C {W1,W2 , ,Wq } 满足: si Wi ( xi1, xi 2 , , xil ), si S, xil X 则码C的N次扩展码集合 B {B1 , B2 , , Bq } ,其中:
此式表明,只有当 l 长的 码符号序列数大于或等于N 次扩展信源的符号数时,才 可能存在等长非奇异码。
例:
英文电报有32个符号(26个字母加上6个字符),请
问对信源符号进行二进制编码,要想有唯一可 译码,码长至少为多少?
解: r = 2, q = 32, N = 1,要想有唯一可译码,则
r q l N log q / log r
码1是奇异码,码2是非奇异码。
码2不是唯一可译码,码3是。
又如,码字{0,10,11}是一种唯一可译码。因为任意一串有 限长码序列,例如100 111 000,只能被分割成10,0,11, 10,0,0。任何其他分割法都会产生一些非定义的码字。
信源符号ai 符号出现概率p(ai) a1 1/2 a2 1/4 a3 1/8
有些句子是没有意义的,可以只对有意义的句子编码,而
对那些没有意义的句子不进行编码,这样就可以缩短每个 信源符号所需的码长。 等长信源编码定理给出了进行等长信源编码所需码长的 极限值。
5.4
等长信源编码定理
信源编码有等长和变长两种方法。
等长编码:码字长度是固定的,相应的编码定理称为
定长信源编码定理,是寻求最小码字长度
s2 s3 s4 p (s2) p (s3) p (s4) 10 100 1000 01 001 0001
信源符号ai 符号出现概率p(ai) a1 1/2 a2 1/4 a3 1/8
码1 0 11 00
码2 0 10 00
码3 1 10 100
码4 1 01 001
a4
1/8
11
01
1000
0001
si , s j S Wi ,W j C
信源符号
概率
编码1
编码2
编码3
编码4
编码5
p(ai )
a1 a2 a3 a4
1/2
00
0
0
0
1
1/4
01
0
1
10
01
1/8
10
1
00
1100011/8111011
111
0001
如表中的“编码2”是奇异码,其他码是非奇异码。
(6)同价码
P( s ) 1
i 1 i
4
而其依赖关系为:
P(s2 / s1 ) P(s1 / s2 ) P(s4 / s3 ) P(s3 / s4 ) 1, 其余P(s j / si ) 0
s1 s2 s3 s4
s1 0 1 P 0 0
s2 1 0 0 0
s3 0 0 0 1
s4
p (s4)
11
101
(4)非奇异码
若一组码中所有码字都不相同(即所有信源符号
映射到不同的码符号序列),则称为非奇异码。
si s j Wi W j
则称码C为非奇异码。
si , s j S Wi ,W j C
(5)奇异码 若一组码中有相同的码字,则为奇异码。
si s j Wi W j
P(s2 / s1 ) P(s1 / s2 ) P(s4 / s3 ) P(s3 / s4 ) 1, 其余P(s j / si ) 0
s3 s2 s4 S s1 P( s ) P( s ) P( s ) P( s ) P( s ) 1 2 3 4
i
N
Bi {Wi1 ,Wi2 ,
,WiN }; i1,
, iN 1,
, q; i 1,
,q
N
即码C的N次扩展码中,每个码字 Bi与信源的N次扩 展信源 S N 中的每个信源符号 i {si1 , si 2 , , siN } 是一一对应的: i Bi (Wi1 ,Wi2 , ,WiN ), i S N ,Wil C
例如:对于二元码 C1 {1, 01, 00},当任意给定一 串码字序列,例如“10001101”,只可唯一地划 分为1,00,01,1,01,因此是惟一可译码;而对另 一个二元码 C2 {0,10,01} ,当码字序列为 “01001”时,可划分为0,10,01或01,0,01,所以
是非惟一可译的。
5.1
编码器
编码实质上是对信源的原始符号按一定 的数学规则进行的一种变换。
一、编码器模型 由于信源编码可以不考虑抗干扰问题,所以 它的数学模型比较简单。
• 输入是信源符号集: S {s1, s2 , , sq } • x为编码器所用的编码符号集,包含r个元素 { x1 , x2 ,...,xr },称为码符号(码元) 。 • 由码符号 xi 组成的输出序列 Wi 称为码字。 其长度 l i 称为码字长度或码长,全体码字 Wi 的 集合C称为码或码书 。 • 编码器将信源符号集中的信源符号 s i (或长为N 的信源符号序列 i )变成由码符号组成的长为的 与信源符号一一对应的输出序列。即 :
高效率、高质量传送信息是信息传输的基本问题!
需要解决两个问题: 第一,在不失真或允许一定失真的条件下,如何 用 尽可能少的符号来传送信源信息;
第二,在信道受干扰的情况下,如何增加信号的抗
干扰能力,同时又使得信息传输率最大。 为了解决这两个问题,就要引入信源编码和信道 编码。
一般来说,抗干扰能与信息传输率二者相互矛盾。 然而编码定理已从理论上证明,至少存在某种最 佳的编码能够解决上述矛盾,做到既可靠又有效 地传输信息。
可以做到让平均码长缩短,提高信息传输率
举例说明为什么每个信源符号平均所需的码长可以减少:
设信源
s3 s2 s4 S s1 P( s ) P( s ) P( s ) P( s ) P( s ) 1 2 3 4
P( s ) 1
i 1 i
4
而其依赖关系为:
(2) 等长码 若一组码中所有码字的长度都相同---(即 li l , i 1,
, q ),则称为等长码。
(3) 变长码
若一组码中码字的码长各不相同(即码字长度 l i 不等),则称为变长码 。 如表中“编码1”为等长码,“编码2”为变长码。
信源符号si s1 s2 s3 符号出现概率p(si) p(s1) p (s2) p (s3) 编码1 00 01 10 编码2 0 01 001
对惟一可译码又分为即时码和非即时码: 如果在接收端收到一个完整的码字后,就能立即进行 译码,这样的码叫做即时码; 而在接收端收到一个完整的码字后,还需等下一个码 字接收后才能判断是否可以译码,这样的码叫做非即 时码。 即时码又称为非延长码,对即时码而言,在码本中 任意一个码字都不是其它码字的前缀部分。对非即时 信源符号si 符号出现概率p(si) 编码1 编码2 码来说,有的码是惟一可译的,有的码是非惟一可译 p(s1) s1 1 1 的,主要取决于码的总体结构。
若码符号集X:{ x1 , x2 ,...,xr }中每个码符号所占的传输 时间都相同,则所得的码为同价码。 我们一般讨论同价码,对同价码来说等长码中每个码 字的传输时间相同,而变长码中每个码字的传输时间就 不一定相同。 如:电报中常用的莫尔斯码是非同价码,其码符号点 (.)和划(-)所占的传输时间不相同。
性,寻找一定的方法把信源输出符号序列变换为最 短的码字序列。
信源编码常分为无失真信源编码和限失真信 源编码, 前者主要用于文字、数据信源的压缩; 后者主要用于图像、语音信源的压缩。 由于这些定理都要求符号数很大才能使它的值 接近所规定的值,因而这些定理被称为极限定理。
无失真编码
无失真编码是可逆编码的基础。 可逆是指当信源符号转换成代码后,可从代 码无失真地恢复原信源符号。
信源虽然多种多样,但无论是哪种类型的信源, 信源符号之间总存在相关性和分布的不均匀性, 使得信源存在冗余度。信源编码的目的就是要减 少冗余,提高编码效率。
由于信源符号之间存在分布不均匀和相关性,
使得信源存在冗余度,信源编码的主要任务就是减
少冗余,提高编码效率。
具体说,就是针对信源输出符号序列的统计特
P(s s ) 1
i j ij
可见,由于符号间依赖关系的存在,扩展后许多符号出 现的概率为0,此信源只有4个字符,可得码长 l ' 2 , 平均每个信源符号所需码符号为
l' 1 l 2 N
例:英文电报
考虑到英文字母间的相关性,对信源作N次扩展,在 扩展后的信源(也就是句子)中,有些句子是有意义的,而
的编码方法。
变长编码:码字长度是变值,相应的编码定理称为变 长编码定理。这里的码字长度最小意味着 数学期望最小。
定理中的公式改写成 l log 2 r NH ( S ) 不等式左边表示长为L的码符号序列能载荷的最 大信息量, 右边代表长为N的信源序列平均携带的信息量。 所以定长编码定理告诉我们:只要码字传输 的信息量大于信源携带的信息量,总可实现几乎 无失真编码。
5.2
等长码
一般说来,若要实现无失真的编码,这不但要 求信源符号与码字是一一对应的,而且要求所编的 码必须是唯一可译码。否则,所编的码不具有唯一 可译码性,就会引起译码带来的错误与失真。
对于等长码来说,若等长码是非奇异码, 则它的任意有限长N次扩展码一定也是非奇 异码。因此等长非奇异码一定是唯一可译码。
l N
log 32 / log 2 5
即:l 5
例:对英文电报得32个符号进行二元编码,根据上述关系:
log 32 l 5 log 2
P60页知道英文的极限熵是1.4bit,远小于5bit,也就是 说,5个二元码符号只携带1.4bit的信息量,实际上,5个
二元符号最多可以携带5bit信息量。
码1 0 11 00
码2 0 10 00
码3 1 10 100
码4 1 01 001
a4
1/8
11
01
1000
0001
即时码要求任何一个码字都不是其他码字的前缀部分,所 以也叫做异前缀码/非延长码。如上表中的码4。 如果接收端收到一个完整的码字后,不能立即译码,必须 结合后续的码元序列才能进行译码,称为非即时码。如码3。 可见,唯一可译码不一定是即时码,因为非即时码(延长码)也 具有唯一可译性。
s4 0 0 1 0
传递矩阵
若不考虑符号间的依赖关系,可得码长l=2 若考虑符号间的依赖关系,则对此信源作二次扩展
S 2 s1s2 s3 s4 s4 s3 s2 s1 P( s s ) P( s s ) P( s s ) P( s s ) 2 P ( s ) 2 1 3 4 4 3 1 2
一是编码后使序列中的各个符号之间尽可能地互相独立即解除相关性方法包括预测编码和变换编码二是使编码后各个符号出现的概率尽可能相等即均匀化分布方法主要是统计编码信源编码常分为无失真信源编码和限失真信源编码前者主要用于文字数据信源的压缩
第5章 无失真信源编码定理
邹小林 2014.11.
通信的实质是信息的传输。
si (i 1, 2, , q) Wi (i 1, 2, , q) ( xi1, xi 2 , , xili ), xij X
二、码的分类
根据码符号集合X中码元的个数不同以及码
字长度是否一致,有以下一些常用的编码形式: (1) 二元码和r元码 若码符号集 X {0,1} ,编码所得码字为一些 二元序列,则称二元码。二元码是数字通信与计 算机系统中最常用的一种码。 若码符号集有 r 个元素,则称 r 元码。
010 0101
… 111111
(8)惟一可译码 若任意一串有限长的码符号序列只能被惟一 地译成所对应的信源符号序列,则此码称为惟一 可译码(或称单义可译码)。否则就称为非惟一 可译码或非单义可译码。 若要使某一码为惟一可译码,则对于任意给 定的有限长的码符号序列,只能被惟一地分割成 一个个的码字。
例
信源符号si s1 s2 s3 符号出现概率p(si) p(s1) p (s2) p (s3) 编码1 00 01 10 编码2 0 01 001
s4
p (s4)
11
111
求编码2的2次扩展
信源符号ai 码字 信源符号ai 码字
a1 a2
a3 a4
00 001
0001 0111
a5 a6
… a16
(7)码的N次扩展码 假定某码C,它把信源 S {s1, s2 , , sq } 中的符号 s i 一一变换成码C中的码字 Wi ,则码C的N次扩 展码是所有N个码字组成的码字序列的集合。
例如:若码 C {W1,W2 , ,Wq } 满足: si Wi ( xi1, xi 2 , , xil ), si S, xil X 则码C的N次扩展码集合 B {B1 , B2 , , Bq } ,其中:
此式表明,只有当 l 长的 码符号序列数大于或等于N 次扩展信源的符号数时,才 可能存在等长非奇异码。
例:
英文电报有32个符号(26个字母加上6个字符),请
问对信源符号进行二进制编码,要想有唯一可 译码,码长至少为多少?
解: r = 2, q = 32, N = 1,要想有唯一可译码,则
r q l N log q / log r
码1是奇异码,码2是非奇异码。
码2不是唯一可译码,码3是。
又如,码字{0,10,11}是一种唯一可译码。因为任意一串有 限长码序列,例如100 111 000,只能被分割成10,0,11, 10,0,0。任何其他分割法都会产生一些非定义的码字。
信源符号ai 符号出现概率p(ai) a1 1/2 a2 1/4 a3 1/8
有些句子是没有意义的,可以只对有意义的句子编码,而
对那些没有意义的句子不进行编码,这样就可以缩短每个 信源符号所需的码长。 等长信源编码定理给出了进行等长信源编码所需码长的 极限值。
5.4
等长信源编码定理
信源编码有等长和变长两种方法。
等长编码:码字长度是固定的,相应的编码定理称为
定长信源编码定理,是寻求最小码字长度
s2 s3 s4 p (s2) p (s3) p (s4) 10 100 1000 01 001 0001
信源符号ai 符号出现概率p(ai) a1 1/2 a2 1/4 a3 1/8
码1 0 11 00
码2 0 10 00
码3 1 10 100
码4 1 01 001
a4
1/8
11
01
1000
0001