4 无失真信源编码及其定理
合集下载
第5章 无失真信源编码定理
i Bi (Wi1 ,Wi2 ,,WiN ), i S N ,Wil C
• 8)惟一可译码 若任意一串有限长的码符号序列只能被惟 一地译成所对应的信源符号序列,则此码称为 惟一可译码(或称单义可译码)。否则就称为 非惟一可译码或非单义可译码。 若要使某一码为惟一可译码,则对于任意 给定的有限长的码符号序列,只能被惟一地分 割成一个个的码字。
• 7)码的N次扩展码 假定某一码,它把信源 S {s , s ,, s } 中的符 号 s i 一一变换成码C中的码字Wi ,则码C的N次 扩展码是所有N个码字组成的码字序列的集合。
1 2 q
• 例如:若码 C {W ,W ,,W } 满足: si Wi ( xi1 , xi 2 ,, xil ), si S , xil X 则码C的N次扩展码集合B {B , B ,, B
i
• (3) 变长码
若一组码中码字的码长各不相同(即码字 长度l i 不等),则称为变长码 . 如表中“编码1”为等长码,“编码2”为变长 码。
信源符号si s1 s2 s3 s4 符号出现概率p(si) p(s1) p (s2) p (s3) p (s4) 编码1 00 01 10 11 编码2 0 01 001 101
• 输入是信源符号集: S {s1 , s2 ,, sq } • x为编码器所用的编码符号集,包含r个元素 { x1 , x 2 ,..., x r },称为码符号(码元) . • 由码符号 x i组成的输出序列Wi 称为码字. 其长度 l i 称为码字长度或码长,全体码字Wi 的集 合C称为码或码书 . • 编码器将信源符号集中的信源符号s i(或长为N i )变成由码符号组成的长为 l 的信源符号序列 的与信源符号一一对应的输出序列。即 :
• 8)惟一可译码 若任意一串有限长的码符号序列只能被惟 一地译成所对应的信源符号序列,则此码称为 惟一可译码(或称单义可译码)。否则就称为 非惟一可译码或非单义可译码。 若要使某一码为惟一可译码,则对于任意 给定的有限长的码符号序列,只能被惟一地分 割成一个个的码字。
• 7)码的N次扩展码 假定某一码,它把信源 S {s , s ,, s } 中的符 号 s i 一一变换成码C中的码字Wi ,则码C的N次 扩展码是所有N个码字组成的码字序列的集合。
1 2 q
• 例如:若码 C {W ,W ,,W } 满足: si Wi ( xi1 , xi 2 ,, xil ), si S , xil X 则码C的N次扩展码集合B {B , B ,, B
i
• (3) 变长码
若一组码中码字的码长各不相同(即码字 长度l i 不等),则称为变长码 . 如表中“编码1”为等长码,“编码2”为变长 码。
信源符号si s1 s2 s3 s4 符号出现概率p(si) p(s1) p (s2) p (s3) p (s4) 编码1 00 01 10 11 编码2 0 01 001 101
• 输入是信源符号集: S {s1 , s2 ,, sq } • x为编码器所用的编码符号集,包含r个元素 { x1 , x 2 ,..., x r },称为码符号(码元) . • 由码符号 x i组成的输出序列Wi 称为码字. 其长度 l i 称为码字长度或码长,全体码字Wi 的集 合C称为码或码书 . • 编码器将信源符号集中的信源符号s i(或长为N i )变成由码符号组成的长为 l 的信源符号序列 的与信源符号一一对应的输出序列。即 :
信息论基础第四章 离散信源的无失真编码
信源编码有关概念 (1)平均码长
L p(a i )l i
i 1
q
单位:码符号/信源符号 意义:每个源符号平均需要的码符号数。 编码后每个信源符号平均用 L个码符号表示。 (2)信息传输率(平均每个码符号携带的信息量)
R
H(X ) L
16
L 越短,信息传输率就越高。
(3)最佳码(紧致码) 最佳码:对于某一信源和某一码符号集,若有一唯一可 译码,其平均码长小于所有其他唯一可译码的 平均码长,则该码称为最佳码。(最短唯一可 译码) 无失真信源编码的基本问题就是找到最佳码,最 佳码的平均码长为理论极限。
i 1 i 1
证明:
q
i 1
q
r li p i log pi
i 1
q
r li pi ( 1) pi
r
i 1
q
li
pi 1 1 0
i 1
q
H(S) H ( S ) L log r 0 L log r
18i l i log r
等长非奇异码一定是唯一可译码 ak a1 a2 a3 a4 p(ak) 0.5 0.25 0.125 0.125 码A 00 01 10 11 码B 00 01 00 10
5
等长编码及其定理
对信源S的N次扩展信源SN进行等长编码 若S = { s1, s2,…, sq},则N次扩展信源S N= { a1, a2,…, aqN}, 共有qN个符号序列。 设码符号集为X = { x1, x2,…, xr},长度为l 的码符号序列Wi = (xi1 xi2 … xil), xi1, xi2,…, xil∈X。
异前缀码等价于即时码
无失真的信源编码
7/13/2013 7/31
[例]有一单符号离散无记忆信源
对该信源编二进制香农码。其编码过程如表所示。 二进制香农编码
xi x1 x2 x3 x4 x5 x6 p(xi) 0.25 0.25 0.20 0.15 0.10 0.05 pa(xj) 0.000 0.250 0.500 0.700 0.85 0.95 ki 2 2 3 3 4 5 码字 00 01 100 101 1101 11110 0.000 =(0.000)2 0.250 =(0.010)2 0.500 =(0.100)2 0.700 =(0.101)2 0.85 =(0.1101)2 0.95 =(0.11110)2
7/13/2013 4/31
信源编码概述
信源的原始信号绝大多数是模拟信号,因此,信源编码的 第一个任务是模拟和数字的变换,即:A/D,D/A。 抽样率取决于原始信号的带宽:fc = 2 w,w为信号带宽。 抽样点的比特数取决于经编译码后的信号质量要求: SNR = 6 L(dB),L为量化位数 但是,由于传输信道带宽的限制,又由于原始信源的信号 具有很强的相关性,则信源编码不是简单的A/D,D/A, 而是要进行压缩。为通信传输而进行信源编码,主要就是 压缩编码。 信源编码要考虑的因素:
只含(n-2)个符号的缩减信源S2。
重复上述步骤,直至缩减信源只剩两个符号为止,此时所剩两个符 号的概率之和必为1。然后从最后一级缩减信源开始,依编码路径向
前返回,就得到各信源符号所对应的码字。
7/13/2013 16/31
[例] 设单符号离散无记忆信源如下,要求对信源编二进制哈夫曼码。
7/13/2013
7/13/2013
2/31
信源编码:提高通信有效性。通常通过压缩信源的
[例]有一单符号离散无记忆信源
对该信源编二进制香农码。其编码过程如表所示。 二进制香农编码
xi x1 x2 x3 x4 x5 x6 p(xi) 0.25 0.25 0.20 0.15 0.10 0.05 pa(xj) 0.000 0.250 0.500 0.700 0.85 0.95 ki 2 2 3 3 4 5 码字 00 01 100 101 1101 11110 0.000 =(0.000)2 0.250 =(0.010)2 0.500 =(0.100)2 0.700 =(0.101)2 0.85 =(0.1101)2 0.95 =(0.11110)2
7/13/2013 4/31
信源编码概述
信源的原始信号绝大多数是模拟信号,因此,信源编码的 第一个任务是模拟和数字的变换,即:A/D,D/A。 抽样率取决于原始信号的带宽:fc = 2 w,w为信号带宽。 抽样点的比特数取决于经编译码后的信号质量要求: SNR = 6 L(dB),L为量化位数 但是,由于传输信道带宽的限制,又由于原始信源的信号 具有很强的相关性,则信源编码不是简单的A/D,D/A, 而是要进行压缩。为通信传输而进行信源编码,主要就是 压缩编码。 信源编码要考虑的因素:
只含(n-2)个符号的缩减信源S2。
重复上述步骤,直至缩减信源只剩两个符号为止,此时所剩两个符 号的概率之和必为1。然后从最后一级缩减信源开始,依编码路径向
前返回,就得到各信源符号所对应的码字。
7/13/2013 16/31
[例] 设单符号离散无记忆信源如下,要求对信源编二进制哈夫曼码。
7/13/2013
7/13/2013
2/31
信源编码:提高通信有效性。通常通过压缩信源的
信息论课件第五章_无失真信源编码
由此可见,当考虑信源符号之间依赖关系后,有 些信源符号序列不会出现,这样信源符号序列 个数会减少,再进行编码时,所需平均码长就可 以缩短. 英文 等长编码定理给出了信源进行等长编码所需 码长的理论极限值.
5.3 渐进等分割性和ε典型序列
渐进等分割性AEP是弱大数定理的直接推论 大数定理:若X1,X2,…,Xn是独立同分布的随机变 1 量,只要n足够大, ∑ X接近于数学期望E(X)。 n
α i (i = 1,..., q N ) 现在需要把这些长为N的信源符号序列
变换成长度为l的码符号序列 Wi = ( xi1 xi2 ...xil ), ( xi1 ,..., xil ∈ X )
根据前面的分析,若要求得编得的等长码是惟一 可译码则必须满足
qN ≤ rl (5.2)
此式表明,只有当l长的码符号序列数(rl)大于或 等于N次扩展信源的符号数(qN)时,才可能存在等 长非奇异码. 对式(5.2)两边取对数,则有
例如,表5.1中码1是惟一可译码,而码2是 非惟一可译码。 因为对于码2,其有限长的码符号序列能译 成不同的信源符号序列。如:0010,可译成 s1s2s1或s3s1,显然不是惟一的。 下面,我们分别讨论等长码和变长码的最佳 编码问题,也就是是否存在一种惟一可译编 码方法,使平均每个信源符号所需的码符号 最短。也就是无失真信源压缩的极限值。
sik ∈ S ( k = 1, 2,..., N ) xik ∈ X ( k = 1, 2,..., li )
这种码符号序列Wi,称为码字。长度li称为码字长 度或简称码长。所有这些码字的集合C称为码(或 称码书)此码为r元码或称r进制码。
编码就是从信源符号到码符号的一种映射 若要实现无失真编码,必须这种映射是一一 对应的、可逆的。
信息论与编码第4章无失真信源编码
0
2
1
w1 0 1 2 0 1 2
01
2w2
w3 w4
0
1
2
w5
w6 w7 w8
w9 w10 w11
0级节点 1级节点 2级节点
3级节点
25
4.3 变长编码
码树编码方法
(1)树根编码的起点; (2)每一个中间节点树枝的个数编码的进制数; (3)树的节点编码或编码的一部分; (4)树的终止节点(端点、树叶)码; (5)树的节数码长; (6)码位于多级节点变长码; (7)码位于同一级节点码等长码;
设离散无记忆信源X的熵为H(X), 若对长为N的信源符号序 列进行等长编码,码长为L , 码元符号个数为m. 则对任意的
>0, >0, 只要
L log m H ( 率小于。
反之,当
L log m H ( X ) 2
N
时, 则译码差错概率一定是有限值(不可能实现无失真编 码), 而当N足够大时, 译码错误概率近似等于1。
概率分布 0.5 0.25 0.125 0.125
码1:C1 码2:C2 码3:C3
00
0
0
码4:C4 1
码5:C5 1
01
11
10
10
01
10
00
00
100
001
11
11
01
1000
0001
等长码 非唯一 非 唯 唯一可译 及时码 可译 一可译
11
4.1 无失真信源编码的概念
关系 即时码一定是唯一可译码 唯一可译码一定是非奇异码 定长的非奇异码一定是唯一可译码 非定长的非奇异码不一定是唯一可译码
一般地,平均码长: L 3.322 (N ) N
无失真信源编码定理
离散信源无失真编码
内容提要 用尽可能少的符号来传输信源消息,目的是提高传输 效率,这是信源编码应考虑的问题,等长编码定理给 出了等长编码条件下,其码长的下限值,变长编码定 理(香农第一定理)给出了信源无失真变长编码时其 码长的上、下限值。
信源编码包括两个功能:
(1) 将信源符号变换成适合信道传输的符号;
15
K =
∑ p ( x )l
i i =1
q
i
它是每个信源符号平均需用的码元数。
2. 平均每个码元携带的信息量---即编码后信道的信息传输速率为
3.
编码后每秒钟信道的信息传输速率为 Rt =
H (S ) (S R= K
∴
比特/码符号
H (S ) tK 比特/秒
K ↓⇒ Rt ↑
对某一信源来说,若有一个唯一可译码,其平均长度小于所有 其它的唯一可译码的平均长度,则该码称为紧致码,或称最佳 码。无失真变长信源编码的基本问题就是要找最佳码。
η=
H L (U ) R
则可实现无失真传输
四、编码效率:
设U=X
最佳编码效率为
HL (X ) η= HL (X ) + ε
无失真信源编码定理从理论上阐明了编码效率接近于1的理想 编码器的存在性,它使输出符号的信息率与信源熵之比接近于1, 但要在实际中实现,则要求信源符号序列的L非常大进行统一编码 才行,这往往是不现实的。
i =1
对信源符号采用定长二元编码,要求编码效率 η = 90% 无记忆信源有 H L ( X ) = H ( X ) 因此
12
H(X ) η= = 90% H (X ) + ε
可以得到
ε = 0.28
如果要求译码错误概率
内容提要 用尽可能少的符号来传输信源消息,目的是提高传输 效率,这是信源编码应考虑的问题,等长编码定理给 出了等长编码条件下,其码长的下限值,变长编码定 理(香农第一定理)给出了信源无失真变长编码时其 码长的上、下限值。
信源编码包括两个功能:
(1) 将信源符号变换成适合信道传输的符号;
15
K =
∑ p ( x )l
i i =1
q
i
它是每个信源符号平均需用的码元数。
2. 平均每个码元携带的信息量---即编码后信道的信息传输速率为
3.
编码后每秒钟信道的信息传输速率为 Rt =
H (S ) (S R= K
∴
比特/码符号
H (S ) tK 比特/秒
K ↓⇒ Rt ↑
对某一信源来说,若有一个唯一可译码,其平均长度小于所有 其它的唯一可译码的平均长度,则该码称为紧致码,或称最佳 码。无失真变长信源编码的基本问题就是要找最佳码。
η=
H L (U ) R
则可实现无失真传输
四、编码效率:
设U=X
最佳编码效率为
HL (X ) η= HL (X ) + ε
无失真信源编码定理从理论上阐明了编码效率接近于1的理想 编码器的存在性,它使输出符号的信息率与信源熵之比接近于1, 但要在实际中实现,则要求信源符号序列的L非常大进行统一编码 才行,这往往是不现实的。
i =1
对信源符号采用定长二元编码,要求编码效率 η = 90% 无记忆信源有 H L ( X ) = H ( X ) 因此
12
H(X ) η= = 90% H (X ) + ε
可以得到
ε = 0.28
如果要求译码错误概率
信息论.第4章无失真信源编码
S N
1
P
p(1 )
2 ... p(2 ) ...
qN
p(qN )
扩展信源熵为H(SN),
5
用码符号集X=(x1,…,xr)对SN 编码,则总可以找到
一种编码方法,构成唯一可译码,使信源S中的一
个信源符号所需要的码字平均长度满足
H (S) 1 LN H (S) log r N N log r
N log r 则当N足够大时,译码错误概率趋于1。
3
信源编码效率 编码速率:对于定长编码,编码速率定义为
R L log r N
编码效率:
H(S)
R
4
变长无失真信源编码定理(香农第一定理)
设离散无记忆信源
S
P
s1 p( s1 )
s2 p(s2 )
... ...
sq
p(
sq
)
其信源熵为H(S),它的N次扩展信源SN为
l log q log r
2
定长信源编码定理
设有离散无记忆信源,熵为H(S) ,若对信源的长为N 的符号序列进行定长编码,设码字是从r个码符号集中选 取L个码元构成,对于 > 0 只要满足
L H(S)
N log r 则当N足够大时,可实现译码错误概率任意小的等长编
码,近似无失真编码。
反之,若 满足 L H (s) 2
i 1
克拉夫特证明不等式为即时码存在的充要条件; 麦克米伦证明不等式为唯一可译码存在的充要条件。
1
简单信源S存在唯一可译定长码的条件为:
q r l l log q
log r
N次扩展信源SN存在唯一可译定长码的条件为:
qN rL
L log r N log q来自L log q N log r
无失真信源编码定理
2 i 1
D[ I ( si )] pi (log pi )2 [ H ( S )]2
1 3 4 (log 4) 2 (log ) 2 0.8112 0.4715 4 4 3
若采用等长二元编码,要求编码效率 0.96 ,允许错误率
7 105 ,则: N 4.13 10
称为编码效率。
H (S )
H (S ) H (S ) R' H (S )
1
5.4 等长信源编码定理
例:设离散无记忆信源: S
s 1 P( s) 3 4 s2 1 4
ቤተ መጻሕፍቲ ባይዱ
H (S )
1 3 4 log 4 log 0.811 4 4 3
设信源52等长码若不考虑符号间的依赖关系可得码长l2若考虑符号间的依赖关系则对此信源作二次扩展可见由于符号间依赖关系的存在扩展后许多符号出现的概率为0此信源只有4个字符可得码长52等长码我们仍以英文电报为例在考虑了英文字母间的相关性之后我们对信源作n次扩展在扩展后形成的信源也就是句子中有些句子是有意义的而有些句子是没有意义的我们可以只对有意义的句子编码而对那些没有意义的句子不进行编码这样就可以缩短每个信源符号所需的码长
3、变长码:
若一组码中所有码字的长度各不相同,称为变长码。 4、非奇异码: 若一组码中所有码字都不相同,称为非奇异码。
5.1 编码器
5、奇异码:
若一组码中有相同的码字,称为奇异码。 6 、同价码: 每个码字占相同的传输时间
7、码的N次扩展:
若码
C :{W1 ,W2 ,...,Wq } ,
码 B :{Bi (Wi1Wi 2 ...WiN )} 则称码B为
D[ I ( si )] pi (log pi )2 [ H ( S )]2
1 3 4 (log 4) 2 (log ) 2 0.8112 0.4715 4 4 3
若采用等长二元编码,要求编码效率 0.96 ,允许错误率
7 105 ,则: N 4.13 10
称为编码效率。
H (S )
H (S ) H (S ) R' H (S )
1
5.4 等长信源编码定理
例:设离散无记忆信源: S
s 1 P( s) 3 4 s2 1 4
ቤተ መጻሕፍቲ ባይዱ
H (S )
1 3 4 log 4 log 0.811 4 4 3
设信源52等长码若不考虑符号间的依赖关系可得码长l2若考虑符号间的依赖关系则对此信源作二次扩展可见由于符号间依赖关系的存在扩展后许多符号出现的概率为0此信源只有4个字符可得码长52等长码我们仍以英文电报为例在考虑了英文字母间的相关性之后我们对信源作n次扩展在扩展后形成的信源也就是句子中有些句子是有意义的而有些句子是没有意义的我们可以只对有意义的句子编码而对那些没有意义的句子不进行编码这样就可以缩短每个信源符号所需的码长
3、变长码:
若一组码中所有码字的长度各不相同,称为变长码。 4、非奇异码: 若一组码中所有码字都不相同,称为非奇异码。
5.1 编码器
5、奇异码:
若一组码中有相同的码字,称为奇异码。 6 、同价码: 每个码字占相同的传输时间
7、码的N次扩展:
若码
C :{W1 ,W2 ,...,Wq } ,
码 B :{Bi (Wi1Wi 2 ...WiN )} 则称码B为
2.4 离散无失真信源编码定理
i i 1
8
8
2
pi 2.55bit / 符号
2 [ I ( xi )] E[ I 2 ( xi )] H 2 ( X ) 自信息方差为:
pi [ log2 pi ]2 H 2 ( X )
i 1
1.3082
对信源符号采用定长二元编码,要求编码效率 90% ,无记忆信源有 H L ( X ) H ( X ) , 因此 可以得到
(2)正定理指出:当信息率 R 略大于单符号熵H(X)时可 做到几乎无失真译码,条件是L足够大。
即编码后发送一个消息符号所需的平均信息量大于信源
平均每消息符号的信息量时,可以使传输几乎无失真。
2 ( x) 可以证明,只要 L 2 ,译码差错率必小于。
2 ( x) E{[ I ( xi ) H ( X )]2}
H(X ) 90% H(X )
0.2836
如果要求译码错误概率
2 Βιβλιοθήκη 06 [ I ( xi )] 则 L 1.6256 107 2
由此可见,在对编码效率和译码错误概率的要求不 是十分苛刻的情况下,就需要1600多万个信源符号一起 进行编码,这对存储和处理技术的要求太高,目前还无 法实现。 如果对上述信源中8种可能的取值编定长码,每种取 值为3比特时,可实现译码无差错,但编码效率只有 2.55/3=85%。因此,一般说来,当L有限时,高传输效 率的定长码往往要引入一定的失真和译码错误。解决的 办法是可以采用变长编码。
2
变长编码定理:
对离散无记忆信源,消息长度为L,符号熵为 H(X),对信源进行m元变长编码,一定存在无失真的 信源编码方法,
其码字平均长度
K 满足:
8
8
2
pi 2.55bit / 符号
2 [ I ( xi )] E[ I 2 ( xi )] H 2 ( X ) 自信息方差为:
pi [ log2 pi ]2 H 2 ( X )
i 1
1.3082
对信源符号采用定长二元编码,要求编码效率 90% ,无记忆信源有 H L ( X ) H ( X ) , 因此 可以得到
(2)正定理指出:当信息率 R 略大于单符号熵H(X)时可 做到几乎无失真译码,条件是L足够大。
即编码后发送一个消息符号所需的平均信息量大于信源
平均每消息符号的信息量时,可以使传输几乎无失真。
2 ( x) 可以证明,只要 L 2 ,译码差错率必小于。
2 ( x) E{[ I ( xi ) H ( X )]2}
H(X ) 90% H(X )
0.2836
如果要求译码错误概率
2 Βιβλιοθήκη 06 [ I ( xi )] 则 L 1.6256 107 2
由此可见,在对编码效率和译码错误概率的要求不 是十分苛刻的情况下,就需要1600多万个信源符号一起 进行编码,这对存储和处理技术的要求太高,目前还无 法实现。 如果对上述信源中8种可能的取值编定长码,每种取 值为3比特时,可实现译码无差错,但编码效率只有 2.55/3=85%。因此,一般说来,当L有限时,高传输效 率的定长码往往要引入一定的失真和译码错误。解决的 办法是可以采用变长编码。
2
变长编码定理:
对离散无记忆信源,消息长度为L,符号熵为 H(X),对信源进行m元变长编码,一定存在无失真的 信源编码方法,
其码字平均长度
K 满足:
第五章 无失真信源编码定理
则不可能实现无失真编码。
第三节 等长信源编码定理
•定理5.3的条件式可写为:
长为l 的码符号所能 载荷的最大信息量 长为N的序列平均携带的信息量
l log r > NH ( S )
只要码字传输的信息量大于信源序列携带的 信息量,总可以实现无失真编码。 l •定理5.3的条件式也可写成: log r H ( S ) e N
i
N
1
2
N
是一一对应的:
i Bi (Wi1 ,Wi2 , ,WiN ), i S ,Wil C
N
4)惟一可译码 若任意一串有限长的码符号序列只能被惟 一地译成所对应的信源符号序列,则此码称 为惟一可译码(或称单义可译码);否则就 称为非惟一可译码或非单义可译码。
例:对于二元码 C1 {1, 01, 00} ,当任意给定一串 码字序列,例如“10001101”,只可唯一地划 分为1,00,01,1,01,因此是惟一可译码;而对 另一个二元码 C 2 {0,10, 01} ,当码字序列为 “01001”时,可划分为0,10,01或01,0,01,所 以是非惟一可译的。
P(G eN )
-
(2) 若 i (si1, s i2 ,...,s iN ) GeN,则 2 - N [ H ( s )e ] < P( i ) < 2 - N [ H ( s ) -e ] (3) || GeN || 表示e典型序列集中 e典型序列的个数,则 (1 - )2 N [ H ( s )-e ] <|| GeN ||< 2 N [ H ( s ) e ]
1 N - log P ( si ) 以概率收敛于均值 H ( s ) 熵定义 N i 1 1 N 1 即 - log P ( s i ) - log[ P ( s i ) P ( s 2 ) L P ( s N )] N次扩展信源 N i 1 N 1 - log P ( si s 2 L s N ) H ( S ) 以概率收敛 N 因为 i1 ( si1 si 2 L s i N ) S1 S 2 L S N , (i 1, 2 , L , q N i1 , i2 , L , i N 1, 2 , L , q )
第三节 等长信源编码定理
•定理5.3的条件式可写为:
长为l 的码符号所能 载荷的最大信息量 长为N的序列平均携带的信息量
l log r > NH ( S )
只要码字传输的信息量大于信源序列携带的 信息量,总可以实现无失真编码。 l •定理5.3的条件式也可写成: log r H ( S ) e N
i
N
1
2
N
是一一对应的:
i Bi (Wi1 ,Wi2 , ,WiN ), i S ,Wil C
N
4)惟一可译码 若任意一串有限长的码符号序列只能被惟 一地译成所对应的信源符号序列,则此码称 为惟一可译码(或称单义可译码);否则就 称为非惟一可译码或非单义可译码。
例:对于二元码 C1 {1, 01, 00} ,当任意给定一串 码字序列,例如“10001101”,只可唯一地划 分为1,00,01,1,01,因此是惟一可译码;而对 另一个二元码 C 2 {0,10, 01} ,当码字序列为 “01001”时,可划分为0,10,01或01,0,01,所 以是非惟一可译的。
P(G eN )
-
(2) 若 i (si1, s i2 ,...,s iN ) GeN,则 2 - N [ H ( s )e ] < P( i ) < 2 - N [ H ( s ) -e ] (3) || GeN || 表示e典型序列集中 e典型序列的个数,则 (1 - )2 N [ H ( s )-e ] <|| GeN ||< 2 N [ H ( s ) e ]
1 N - log P ( si ) 以概率收敛于均值 H ( s ) 熵定义 N i 1 1 N 1 即 - log P ( s i ) - log[ P ( s i ) P ( s 2 ) L P ( s N )] N次扩展信源 N i 1 N 1 - log P ( si s 2 L s N ) H ( S ) 以概率收敛 N 因为 i1 ( si1 si 2 L s i N ) S1 S 2 L S N , (i 1, 2 , L , q N i1 , i2 , L , i N 1, 2 , L , q )
第4章无失真信源编码
是信源编码
码的分类-I
(1) 定长码:码中所有码字的长度都相同, 变长 码:码中的码字长短不一
信源 信源符号出
码表
符号ai 现概率p(ai) 码1 码2
a1
p(a1)
00 0
a2
p(a2)
01 01
a3
p(a3)
10 001
a4
p(a4)
11 111
表4-1 变长码与定长码
码的分类-II
(2)非奇异码:若信源符号和码字一一对应的 奇异码:反之。下表码1是奇异码,码2是非奇异码。
将这两个概率相加作为一个新字母的概率,与未分 配的二进符号的字母重新排队。 3. 对重排后的两个概率最小符号重复(2)的过程。 4. 重复上述过程,直到最后两个符号配以0和1为止。 5. 从最后一级开始,向前返回得到各个信源符号所对 应的码元序列,即相应的码字。
例 对以下信源进行哈夫曼编码
信源符号ai 概率p(ai) 码字Wi
H(S) L H(S) 1
log r
log r
离散平稳无记忆序列变长编码定理:对于平均符号 熵为H(S)的离散平稳无记忆信源,必存在一种无失真 编码方法,使平均信息率满足不等式
H (S) LN H (S) 1 log r N log r N
将定理进行改写:
H (S )
LN N
log r
H(S)
通常可用码树来表示各码字的构成
0
1
0
1
0
1
01
01
01
01
0 1 0 10 10 1 0 10 10 1 0 1
二进制码树(满树)
即时码的码树表示(2)
0
1
无失真信源编码
∑ 其中 z = (z1, z2,
所以,
zN )
,z
=
E( 1 N
N i=1
zi )
,σ
2
= Var(zi )
pr
⎧⎨x ⎩
:
log p(x) N
+
H(X)
≥
δ
⎫ ⎬
≤
⎭
σ2 Nδ 2
(5. 2. 10)
其中,自信息的方差
σ 2 = Var [log p ( x i )]
q
∑ = E⎡⎣log2 p(xi)⎤⎦ − H2(X) = pi log2 pi − H2(X) (5. 2. 11) i=1
(5. 2.6)
因为信源是无记忆的,所以 p(x) = p(x1 )
得到
N
log p(x) = ∑ log p(xi )
i =1
将(5. 2. 7)代入(5. 2. 6),得
p(xN ) ,
(5. 2. 7)
∑ 1
N
N
log p(xi ) + H ( X )
i =1
≥δ
(5. 2. 8)
14
令 zi = log p ( xi ) , 可得 E(zi ) = −H ( X ) , 所以
第五章 无失真信源编码
中山大学 信息科学与技术学院
主要内容
本章主要介绍无失真信源编码定理与一 些重要的无失真信源编码方法
一、概述 二、定长码 三、变长码 四、哈夫曼编码 五、几种实用的信源编码方法
1
信源编码:将信源符号序列按一定的数学规律映射 成由码符号组成的码序列的过程。
信源译码:根据码序列恢复信源序列的过程。 无失真信源编码:即信源符号可以通过编码序列
第四章:无失真信源编码
符号集大小为m
总码组合数:mK
§4.1无失真编码概述-2
• 问题:能否进行无失真编码?怎样进行无失真编码?
(前提:不考虑信源统计特性)
• 应满足条件:
nL mK
消息数码字数
无失真: nLmK 有效: nLmK
相互矛盾!
无失真条件变换
nLmKKlong L lom g
结论:①当 n = m 时,K≥L 不有效。
结论:可见,需要4100万个信源符号联合编码,才能达到上述要求,这显然是不现实的.
无失真信源编码实现方法一
Sp
s1 43
s2
1 4
改变信源
S pL s n 1L 1
sL2 sL3
11 nn
sLn
1 n
sL nm
0
sL
定长编码
1~ n
cK 1~ n
无失真信源编码实现方法二
S
p
s1
的集合
§4.2定长编码定理-9- AEP应用
• AEP结论:当L足够大时,
– 所有 典型序列出现的概率近似相等,即 典型序列为渐
进等概序列
– 可粗略认为 典型序列出现的概率为 2LH(S) – 所有 典型序列的概率和接近为1,即 p(A)1 – 典型序列总数占信源序列的总数
G L nL
2
(每位二元符号可以携带1bit信息,即每个英文电报符号用了可以携带
5bit信息的码符号即5位二元码表示)
讨论:第三章:在考虑符号出现的概率和符号间相关性前提下,每个 英文符号平均携带的信息量是1.4bit/符号<<5bit/码符号。
结论:若不考虑信源统计特性等长编码效率极低! 问题:如何提高效率?如何体现有效性?
总码组合数:mK
§4.1无失真编码概述-2
• 问题:能否进行无失真编码?怎样进行无失真编码?
(前提:不考虑信源统计特性)
• 应满足条件:
nL mK
消息数码字数
无失真: nLmK 有效: nLmK
相互矛盾!
无失真条件变换
nLmKKlong L lom g
结论:①当 n = m 时,K≥L 不有效。
结论:可见,需要4100万个信源符号联合编码,才能达到上述要求,这显然是不现实的.
无失真信源编码实现方法一
Sp
s1 43
s2
1 4
改变信源
S pL s n 1L 1
sL2 sL3
11 nn
sLn
1 n
sL nm
0
sL
定长编码
1~ n
cK 1~ n
无失真信源编码实现方法二
S
p
s1
的集合
§4.2定长编码定理-9- AEP应用
• AEP结论:当L足够大时,
– 所有 典型序列出现的概率近似相等,即 典型序列为渐
进等概序列
– 可粗略认为 典型序列出现的概率为 2LH(S) – 所有 典型序列的概率和接近为1,即 p(A)1 – 典型序列总数占信源序列的总数
G L nL
2
(每位二元符号可以携带1bit信息,即每个英文电报符号用了可以携带
5bit信息的码符号即5位二元码表示)
讨论:第三章:在考虑符号出现的概率和符号间相关性前提下,每个 英文符号平均携带的信息量是1.4bit/符号<<5bit/码符号。
结论:若不考虑信源统计特性等长编码效率极低! 问题:如何提高效率?如何体现有效性?
信息论与编码第4章无失真信源编码
THANKS
感谢观看
编码性能的评价指标
压缩比
压缩比是指编码后数据量与原始数据量之比,是衡量 编码效率的重要指标。
编码复杂度
编码复杂度是指实现编码算法所需的计算量和存储量 ,是衡量编码性能的重要指标。
重建精度
重建精度是指解码后数据的准确度,是衡量编码性能 的重要指标。
编码效率与性能的关系
01
编码效率与压缩比成正比,压缩比越高,编码效率越高。
游程编码
对连续出现的相同符号进 行编码,如哈夫曼编码等 。
算术编码
将输入信号映射到一个实 数轴上的区间,通过该区 间的起始和长度表示码字 ,如格雷码等。
编码的数学模型
信源
产生随机变量的集合 ,表示各种可能的信 息符号。
编码器
将输入信号映射到码 字的转换设备,其输 出为码字序列。
解码器
将接收到的码字还原 成原始信号的设备。
拓展应用领域
无失真信源编码技术的应用领域正在不断拓 展,未来研究将致力于将其应用于更多领域 ,如多媒体处理、物联网、云计算等。
融合其他技术
将无失真信源编码技术与其他相关技术进行 融合,以实现更高效、更实用的信息处理系 统。例如,将无失真信源编码与图像处理、 语音处理等技术相结合,提高信息传输和处
理的效率和质量。
03
行程编码的缺点包 括
压缩比有限、对于离散无记忆信 源效果不佳。
03
CATALOGUE
无失真信源编码的效率与性能
编码效率的定义与计算
定义
编码效率是指编码后信息量与原始信 息量之比,通常用比特率(bit per symbol)或比特率(bit per source symbol)来表示。
计算
无失真信源编码和香农第一定理
码率R=L/n=1.29/2=0.645(bit)
例2:三进制信源的概率P(X) P(0) P(1) P(2) 0.7 0.2 0.1
其信源和二次扩展信源的信源编码及码率
信源的某种信源编码
x1 0 c1 0, x2 1 c2 10, x3 2 c3 11
只要保证2nR≥2n(H(X)+ε),即R≥H(X)+ε
所有典型序列有对应的码字,其概率之和为译码正确(无失真) 的概率1-Pe
1 Pe
P(xi1 xi2 xin *)
xi1xi2 xin *An (X)
2n(H(X))
xi1xi2 xin *An (X)
2 2 nR n(H(X))
1 Pe
P(xi1 xi2 xin *)
x
i1
x
i2
x
in
*A
n
(
X
)
2n(H(X))
xi1xi2 xin *An (X)
2 2 nR n(H(X))
2 2 n(H(X)2) n(H(X))
2n
译码错误概率Pe 1 2n 1
(3)平均码长与码率
码长——n次扩展信源发出消息xi的码字ck的长度,用l(ck) 表示,简记为lk i,k=1,2,…长——对应于各消息码字的码长的数学期望,用L 表示
Nn
Nn
Nn
L E[l(ck )] P(ck )l(ck ) P(xk )l(ck ) P(xk )lk
不等长二进制随机变量序列C1C2…Cl的取值 c ck1 k2 ckl 为 信源发出消息 x xi1 i2 xin 的码字 i1,i2,…,in=1,2,…,N k1,k2,…,kl=1,2
例2:三进制信源的概率P(X) P(0) P(1) P(2) 0.7 0.2 0.1
其信源和二次扩展信源的信源编码及码率
信源的某种信源编码
x1 0 c1 0, x2 1 c2 10, x3 2 c3 11
只要保证2nR≥2n(H(X)+ε),即R≥H(X)+ε
所有典型序列有对应的码字,其概率之和为译码正确(无失真) 的概率1-Pe
1 Pe
P(xi1 xi2 xin *)
xi1xi2 xin *An (X)
2n(H(X))
xi1xi2 xin *An (X)
2 2 nR n(H(X))
1 Pe
P(xi1 xi2 xin *)
x
i1
x
i2
x
in
*A
n
(
X
)
2n(H(X))
xi1xi2 xin *An (X)
2 2 nR n(H(X))
2 2 n(H(X)2) n(H(X))
2n
译码错误概率Pe 1 2n 1
(3)平均码长与码率
码长——n次扩展信源发出消息xi的码字ck的长度,用l(ck) 表示,简记为lk i,k=1,2,…长——对应于各消息码字的码长的数学期望,用L 表示
Nn
Nn
Nn
L E[l(ck )] P(ck )l(ck ) P(xk )l(ck ) P(xk )lk
不等长二进制随机变量序列C1C2…Cl的取值 c ck1 k2 ckl 为 信源发出消息 x xi1 i2 xin 的码字 i1,i2,…,in=1,2,…,N k1,k2,…,kl=1,2
第二章 无失真信源编码4
LW 1
L
HW LW HW 1 lW lW lW lW
H B LB H B 1 lB lB lB lB
5°白、黑像素的熵hW
hW HW lW kW LW lW
hB 与平均码长
hB HB lB kB LB lB
1 hW kW hW lW
1 hB k B hB lB
2.5 游程编码(RLC)
6°像素的熵 h01与平均码长
hWB pW hW pB hB
pW: 黑像素的概率
kWB pW kW pB kB
pB pB hB pB k B pB hB lB
pB: 白像素的概率 p pW hW pW kW pW hW W lW
hWB kWB
S
平均每个信源符号的码长:
n 对于DMS有 H( S ) nH( S)
n H(S ) L H(S ) 1 n n n L 1 H ( S) H ( S) n n
S
n
S
2.4.4 递推公式的应用
用序列积累概率的递推公式进行序列的算术编码的 计算步骤:
(1)根据信源符号积累概率公式计算信源符号的积累概率; (2)初始时,设S=Ø ,F(Ø)=0,p(Ø)=1; (3)根据序列的积累概率递推公式,计算序列的积累概率F(ur) 和序列的概率p(ur); (4)计算码长; (5)将F(s)写成二进制数形式,取其前L位作为序列S的码字, 若后面有尾数就进位到第L位。
2.4.2 算术编码原理
译码步骤:
(1)判断码字落在哪个符号区间,翻译出1个符号; (2)将码字减去刚翻译出的符号的左端点值; (3)用刚翻译出的符合对应的区间的长度去除步骤2的结果, 判断此值落在哪个符号区间,翻译出一个新符号;
L
HW LW HW 1 lW lW lW lW
H B LB H B 1 lB lB lB lB
5°白、黑像素的熵hW
hW HW lW kW LW lW
hB 与平均码长
hB HB lB kB LB lB
1 hW kW hW lW
1 hB k B hB lB
2.5 游程编码(RLC)
6°像素的熵 h01与平均码长
hWB pW hW pB hB
pW: 黑像素的概率
kWB pW kW pB kB
pB pB hB pB k B pB hB lB
pB: 白像素的概率 p pW hW pW kW pW hW W lW
hWB kWB
S
平均每个信源符号的码长:
n 对于DMS有 H( S ) nH( S)
n H(S ) L H(S ) 1 n n n L 1 H ( S) H ( S) n n
S
n
S
2.4.4 递推公式的应用
用序列积累概率的递推公式进行序列的算术编码的 计算步骤:
(1)根据信源符号积累概率公式计算信源符号的积累概率; (2)初始时,设S=Ø ,F(Ø)=0,p(Ø)=1; (3)根据序列的积累概率递推公式,计算序列的积累概率F(ur) 和序列的概率p(ur); (4)计算码长; (5)将F(s)写成二进制数形式,取其前L位作为序列S的码字, 若后面有尾数就进位到第L位。
2.4.2 算术编码原理
译码步骤:
(1)判断码字落在哪个符号区间,翻译出1个符号; (2)将码字减去刚翻译出的符号的左端点值; (3)用刚翻译出的符合对应的区间的长度去除步骤2的结果, 判断此值落在哪个符号区间,翻译出一个新符号;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.4 等长信源编码定理
例 设离散无记忆信源
信源熵 自信息方差
1 3 4 H ( S ) log 4 log 0.811(bit symbol ) 4 4 3
2 2 2
s1 , s2 S 3 1 P( s) , 4 4
D I ( si ) pi (log pi ) H ( S )
引言
信源编码理论是信息论的一个重要分支, 其理论基础是信源编码的两个定理。 无失真信源编码定理:是离散信源/数字信 号编码的基础; 限失真信源编码定理:是连续信源/模拟信 号编码的基础。
引言
信源编码的分类:离散信源编码、连续信 源编码和相关信源编码三类。 离散信源编码:独立信源编码,可做到无 失真编码; 连续信源编码:独立信源编码,只能做到 限失真信源编码; 相关信源编码:非独立信源编码。
第四章 无失真信源编码
4.1 编码器及码的分类
4.2 等长码
4.4 等长信源编码定理 4.5变长码 4.6变长信源编码定理
4.7霍夫曼码和其它编码方法 4.8几种实用的无失真信源编码 小结
第四章 无失真信源编码
本章的重、难点内容 1、理解等长码和等长信源编码定理 2、理解和掌握变长码及变长码编码定理 3、理解Huffman编码、费诺码、香农码 4、了解几种实用的无失真信源编码方法,包括 (MH编码、算术编码、LZ码)
4.4 等长信源编码定理
所以等长编码定理告诉我们:只要码字传输的信 息量大于信源序列携带的信息量,总可实现几乎 无失真编码。 l 令 它是编码后平均每个信源符号能 载荷的最大信息量,称为编码信息率。 可见,当编码信息率大于信源的熵时,才能实现 几乎无失真编码。 为衡量编码效果,引入编码效率。
l R log r N N log r H ( S )
4.4 等长信源编码定理
信源序列长度N必须满足:
N D I (si )
2
2 H 2 (S ) (1 2 )
D I (si )
该式给出了在已知方差和信源熵的条件下,信源 序列长度N与最佳编码效率和允许错误概率的 关系。 允许错误概率越小,编码效率要求越高,则信源 序列长度N就必须越长。 实际情况下,要实现几乎无失真的等长编码,N 需要非常大。
非惟一可译 奇异码
非惟一可译 非奇异码
惟一可译 非奇异码
惟一可译 非奇异码
码4以“1”作为结束符号,起到逗号的作用,又 称为逗点码 。逗点码是一种即时码。
4.5 变长码
定义:如果一个码组中的任一个码字都不是另一 个码字的续长,或者说,任何一个码字都不是另 一个码字的前缀,则称为即时码也称非延长码或 前缀条件码。
4.1 编码器及码的分类
码的分类 二元码:若码符号集X={0,1},所得码字为一 些二元序列,则称二元码。[在二元信道中传输]
等长码(固定长度码):若一组码中所有码字的
长度都相同(即li=l,i=1,„,q),则称为等长码。
变长码:不满足等长码条件的码组称为变长码。
4.1 编码器及码的分类
s2
s3 s4 信源 a1 a2 a3 a4 码
00=W1W1=B1 001=W1W2=B2 0001=W1W3=B3 0111=W1W4=B4
4.1 编码器及码的分类
惟一可译码:若码的任意一串有限长的码符号序 列只能被惟一地译成所对应的信源符号序列,则 此码称为惟一可译码(单义可译码)。否则就称 为非惟一可译码或非单义可译码。 表1中码1是惟一可译码,而码2是非惟一可译码。 因为对于码2,其有限长的码符号序列能译成不 同的信源符号序列。如码符号序列0010,可译成 s1s2s1或s3s1,就不惟一了。 问题:怎样才能做到无失真编码即惟一可译码?
4.5 变长码
即时码:在译码时无需参考后续的码符号就能立 即作出判断,译成对应的信源符号的惟一可译码
信源符号 s1 s2 s3 s4 出现概率 1/2 1/4 1/8 1/8 码1 0 11 00 11 码2 0 10 00 01 码3 1 10 100 1000 码4 1 01 001 0001
即序列长度达4130万以上,这在实际中很难实现。 因此,一般来说,当N有限时,高传输效率的等 长码往往要引入一定的失真和错误,它不能像变 长码那样可以实现无失真编码。 下面介绍变长码,及其编码定理。
4.5 变长码
4.5.1 的编码效率; 变长码往往在N不很大时就可编出效率很高而且 无失真的码。 等长码:非奇异 惟一可译 变长码:任意有限长N次扩展码是非奇异 惟 一可译
非奇异码 唯一可译 码
s1
奇异码 非惟一可 译码
s2
s3 s4
01
10 11
11
10 11
4.2 等长码
等长编码惟一可译的必要条件:q N r l 其中: q为信源符号数,r为符号集中的码元数,l为 码长。 例如: 若信源符号数 q=4,进行二元等长编码,则码符 号个数为 r =2。信源S存在惟一可译等长码的条 件是码长 l≥2。 若q=8,r =2,l≥3。
引言
信源编码:以提高通信有效性为目的的编 码。通常通过压缩信源的冗余度来实现。 采用的一般方法是压缩每个信源符号的平 均比特数或信源的码率。即同样多的信息 用较少的码率传送,使单位时间内传送的 平均信息量增加,从而提高通信的有效性。
引言
信道编码:是以提高信息传输的可靠性为 目的的编码。通常通过增加信源的冗余度 来实现。采用的一般方法是增大码率/带宽。 与信源编码正好相反。 密码:是以提高通信系统的安全性为目的 的编码。通常通过加密和解密来实现。从 信息论的观点出发,“加密”可视为增熵 的过程,“解密”可视为减熵的过程。
所有码 非奇异码 惟一可译码 即时码
4.5 变长码
4.5.2 即时码的树图构造法 构造即时码的一种简单方法是树图法。
码4 1 01 001 0001 s1 s2 s3 s4
4.1 编码器及码的分类
编码:信息的组织方式 编码的实质:对信源的原始符号按一定的 数学规则进行变换。 编码的目的: 信源编码:提高信息传输的有效性 信道编码:提高信息传输的可靠性
本章不考虑干扰问题
4.1 编码器及码的分类
无失真编码器结构框图
信源
S {S1, S2 ,..., Sq }
4.4 等长信源编码定理
定理4.3 (等长信源编码定理): 一个熵为H(S)的离 散无记忆信源,若对信源长为N的符号序列进行 等长编码,设码字是从r个字母的码符号集中选 取l个码元组成。对于任意ε>0,只要满足:
l H (S ) N log r
则当N足够大时,可实现几乎无失真编码,即译 码错误概率能为任意小。反之,若 l H ( S ) 2 当N足够大时,译码错误概率近 N log r 似为1,不可能实现无失真编码。
4.2 等长码
N l q r 对 两边取对数得 N log q l log r
平均每个信源符号所需的码符号个数
l log q N log r
上式表明:对于等长惟一可译码而言,平均每个 信源符号至少需要用 logq/logr个码符号来表示。 即:每个信源符号所需最短码长为 logq/logr个。
码字Wi: 由xj (j=1,2,„,r)组成的长度为 li 的序列, Wi与si一一对应。 码字长度 (码长): Wi的长度li 编码器:将信源符号si变换成Wi的设备 信源编码 信源编码:把信源符号si映射为码字Wi的过程。 无失真编码:映射是一一对应、可逆的。 信源编码基本思想:尽可能缩短出现概率大的信 源符号的码字
i 1
若对信源S采用等长二元编码,要求编码效率 η=0.96,允许错误概率 105
3 3 2 1 1 2 (log ) (log ) (0.811) 2 0.4715 4 4 4 4
4.4 等长信源编码定理
0.4715 (0.96)2 7 4.13 10 则得 N (0.811)2 0.042 105
4.2 等长码
若要实现无失真编码,不但要求信源符号si与码 字Wi是一一对应的,而且要求码符号序列的反变 换也是惟一的。即所编的码必须是惟一可译码。 对于等长码来说,若等长码是非奇异码,则它的 任意有限长N次扩展码一定也是非奇异码。 等长非奇异码一定是惟一可译码。
信源符号 码1 00 码2 00
4.4 等长信源编码定理
说明:定理4.3是在平稳无记忆离散信源的条件 下得出,但它同样适合于平稳有记忆信源 。
当进行二元编码时,r=2,则:
等长编码时平均每个 信源符号所需的二元 码符号的理论极限
l H (S ) N
信源等 概分布 时
l log q N
一般情况下,信源符号并非等概率分布,且符号 之间有很强的关联性,故信源的熵H(S)<<logq。
非奇异码:若一组码中所有码字都不相同(即所 有信源符号映射到不同的码符号序列,不同信源 符号可分辨),则称为非奇异码。
奇异码:反之,若码组中含有相同的码字则为奇 异码。
同价码:若码符号集X:{x1,x2,„,xr}中每个码符 号所占的传输时间都相同,则所得的码为同价码。
4.1 编码器及码的分类
4.4 等长信源编码定理
H (S ) H (S ) 称 l R log r N