信息论基础第四章 离散信源的无失真编码
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信源编码有关概念 (1)平均码长
L p(a i )l i
i 1
q
单位:码符号/信源符号 意义:每个源符号平均需要的码符号数。 编码后每个信源符号平均用 L个码符号表示。 (2)信息传输率(平均每个码符号携带的信息量)
R
H(X ) L
16
L 越短,信息传输率就越高。
(3)最佳码(紧致码) 最佳码:对于某一信源和某一码符号集,若有一唯一可 译码,其平均码长小于所有其他唯一可译码的 平均码长,则该码称为最佳码。(最短唯一可 译码) 无失真信源编码的基本问题就是找到最佳码,最 佳码的平均码长为理论极限。
i 1 i 1
证明:
q
i 1
q
r li p i log pi
i 1
q
r li pi ( 1) pi
r
i 1
q
li
pi 1 1 0
i 1
q
H(S) H ( S ) L log r 0 L log r
18i l i log r
等长非奇异码一定是唯一可译码 ak a1 a2 a3 a4 p(ak) 0.5 0.25 0.125 0.125 码A 00 01 10 11 码B 00 01 00 10
5
等长编码及其定理
对信源S的N次扩展信源SN进行等长编码 若S = { s1, s2,…, sq},则N次扩展信源S N= { a1, a2,…, aqN}, 共有qN个符号序列。 设码符号集为X = { x1, x2,…, xr},长度为l 的码符号序列Wi = (xi1 xi2 … xil), xi1, xi2,…, xil∈X。
异前缀码等价于即时码
10
不等长编码及其定理
非奇异变长码是唯一可 译码的条件 : 对信源符号编码为非奇 异码C 信源符号:a 1 a 2 a K ,码字:C (w 1 w 2 w K) 要求:a i a j w i w j 若(w 1 w 2 w K) C的N次扩展码B仍为非奇异码, 则码C为唯一可译码。
r
i 1
q
li
1
定理给出了码字长度的下界的限制。
14
例:
p(ak) 码A 码B 码C a1 0.5 0 0 1 a2 0.25 11 10 11 a3 0.125 00 00 100 a4 0.125 11 01 1010 r=2,码A,码B :l1=1, l2=l3=l4=2,
码D 1 01 001 0001
logq l log32 5 logr
7
定理4.1(等长信源编码定理) 对于上述编码,对于任意 0 ,只要 N 充 分大,且满足不等式 l H(X ) N log r 则译码错误概率任意小(可以进行无失真编 码)。 l H ( X ) 2 反之,若 N log r 则不可能进行无失真编码,且N 充分大时,译 码错误概率近似等于1。
本章主要内容 编码器 等长编码及其定理 不等长编码及其定理
1
编码器
S =(s1,s2,…,sq)
编码器
C =(W1,W2,…,Wk)
信源 符号
X =(x1,x2,…,xr ) 码符号
码字
2
编码器
码:特定的符号集合。 编码:建立在源符号与码符号或码符号组 之间的变换。 3 5 4 7——>011101100111 信源编码:从信源输出符号序列到码符号 序列的一种映射,其逆映射称译码。 信源编码的目的:适合于信道传输,提高 输出效率
非奇异码 变长码 奇异码
异前缀码 唯一可译码 非异前缀码 非唯一可译码
11
不等长编码及其定理
例: a1 a2 a3 a4
p(ak) 码A 0.5 0 0.25 0 0.125 1 0.125 10
码B 码C 码D 0 0 0 10 01 10 00 011 110 01 0111 1110
若要求编得的等长码是唯一可译码则必须满足 q N≤r l
6
等长编码及其定理
对 q N≤r l 两边取对数,则得 N logq ≤ l logr 或 l logq N logr 例如英文电报有 32 个符号( 26 个英文字母加上 6 个字 符),即q = 32。若r = 2,N =1(即对信源的逐个符号进 行二进制编码),则
25
缩减信源(辅助信源) } 设信源S,取值于集合 {a1 , a 2 ,..., a q其概率分布 ) 满足 p(a1 ) p(a 2 ) ... p(a , q码为 C ( l 1 , l 2 ,..., l q )
a1 p(a ) 1 a2 ... p(a 2 ) ... aq p(a q )
2
i 1
4
li
5 2 3 2 1 4
1 2
这样码A,码B不可能是唯一可译码。 r=2,码C,码D :l1=1, l2=2, l3=3, l4=4,
2
i 1
4
li
2 2 2 2 0.9375 1
15
1
2
3
4
码C不是唯一可译码,码D是唯一可译码。
22
〖例4.1〗有一离散无记忆信源
S s1 s2 p ( s ) 3 / 4 1 / 4 i
其熵为
H (S) =0.811 比特/信源符号,用二进制符号{0,1}来构 造一个即时码。s1→0,s2→1。 码的效率为η 1= 0.811 信息传输率为R1 =0.811 比特/二进制符号。 对信源S 的长为2、3、4的符号序列的符号序列 (即N = 2、3、4)分别进行变长编码。 η 2=0.961 R2 =0.961 比特/二进制符号 η 3=0.985 R3 =0.985 比特/二进制符号 η 4=0.991 R4 =0.991 比特/二进制符号 可见编码复杂一些,使信息传输率提高。
N
lim 1
21
香农第一定理的物理意义
由香农第一定理得到平均码长的理论极限:H(S)/logr
R H(S) L H(S) log r H ( S ) / log r
R等于无噪无损信道的信道容量C。 无失真信源编码的实质:对离散信源进行适当的 变换,使变换后新的码符号信源(信道的输入信 源)尽可能等概率分布,以使新信源的每个码符 号平均所含的信息量达到最大,从而使信息传输 率R达到信道容量C,实现信源与信道理想的统 计匹配。
0 1 2 220 221 222
13
树根 一级节点 二级节点 10 11 12 20 21 三级节点
0
Kraft不等式
定理4.2 设信源S = { s1, s2,…, sq},码符号集X = { x1, x2,…, xr},又设码字为(W1,W2,…,Wq),其分 别对应的码长为l1,l2,…,lq,则存在唯一可译码 的充要条件为
8
等长编码定理
实现无失真编码
码字能携带的信息量
l H(X ) N log r
信源序列能携带的信息 量
l log r NH ( X ) N NH ( X )
存在问题:N 充分大使存储和处理难度大。
解决办法:采用变长编码。 等长信源编码定理的意义: 信源的信息熵是(信源冗余度的可压缩性)无失 真数据压缩的理论极限。压缩到小于这个极限值,则 无失真做不到。
log p i l i , x 表示上取整。 log r
log p i log p i li 1 log r log r p i log p i p i log p i l i pi pi log r log r
p
i 1
缩减信源S’ a ... a1 2 p(a ) p(a ) ... 1 2
理论极限是多少呢?
17
定理4.3(单符号信源的变长编码定理) 若有一离散无记忆信源S 具有熵H(S),并有r个码符 号的符号集X = { x1, x2,…, xr},则总可以找到一种无 失真编码方法,构成唯一可译码,使其平均码长满 足 H(S) H(S)
log r L 1 log r
q
H ( S ) L log r p i log p i log r p i l i
23
变长码的编码方法
• 霍夫曼(Huffman) 码 Huffman码是异字头码,是一种最佳码。 1952年提出,应用于数据压缩,文件传输、语音处理、 图象处理。
• 费诺(Fano)码 Fano码不一定是最佳码,但有时也可能是最佳码。
24
霍夫曼码的编码方法
二进制霍夫曼码的的编码方法,它的编码步骤如下: (1)将q个信源符号按概率值的大小以递减次序排列起来,设 p1≥p2≥…≥pq ( 2 )用 0 和 1 码符号分别代表概率最小的两个信源符号,并将这 两个概率最小的信源符号合并一个符号,从而得到包含q-1个符号 的新信源--------缩减信源S′。 (3)把缩减信源S′的符号仍按概率值大小以递减次序排列,再将 其最后二个概率最小的符号合并成一个符号,并分别用0和1码符号 表示,这样又得到q-2个符号的新缩减信源S〞。 ( 4 )依次继续下去,直至信源最后只剩两个符号为止。将这最 后两个信源符号分别用0和1码符号表示。然后从最后一级缩减信源 开始,向前返回,就得出各信源符号所对应的码符号序列,即得到 对应的码字。
q
i
log p i
log r log r i 1 H(S) H(S) L 1 log r log r
l i pi
q
p
i 1
q
i
log p i
i
pi
i 1
q
19
定理4.4
香农第一定理) 离散无记忆信源S的N次扩展信源SN= { a1, a2,…, aqN },共 有 qN 个符号序列,具有熵 H ( SN ),并有 r 个码符号的符 号集X = { x1, x2,…, xr}。若对信源S N(即信源输出的是N长 的符号序列)进行编码,总可以找到一种编码方法,构 成唯一可译码,使信源S中每个信源符号所需的码字平均 长度满足
3
编码器
信源 出现 符号 概率 码 A 码 B si pi s1 p1 00 0 不等长码
码C
0
等长码 非奇异码
奇异码 同价码 非同价码
4
s2
s3 s4
p2
p3 p4
01
10 11
0
1 10
1
00 11
等长编码及其定理
唯一可译码:一个码的任意一串有限长的码符号序列只 能被唯一地译成所对应的信源符号序列。
H(S) LN 1 H(S) log r N N log r LN L log r log r H ( S ) N
编码前信源信息输出率 因此定义编码效率 , 编码后信源信息输出率 H(S) 即 L log r LN H(S) lim lim L N N N log r
码A:奇异,非唯一; 码B :非奇异,非唯一; 码C:唯一,非异前缀; 码D:唯一,异前缀,即时码。
12
不等长编码及其定理
•异前缀码是唯一可译码中的一类子码,易于构造。 •异前缀码等价于即时码。 •即任何一种唯一可译码都可找到相应、同样有效的异 前缀码。 树图法是构造 即时码(异前 缀码)的一种 简单方法。
9
不等长编码及其定理
不等长编码的基本思想——“量体裁衣” 出现概率大的信源符号用较短码字表示,出现概率小 的信源符号用较长码字表示。这样平均每个信源符号所需 的码符号数降低,提高编码效率。 • 唯一可译码:一个码的任意一串有限长的码符号序列 只能被唯一地译成所对应的信源符号序列。 • 即时码:唯一可译码,译码时无需参考后续的码符号 就能立即作出译码判断。 • 异前缀码:码中没有码字是任意其他码字的前缀。可 以在无延时的情况下解码。
H(S) LN 1 H(S) log r N N log r
其中L N : 对N次扩展信源(序列长度 为N)编码时的平均码长。 LN :平均每个信源符号所 需要的码符号数。 N
20
香农第一定 (变长无失真信源编码定理---理
香农第一定理
由香农第一定理得到平均码长的理论极限:H(S)/logr