无失真信源编码
第5章无失真信源编码定理
如果我们要对信源的N次扩展信源进行编码,也必须满足
qN rl , 两边取对数得: l log q
l
N log r
N 表示平均每个信源符号所需的码符号个数。
5.2 等长码
例:对英文电报得32个符号进行二元编码,根据上述关系:
l log 32 5 log 2
我们继续讨论上面得例子,我们已经知道英文的极限 熵是1.4bit,远小于5bit,也就是说,5个二元码符号只携带 1.4bit的信息量,实际上,5个二元符号最多可以携带5bit 信息量。我们可以做到让平均码长缩短,提高信息传输率
0.8112
0.4715
若采用等长二元编码,要求编码效率 0.96 ,允许错误率
105 ,则: N 4.13107
也就是长度要达到4130万以上。
5.5 变长码
1、唯一可译变长码与及时码
信源符号 出现概率 码1
码2
码3
码4
s1
1/2
0
0
1
1
s2
1/4
11
10
10
01
s3
1/8
00
00
密码:是以提高通信系统的安全性为目的的编码。通常通过加 密和解密来实现。从信息论的观点出发,“加密”可视为增熵 的过程,“解密”可视为减熵的过程。
5.1 编码器
信源编码理论是信息论的一个重要分支,其理论基础是信源编 码的两个定理。 无失真信源编码定理:是离散信源/数字信号编码的基础; 限失真信源编码定理:是连续信源/模拟信号编码的基础。
5.1 编码器
信源编码:以提高通信有效性为目的的编码。通常通过压缩信 源的冗余度来实现。采用的一般方法是压缩每个信源符号的平 均比特数或信源的码率。即同样多的信息用较少的码率传送, 使单位时间内传送的平均信息量增加,从而提高通信的有效性。
信息论:第5章 无失真信源编码定理
(7)码的N次扩展码
假定某码C,它把信源 S {s1 , s2 ,, sq }中的符号
s i 一一变换成码C中的码字 Wi ,则码C的N次扩展 码是所有N个码字组成的码字序列的集合。
24
例如:若码 C {W1 ,W2 ,,Wq } 满足:si Wi ( xi1 , xi 2 ,, xil ), si S , xil X 则码C的N次扩展码集合 B {B1 , B2 , , Bq } ,其中:
为了解决这两个问题,就要引入信源编码和信 道编码。
2
一般来说,抗干扰能力与信息传输率二者相互矛盾。 然而编码定理已从理论上证明,至少存在某种最佳 的编码能够解决上述矛盾,做到既可靠又有效地传 输信息。 信源虽然多种多样,但无论是哪种类型的信源, 信源符号之间总存在相关性和分布的不均匀性,使 得信源存在冗余度。
q r
N
l
(5.2)
36
25
(8)惟一可译码
若任意一串有限长的码符号序列只能被惟一地 译成所对应的信源符号序列,则此码称为惟一可译 码(或称单义可译码)。否则就称为非惟一可译码 或非单义可译码。
若要使某一码为惟一可译码,则对于任意给定 的有限长的码符号序列,只能被惟一地分割成一个 个的码字。
26
例如:对于二元码 C1 {1, 01, 00},当任意给定一串 码字序列,例如“10001101”,只可唯一地划分为 1,00,01,1,01,因此是惟一可译码; 而对另一个二元码 C 2 {0,10, 01},当码字序列 为“01001”时,可划分为0,10,01或01,0,01,所以是 非惟一可译的。
i
N
Bi {Wi1 ,Wi2 ,,WiN }; i1 ,, i N 1,, q; i 1,, q N
无失真的信源编码
[例]有一单符号离散无记忆信源
对该信源编二进制香农码。其编码过程如表所示。 二进制香农编码
xi x1 x2 x3 x4 x5 x6 p(xi) 0.25 0.25 0.20 0.15 0.10 0.05 pa(xj) 0.000 0.250 0.500 0.700 0.85 0.95 ki 2 2 3 3 4 5 码字 00 01 100 101 1101 11110 0.000 =(0.000)2 0.250 =(0.010)2 0.500 =(0.100)2 0.700 =(0.101)2 0.85 =(0.1101)2 0.95 =(0.11110)2
7/13/2013 4/31
信源编码概述
信源的原始信号绝大多数是模拟信号,因此,信源编码的 第一个任务是模拟和数字的变换,即:A/D,D/A。 抽样率取决于原始信号的带宽:fc = 2 w,w为信号带宽。 抽样点的比特数取决于经编译码后的信号质量要求: SNR = 6 L(dB),L为量化位数 但是,由于传输信道带宽的限制,又由于原始信源的信号 具有很强的相关性,则信源编码不是简单的A/D,D/A, 而是要进行压缩。为通信传输而进行信源编码,主要就是 压缩编码。 信源编码要考虑的因素:
只含(n-2)个符号的缩减信源S2。
重复上述步骤,直至缩减信源只剩两个符号为止,此时所剩两个符 号的概率之和必为1。然后从最后一级缩减信源开始,依编码路径向
前返回,就得到各信源符号所对应的码字。
7/13/2013 16/31
[例] 设单符号离散无记忆信源如下,要求对信源编二进制哈夫曼码。
7/13/2013
7/13/2013
2/31
信源编码:提高通信有效性。通常通过压缩信源的
第三章-无失真信源编码(2)
序列 x1x1 x1x2 x2x1 x2x2
序列概率 9/16 3/16 3/16 1/16
即时码 0 10 110 111
这个码的码字平均长度
lN
9 1
3 2
3 3
1 3 27
码元/ 信源序列
16 16 16 16 16
单个符号的平均码长
l
l
N
lN
27
码元 / 符号
N 2 32
编码效率
c
H(X)
例1:设有一简单DMS信源:
U
p
u1 1 2
u2 1 22
u3 1 23
u4 u5 u6 u7
111
1
24 25 26 26
用码元表X={0,1}对U的单个符号进行编码(N=1),即对U
的单个符号进行2进制编码。
解:用X的两个码元对U的7个符号进行编码,单 个对应的定长码长:
l lN log q log 7 2.8 码元 / 符号 N log r log 2
j 1
log r
1 qN
r l j
ln 2
P(a j ) ln
j 1
P(aj )
1 qN
r l j
ln 2 j1 P(a j )( P(a j ) 1)
(ln z z 1)
qN
qN
rlj P(a j )
j 1
j 1
ln 2
11 0 (Kraft不等式和概率完备性质) ln 2
(2)根据信源的自信息量来选取与之对应的码长:
【说明】
霍夫曼编码是真正意义上的最佳编码,对给定的信源,平 均码长达到最小,编码效率最高,费诺编码次之,香农编码 效率最低。
第5章 信源编码 第1讲 无失真信源编码 定长编码定理 2016
00 01 10 11
0 01 001 111
12/62
余 映 云南大学
5.1 编码的定义
• 采用分组编码方法,需要分组码具有某些属性, 以保证在接收端能够迅速准确地将码译出。 • 下面讨论分组码的属性:
余 映 云南大学
13/62
5.1 编码的定义
• (1) 奇异码和非奇异码
– 若信源符号和码字是一一对应的,则该码为非奇异码; 反之为奇异码。 – 例如表中码1是奇异码,其他是非奇异码。
信源符号 出现概率 码1 码2 码3 码4
A B C D
1/2 1/4 1/8 1/8
0 11 00 11
余 映 云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
18/62
5.1 编码的定义
• (3) 即时码和非即时码
– 唯一可译码又分为非即时码和即时码。 – 即时码是一种没有一个码字构成另一码字前缀的码。 在译码时没有延迟,收到一个完整码字后就能立即译 码。 – 如果收到一个完整码字后,不能立即译码,还需等下 一个码字开始接收后才能判断是否可以译码,这样的 码叫做非即时码。
信源符号
出现概率
码1
码2
码3
码4
a1 a2 a3 a4
1/2 1/4 1/8 1/8
0 11 00 11
余 映 云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
14/62
5.1 编码的定义
• (2) 唯一可译码和非唯一可译码
– 若任意有限长的码元序列,只能被唯一地分割成一个 个的码字,则称为唯一可译码。 – 例如{0, 10, 11}是一种唯一可译码。 – 因为任意一串有限长码序列, – 如100111000
信息论与编码第4章无失真信源编码
0
2
1
w1 0 1 2 0 1 2
01
2w2
w3 w4
0
1
2
w5
w6 w7 w8
w9 w10 w11
0级节点 1级节点 2级节点
3级节点
25
4.3 变长编码
码树编码方法
(1)树根编码的起点; (2)每一个中间节点树枝的个数编码的进制数; (3)树的节点编码或编码的一部分; (4)树的终止节点(端点、树叶)码; (5)树的节数码长; (6)码位于多级节点变长码; (7)码位于同一级节点码等长码;
设离散无记忆信源X的熵为H(X), 若对长为N的信源符号序 列进行等长编码,码长为L , 码元符号个数为m. 则对任意的
>0, >0, 只要
L log m H ( 率小于。
反之,当
L log m H ( X ) 2
N
时, 则译码差错概率一定是有限值(不可能实现无失真编 码), 而当N足够大时, 译码错误概率近似等于1。
概率分布 0.5 0.25 0.125 0.125
码1:C1 码2:C2 码3:C3
00
0
0
码4:C4 1
码5:C5 1
01
11
10
10
01
10
00
00
100
001
11
11
01
1000
0001
等长码 非唯一 非 唯 唯一可译 及时码 可译 一可译
11
4.1 无失真信源编码的概念
关系 即时码一定是唯一可译码 唯一可译码一定是非奇异码 定长的非奇异码一定是唯一可译码 非定长的非奇异码不一定是唯一可译码
一般地,平均码长: L 3.322 (N ) N
无失真信源编码定理
内容提要 用尽可能少的符号来传输信源消息,目的是提高传输 效率,这是信源编码应考虑的问题,等长编码定理给 出了等长编码条件下,其码长的下限值,变长编码定 理(香农第一定理)给出了信源无失真变长编码时其 码长的上、下限值。
信源编码包括两个功能:
(1) 将信源符号变换成适合信道传输的符号;
15
K =
∑ p ( x )l
i i =1
q
i
它是每个信源符号平均需用的码元数。
2. 平均每个码元携带的信息量---即编码后信道的信息传输速率为
3.
编码后每秒钟信道的信息传输速率为 Rt =
H (S ) (S R= K
∴
比特/码符号
H (S ) tK 比特/秒
K ↓⇒ Rt ↑
对某一信源来说,若有一个唯一可译码,其平均长度小于所有 其它的唯一可译码的平均长度,则该码称为紧致码,或称最佳 码。无失真变长信源编码的基本问题就是要找最佳码。
η=
H L (U ) R
则可实现无失真传输
四、编码效率:
设U=X
最佳编码效率为
HL (X ) η= HL (X ) + ε
无失真信源编码定理从理论上阐明了编码效率接近于1的理想 编码器的存在性,它使输出符号的信息率与信源熵之比接近于1, 但要在实际中实现,则要求信源符号序列的L非常大进行统一编码 才行,这往往是不现实的。
i =1
对信源符号采用定长二元编码,要求编码效率 η = 90% 无记忆信源有 H L ( X ) = H ( X ) 因此
12
H(X ) η= = 90% H (X ) + ε
可以得到
ε = 0.28
如果要求译码错误概率
第五章无失真信源编码分析
s jN
C N {w 1 , w 2 , , w q N }
w j w j1 w j2 w jN
s j s j1 s j2
j 1, 2 , , q N
j1 , j 2 , , j N 1, 2 , , q
第五章:无失真信源编码
一、信源编码的相关概念
3. N次扩展码(续1)
2 2.5 3 3
s1= s1 s1 s2= s1 s2 s3= s1 s3 s4= s1 s4 s5= s2 s1 s6= s2 s2 s7= s2 s3 s8= s2 s4
1/4 1/8 1/16 1/16
1/8
1/16 1/32
1.5
2 2.5
1/32
2.5
s9 = s3 s 1 s10= s3 s2 s11= s3 s3 s12= s3 s4 s13= s4 s1 s14= s4 s2 s15= s4 s3 s16= s4 s4
2) 非奇异码
s1 0 s2 10 s3 s4 00 01
译码 0 10 00 01 0 译码
s1 s 2 s 3 s 4 s1
01 00
00 10
s 4 s3 s3 s 2
第五章:无失真信源编码
一、信源编码的相关概念
6. 唯一可译性(续4)
3)
等长码
非奇异码
唯一可译码
s1 s2
00 01
s3 10 s4 11
第五章:无失真信源编码
一、信源编码的相关概念
8. 即时码的构造方法(续4)
非分组码 奇异码 非唯一可译码 码 分组码 非奇异码 即时码 唯一可译码 非即时码
第5章无失真信源编码定理12
第5章无失真信源编码定理●通信的实质是信息的传输。
高效率、高质量地传送信息又是信息传输的基本问题。
●信源信息通过信道传送给信宿,需要解决两个问题:第一,在不失真或允许一定失真条件下,如何用尽可能少的符号来传送信源信息,以提高信息传输率。
第二,在信道受干扰的情况下,如何增强信号的抗干扰能力,提高信息传输的可靠性同时又使得信息传输率最大。
●为了解决以上两个问题,引入了信源编码和信道编码。
●提高抗干扰能力(降低失真或错误概率)往往是增加剩余度以降低信息传输率为代价的;反之,要提高信息传输率往往通过压缩信源的剩余度来实现,常常又会使抗干扰能力减弱。
●上面两者是有矛盾的,然而在信息论的编码定理中,已从理论上证明,至少存在某种最佳的编码或信息处理方法,能够解决上述矛盾,做到既可靠又有效地传输信息。
●第5章着重讨论对离散信源进行无失真信源编码的要求、方法及理论极限,得出极为重要的极限定理——香农第一定理。
5.1编码器●编码实质上是对信源的原始符号按一定的数学规则进行的一种变换。
●图5.1就是一个编码器,它的输入是信源符号集S={s 1,s 2,…,s q }。
同时存在另一符号集X={x 1,x 2, …,x r },一般元素x j 是适合信道传输的,称为码符号(或称为码元)。
编码器是将信源符号集中的符号s i (或者长为N 的信源符号序列a i )变换成由x j(j=1,2, …,r )组成的长度为l i的一一对应序列。
●这种码符号序列W i 称为码字。
长度l i称为码字长度或简称码长。
所有这些码字的集合C 称为码。
●编码就是从信源符号到码符号的一种映射,若要实现无失真编码,必须这种映射是一一对应的、可逆的。
编码器S :{s 1,s 2,…s q }X :{x 1,x 2,…x r }C :{w 1,w 2,…w q }(w i 是由l i 个x j (x j 属于X ))组成的序列,并于s i 一一对应一些码的定义●二元码:若码符号集为X={0,1},所得码字都是一些二元序列,则称为二元码。
可变长无失真信源编码定理
可变长无失真信源编码定理一、概述可变长无失真信源编码定理是信息论的核心概念之一,它是由美国数学家香农(Claude Shannon)于1948年首次提出。
该定理主要探讨了信源编码的极限性能,为无失真编码提供了理论基础。
可变长无失真信源编码定理不仅在理论上有重要意义,而且在数据压缩、网络传输和存储系统等领域有着广泛的应用价值。
二、定理内容可变长无失真信源编码定理的主要内容是:对于任意给定的离散无记忆信源,存在一种可变长编码方式,使得编码后的平均码长小于或等于信源的熵,从而实现无失真编码。
换句话说,如果信源的熵为H,那么存在一种编码方式,使得编码后的平均码长L满足L ≤ H。
三、证明过程证明可变长无失真信源编码定理的过程较为复杂,涉及到概率论和信息论的基本知识。
以下是证明过程的大致步骤:1.定义信源的熵:信源的熵是信源输出随机变量的不确定性度量,定义为所有可能符号的概率加权和。
如果信源有n个符号,每个符号出现的概率为p1, p2, ..., pn,则信源的熵H定义为H = - Σ (pi * log2(pi)),其中i=1,2,...,n。
2.构造一个可变长度编码表:根据信源的概率分布,构造一个可变长度编码表,使得出现概率较大的符号对应较短的码字,反之亦然。
假设码字长度按照字典序排列,第i个码字的长度为log2(1/pi),其中i=1,2,...,n。
3.计算平均码长:根据可变长度编码表,计算所有可能符号的平均码长。
平均码长等于所有码字长度的概率加权和,即L = Σ(log2(1/pi) * pi),其中i=1,2,...,n。
4.证明平均码长小于或等于信源熵:利用不等式性质和概率分布的性质,推导出平均码长L满足L ≤H。
关键在于利用概率分布的不均匀性,通过调整码字长度来最小化平均码长。
5.构造一个解码函数:为了实现无失真解码,需要构造一个解码函数,使得每个码字能够唯一地还原为原始符号。
解码函数可以采用查表法或类似算法实现。
信息论与编码理论第6章无失真信源编码
LN N
Hr (U )
1 N
离散无记忆信源X的N次扩展信源XN的熵等于信 源X的熵的N倍,即
其中: LN 是N次扩展信源的平均 码长
H(XN)=NH(X)
变长信源编码定理的含义
H (U ) LN H (U ) 1 log r N log r N
以r=2,N=1为例,则 H (U ) L H (U ) 1 这说明,总可以找到一种唯一可译码,它的平均
u4 11 01 11 0001 1000
对码1,如果S=u2u4u1,则X=011100
符号 码1
6.1.2 码的分类
等长码:所有码子长度相同(码1)
u1 00 u2 01 u3 10 u4 11
变长码:码子的长度不同 (码2、码3、码4、码5)0
码2 码3 码4 码5
0
0
1
1
10 11 01 10
0.125
4
H (U ) p(xi ) log p(xi ) 1.75 i1
n
L p(ui )li 0.5 1 0.25 2 0.125 3 0.125 3 1.75 i 1
4
H (U )
p(xi ) log p(xi )
i1
100%
L log2 r
1.75log2 2
变长码的几个衡量指标
平均码长:每个信源符号 平均需用的码元数
n
L p(ui )li i 1
编码效率: H (U )
L log2 r
信息传输率:平均每个 码元携带的信息量
R H (U ) L
码集
{0, 1}
码元数
r=2(二元码)
码长
1
2
3
3
第4章无失真信源编码
是信源编码
码的分类-I
(1) 定长码:码中所有码字的长度都相同, 变长 码:码中的码字长短不一
信源 信源符号出
码表
符号ai 现概率p(ai) 码1 码2
a1
p(a1)
00 0
a2
p(a2)
01 01
a3
p(a3)
10 001
a4
p(a4)
11 111
表4-1 变长码与定长码
码的分类-II
(2)非奇异码:若信源符号和码字一一对应的 奇异码:反之。下表码1是奇异码,码2是非奇异码。
将这两个概率相加作为一个新字母的概率,与未分 配的二进符号的字母重新排队。 3. 对重排后的两个概率最小符号重复(2)的过程。 4. 重复上述过程,直到最后两个符号配以0和1为止。 5. 从最后一级开始,向前返回得到各个信源符号所对 应的码元序列,即相应的码字。
例 对以下信源进行哈夫曼编码
信源符号ai 概率p(ai) 码字Wi
H(S) L H(S) 1
log r
log r
离散平稳无记忆序列变长编码定理:对于平均符号 熵为H(S)的离散平稳无记忆信源,必存在一种无失真 编码方法,使平均信息率满足不等式
H (S) LN H (S) 1 log r N log r N
将定理进行改写:
H (S )
LN N
log r
H(S)
通常可用码树来表示各码字的构成
0
1
0
1
0
1
01
01
01
01
0 1 0 10 10 1 0 10 10 1 0 1
二进制码树(满树)
即时码的码树表示(2)
0
1
无失真编码与保真度准则下的信源编码比较
无失真编码与保真度准则下的信源编码比较无失真编码和保真度编码是两种不同的信源编码方法。
无失真编码是一种编码方法,其中编码的输出与其输入完全相同,即没有信息损失。
保真度编码是一种编码方法,其中编码输出与输入之间具有某种度量,通常用于指定被编码信源的相关度量。
在无失真编码中,被编码的信源通常通过重复信源符号来实现。
例如,在串行传输系统中,数据被重复多次,以确保接收方能够正确地接收数据。
虽然这种方法可以确保完全输送原始信源,但它有几个限制。
首先,它需要更多的带宽,因为数据需要被重复发送多次。
其次,它并不适用于所有类型的数据,特别是当数据非常长或不规则时,这种方法会变得非常昂贵和低效。
与此不同的是,保真度编码的目标是在尽可能减少带宽和存储空间的情况下,最大限度地保留原始信源的信息。
通过使用保真度准则,可以将信源表示为某种度量形式。
这些度量通常包括信号功率、功率频谱分布、自相关函数和互相关函数等。
保真度编码通常使用一些高级编码技术,如哈夫曼编码、熵编码和维纳滤波器等。
这些编码方法都源于信息论和通信工程领域的数学理论。
通过这些编码技术,保真度编码可以提高信源的压缩效率,同时最大程度地保留信源的信息。
当比较无失真编码和保真度编码时,无失真编码通常比较简单,但需要更多的带宽和存储空间。
而保真度编码则需要更复杂的算法和技术,但可以在尽可能减少带宽和存储空间的情况下保留更多的原始信息。
综上所述,在处理信源编码问题时,需要综合考虑多个方面,包括数据类型、带宽和存储空间要求等。
无失真编码适用于对带宽和存储空间要求不是很高的应用,例如音频、图片和视频的传输。
保真度编码适用于对存储空间和带宽要求较高的应用,例如用于数字通信系统的压缩算法。
第6章 无失真信源编码
通常情况下可以用码树来表示码字的构成:
•
如果码字序列符号为r进制的,可以用r个符号的码树 来构造码字; 每个码树有一个树根A;
•
•
• • •
树根有r个树枝;
树枝的尽头称为节点; 每个节点生出是树枝的数量等于码符号的数量r; 从而形成r进制的码树。
0 0 0 1 0 1 1 0 0 1 0 A 1 1 1 0 0 0 1 2 A 1 0 2 1 2 0 1 2
•
而3次扩展符号共有43=64个 如:
3次 扩展符号 AAA AAB AAC … 3次 扩展码字 000 0001 00001 … 3次 扩展符号 … DDB DDC DDD 3次 扩展码字 … 11111101 111111001 111111111
6.2 “无失真”的本质
• •
无失真信源编码:编码时没有信息丢失,译码器可以精确 恢复编码之前的消息。 无失真信源编码又叫“无损压缩”
6.1.3 N次(阶)扩展码
将N次扩展信源的概念加以延伸,可以得到N次扩展码 N • 集合 U (u1 , u2 ,, un ) 的N次扩展 U (ui1 , ui2 ,, uiN )
• •
相应码字集合的N次扩展 其中 ui j 和wi j
W N (wi1 , wi2 ,, wiN )
001
0001
100
1000
4、按译码时是否会产生歧义分
非唯一可译码:译码时会产生歧义 (码2) (码3、奇异码) 唯一可译码:译码时不会产生歧义 (码1、码4、码5)
符号 码1 码2 码3 码4 码5
u1
u2
00
01
0
10
0
11
信息论与编码第4章无失真信源编码
THANKS
感谢观看
编码性能的评价指标
压缩比
压缩比是指编码后数据量与原始数据量之比,是衡量 编码效率的重要指标。
编码复杂度
编码复杂度是指实现编码算法所需的计算量和存储量 ,是衡量编码性能的重要指标。
重建精度
重建精度是指解码后数据的准确度,是衡量编码性能 的重要指标。
编码效率与性能的关系
01
编码效率与压缩比成正比,压缩比越高,编码效率越高。
游程编码
对连续出现的相同符号进 行编码,如哈夫曼编码等 。
算术编码
将输入信号映射到一个实 数轴上的区间,通过该区 间的起始和长度表示码字 ,如格雷码等。
编码的数学模型
信源
产生随机变量的集合 ,表示各种可能的信 息符号。
编码器
将输入信号映射到码 字的转换设备,其输 出为码字序列。
解码器
将接收到的码字还原 成原始信号的设备。
拓展应用领域
无失真信源编码技术的应用领域正在不断拓 展,未来研究将致力于将其应用于更多领域 ,如多媒体处理、物联网、云计算等。
融合其他技术
将无失真信源编码技术与其他相关技术进行 融合,以实现更高效、更实用的信息处理系 统。例如,将无失真信源编码与图像处理、 语音处理等技术相结合,提高信息传输和处
理的效率和质量。
03
行程编码的缺点包 括
压缩比有限、对于离散无记忆信 源效果不佳。
03
CATALOGUE
无失真信源编码的效率与性能
编码效率的定义与计算
定义
编码效率是指编码后信息量与原始信 息量之比,通常用比特率(bit per symbol)或比特率(bit per source symbol)来表示。
计算
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章无失真信源编码教学内容包括:信源编码概述、定长编码、变长编码常用的信源编码3.1信源编码概述讲课内容:1、信源编码及分类2、信源编码定义3、信源编码基础1、给出编码译码示意图2、编码:信源编码、信道编码。
信源 = 信息 + 冗余信源编码:针对信源的编码,能更加有效地传输、存储信息。
编码后尽可能减少所需信息的损失,提高编码后携带信息的效率。
3、信源编码的主要任务a、减少冗余b、提高编码效率4、信源编码的基本途径a、解除相关性b 、概率均匀化4、信源编码的两个基本定理a 、无失真编码定理(可逆编码的基础、只适用于离散信源)b 、限失真编码定理(连续信源) 5、信源编码的分类a 、冗余度压缩编码,可逆压缩,经编译码后可以无失真地恢复。
统计特性:Huffman 编码,算术编码Arithmetic Codingb 、熵压缩编码,不可逆压缩 压缩超过一定限度,必然带来失真 允许的失真越大,压缩的比例越大译码时能按一定的失真容许度恢复,保留尽可能多的信息本章讨论离散信源无失真编码,包括定长、变长无失真编码定理和编码方法,以及几种实用的无失真信源编码,如香农编码、费诺编码、哈夫曼编码等。
6、信源编码的定义首先给出信源编码的定义,信源编码就是从信源符号到码符号的一种映射f ,它把信源输出的符号u i 变换成码元序列w i 。
f :u i ——>w i ,i =1,2,…,q译码是从码符号到信源符号的映射。
若要实现无失真编码,这种映射必须是一一对应的、可逆的。
给出马元、码字、马块、二元编码的概念结合P34例3.1.1给出编码的分类如下:给出平均码长的定义和公式。
结合P34例3.1.1进行二进制信源的简单编码,并计算平均码长。
3.2克拉夫特(Kraft)不等式讲课内容:1、变长码的码字分离技术2、即时码的引入和码树表示方法3、即时码与克拉夫特不等式1、变长码的码字分离技术a、同步信号b、可分离码字2、即时码和码树表示法即时码是一种实时的惟一可译码,这类码无需另加同步信息,就能在接收端被分离出来。
在信源编码和数据压缩中,这类编码无论在理论还是在实际中都有很大意义,对较简单的信源,可以很方便地用码树法直接且直观地构造出可以分离码(异前缀码)。
根据码树判定即时码:3、即时码与克拉夫特不等式但是当信源较复杂,直接画码树就比较复杂。
针对这一问题,在数学上给出一个与码树等效的,表达码字可分离的充要条件,即著名的克拉夫特不等式。
【定理3.1.1】对于码长分别为l1,l2,…,l n的m元码,若此码为即时码,则必定满足(3.1.4)反之,若码长满足不等式(3.1.4),则一定存在具有这样码长的即时码。
给出该定理的理论意义与证明过程【定理3.1.2】对于任意r进制惟一可译码,各码字的码长l i,i=1,2,…,n,必须满足Kraft不等式,反过来,若上式成立,就一定能构造一个r进制惟一可译码。
给出该定理的理论意义与证明过程3.3定长编码讲课内容:1、定长编码定理2、定长编码方法3、定长编码的编码效率与差错率1、定长编码定理a、引入离散无记忆信源进行编码的最小平均码长问题前面讨论编码时,都是对信源输出的单个符号进行编码,现在考虑更一般的情况,即对信源输出的符号序列进行编码。
假设离散无记忆信源为[U,P U]=[u i,P(u)|i=1,2,…,q],现要对U发出的N长符号序列进行编码。
对信源U的N i长符号序列进行r进制编码,实质上就是对扩展信源U N的单个符号进行编码,既可定长编码,也可变长编码。
若用代表对U N编码所得的平均码长,则我们追求的是最小的码,这就引出了一个理论问题,平均码长可小到什么程度呢?对此问题,定长无失真编码定理和变长无失真编码定理都给予了明确的回答。
只要可用的码字数不少于U N的符号数,即就可做到惟一译码。
将上式整理一下得U的一个符号所需用去的码元数目/N以U的最大r进制熵为下界,再小就不能惟一可译了。
b、给出解决方法----定长编码定理【定理3.2.1(定长编码定理)】用r元符号表对离散无记忆信源U的N长符号序列进行定长编码,N长符号序列对应的码长为,若对于任意小ε>0,δ>0,只要满足(3.2.3) 就几乎能实现无失真编码,且随着N的增大,译码错误率小于δ。
反之,若(3.2.4)时,不可能实现无失真编码,且随着N的增大,译码错误概率近似等于1,几乎必定出错。
c、给出该定理的理论意义并分析定理的结论。
d、给出定长编码的效率给出公式分析:为使编码真正有效,必须增大信源序列的分组长度N,这就会使编、译码的延时增大,同时也会使编、译码器的复杂程度增加,因此,定长编码在冗余度压缩编码中的理论意义远大于其实用价值。
2、定长编码方法(P82例3.2.1)a、计算平均码长b、计算信源熵c、计算编码效率3、定长编码的失真与差错率当<H(U)的时候,还有部分符号没有对应的码字,这些符号一旦出现,被传输至接收端,就没有对应的码字译码,因而引起译码差错。
所以定长编码一般都存在译码差错,只是差错大小不同。
将信源空间分为两个互补的集合和,集中的元素(样本矢量)有与之对应的不同码字,而集中的元素没有对应的输出码字,因而会在译码时发生差错。
在这种编码方式下,差错概率P e即为集中元素发生的概率,此时要求,因而集中的样本都应是小概率事件。
当N增大时,虽然样本数也随着增多,但小概率事件的概率将更小,有望使更小。
根据切比雪夫不等式可推得,()当ζ2(U)和ε2均为定值时,只要N足够大,就可以使P e小于任意一正数δ,即,也就是当信源序列长度N满足(3.2.12)时,就能达到差错率要求。
定长编码在引入失真的前提下,还需要取很长的信源序列进行编码,才能达到较高的编码效率。
既要不失真,又要很高的编码效率,只能采用变长编码。
结合【例 3.2.2】分析上述结论。
3.4变长编码讲课内容:变长编码定理(香农第一定理)变长编码方法变长编码的编码效率1、变长编码定理变长编码不要求所有码字长度相同,但希望平均码长最小,信源无失真变长编码定理给出了在无失真编码的前提下平均码长的界限。
【定理3.3.1(无失真变长编码定理)】用r元符号表对离散无记忆信源U的N长符号序列进行变长编码,记N长符号序列对应的平均码长为,那么,要做到无失真编码,平均码长必须满足另一方面,一定存在惟一可译码,其平均码长满足结合Kraft不等式和概率完备性质给出定理两个结论的证明过程。
2、变长编码方法目标:变长编码采用即时码,力求平均码长最小,此时编码效率最高,信源的冗余得到最大程度的压缩。
对给定的信源,使平均码长达到最小的编码方法称为最佳编码,编出的码称为最佳码。
将概率大的信息符号编以短的码字,概率小的符号编以长的码字,使得平均码字长度最短。
证明变长编码定理的过程中给出的构造方法即香农编码。
但香农编码不能使平均码长达到最小,因此不是最佳编码。
只有哈夫曼编码是真正意义上的最佳编码,对给定的信源,用哈夫曼编码方法编出的码,平均码长达到最小。
变长编码的基本思路:针对不同编码平均码长的计算方法。
平均码长定义为式中,是所对应的码字的长度。
结合【例3.3.1】给出构造方法并计算平均码长。
结合【例3.3.2】给出编码效率的计算方法,并对变长编码和定长编码的编码效率进行分析,将达到同样编码效率两种方法所需要付出的代价进行比较。
3.5香农编码a、原理:按照变长编码定理来决定码长,再用合适的方法构造码字,这就是香农编码。
b、编码步骤设有离散无记忆信源,。
二进制香农码的编码步骤如下:(1) 将信源符号按概率从大到小的顺序排列,为方便起见,令p(x1)≥p(x2)≥…≥p(x n);(2) 按下式求i个信源符号对应的码长l i,并取整;–log P(u i) ≤l i <–log P(u i) + 1(3.4.1)(3) 按下式求i个信源符号的累加概率P i;(4) 将累加概率P i转换成二进制数;(5) 取P i二进制数小数点后l i个二进制数字作为第i个信源符号的码字。
结合【例3.4.1】给出具体编码方法。
并计算其平均码长和编码效率。
3.6费诺(Fano)编码a、原理:它是通过构造一个码树,编出的码是即时码,但不一定是最佳码。
b、编码步骤(1) 将信源符号按概率从大到小的顺序排列,不失一般性,令p(x1)≥p(x2)≥…≥p(x n) 。
(2) 按编码进制数将概率分组,使每组概率尽可能接近或相等。
如编二进制码就分成两组,编m进制码就分成m组。
(3) 给每组分配一位码元。
如编二进制码,则给两组信源符号分别赋码元“0”和“1”。
(4) 将每一分组再按同样原则划分,重复步骤2和3,直到每一小组只含一个信源符号为止。
(5) 由此即可构造一个码树,所有终端节点上的码字组成费诺码。
c、结合【例3.4.2】给出具体编码方法。
并计算其平均码长和编码效率。
d、总结费诺编码的基本特点:(1) 费诺编码在构造码树时,是从树根开始到终端节点结束,这与哈夫曼编码相反;(2) 由于赋码元时的任意性,因此费诺编码编出的码字不惟一;(3) 费诺编码虽属于概率匹配范畴,但并未严格遵守匹配规则,即不全是按“概率大码长小、概率小码长大”来决定码长,有时会出现概率小码长反而小的情况,如表3.4.2中符号u4对应的码字就是如此,因此平均码长一般不会最小。
3.7哈夫曼编码哈夫曼编码是一种效率比较高的变长无失真信源编码方法,它的平均码长最短,因此是最佳编码。
下面主要介绍二进制哈夫曼编码。
a、原理:构造一个码树。
b、编码步骤:(1) 将信源符号按概率从大到小的顺序排列,为方便起见,令p(x1)≥p(x2)≥…≥p(x n) 。
(2) 对概率最小的两个信源符号求其概率之和,同时给两个符号分别赋予码元“0”和“1”。
将“概率之和”当作一个新符号的概率,与剩下符号的概率一起,形成一个缩减信源,结果得到一个只包含(n-1)个信源符号的新信源,称为信源的第一次缩减信源,用S1表示。
(3) 将缩减信源S1的符号仍按概率从大到小的顺序排列,重复步骤2,得到只含(n-2)个符号的缩减信源S2。
(4) 重复上述步骤,直至缩减信源只剩下两个符号为止,此时所剩两个符号的概率之和必为1。
(5) 按上述步骤实际上构造了一个码树,从树根到端点经过的树枝即为码字。
c、结合【例3.4.4】给出具体编码方法。
并计算其平均码长和编码效率。
d、总结哈夫曼编码的基本特点:第一,哈夫曼编码实际上构造了一个码树,码树从最上层的端点开始构造,直到树根结束,最后得到一个横放的码树,因此,编出的码是即时码。
第二,哈夫曼编码采用概率匹配方法来决定各码字的码长,概率大的符号对应于短码,概率小的符号对应于长码,从而使平均码长最小。