信息论与编码[第五章无失真信源编码定理与编码]山东大学期末考试知识点复习
第5章无失真信源编码定理

如果我们要对信源的N次扩展信源进行编码,也必须满足
qN rl , 两边取对数得: l log q
l
N log r
N 表示平均每个信源符号所需的码符号个数。
5.2 等长码
例:对英文电报得32个符号进行二元编码,根据上述关系:
l log 32 5 log 2
我们继续讨论上面得例子,我们已经知道英文的极限 熵是1.4bit,远小于5bit,也就是说,5个二元码符号只携带 1.4bit的信息量,实际上,5个二元符号最多可以携带5bit 信息量。我们可以做到让平均码长缩短,提高信息传输率
0.8112
0.4715
若采用等长二元编码,要求编码效率 0.96 ,允许错误率
105 ,则: N 4.13107
也就是长度要达到4130万以上。
5.5 变长码
1、唯一可译变长码与及时码
信源符号 出现概率 码1
码2
码3
码4
s1
1/2
0
0
1
1
s2
1/4
11
10
10
01
s3
1/8
00
00
密码:是以提高通信系统的安全性为目的的编码。通常通过加 密和解密来实现。从信息论的观点出发,“加密”可视为增熵 的过程,“解密”可视为减熵的过程。
5.1 编码器
信源编码理论是信息论的一个重要分支,其理论基础是信源编 码的两个定理。 无失真信源编码定理:是离散信源/数字信号编码的基础; 限失真信源编码定理:是连续信源/模拟信号编码的基础。
5.1 编码器
信源编码:以提高通信有效性为目的的编码。通常通过压缩信 源的冗余度来实现。采用的一般方法是压缩每个信源符号的平 均比特数或信源的码率。即同样多的信息用较少的码率传送, 使单位时间内传送的平均信息量增加,从而提高通信的有效性。
信息论基础与应用-李梅-第五章 无失真信源编码解析

二次扩展码码字 w j ( j 1, 2,...,16)
w1 w1w1 00 w 2 w1w2 001 w3 w1w3 0001 w16 w4 w4 111111
第五章:无失真信源编码
一、信源编码的相关概念
4. 关于编码的一些术语
编码器输出的码符号序列 wi称为码字;长度 li 称为码 字长度,简称码长;全体码字的集合C称为码。 若码符号集合为X={0,1},则所得的码字都是二元序 列,称为二元码。
将信源符号集中的每个信源符号
si 固定的映射成某
一个码字 wi ,这样的码称为分组码。
码字与信源符号一一对应
2) 不同的信源符号序列对应不同的码字序列
第五章:无失真信源编码
一、信源编码的相关概念
6. 唯一可译性(续2)
例1:
1) 奇异码
s1 s2 s3 s4
0 11 00 Байду номын сангаас1
译码 11
s2 s4
奇异码一定不是唯一可译码
第五章:无失真信源编码
一、信源编码的相关概念
6. 唯一可译性(续3)
译码 0 0 0 1 1 0 1 1
s1s2 s3 s4
第五章:无失真信源编码
一、信源编码的相关概念
6. 唯一可译性(续5)
4)
唯一可译码 1 1 0 1 0 0 1 0 0 0 0
s1 s2
1 10
1 0
1
s2 / s3 ?
s3 100 s4 1000
为非即时码
第五章:无失真信源编码
一、信源编码的相关概念
信息论与编码第五章习题参考答案

5.1某离散无记忆信源的概率空间为采用香农码和费诺码对该信源进行二进制变长编码,写出编码输出码字,并且求出平均码长和编码效率。
解:计算相应的自信息量1)()(11=-=a lbp a I 比特 2)()(22=-=a lbp a I 比特 3)()(313=-=a lbp a I 比特 4)()(44=-=a lbp a I 比特 5)()(55=-=a lbp a I 比特 6)()(66=-=a lbp a I 比特 7)()(77=-=a lbp a I 比特 7)()(77=-=a lbp a I 比特根据香农码编码方法确定码长1)()(+<≤i i i a I l a I平均码长984375.164/6317128/17128/1664/1532/1416/138/124/112/1L 1=+=⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=由于每个符号的码长等于自信息量,所以编码效率为1。
费罗马编码过程5.2某离散无记忆信源的概率空间为使用费罗码对该信源的扩展信源进行二进制变长编码,(1) 扩展信源长度,写出编码码字,计算平均码长和编码效率。
(2) 扩展信源长度,写出编码码字,计算平均码长和编码效率。
(3) 扩展信源长度,写出编码码字,计算平均码长和编码效率,并且与(1)的结果进行比较。
解:信息熵811.025.025.075.075.0)(=--=lb lb X H 比特/符号 (1)平均码长11=L 比特/符号编码效率为%1.81X)(H 11==L η(2)平均码长为84375.0)3161316321631169(212=⨯+⨯+⨯+⨯=L 比特/符号 编码效率%9684375.0811.0X)(H 22===L η(3)当N=4时,序列码长309.3725617256362563352569442569242562732562732256814=⨯+⨯+⨯⨯+⨯⨯+⨯⨯+⨯+⨯⨯+⨯=L平均码长827.04309.34==L %1.98827.0811.0X)(H 43===L η可见,随着信源扩展长度的增加,平均码长逐渐逼近熵,编码效率也逐渐提高。
信息论及编码第5章

第五章 信源编码(第十讲)(2课时)主要内容:(1)编码的定义(2)无失真信源编码 重点:定长编码定理、变长编码定理、最佳变长编码。
难点:定长编码定理、哈夫曼编码方法。
作业:5。
2,5。
4,5。
6;说明:本堂课推导内容较多,枯燥平淡,不易激发学生兴趣,要注意多讨论用途。
另外,注意,解题方法。
多加一些内容丰富知识和理解。
通信的实质是信息的传输。
而高速度、高质量地传送信息是信息传输的基本问题。
将信源信息通过信道传送给信宿,怎样才能做到尽可能不失真而又快速呢?这就需要解决两个问题:第一,在不失真或允许一定失真的条件下,如何用尽可能少的符号来传送信源信息;第二,在信道受干扰的情况下,如何增加信号的抗干扰能力,同时又使得信息传输率最大。
为了解决这两个问题,就要引入信源编码和信道编码。
一般来说,提高抗干扰能力(降低失真或错误概率)往往是以降低信息传输率为代价的;反之,要提高信息传输率常常又会使抗干扰能力减弱。
二者是有矛盾的。
然而在信息论的编码定理中,已从理论上证明,至少存在某种最佳的编码或信息处理方法,能够解决上述矛盾,做到既可靠又有效地传输信息。
这些结论对各种通信系统的设计和估价具有重大的理论指导意义。
§3.1 编码的定义编码实质上是对信源的原始符号按一定的数学规则进行的一种变换。
讨论无失真信源编码,可以不考虑干扰问题,所以它的数学描述比较简单。
图 3.1是一个信源编码器,它的输入是信源符号},,,{21q s s s S ,同时存在另一符号},,,{21r x x x X ,一般来说,元素xj 是适合信道传输的,称为码符号(或者码元)。
编码器的功能就是将信源符号集中的符号s i (或者长为N 的信源符号序列)变换成由x j (j=1,2,3,…r)组成的长度为l i 的一一对应的序列。
输出的码符号序列称为码字,长度l i 称为码字长度或简称码长。
可见,编码就是从信源符号到码符号的一种映射。
若要实现无失真编码,则这种映射必须是一一对应的,并且是可逆的。
信息论与编码复习期末考试要点

30
1
1
2 W1
2W3
W1
Wi pij Wj
i
1 4W1
13W2
3 4
W3
15W4
W2
W3
2 3
W2
4 5
W4
W4
W1 W2 W3 W4 1
• 稳态分布概率
W 1 3 3 5 , W 2 3 6 5 , W 3 1 2 3 3 3 6 5 5 ,1 3 W 3 6 4 5 1 4 7 4 3 6 5 1 5 7 4 3 9 5
14
三、互信息
• 互信息
• 定义为 xi的后验概率与先验概率比值的对数
I(xi;yj)lo2gp(p x(ix|iy)j)
• 互信息I(xi;yj):表示接收到某消息yj后获得 的关于事件xi的信息量。
15
平均互信息
• 平均互信息定义
I ( X ; Y ) H ( X ) H ( X |Y ) H ( Y ) H ( Y |X )
I(X ; Y ) H (X ) H (Y )
38
• 2)无嗓有损信道 –多个输入变成一个输出(n>m)
p(bi | aj ) 1或0
p(ai
|
bj
)
1或0
• 噪声熵H(Y|X) = 0 • 损失熵H(X|Y) ≠ 0
I(X ; Y )H (Y )H (X )
Cm axI(X ;Y )m axH (Y ) p(a i) 39
加密
y 信道编码
k 加密 密钥
z
信
解密 密钥
道 z'
信宿 v
信源解码
x' 解密
y'
信道解码
信息论与编码chapter5

渐进均分特性
典型序列的概率估计
设 x G 1 ( 满 足 公 式 5 .3 )
log p ( x ) N H (X )
N [ H ( X ) ] log p ( x ) N [ H ( X ) ]
设取2为底 2 N [ H ( X ) ] p ( x ) 2 N [ H ( X ) ]
(适用于离散信源的编码)
限失真信源编码: 信源符号不能通过编码序列无 差错地恢复。
(可以把差错限制在某一个限度内)
信源编码的目的:提高传输有效性,即用尽可能短 的码符号序列来代表信源符号。
§5.1 信源编码的相关概念
本节主要内容
一、信源编码器 二、码的分类 三、分组码
§5.1.1 信源编码器
将信源符号集中的每一个符号固定映 射成一个码字的码 分组码单符号信源编码器
第五章 无失真信源编码
主要内容
本章主要介绍无失真信源编码定理与一 些重要的无失真信源编码方法
一、概述 二、定长码 三、变长码
四、哈夫曼编码
信源编码:将信源符号序列按一定的数学规律映射 成由码符号组成的码序列的过程。 信源译码: 根据码序列恢复信源序列的过程。 无失真信源编码: 即信源符号可以通过编码序列 无差错地恢复。
若不满足上式 =
H (X
N
l N
l l
log r H ( X )
;Y )
N
l
) H (X
N
/ Y ) H (Y ) lH (Y ) l log r
H (X
) NH ( X )
H (X
N
/ Y ) NH ( X ) l log r 0
信息论与编码复习重点整理(1页版)

1第1章 概论1. 信号(适合信道传输的物理量)、信息(抽象的意识/知识,是系统传输、转换、处理的对象)和消息(信息的载体)定义;相互关系:(1信号携带消息,是消息的运载工具(2信号携带信息但不是信息本身(3同一信息可用不同的信号来表示(4同一信号也可表示不同的信息。
2. 通信的系统模型及目的:提高信息系统可靠性、有效性和安全性,以达到系统最优化.第2章 信源及信息量1. 单符号离散信源数学模型2. 自信息量定义:一随机事件发生某一结果时带来的信息量I(xi)=-log2P(xi)、单位:bit 、物理意义:确定事件信息量为0;0概率事件发生信息量巨大、性质:I(xi)非负;P(xi)=1时I(xi)=0;P(xi)=0时I(xi)无穷;I(xi)单调递减;I(xi)是随机变量。
3. 联合自信息量:I(xiyi)=- log2P(xiyj) 物理意义:两独立事件同时发生的信息量=各自发生的信息量的和、条件自信息量:I(xi/yi)=- log2P(xi/yj);物理意义:特定条件下(yj 已定)随机事件xi 所带来的信息量。
三者关系:I(xi/yi)= I(xi)+ I(yi/xi)= I(yi)+ I(xi/yi)4. 熵:定义(信源中离散消息自信息量的数学期望)、单位(比特/符号)、物理意义(输出消息后每个离散消息提供的平均信息量;输出消息前信源的平均不确定度;变量的随机性)、计算:(H(X)=-∑P(xi)log2 P(xi)) 1)连续熵和离散的区别:离散熵是非负的2)离散信源当且仅当各消息P相等时信息熵最大H (X )=log 2 n 。
3)连续信源的最大熵:定义域内的极值. 5.条件熵H(Y/X) = -∑∑P(xiyj) log2P(yj/xi),H (X /Y )= -∑∑P(xiyj) log2P(xi/yj) 、物理意义:信道疑义度H(X/Y):信宿收到Y 后,信源X 仍存在的不确定度,有噪信道传输引起信息量的损失,也称损失熵。
信息论:第5章 无失真信源编码定理

(4)非奇异码 若一组码中所有码字都不相同(即所有信源符 号映射到不同的码符号序列),则称为非奇异码。
si s j Wi W j
则称码C为非奇异码。
si , s j S Wi ,W j C
20
(5)奇异码
若一组码中有相同的码字,则为奇异码。
si s j Wi W j
30
即时码(异前缀码)一定是唯一可译码。因为,如果没 有一个码字是其他码字的前缀,则在译码过程中,当收到一 个完整码字的码符号序列时,无需考虑下一个符号,就能直 接把它译成对应的码字或信源符号。
31
32
33
5.2
等长码
一般说来,若要实现无失真的编码,这不但要求 信源符号与码字是一一对应的,而且要求码符号序 列的反变换也是唯一的。也就是说,所编的码必须 是唯一可译码。否则,所编的码不具有唯一可译码 性,就会引起译码带来的错误与失真。
11
超过信宿的灵敏度和分辨力所传送的信息是毫无 意义的,也是完全没有必要的。 比如话声信源,界别过多的划分,人耳就很难分 辨。图像信源亦是如此,人们看电影,当图片超过每 秒25张以上时,人眼就能将离散的照片在人脑内反映 成连续画面。
此时,就应该引入限定失真条件下的信源编码问题 。
12
5.1
编码器
32272781179同样可以求得信源序列长度增加到3和4时进行变长编码所得的编码效率和信息传输率分别为如果对这一信源采用等长二元码编码要求编码效率达到96允许译码错误概率105则可以算出自信息方差为98580需要的信源序列长度为可以看出使用等长编码时为了使编码效率较高96需要对非常长的信源序列进行编码且总存在译码差错
此式表明,只有当 l长的 S s1 , , sq ,有 q 个符号,那么它的N次扩展信 码符号序列数大于或等于N次 源 S N 1 , , N 共有 q N 个符号。 q 扩展信源的符号数时,才可
第5章无失真信源编码定理12

第5章无失真信源编码定理●通信的实质是信息的传输。
高效率、高质量地传送信息又是信息传输的基本问题。
●信源信息通过信道传送给信宿,需要解决两个问题:第一,在不失真或允许一定失真条件下,如何用尽可能少的符号来传送信源信息,以提高信息传输率。
第二,在信道受干扰的情况下,如何增强信号的抗干扰能力,提高信息传输的可靠性同时又使得信息传输率最大。
●为了解决以上两个问题,引入了信源编码和信道编码。
●提高抗干扰能力(降低失真或错误概率)往往是增加剩余度以降低信息传输率为代价的;反之,要提高信息传输率往往通过压缩信源的剩余度来实现,常常又会使抗干扰能力减弱。
●上面两者是有矛盾的,然而在信息论的编码定理中,已从理论上证明,至少存在某种最佳的编码或信息处理方法,能够解决上述矛盾,做到既可靠又有效地传输信息。
●第5章着重讨论对离散信源进行无失真信源编码的要求、方法及理论极限,得出极为重要的极限定理——香农第一定理。
5.1编码器●编码实质上是对信源的原始符号按一定的数学规则进行的一种变换。
●图5.1就是一个编码器,它的输入是信源符号集S={s 1,s 2,…,s q }。
同时存在另一符号集X={x 1,x 2, …,x r },一般元素x j 是适合信道传输的,称为码符号(或称为码元)。
编码器是将信源符号集中的符号s i (或者长为N 的信源符号序列a i )变换成由x j(j=1,2, …,r )组成的长度为l i的一一对应序列。
●这种码符号序列W i 称为码字。
长度l i称为码字长度或简称码长。
所有这些码字的集合C 称为码。
●编码就是从信源符号到码符号的一种映射,若要实现无失真编码,必须这种映射是一一对应的、可逆的。
编码器S :{s 1,s 2,…s q }X :{x 1,x 2,…x r }C :{w 1,w 2,…w q }(w i 是由l i 个x j (x j 属于X ))组成的序列,并于s i 一一对应一些码的定义●二元码:若码符号集为X={0,1},所得码字都是一些二元序列,则称为二元码。
信息论基础与应用-李梅-第五章 无失真信源编码资料

00
01 10 11
0
01 001 111
第五章:无失真信源编码
一、信源编码的相关概念
3. N次扩展码
S s1 , s2 ,, sq
siBiblioteka C {w1 , w2 ,
, wq }
wi
S s1 , s2 ,
N
, sqN
s jN
计匹配编码,根据信源的不同概率分布而选用与之相 匹配的码。
第五章:无失真信源编码
一、信源编码的相关概念
1. 信源编码概述(续2)
信源的统计剩余度主要决定于以下两个因素 : 1)无记忆信源中,符号概率分布的非均匀性; 2)有记忆信源中,符号间的相关性及符号概率分布 的非均匀性。
怎样压缩信源的冗余度?
C N {w1 , w 2 ,, w q N }
w j w j1 w j2 w jN
s j s j1 s j2
j 1,2,, q N
j1 , j2 ,, jN 1,2,, q
第五章:无失真信源编码
一、信源编码的相关概念
3. N次扩展码(续1)
二次扩展信源符号 s j ( j 1, 2,...,16)
若一个码中所有码字的码长都相等,则称为定长码;
否则为变长码。
第五章:无失真信源编码
一、信源编码的相关概念
5. 奇异性
若一个码中所有码字互不相同,则称为非奇异码; 否则为奇异码。
信源符号si 码1 码2
s1 s2 s3 s4
0 11 00 11
0 10 00 01
第五章:无失真信源编码
第五章 无失真信源编码定理

第三节 等长信源编码定理
•定理5.3的条件式可写为:
长为l 的码符号所能 载荷的最大信息量 长为N的序列平均携带的信息量
l log r > NH ( S )
只要码字传输的信息量大于信源序列携带的 信息量,总可以实现无失真编码。 l •定理5.3的条件式也可写成: log r H ( S ) e N
i
N
1
2
N
是一一对应的:
i Bi (Wi1 ,Wi2 , ,WiN ), i S ,Wil C
N
4)惟一可译码 若任意一串有限长的码符号序列只能被惟 一地译成所对应的信源符号序列,则此码称 为惟一可译码(或称单义可译码);否则就 称为非惟一可译码或非单义可译码。
例:对于二元码 C1 {1, 01, 00} ,当任意给定一串 码字序列,例如“10001101”,只可唯一地划 分为1,00,01,1,01,因此是惟一可译码;而对 另一个二元码 C 2 {0,10, 01} ,当码字序列为 “01001”时,可划分为0,10,01或01,0,01,所 以是非惟一可译的。
P(G eN )
-
(2) 若 i (si1, s i2 ,...,s iN ) GeN,则 2 - N [ H ( s )e ] < P( i ) < 2 - N [ H ( s ) -e ] (3) || GeN || 表示e典型序列集中 e典型序列的个数,则 (1 - )2 N [ H ( s )-e ] <|| GeN ||< 2 N [ H ( s ) e ]
1 N - log P ( si ) 以概率收敛于均值 H ( s ) 熵定义 N i 1 1 N 1 即 - log P ( s i ) - log[ P ( s i ) P ( s 2 ) L P ( s N )] N次扩展信源 N i 1 N 1 - log P ( si s 2 L s N ) H ( S ) 以概率收敛 N 因为 i1 ( si1 si 2 L s i N ) S1 S 2 L S N , (i 1, 2 , L , q N i1 , i2 , L , i N 1, 2 , L , q )
信息论与编码复习总结

信息论与编码复习总结题型:填空、解答、计算1、编码:无失真与限失真信源编码定理编码分为信源编码和信道编码,其中信源编码又分为无失真和限失真三大定理:无失真信源编码定理(第一极限定理)(可逆)信道编码定理(第二极限定理)限失真信源编码定理(第三极限定理)(不可逆)Shannon(香农)信息论:在噪声环境下,可靠地、安全地、有效地传送信息理论。
通信系统模型方框图:信道的种类很多,如电信中常用的架空明线、同轴电缆、波导、光纤、传输电磁波的空间等都是信道。
也可以从信道的性质或其传送的信号情况来分类,例如:无干扰信道和有干扰信道、恒参信道和变参信道、离散信道(Discrete Channel)和连续信道(Continuous Channel)、单用户信道和多用户信道等。
信源的描述:通过概率空间描述平稳包含齐次,而齐次不包含平稳(重要,第二章计算题)定义:若齐次马尔可夫链对一切i,j存在不依赖于i的极限,则称其具有遍历性,p j称为平稳分布(如下)设有一齐次马尔可夫链,其状态转移矩阵为P,其稳态分布为w j=p(s j)自信息量的特性:p(x i)=1,I(x i)=0; p(x i)=0,I(x i)=∞;非负性;单调递减性;可加性;定义:联合概率空间中任一联合事件的联合(自)信息量为:定义:对于给定离散概率空间表示的信源,在出现y事件后所提供有关事件x的信息量定义互信息,单位为比特信道模型:二进制离散信道BSC;离散无记忆信道DMC;波形信道信源编码器的目的:是使编码后所需的信息传输率R尽量小。
信源编码:主要任务就是减少冗余,提高编码效率。
唯一可译码:(任意有限长的码元序列,只能被唯一地分割成一个个的码字,便称为唯一可译码){0,10,11}为唯一可译码,任意有限长码序列:100111000。
(分类)即时码和非即时码变长编码定理:(解答,重要)???1、平均码长:2、根据信源各个符号的统计特性,如概率大的符号用短码,概率小的用较长的码,使得编码后平均码长降低,从而提高编码效率。
信息论与编码第5章

定长编码定理
• 定长编码定理:
• 由L个符号组成的、每个符号的熵为HL(X)的无记 忆平稳信源符号序列X1…Xl…XL,可用 K个符号 Y1…Yk…YK(每个符号有m种可能值)进行定长编 码。对任意ε>0,δ>0,只要
K L
log
m
H
L
(
X
)
则当L足够大时,必可使译码差错小于δ;反之,当
K L
L
log 2 n log 2 m
log 2
27
5
每个英文电报符号至少
要用5位二元符号编码 21
定长编码
• 实际英文电报符号信源,在考虑了符号出现的 概率以及符号之间的依赖性后,平均每个英文 电报符号所提供的信息量约等于1.4比特,大大 小于5比特。
• 编码后5个二元符号只携带约1.4比特信息量。 • 定长编码的信息传输效率极低。
X
Y
信源
信源编码器
信道
L长序列
码表
K长码字
20
定长编码
• 若对信源进行定长编码,必须满足:
nL mK 或 K log n L log m
• 只有当K长的码符号序列数 mK大于或等于信源的 符号数nL时,才可能存在定长非奇异码。
• 例如英文电报有27个符号,n=27,L=1,m=2(二元编码)
K
• 针对信源输出符号序列的统计特性,寻找一定的方 法把信源输出符号序列变换为最短的码字序列。
X
Y
信源
信源编码器
信道
码表
5
编码的定义
• 编码定理证明:
– 必存在一种编码方法,使代码的平均长度可任意 接近但不能低于符号熵;
– 达到这目标的途径就是使概率与码长匹配。 • 统计匹配编码:
信息论与编码期末复习

第三部分、信道编码
3.2 线性分组码
3.2 线性分组码:
码长为n,信息位为k ,记作(n , k); 监督位r =n-k
1、编码
C = K•G
和 P(X)Y0 0..1 22 10 0..1 04 90 0..3 05 9
H(Y | X)= – 0.21log0.3 –0.14log0.2 –0.35log0.5
–0.12log0.4 –0.09log0.3–0.09log0.3
= 1.5114 bit/符号
m
(4)接收符号熵:由 p(yj ) p(xi yj ) i1 P(Y)=(0.21+0.12,0.14+0.09,0.35+0.09)
第二部分、无失真信源编码
2.2 编码方法
1.2 编码方法:
1、Huffman编码:
(1)信源符号按概率大小排队。
(2)合并概率最小的两个符合为一个节点。 (3)节点参与排队放在与自己概率相等符号后面。 (4)重复这个过程直到合并完全部符号。 (5)标记每个分支的的0与1。 (6)从根到叶的路径就给出了相应符号的码字。 (7)计算平均码长与编码效率。
i1
(2)噪声熵 (散布度):
ms
H (Y|X) p(aibj)lop(g bj|ai)
i 1j 1m s
(3)联合熵: H(X)Y p(aibj)lop(g aibj)
i1j1
(4)接收符号熵:
m
H(Y) p(bj)lopg(bj)
(5)损失熵(后验熵):
i1
ms
H (X|Y) p(aibj)lop(g ai|bj)
信息论与编码[第五章无失真信源编码定理与编码]山东大学期末考试知识点复习
![信息论与编码[第五章无失真信源编码定理与编码]山东大学期末考试知识点复习](https://img.taocdn.com/s3/m/80df4dc9b90d6c85ed3ac6c3.png)
第五章无失真信源编码定理与编码5.1.1 信源编码和码的类型1.信源编码2.码的类型若码符号集中符号数r=2称为二元码,r=3称为三元码,……,r元码。
若分组码中所有码字的码长都相同则称为等长码,否则称为变长码。
若分组码中所有码字都不相同则称为非奇异码,否则称为奇异码。
若每个码符号x i∈X的传输时间都相同则称为同价码,否则称为非同价码。
若分组码的任意一串有限长的码符号只能被唯一地译成所对应的信源符号序列则称为唯一可译码,否则称为非唯一可译码。
若分组码中,没有任何完整的码字是其他码字的前缀,则称为即时码(又称非延长码或前缀条件码),否则称为延长码。
本章主要研究的是同价唯一可译码.5.1.2 即时码及其树图构造法即时码(非延长码或前缀条件码)是唯一可译码的一类子码。
即时码可用树图法来构造。
构造的要点是:(1)最上端为树根A,从根出发向下伸出树枝,树枝总数等于r,树枝的尽头为节点。
(2)从每个节点再伸出r枝树枝,当某节点被安排为码字后,就不再伸枝,这节点为终端节点。
一直继续进行,直至都不能伸枝为止。
(3)每个节点所伸出的树枝标上码符号,从根出发到终端节点所走路径对应的码符号序列则为终端节点的码字。
即时码可用树图法来进行编码和译码。
从树图可知,即时码可以即时进行译码。
当码字长度给定,即时码不是唯一的。
可以认为等长唯一可译码是即时码的一类子码。
5.1.3 唯一可译码存在的充要条件(1)对含有q个信源符号的信源用含r个符号的码符号集进行编码,各码字的码长为l1,l2,…,l q的唯一可译码存在的充要条件是,满足Kraft不等式5.1.4 唯一可译码的判断法唯一可译码的判断步骤:首先,观察是否是非奇异码.若是奇异码则一定不是唯一可译码。
其次,计算是否满足Kraft不等式。
若不满足一定不是唯一可译码。
再次,将码画成一棵树图,观察是否满足即时码的树图的构造,若满足则是唯一可译码。
或用Sardinas和Patterson设计的判断方法:计算出分组码中所有可能的尾随后缀集合F,观察F中有没有包含任一码字,若无则为唯一可译码;若有则一定不是唯一可译码.上述判断步骤中Sardinas和Patterson设计的判断方法是能确切地判断出是否是唯一可译码的方法,所以可以跳过前三个步骤直接采用该判断法。
信息论与编码_第5章

R(D)的物理意义
H(X) 信源编码器 R
• • • •
无失真时:R=H(X) 有失真时:R=R(D)=H(X)-H(X/Y)H(X) H(X/Y):由于压缩编码损失的信息 信息率失真函数的物理意义:对于给定信源,在 平均失真不超过失真限度D的条件下,信息率容 许压缩到的最小值为R(D) 。
22
d (a1 , b1 ) d (a1 , b2 ) d (a1 , bm ) d (a , b ) d (a , b ) d (a , b ) 2 2 2 m d 2 1 d (a n , b1 ) d (a n , b2 ) d (a n , bm )
4
5.1.1 失真函数
X={xi},xi{a1,…an} Y={yj},yj{b1,…bm} 信源编码器 失真函数d(xi,yj)
xi y j 0 d(xi ,y j ) α α 0 xi y j
5
失真矩阵
单个符号的失真度的全体构成的矩 阵 d ( xi , y j ) ,称为失真矩阵
凸函数,存在极小值(2.2节)。
•在上述D允许试验信道PD中,可以寻找一种
信道pij ,使给定的信源p(xi)经过此信道传输 后,互信息I(X; Y)达到最小,该最小值就称 为率失真函数。
R( D ) min I ( X ; Y )
PD
•D=?
p(yj/xi)=pij? R(D)=?
20
对于离散无记忆信源,R(D)函数可写成
失真函数也可以按其它的标准,如引起的损失、
风险、主观感觉上的差别等来定义。
8
误码Байду номын сангаас真:
只要发送符号与接收符号不同,由此引起的失
信息论与编码第5章(2)

非分组码 奇异码 码 分组码 非唯一可译码 非奇异码 非即时码 唯一可译码 即时码 (非延长码)
5 2010/12/19
码树:表示各码字的构成(m进制)
树根—码字的起点
0 0 0 1 0 1 0 1 0 0 0 1 0 1 0
A
1 0 1 0 1 0 0 1 0 1
分成r个树枝—码的进制数 中间节点—码字的一部分
x4
x5 x6
20 2010/12/19
结论
香农编码方法特点: 由于ki总是进一取整,香农编码方法不一定是最佳的; 由于第一个消息符号的累加概率总是为0,故它对应 的码字总是0、00、000、0…0的式样; 码字集合是唯一的,且为即时码; 先有码长再有码字; 对于一些信源,编码效率不高,冗余度稍大,因此 其实用性受到较大限制。
KL 1 K log m log M L L
_
2010/12/19
最小
9
定长编码定理
定长编码定理: 由L个符号组成的、每个符号的熵为HL(X)的无记忆 平稳信源符号序列X1…Xl…XL,可用 K个符号 Y1…Yk…YK(每个符号有m种可能值)进行定长编码。 对任意ε>0,δ>0,只要 K log m H L ( X ) L 则当L足够大时,必可使译码差错小于δ;反之,当 K log m H L ( X ) 2 L 时,译码差错一定是有限值,而当L足够大时,译码几乎 必定出错
i 1
5
熵 H ( X ) 0.4 log 0.4 0.3 log 0.3 0.2 log 0.2 2 0.05 log 0.05
1.95
编码效率
x1 x2 x4 x5 x3
H ( X ) 1.95 78% 2 .5 K
信息论基础与编码(第五章)

信息论基础与编码(第五章)5-1 有一信源,它有六种可能的输出,其概率分布如下表所示,表中给出了对应的六种编码12345C C C C C 、、、、和6C 。
(1) 求这些码中哪些是唯一可译码; (2) 求哪些是非延长码(即时码); (3) 对所有唯一可译码求出其平均码长。
001111解:(1)1,2,3,6是唯一可译码; (2)1,3,6是即时码。
5-2证明若存在一个码长为12,,,ql l l ⋅⋅⋅的唯一可译码,则一定存在具有相同码长的即时码。
证明:由定理可知若存在一个码长为的唯一可译码,则必定满足kraft 不等式1。
由定理4可知若码长满足kraft 不等式,则一定存在这样码长的即时码。
所以若存在码长的唯一可译码,则一定存在具有相同码长P (y=0)的即时码。
5-3设信源126126()s s s S p p p P s ⋅⋅⋅⎡⎤⎡⎤=⎢⎥⎢⎥⋅⋅⋅⎣⎦⎣⎦,611i i p ==∑。
将此信源编码成为r 元唯一可译变长码(即码符号集12{,,,}r X x x x =⋅⋅⋅),其对应的码长为(126,,,l l l ⋅⋅⋅)=(1,1,2,3,2,3),求r 值的最小下限。
解:要将此信源编码成为 r 元唯一可译变长码,其码字对应的码长(l 1 ,l 2 ,l 3, l 4,l 5, l 6)=(1,1,2,3,2,3) 必须满足克拉夫特不等式,即LqL L ,,2,1 ∑=-qi l ir1≤4⋅LqL L ,,2,1132321161≤+++++=------=-∑r r r r r r ri li所以要满足 122232≤++rr r ,其中 r 是大于或等于1的正整数。
可见,当r=1时,不能满足Kraft 不等式。
当r=2, 1824222>++,不能满足Kraft 。
当r=3, 127262729232<=++,满足Kraft 。
所以,求得r 的最大值下限值等于3。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章无失真信源编码定理与编码5.1.1 信源编码和码的类型1.信源编码2.码的类型若码符号集中符号数r=2称为二元码,r=3称为三元码,……,r元码。
若分组码中所有码字的码长都相同则称为等长码,否则称为变长码。
若分组码中所有码字都不相同则称为非奇异码,否则称为奇异码。
若每个码符号x i∈X的传输时间都相同则称为同价码,否则称为非同价码。
若分组码的任意一串有限长的码符号只能被唯一地译成所对应的信源符号序列则称为唯一可译码,否则称为非唯一可译码。
若分组码中,没有任何完整的码字是其他码字的前缀,则称为即时码(又称非延长码或前缀条件码),否则称为延长码。
本章主要研究的是同价唯一可译码。
5.1.2 即时码及其树图构造法即时码(非延长码或前缀条件码)是唯一可译码的一类子码。
即时码可用树图法来构造。
构造的要点是:(1)最上端为树根A,从根出发向下伸出树枝,树枝总数等于r,树枝的尽头为节点。
(2)从每个节点再伸出r枝树枝,当某节点被安排为码字后,就不再伸枝,这节点为终端节点。
一直继续进行,直至都不能伸枝为止。
(3)每个节点所伸出的树枝标上码符号,从根出发到终端节点所走路径对应的码符号序列则为终端节点的码字。
即时码可用树图法来进行编码和译码。
从树图可知,即时码可以即时进行译码。
当码字长度给定,即时码不是唯一的。
可以认为等长唯一可译码是即时码的一类子码。
5.1.3 唯一可译码存在的充要条件(1)对含有q个信源符号的信源用含r个符号的码符号集进行编码,各码字的码长为l1,l2,…,l q的唯一可译码存在的充要条件是,满足Kraft不等式5.1.4 唯一可译码的判断法唯一可译码的判断步骤:首先,观察是否是非奇异码。
若是奇异码则一定不是唯一可译码。
其次,计算是否满足Kraft不等式。
若不满足一定不是唯一可译码。
再次,将码画成一棵树图,观察是否满足即时码的树图的构造,若满足则是唯一可译码。
或用Sardinas和Patterson设计的判断方法:计算出分组码中所有可能的尾随后缀集合F,观察F中有没有包含任一码字,若无则为唯一可译码;若有则一定不是唯一可译码。
上述判断步骤中Sardinas和Patterson设计的判断方法是能确切地判断出是否是唯一可译码的方法,所以可以跳过前三个步骤直接采用该判断法。
5.1.5 渐近等分割性和ε典型序列则称此N长序列αi为非ε典型序列。
(2)ε典型序列集5.1.6 无失真等长信源编码定理离散信源S,其信息熵为H∞,用含r个字母的码符号集对N长信源符号序列进行等长编码,若满足l/N≥H∞/logr+ε(ε>0的任意小数),则当N足够大时,可实现几乎无失真编码。
其中,当S为离散无记忆信源时,H∞=H(S);当S为离散平稳信源,H∞为信源的极限熵;当S为马尔可夫信源,H∞为马尔可夫信源的极限熵。
5.1.7 无失真变长信源编码定理(香农第一定理)用含r个字母的码符号集对N长信源符号序列进行变长编码,总能找到一种无失真的唯一可译码,使信源符号所需平均码长满足:5.1.8 无失真信源编码定理和数据压缩1.无失真数据压缩的极限值无失真信源编码定理(无论等长码还是变长码)在理论上指出离散信源的信息熵是信源无失真数据压缩的极限值。
在实际应用上,变长码与等长码相比较,当N不很大时,变长码能更快地接近这极限值,更快地获得较好的压缩效果。
无失真的信源数据压缩是实现减少或消除信源的剩余度,所以在工程实用中又称为冗余度压缩编码。
通过无失真数据压缩编码可使信道的信息传输率提高,(提高了信息传输系统的有效性)达到信源与信道的匹配,使信道得到充分利用。
2.编码后信源信息率、码率和编码效率(1)编码后信源信息率信源编码后平均每个信源符号能载荷的最大信息量,即5.1.9 最佳二元码平均码长为最短的即时码称为最佳码(又称紧致码)。
对于某个给定分布的离散信源,存在一个二元最佳码,此码满足如下性质:(1)概率大的信源符号所对应的码长不大于概率小的信源符号所对应的码长。
(2)两个最小概率的信源符号所对应的码字必具有相同码长。
(3)两个最小概率的信源符号所对应的码字的差别,必与最后一位码元不同。
·对每一种信源编码需掌握其编码方法及其平均码长的极限值范围。
·所讨论的信源编码方法都是针对离散无记忆信源的。
对于离散平稳信源只需将。
N重概率空间看成无记忆信源进行编码即可。
·对于马尔可夫信源,可考虑不同状态下进行信源符号编码,压缩效果可得到改善。
5.1.10 香农(Shannon)码1.编码方法5.1.11 费诺(Fano)码1.编码方法(r元费诺码)(1)将信源符号以概率递减的次序排列。
(2)将它们划分成r个组,使每组的概率和接近相同,并各赋予一位码元。
(3)再将每一组按同样原则划分,重复步骤(2),直至各组不再可分为止。
这样,所对应的码符号序列则为所编码字。
2.平均码长的极限5.1.12 霍夫曼(Huffman)码1.编码方法(r元霍夫曼码)(1)信源符号个数q必须满足q=(r-1)θ+r(θ表示缩减次数)。
不满足时,设一些概率为零的虚假符号,使其满足。
当r=2时,任意整数q一定满足。
(2)将信源符号以概率递减的次序排列。
(3)给r个概率最小的信源符号各分配一位码元,并将它们合并成一个新符号,r个最小的概率之和作为新符号的概率,从而得到只包含q-(r-1)个信源符号的新缩减信源S1。
(4)把缩减信源S1重新按概率递减的次序排列(若此时把所得的新符号尽可能排列在靠前位置上,所得码的方差最小),重复步骤(3),得只含q-2(r-1)个信源符号的缩减信源S2。
(5)以此继续,直至缩减信源只剩r个符号为止。
然后,从最后一级缩减信源起,依编码路径向前返回,所得码符号序列就是所对应的码字。
2.平均码长的极限信源给定情况下,霍夫曼码是最佳即时码。
其各码字的码长是唯一的,但具体码字不是唯一的。
平均码长的界限为5.1.13 香农-费诺-埃利斯码1.编码方法(1)将信源符号X={a1,a2,…,a q)依次排列(不要求以概率大小排序)。
5.1.14 游程编码和MH编码1.游程编码(RLC)游程编码是一种针对相关信源的有效编码方法,尤其适用于二元相关信源。
有时实际工程技术中常将游程编码和其他编码方法混合使用,能获得更好的压缩效果。
信源输出的字符序列中各种字符连续地重复出现而形成一段一段的字符串,称这种字符串的长度为游程,又称游长。
游程编码就是将信源字符序列映射成串的字符、串的长度和串的位置的标志序列。
(1)二元信源游程编码编码方法:①将一维二元序列中,分出一段一段的“0”符号串和“1”符号串,对应段中的符号个数标记为“0”游程长度L(0)和“1”游程长度L(1)。
②对串的长度即游程长度用自然数标记,并一般规定信源序列从“0”游程起始,所以二元信源序列总是“0”游程和“1”游程交替出现。
③将二元信源序列映射成交替出现的表示游程长度的自然数序列(即为对应的游程长度的标志序列)。
一般情况,对“0”游程长度和“1”游程长度也可分别编码,建立各自的码字和码表(如霍夫曼编码)。
编码效率η(游程编码和霍夫曼编码)其中p0,p1为“0”和“1”符号的概率。
η0和η1为游程长度为“0”和“1”霍夫曼编码效率。
(2)多元信源游程编码将多元信源输出的多元序列映射成一一对应的标志序列。
一维多元信源序列需选用表示串的字符、串的长度的两个标志参量。
二维多元信源序列需选用表示串的字符、串的长度及串的位置三个标志参量。
2.MH编码MH编码是用于黑白二值文件传真的数据压缩码。
它是一维编码方案。
它是游程编码和霍夫曼码相结合的一种标准的改进霍夫曼码。
根据“黑”、“白”的不同游程长度有两张结尾码(终端码)表和两张组合码(形成码)表。
(1)编码方法①游程长度在0~63时,直接查表用相应的结尾码为码字。
②游程长度在64~1728时,用组合码加上结尾码为相应码字。
③规定每行从白游程开始,每行结束用结束码(EOL)。
④用于传输时,每页文件开始第一数据前加一结束码,每页结尾连续用6个结束码。
为了传输还要考虑实现同步的操作。
5.1.15 算术编码算术编码是非分组码,它从全信源序列出发,考虑符号之间的依赖关系直接对信源符号序列进行的编码。
算术编码的主要概念是将信源符号序列的累积分布函数和[0,1)区间中的一个数C联系起来,不同的信源符号序列对应于不同的无重叠小区间中的数。
所以,这个码是即时码。
1.编码方法(1)用递推公式计算信源序列的累积分布函数F(s)和所对应区间的宽度A(s):5.1.16 字典码字典码又称LZ码,是一种通用编码方法,无需知道信源的统计特性,而且编码效率很高。
基本算法是,将长度不同的符号串编成一个个新的短语(符号串),形成短语词典的索引表,进行编译码。
1.LZ-77编码编码算法的主要思想是设一个滑动窗口,将已输入的数据流存储起来,作为字典使用。
然后用三元标识(K,l,d)即(移位数,匹配串长度,首字符),对数据流编码,形成标识符序列。
此编码字典不用传送,可以边译码,边建立译码字典。
2.LZ-78编码LZ-78是一种分段编码算法。
他的短语词典是由前面已见到的文本进行分段来定义的。
因而可将标识改为二元标识的形式。
同样可以边译码边建成字典表。
3.LZW编码LZW编码是LZ系列码中应用最广,变形最多的码。
编码算法则是先建立初始化字典,再分解输入数据为“短语词条”,形成新词条,构成编码器的字典表。
编码时只需一项指向字典的指针标识符,实现简化标识。
此编码译码时需首先建立初始化字典,然后边译码边重建字典表。