第五章信源编码
第5章无失真信源编码定理
如果我们要对信源的N次扩展信源进行编码,也必须满足
qN rl , 两边取对数得: l log q
l
N log r
N 表示平均每个信源符号所需的码符号个数。
5.2 等长码
例:对英文电报得32个符号进行二元编码,根据上述关系:
l log 32 5 log 2
我们继续讨论上面得例子,我们已经知道英文的极限 熵是1.4bit,远小于5bit,也就是说,5个二元码符号只携带 1.4bit的信息量,实际上,5个二元符号最多可以携带5bit 信息量。我们可以做到让平均码长缩短,提高信息传输率
0.8112
0.4715
若采用等长二元编码,要求编码效率 0.96 ,允许错误率
105 ,则: N 4.13107
也就是长度要达到4130万以上。
5.5 变长码
1、唯一可译变长码与及时码
信源符号 出现概率 码1
码2
码3
码4
s1
1/2
0
0
1
1
s2
1/4
11
10
10
01
s3
1/8
00
00
密码:是以提高通信系统的安全性为目的的编码。通常通过加 密和解密来实现。从信息论的观点出发,“加密”可视为增熵 的过程,“解密”可视为减熵的过程。
5.1 编码器
信源编码理论是信息论的一个重要分支,其理论基础是信源编 码的两个定理。 无失真信源编码定理:是离散信源/数字信号编码的基础; 限失真信源编码定理:是连续信源/模拟信号编码的基础。
5.1 编码器
信源编码:以提高通信有效性为目的的编码。通常通过压缩信 源的冗余度来实现。采用的一般方法是压缩每个信源符号的平 均比特数或信源的码率。即同样多的信息用较少的码率传送, 使单位时间内传送的平均信息量增加,从而提高通信的有效性。
第5章信源编码
第5章信源编码
编码器的作用
将信源符号集 X 中的符号 符号集 y 中的码元 一对应的码字 。
变换成由码 组成的长度为 Ki 的一
码字集合叫做代码组Y;码字
为该码字的码长,记为 Ki 。
第5章信源编码
所含码元的个数称
分组码 将信源消息分成若干组,即符号序列,每个符号 序列依照固定码表映射成一个码字,这样的码称 为分组码,有时也叫块码。只有分组码才有对应 的码表,而非分组码中则不存在码表。 例:
• 任一即时码都可用树图法来表示。 • 当码字长度给定,即时码不是唯一的。
该码树从根到终端节点所经路径上, 每一个中间节点皆为码字,因此码 3 不是即第5时章信码源编,码 但它是唯一可译码。
若将信源 X 通过二元信道传输,就必须把信源符 号ai 变换成由0 、 1符号组成的码符号序列,这个 过程就是信源编码。第5章信源编码
定长码 固定长度的码,码中所 有码字的长度都相同。
变长码 可变长度码,码中的码字 定长码 变长码长短不一。
若 0 、 01 都是码字,译码时如何分离?
分组码 / 块码将信源符号集中的每个符号映射成一个固 定的码字。分组码必须具有某些属性,才能保证在接 收端能够迅速可靠地译码第5章。信源编码
第5章信源编码
信源编码 无失真编码 无失真信源编码定理 限失真编码 限失真信源编码定理
无失真 ( 冗余度压缩编码 ) :仅对信源的冗余度进行 压缩,不改变信源的熵。无失真编码是可逆的,即当 信源符号变换成代码后,可从代码无失真地恢复出原 信源符号。只适用于离散信源。
限失真 ( 熵压缩编码 ) :在失真受限的情况下进行限 失真编码。在连续信源的情况下,由于信源的信息量 趋于无限,显然不能用离散符号序列来完成无失真编 码,而只能进行限失真编码。
第5章:信源编码
可以看出,编码效率并不是很高。
4、费诺编码
将概率按从大到小的顺序排列,令:
p(x1)≥ p(x2)≥…≥ p(xn)
按编码进制数将概率分组,使每组概率尽可能接近或相
等。如编二进制码就分成两组,编 m 进制码就分成 m
组。
给每一组分配一位码元。 将每一分组再按同样原则划分,重复步骤 2 和 3,直 至概率不再可分为止。
麦克米伦不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则唯一可译码 存在的充要条件是:
r
i 1
n
li
1
不同编码方式的衡量标准
平均码长:对离散无记忆信源进行信源编码,设编码后各个 码字的码长分别为
信源熵为:H(X)=2.75(比特/符号) 平均码长为:
K (0.25 0.25) 2 0.12 2 3 0.0625 4 4 2.75 (比特/符号)
编码效率为η=1。之所以如此,因为每次所分两组的 概率恰好相等。
5、哈弗曼编码 哈夫曼(Huffman) 编码是一种效率比较高的变长无失 真信源编码方法。
0 1
即时
s2
任何一个码字不是其它码字的延长或前缀
即 时 码
即时码的判决准则
克拉夫特不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则即时码存在 的充要条件是:
r
i 1
n
li
1
唯一可译码的判决准则
2、编码的分类 信源编码可看成是从信源符号集到码符号集的一种映射,即将 信源符号集中的每个元素(可以是单符号,也可以是符号序列)映 射成一个长度为n的码字。对于同一个信源,编码方法是多种的。 【例5.1】 用{u1 ,u2 ,u3,u4, } 表示信源的四个消息,码符号集 为{0,1},表1列出了该信源的几种不同编码。 表1 同一信源的几种不同编码 信 源 消息 u1 u2 u3 各消息 概率 q(u1) q(u2) q(u3)
第五章信源编码(编码定义及定长编码)
所以送一个信源符号x需要的平均信息率为:
K KL logm L
信息率最小就是找到一种编码方式使
KL logm L
最小。
5.2.1定长编码定理
定义:各个码字码长都相等的码 定长码中每个码字长度相等,所以只要定长码是非奇异
码,则必为唯一可译码
非奇异码 唯一可译码
即时码
非奇异码 唯一可译码
即时码
变长码
等长码
消息
概率
C1
C2
C3
C4
C5
C6
u1
1/2
000
0
0
0
1
01
u2
1/4
001
01
10
10
000
001
u3
1/16
010
011
110
1101 001
100
u4
1/16
011
0111 1110 1100 010
101
u5
1/16
100
01111 11110 1001 110
110
u6
1/16
101
解码:按照码符号的顺序,从根节点依次查询到终端节点,就得到对应的 信源符号。再从根节点对剩下的码符号序列做相同的处理,直到处理完码 符号序列中所有的码符号
对应表中的码4分析
A01Fra bibliotek01
1
0
0
1
0
10 1
0
1
000
001 010
011 100 101 110
111
一阶节点 二阶节点 三阶节点
唯一可译码存在的充要条件
我们之后介绍的是二元信道中的编码。
第五章 信源编码
第五章信源编码信息论基础第五章信源编码 本章主要讨论的问题:5.1 离散信源编码5.1.1 编码器5.1.2分组码5.1.3定长码5.1.4 变长码5.2 连续信源编码5.3 相关信源编码简介信源编码:以提高通信有效性为目的的编码。
通常通过压缩信源的冗余度来实现。
采用的方法是压缩每个信源符号的平均比特数或信源的码率。
即同样多的信息用较少的码率传送,使单位时间内传送的平均信息量增加,从而提高通信的有效性。
信源编码理论是信息论的一个重要分支,其理论基础是信源编码的两个定理。
–无失真信源编码定理:是离散信源/数字信号编码的基础;–限失真信源编码定理:是连续信源/模拟信号编码的基础,如语音、图像等信号。
信源编码的分类:离散信源编码、连续信源编码和相关信源编码三类。
–离散信源编码:独立信源编码,可做到无失真编码;–连续信源编码:独立信源编码,只能做到限失真信源编码;–相关信源编码:非独立信源编码。
编码器编码器可以看作这样一个系统,它的输入端为原始信源S ,其符号集为;而信道所能传输的符号集为。
编码器的功能是用符号集X 中的元素,将原始信源的符号变换为相应的码字符号,所以编码器输出端的符号集为称为码字,为码字的码元个数,称为码字的码字长度,简称码长。
码字的集合C 称为码书。
称为码元。
12{,,...,}q S S S S =12{,,...,}r X x x x =12{,,...,}q S s s s =12{,,...,}r X x x x =编码器12:{,,...,}q C W W W 12:{,,...,}q C w w w i S i w i w i L i w i w i x例:二元信道的信源编码器:码符号集X={0,1},如果要将信源通过二元信道传输,必须将信源编成二元码,这也是最常用的一种码。
等长码非等长码非奇异码非奇异码 等长码与变长码码中各个码字都是由同样多个码元构成的,称为等长码,反之,称为变长码。
第5章 信源编码 第1讲 无失真信源编码 定长编码定理 2016
00 01 10 11
0 01 001 111
12/62
余 映 云南大学
5.1 编码的定义
• 采用分组编码方法,需要分组码具有某些属性, 以保证在接收端能够迅速准确地将码译出。 • 下面讨论分组码的属性:
余 映 云南大学
13/62
5.1 编码的定义
• (1) 奇异码和非奇异码
– 若信源符号和码字是一一对应的,则该码为非奇异码; 反之为奇异码。 – 例如表中码1是奇异码,其他是非奇异码。
信源符号 出现概率 码1 码2 码3 码4
A B C D
1/2 1/4 1/8 1/8
0 11 00 11
余 映 云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
18/62
5.1 编码的定义
• (3) 即时码和非即时码
– 唯一可译码又分为非即时码和即时码。 – 即时码是一种没有一个码字构成另一码字前缀的码。 在译码时没有延迟,收到一个完整码字后就能立即译 码。 – 如果收到一个完整码字后,不能立即译码,还需等下 一个码字开始接收后才能判断是否可以译码,这样的 码叫做非即时码。
信源符号
出现概率
码1
码2
码3
码4
a1 a2 a3 a4
1/2 1/4 1/8 1/8
0 11 00 11
余 映 云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
14/62
5.1 编码的定义
• (2) 唯一可译码和非唯一可译码
– 若任意有限长的码元序列,只能被唯一地分割成一个 个的码字,则称为唯一可译码。 – 例如{0, 10, 11}是一种唯一可译码。 – 因为任意一串有限长码序列, – 如100111000
信息论与编码第5章 信源编码技术
哈夫曼码的主要特点 1、哈夫曼码的编码方法保证了概率大的符号对 应于短码,概率小的符号对应于长码,充分 利用了短码; 2、缩减信源的两个码字的最后一位总是不同, 可以保证构造的码字为即时码。 3、哈夫曼码的效率是相当高的,既可以使用单 个信源符号编码,也可以对信源序列编码。 4、要得到更高的编码效率,可以使用较长的序 列进行编码。
5.1.2费诺码
费诺码的基本思想: 1、按照累加概率尽可能相等的原则对信源符号 进行分组: 对于二元码,则每次分为两组; 对于d元码,则每次分为d个组。 并且给不同的组分配一个不同的码元符号。 2、对其中的每组按照累计概率尽可能相等的原 则再次进行分组,并指定码元符号,直到不能 再分类为止。 3、然后将每个符号指定的码元符号排列起来就 得到相应的码字。
算术编码
适用于JPEG2000,H.263等图像压缩标准。 特点: 1、随着序列的输入,就可对序列进行编码 2、平均符号码长 L 满足
1 H (X ) L H (X ) N
(最佳编码)
3、需要知道信源符号的概率 是对shanno-Fanno-Elias编码的改进。
累计分布函数的定义
H(X ) H(X ) L 1 log d log d
费诺码的最佳性
1、保证每个集合概率和近似相等,保证d个码元近 似等概率,每个码字承载的信息量最大,码长近似 最短。 2、是次最佳的编码方法,只在当信源符号概率满足:
p(ai ) d
时达最佳。
li
信源符号
a1 a2 a3 a4 a5 a6 a7 a8 a9
费诺二元码的编码步骤
1、将源消息符号按概率大小排序:
p1 p2 p3 pn
2、将依次排列的信源符号分为两大组,使每组的概 率和尽可能相等,且每组赋与二进制码元“0”和 “1”。 3、将每一大组的信源符号再分为两组,使每组的概 率和尽可能相等,且每组赋与二进制码元“0”和 “1”。 4、如此重复,直至每组只剩下一个符号。 信源符号所对应的码字即费诺码。
第五章 信源编码LVRH1010
解:将信源通过一个二元信道传输,就必须把信源符号si变换 成由0,1符号组成的码符号序列,即进行编码。可以用不同 的二元码符号序列与信源符号 一一对应,就得到不同的码。
信源符号 P(si) s1 s2 s3 s4 P(s1) P(s2) P(s3) P(s4) 码1 00 01 10 11 码2 0 01 001 111 5.1 编码的定义 定长码 变长码 二次扩展信源符号 二次扩展码字 S1=S1S1 s2=S1S2 …… s4=S4S4 00 001 …… 111111
l ≥ log r q = 5
分析:考虑到符号出现的概率以及符号之间的相关性后,实际平均每 分析 个英文电报符号所提供的信息量约1.4bit,远小于5bit,因此定长编码 后,每个码字只载1.5bit信息,5个二进制符号最大能载5bit信息 ,因 此,定长编码的信息传输效率低。 解决方案: 解决方案 (1)对于不会出现的符号序列不予编码,这样不会造成误差; (2)对于概率非常小的信源符号序列不予编码,这样可能会造成一 定误差,但当信源符号序列N足够大,误差概率非常小
第五章 信源编码 五
问题
• 对信源有两个重要问题 1. 信源输出的信息量的度量问题 度量问题; 度量问题 2. 如何更有效地 有效地表示信源输出的问题 输出的问题; 有效地 输出的问题
信源输出的符号序列,经过信源编码,变换成 适合信道传输的符号序列,同时,在不失真或允许 一定失真的条件下,用尽可能少的码符号来传递信 源消息,提高信息传输的效率。
i =1 8
a7 0.05
a8 , 0.04
HL (X ) 2 .55 得K = = 2.83bit / 符号 90 % K 即每个符号用 2.83bit 进行定长二元编码,共 有 2 2.83 = 7.11种可能性 若取 L = 1,据 η = 根据 η = H( X ) = 0.9 ⇒ ε = 0 .28 H (X ) + ε
数字通信原理05-信源编码
信息码元 监督码元 1011000 1 1101001 0 0110011 1 0110110 0 1001100 1 1011000 1
(1)这种码比水平奇偶校验码有更强的检 错能力。它能发现某行或某列上奇数个错误 和长度不大于方阵中行数(或列数)的突发 错误。
(2)这种码还有可能检测出一部分偶数个 错误。当然,若偶数个错误恰好分布在矩阵 的4个顶点上时,这样的偶数个错误是检测 不出来的。
1.基本原理
差错控制的核心是差错控制编码,不同的编 码方法,有不同的检错或纠错能力,差错控 制编码一般是在用户信息序列后插入一定数 量的新码元,这些新插入的码元称为监督码 元。它们不受用户的控制,最终也不发送给 接收用户,只是系统在传输过程中为了减少 传输差错而采用的一种处理过程。如果信道 的传输速率一定,加入差错控制编码,就降 低了用户输入的信息速率,新加入的码元越 多,冗余度越大,检错纠错越强,但效率越 低。由此可见,通过差错控制编码提高传输 的可靠性是以牺牲传输效率为代价的。
(3)这种码还可以纠正一些错误,例如, 某行某列均不满足监督关系而判定该行该列
5.2.3 汉明码
1、线性分组码
线性码:监督码元与信息码元之间的关系可以 用线性方程表示
分组码:监督码元仅与本组中的信息码元有关
(1)线性分组码的基本概念
线性分组码:将信息序列分为每k位一组的信息序列段,每 个信息序列段按照一定的规律添加r个监督码元,构成总码长 为(n=k+r)的分组码,记为(n,k)。
【例5-1】设输入电话信号抽样值的归一化动 态范围在-1至+1之间,将此动态范围划分 为4096个量化单位,即将1/2048作为1个量化 单位。当输入抽样值为+1270时,试按照13 折线A律特性编码,并求量化误差。
第5章 信源编码3PPT课件
通分过为预~x n 测所,携我带们的将信息x n 量所,携它带实的际信上息是量分xn成1,了xn两2,部分所:携一带部 的信息量;另一部分是d n 所携带的信息量,它才是 x n所携 带信息量的新增加部分。只要预测足够准确,d n 就足够小。 因此,如果是对d n 进行量化、编码而不是对x n 进行量化、 编码,就会减少信息冗余,从而提高编码效率。
12
5.3.1 预测编码
为方便,将第 n个时刻的信号值 x(nTs )记为x n ,相应第 n1,n2,个时刻的信号值记为 xn1,xn2,。 对于时间相关的信号序列,由于 x n 与 xn1,xn2,相关, 故只要知道 xn1,xn2,,就可对 x n 进行预测。 设预测值为~x n ,则 xn~ xndn, d n 称为预测误差。
a2
平面的划分:
S3 S2
S4
S1
a1
S6
S5
7
然后对于所划分的每一块给定一个量化矢量(相当于标量 量化中的量化值),记为 Xq,ii1,2,,N ;通常将其取 为所划分块的形心。 在矢量量化中,一般将每个量化矢量 Xq,ii1,2,,N 称 为码字或码矢,将所有 N个量化矢量构成的集合
{Xq1,Xq2, ,XqN } 称为码书;因此,矢量量化中 这项最重要的工作称为码书的建立。
利用训练序列建立码书。 二、全搜索算法和树搜索算法
常用时间复杂度和空间复杂度来衡量矢量量化:时间复杂度是指每 量化一个信号矢量所需的计算量,它主要取决于搜索过程中乘法运 算的次数;空间复杂度是指码书所需的存储容量。
10
§5.1 离散信源编码
§5.2 连续信源编码
§5.3 相关信源编码 •预测编码 •差值编码
§5.1 离散信源编码
第5章 信源编码
计算符号序列长度L
2(X ) L L 2
若已知编码效率η和译码错误概率δ
H (X ) H (X )
(1 ) H ( X )
西南石油大学理学院
三、变长编码定理
1 平均码长的界限—变长编码定理 符号信源空间 X x1 P p( x ) 1
KL log m H ( X ) L
当L足够大时, 必定可使译码码小于δ。若
KL log m H ( X ) 2 L 译码差错一定是有限值 , 当L足够大时,译码必定出错。
西南石油大学理学院
2 切比雪夫不等式 设随机变量ξ有数学期望Mξ及方差Dξ, 则对任何正数ε,不等 式
p(| M | )
因为 K i
log p( x i ) logm
K i logm log p( x i )
所以 K i log log p( xi )
logm
Ki
log p( xi )
所有码字长度满足Kraft不等式。
m K i p( x i )
如何降低平均码长:
m K i p( x i ) 1
七、唯一可译码存在的条件
1°前提条件:非奇异码
西南石油大学理学院
2°唯一可译码存在定理 设n为信源符号或信源符号序列个数,m为码元个数,Ki 为
信源各符号或信源符号序列对应的码长。则唯一可译码存在的 充分和必要条件是满足Kraft不等式
m Ki 1
i 1
n
【注意】
Kraft不等式是一个存在定理,不是唯一可译码的判定定理;
【例 2】 x1→1 x2→10 x3→11
第五章信源编码
信源符号 码1 a1 a2 a3 a4 00 01 10 11 码2 00 00 10 11 码3 1 00 01 10 码4 1 10 110 111 码5 1 01 011 111
且惟一可译。 码
{
非分组码 分组码
分组码:将信源符号序列分成 若干组或块,再进行编码
{
奇异码
非奇异码
{
非唯一可译码 非即时码 唯一可译码 即时码
{
四、码树和kraft不等式 1、 即时码可以用码树来构造,如用二进制码树。 •树根A(倒着长) •二进制---两个树枝, 标号0,1;产生两个 一级节点。 •第n级,2n个n级节点 •终端节点----不再长 出分枝的节点。 例如:n=4,共16个终端节点,可以表示符号数为16 的信源的 每一个符号a1,a2,a3 a4 a5 …a16。用树根到每个终端节点的树枝 标号构成的序列作为该节点信源符号的编码输出(即码字)
由L个符号组成的、每个符号的熵为 HL (X) 的无记忆平稳 信源符号序列 X1X2 Xl XL ,可用KL个符号 Y1, Y2 ,, Yk ,, YK L
时,译码差错一定是有限值,而当L足够大时,译码几乎必定 出错(译码错误概率接近于1)。
1、解释: KL/L-----编码时,每个信源符号输出的 码长。即每个信源符 号用KL/L 个码元来表示。
一、定长编码定理:
码长为 K L的m进制定长非奇异码共有 mK L 个,而被编码的符号 序列总数为.n L;显然,只要 mK L n L , 就可以输出惟一可译码 。
_
第五章信源编码
§5.1.4 信源编码
最佳码定义: 能载荷一定的信息量;
且码字平均长度最短;
可分离的变长码的码字集合。 常用的编码方法:香农码、费诺码、哈夫曼编码。
使出现概率大的信源符号编码后码长尽量短一些。-------编码方法的出发点。
1. 香农编码方法
设信源符号集 X
香农编码是采用信源符号的累计概率分布函数来分配码字。
p ( xi )
1〉码字长度计算
以
i 4 为例,
ห้องสมุดไป่ตู้
累加概率 Pi 0 0.2 0.39 0.57 0.74 0.89 0.99
l og2 p ( xi )
2.34 2.41 2.48 2.56 2.74 3.34 6.66
码字长度 3 3 3 3 3 4 7
Ki
码字 000 001 011 100 101 1110 1111110
码的分类 信源编码可看成是从信源符号集到码符号集的一种映射,即将 信源符号集中的每个元素(可以是单符号,也可以是符号序列)映 射成一个长度为n的码字。对于同一个信源,编码方法是多种的。 【例3.3】 用{u1 ,u2 ,u3,u4}表示信源的四个消息,码符号集为 {0,1},表3-1列出了该信源的几种不同编码。 表3-1 同一信源的几种不同编码 信 源 消息 u1 u2 u3 u4 各消息 概率 q(u1) q(u2) q(u3) q(u4) 码1 00 11 10 11 码2 00 01 10 11 码3 0 1 00 11 码4 1 10 100 1000
一、 通信系统的优化模型:
信
UL
源
信 源 编 码
S
m
加 密
Cm
信 道 编 码
Xn
第五章 信源编码(完结)
5.1编码的定义
非分组码 奇异码 码 分组码 非唯一可译码 非即时码 非奇异码 唯一可译码 即时码 (非延长码)
码树 表示各码字的构成
树根—码字的起点 0 0 1 0 A 1 0 1 0 0 1 1 1 0 0 二进制码树 节数—码长 01 2 1 2 0 分成r个树枝--r为码的进制数 中间节点—码字的一部分 终端节点—码字1101
K1=1,K2=2,K3=2,K4=3,应用Kraft不等式,得:
2
i 1
4
Ki
2 2
110
10 0 0 0 1 0
1
2
2
2
2
3
9 1 8
111 11
1
不存在满足这种 Ki的唯一可译码 这样的码字就存 在唯一可译码 中间节点
如果将各码字长度改成K1=1,K2=2,K3=3,K4=3,则
信源
X信源编码器Fra bibliotekY信道
码表
5.1编码的定义
如果信源输出的符号序列长度L=1,则信源符号集为:
A {a1 , a2 ,
, an }
an p(an )
信源概率空间为:
X a1 P p(a ) 1
a2 p(a2 )
若要将信源X通过二元信道传输,就必须把信源符号ai变换成 由0,1符号组成的码符号序列Y ,这个过程就是信源编码。所 编出的码称为二元码。
5.2 无失真信源编码
•信源编码器输入的消息序列: X ( X1, X 2 , , X l , , X L ), X l {a1, a2 , •输出的码序列(码字)为:
, ai ,
, an}
P93 例5-3
第五章 信源编码20121103
物理与信息工程学院 郭里婷
25
2012-11-8
第2节 无记忆信源的无失真编码
三、定长编码定理
如何尽可能做到:η = 1, H L ( X) = K , 且无译码错误? 答案:η、H L ( X)和m不变的情况下,增大L
物理与信息工程学院 郭里婷
26
2012-11-8
第2节 无记忆信源的无失真编码
物理与信息工程学院 郭里婷
23
2012-11-8
第2节 无记忆信源的无失真编码
三、定长编码定理
如何尽可能做到:η = 1, H L ( X) = K , 且无译码错误?
物理与信息工程学院 郭里婷
24
2012-11-8
第2节 无记忆信源的无失真编码
三、定长编码定理
例8:X l ∈ { A, B, C , D, E , F , G, H }, B C D E F G H ⎤ ⎡ Xl ⎤ ⎡ A 概率空间 ⎢ ⎥ = ⎢ P ⎦ ⎣0.4 0.18 0.1 0.1 0.07 0.06 0.05 0.04 ⎥ ⎣ ⎦ L = 100 ⇒ H L ( X) = H ( X ) = 2.55bit / 符号, 个信源序列 8100 当m = 2时,若仍要求η = 1,则K L = 255码元 / 序列, 2255 个码字 仍有2255 < 8100,但8100 个信源序列,可能有些出现的概率较小, 所以即使没有给它们分配码字,也不会引起太大的译码差错,δ
3.即时码和非即时码 即时码(非延长码):当收到一个完整的码字后,可以 立即译码 ;反之为非即时码
例5: 如码{1, , , } , 01 001 0001 如码{110, , } , , 100 1000
!即时码是惟一可译码
第5章 信源编码
5.1.3 费诺编码
从以上例子看出,费诺码的编码方法实际上是构造码树
的一种方法,所以费诺码是非延长码(即时码)。
费诺码考虑了信源的统计特性,使经常出现的信源符号 对应短码字。但是,不一定能使短码得到充分利用。 费诺码不一定是最佳码。
5.1.4 哈夫曼(Huffman)编码
二进制哈夫曼码的编码方法:
2
2 3 3 4 4 4
1
a8
0.0625
1
1111
4
5.1.3 费诺编码(例2续)
平 均 码 长 : p( ai )K i 2.75码 元/符 号 K
i 1 8 8
信 源 熵 : ( X ) - p(ai ) log p(ai ) 2 .75比 特/符 号 H
i 1
对 单 符 号 信 源 编 二 进 码 ,L 1,m 2, 则 信 源 采 用 费 诺 编 码 制 所需的信息率: K log m K 2.75 特/码 元 R 比 L H ( X ) H ( X ) 2.75 编码效率: 100 % R 2.75 K 每 次 分 两 组 的 概 率 恰相 等 , 达 到 了 最 佳 编效 率 。 好 码
2.确定满足下列不等式的整数码长Ki;
log2 p( xi ) K i 1 log2 p( xi )
3.为了编成唯一可译码,计算第i个消息的累加概率;
Pi p xk i 1,2 ,...,n
k 1
i 1
4.将累加概率Pi变换成二进制数;
5.取Pi二进数的小数点后Ki位即为该消息符号的二进制码字。 可以证明,这样得到的编码一定是唯一可译码,且码长比较短,接 近于最佳编码。
五章节信源编码
• 码树中自树根经过一个分枝到达一阶节点,一阶节点最 多为r个,二阶节点的可能个数为r2个,n阶节点最多有 rn个,若将从每个节点发出的个分枝分别标以0,1,…, r-1,则每个n阶节点需要用n个r元数字表示。如果指定 某个n阶节点为终端节点,用于表示一个信源符号,则 该节点就不再延伸,相应的码字即为从树根到此端点的 分枝标号序列,该序列长度为n,用这种方法构造的码 满足即时码的条件,因为从树根到每一个终端节点所走 的路径均不相同,所以一定满足对即时码前缀的限制。 如果有个q信源符号,那么在码树上就要选择q个终端节 点,用相应r的元基本符号表示这些码字。
第五章 信源编码
• 信源编码的基本途径有两个:
– 一是编码后使序列中的各个符号之间尽可能地 互相独立,即解除相关性----方法包括预测编 码和变换编码.
– 二是使编码后各个符号出现的概率尽可能相等, 即均匀化分布----方法主要是统计编码.
• 信源编码常分为无失真信源编码和限失真信源 编码,前者主要用于文字、数据信源的压缩, 后者主要用于图像、语音信源的压缩。
H (S ) r2 ,H r(S )H (S ), L
• 在二元信道中,若编码效率 =1,R=1比特/码符
号,则达到信道的信道容量,此时编码效率最高,
码的剩余度为零。
• 前面已经说明,对于某一个信源和某一符号集来 说,凡是满足克拉夫特不等式的惟一可译码可以 有多种,在这些惟一可译码中,如果有一种(或 几种)码,其平均编码长度小于所有其他惟一可 译码的平均编码长度,则该码称为最佳码(或紧 致码)。
l o g p ( s i ) l i l o g p ( s i ) 1( i 1 ,, q )
或: li logp(1 si)
(i1, ,q)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
00010
00011
H (X ) 2 .5 5 (b it/sig n ) K 2.61
H(X) 97.7% K
若采用定长编码,码长K3,则编码效率
=2.55=85%
3 可见,哈夫曼编码的效率提高了12.7%。
例 设有离散无记忆信源
P(X X)0 a.1 4
a2 0.2
a3 0.2
a4 0.1
4 把pa(aj )用二进制表示,用小数
点 后 的 k位 作 为 ai的 码 字
例
设有一单符号离散无记忆信源
P(X X) 0.a2 1 50a .2 2 50 a.3 20a .1 4 50 a.5 10a .0 6 5
试对该信源编二进制香农码。
编码过程
(1)
j1
pa(aj ) p(ai )
a 6 0.04
00 01 10
0
0 1
1
110 1110 1111
H (X ) 2 .3 5 (b it/sig n )
6
K p(ai)ki 2.4 i1
H(X)H(X)97.92%
RK
费诺码比较适合于每次分组概率都很接近 的信源。
5.1.3 赫夫曼编码
1 将信源符号按概率由大到小顺序排队; 2 给两个概率最小的符号各分配一个码位,
将其概率相加后合并作为一个新的符号, 与剩下的符号一起,称为缩减信源;
3 将缩减信源符号仍按概率由大到小顺序 排队;
4 重复步骤2、3直至概率和为1。
例 设有一单符号离散无记忆信源
P (X X ) 0 a .1 40 a .1 2 8 0 a .3 10 a .4 10 a .0 5 7 0 a .0 60 a .6 0 7 5 0 a .0 8 4
1 按信源符号的概率从大到小的顺序排队.)
2 令p(a0) 0,用pa(aj ),j i 1 j1 表 示 第 i个 码 字 的 累 加 pa(a概 j ) 率p(ai ) 1 i1
3 lo 2 p ( a g i) k i 1 lo 2 p ( a g i)
试对该信源编二进制哈夫曼码。
a 1 0 .4
a 2 0 . 18
a 3 0 .1 a 4 0 .1
a 5 0 . 07 a 6 0 . 06
ax 77 0 . 05
a 8 0 . 04
编码过程
0.6
0.37 0
0.23
1
0.19
0
1
0.13
0
1
0
0.09
1
0
1
0
1
0
11
001
011 0000
0100
组合编码可获得较高的编码效率:
游程编码
赫夫曼编码
5.1.6 冗余位编码
冗余位 信源序列中不携带信息的符号。 多元信源序列: x 1 ,x 2 , ,x m 1 ,y , ,y ,x m 1 1 , ,x m 2 ,y ,
6
K p(ai)ki 2.7 i1
H (X)H (X)89.63%
RK
5.1.2 费诺编码
1 按信源符号的概率从大到小的顺序排队
不妨设 p (a 1 ) p (a 2 ) ...... p ( a n )
2 对概率按m进行分组,使每组概率尽 可能相等
3 给每个分组分配一个码元 4 对每个分组重复2、3步,直到不可分
5.1.5 游程编码
游程:指数字序列中连续出现相同符号的一 段。在二元信源中,连续的一段‘0’称为一 个‘0’游程,‘0’的个数称为此游程的长度, 同样,也有‘1’游程。
游程序列:用交替出现的‘0’游程、‘1’ 游程的长度,来表示任意二元序列而产生的一 个新序列。它和二元序列是一个一一对应的变 换。
i0
pa (a j ) ki 码字
a 1 0 .25
0
2 00
a 2 0 .25 0 .25 2 01
a 3 0 .2 0 .5 3 100
a 4 0 .15 0 .7 3 101
a 5 0 .1 0 .85 4 1101
a 6 0 .05 0 .95 5 11110
H(X)2.42
K R Llog2mK
第1 第2章:信源熵 第3章:信道容量
第5章:信源编码
第7章:密码体制的安全性测度
信源编码
➢ 信源编码是以提高通信的有效性为目的 编码。
➢ 通常通过压缩信源的冗余度来实现。
➢ 采用的一般方法是压缩每个信源符号的 平均比特数或信源的码率。同样多的信 息用较少的码率来传送,使单位时间内 传送的平均信息量增加,从而提高通信 的有效性。
为止
例
设有一单符号离散无记忆信源
P (X X ) 0a .3 1 20a .2 2 20a .1 3 80a .1 4 60a .0 5 80a .0 6 4
试对该信源编二进制费诺码。
编码过程
a 1 0.32
0
a 2 0.22 0 1
a 3 0.18
0
a 4 0.16
a 5 0.08 1 1
a5 0.1
用两种不同的方法对其编二进制huffman码
方法一 方法二
两种不同的编码方法得到的码字和码长的对比
信源符号 ai a1 a2 a3 a4 a5
概率p(ai) 码字Wi1 码长Ki1 码字Wi2 码长K’i2
0.4 1
1 00
2
0.2 01
2 10
2
0.2 000
3 11
2
0.1 0010
信源编码的基本途径有两个:
➢使序列中的各个符号尽可能地互相 独立,即解除相关性;
➢使编码中各个符号出现的概率尽可 能地相等,即概率均匀化。
5.1.2 香农编码
设有离散无记忆信源
å 轾 犏 a1
犏 臌 p(a1)
a2 ..... p(a2) .....
p(aann),i= n1p(ai)=1
香农编码方法的步骤
0001……
31132131……
➢若已知二元序列以0起始,从游程序列很容易
恢复成原来的二元序列
➢游程序列是多元序列,各长度可按赫夫曼编
码或其它方法处理以达到压缩码率的目的。
➢游程编码只适用于二元序列,对于多元信源,
一般不能直接利用游程编码
因为游程变换是一一对应的可逆 变换,所以游程变换后,熵不变。
4 010
3
0.1 0011
4 011
3
平均码长和编码效率
7
K p(ai)ki 2.2 i1
H(X) 96.5%
K
两种编码方法编出的码字的码长方差比较
7
l2E[(kiK)2] p(ai)(kiK)2 i1
2 l1
1.36
2 l2
0.16
结论:
进行赫夫曼编码时,为得到码方差最小的 码,应使合并的信源符号位于缩减信源序 列尽可能高的位置上,以减少再次合并的 次数,充分利用短码。