第五章 信源编码
《信息论与编码》课件第5章 信源编码技术
❖ 例5.2对例5.1的信源进行费诺编码,具体编码过程如下
消息符 号
概率
a1
0.20
a2
0.19
a3
0.18
a4
0.17
编码效率为
H (X ) 2.61 0.953
L 2.74
➢ 显然,费诺码要比上述香农码的平均码长小,编码效率高。
➢ 从上面的例子可以看出,p(a4)<p(a2),而码长L4<L2,从 统计角度来看,平均码长一定不是最短的;
➢ 如果将两个符号对应的码字互换,这样编码得到的平均码长
肯定小于原来的平均码长。尽管如此,费诺码的平均码长仍
10 2
11 2 010 3
011 3
方法1 方法2
❖ 根据两种方法的编码结果,计算两种哈夫曼码的平 均码长,结果是两种编码方法的平均码长相等,即
7
L p(ai )li =2.2 码元/符号 i 1
编码效率也相等,都为 H (X ) =0.965
,L
但是两种码的质量不完全相同,编码质量可以用码方差衡量,即
a5
0.15
a6
0.10
a7
0.01
第一次 分组
0
1
第二次 分组
0 1 0
1
第三次 分组
0 1 0
1
第四次 分组
0 1
二元码字
00 010 011 10 110
1110
1111
码长
2 3 3 2 3
4
第5章信源编码
第5章信源编码
编码器的作用
将信源符号集 X 中的符号 符号集 y 中的码元 一对应的码字 。
变换成由码 组成的长度为 Ki 的一
码字集合叫做代码组Y;码字
为该码字的码长,记为 Ki 。
第5章信源编码
所含码元的个数称
分组码 将信源消息分成若干组,即符号序列,每个符号 序列依照固定码表映射成一个码字,这样的码称 为分组码,有时也叫块码。只有分组码才有对应 的码表,而非分组码中则不存在码表。 例:
• 任一即时码都可用树图法来表示。 • 当码字长度给定,即时码不是唯一的。
该码树从根到终端节点所经路径上, 每一个中间节点皆为码字,因此码 3 不是即第5时章信码源编,码 但它是唯一可译码。
若将信源 X 通过二元信道传输,就必须把信源符 号ai 变换成由0 、 1符号组成的码符号序列,这个 过程就是信源编码。第5章信源编码
定长码 固定长度的码,码中所 有码字的长度都相同。
变长码 可变长度码,码中的码字 定长码 变长码长短不一。
若 0 、 01 都是码字,译码时如何分离?
分组码 / 块码将信源符号集中的每个符号映射成一个固 定的码字。分组码必须具有某些属性,才能保证在接 收端能够迅速可靠地译码第5章。信源编码
第5章信源编码
信源编码 无失真编码 无失真信源编码定理 限失真编码 限失真信源编码定理
无失真 ( 冗余度压缩编码 ) :仅对信源的冗余度进行 压缩,不改变信源的熵。无失真编码是可逆的,即当 信源符号变换成代码后,可从代码无失真地恢复出原 信源符号。只适用于离散信源。
限失真 ( 熵压缩编码 ) :在失真受限的情况下进行限 失真编码。在连续信源的情况下,由于信源的信息量 趋于无限,显然不能用离散符号序列来完成无失真编 码,而只能进行限失真编码。
五章节信源编码
• 码树中自树根经过一个分枝到达一阶节点,一阶节点最 多为r个,二阶节点的可能个数为r2个,n阶节点最多有 rn个,若将从每个节点发出的个分枝分别标以0,1,…, r-1,则每个n阶节点需要用n个r元数字表示。如果指定 某个n阶节点为终端节点,用于表示一个信源符号,则 该节点就不再延伸,相应的码字即为从树根到此端点的 分枝标号序列,该序列长度为n,用这种方法构造的码 满足即时码的条件,因为从树根到每一个终端节点所走 的路径均不相同,所以一定满足对即时码前缀的限制。 如果有个q信源符号,那么在码树上就要选择q个终端节 点,用相应r的元基本符号表示这些码字。
第五章 信源编码
• 信源编码的基本途径有两个:
– 一是编码后使序列中的各个符号之间尽可能地 互相独立,即解除相关性----方法包括预测编 码和变换编码.
– 二是使编码后各个符号出现的概率尽可能相等, 即均匀化分布----方法主要是统计编码.
• 信源编码常分为无失真信源编码和限失真信源 编码,前者主要用于文字、数据信源的压缩, 后者主要用于图像、语音信源的压缩。
H (S ) r2 ,H r(S )H (S ), L
• 在二元信道中,若编码效率 =1,R=1比特/码符
号,则达到信道的信道容量,此时编码效率最高,
码的剩余度为零。
• 前面已经说明,对于某一个信源和某一符号集来 说,凡是满足克拉夫特不等式的惟一可译码可以 有多种,在这些惟一可译码中,如果有一种(或 几种)码,其平均编码长度小于所有其他惟一可 译码的平均编码长度,则该码称为最佳码(或紧 致码)。
l o g p ( s i ) l i l o g p ( s i ) 1( i 1 ,, q )
或: li logp(1 si)
(i1, ,q)
第5章:信源编码
可以看出,编码效率并不是很高。
4、费诺编码
将概率按从大到小的顺序排列,令:
p(x1)≥ p(x2)≥…≥ p(xn)
按编码进制数将概率分组,使每组概率尽可能接近或相
等。如编二进制码就分成两组,编 m 进制码就分成 m
组。
给每一组分配一位码元。 将每一分组再按同样原则划分,重复步骤 2 和 3,直 至概率不再可分为止。
麦克米伦不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则唯一可译码 存在的充要条件是:
r
i 1
n
li
1
不同编码方式的衡量标准
平均码长:对离散无记忆信源进行信源编码,设编码后各个 码字的码长分别为
信源熵为:H(X)=2.75(比特/符号) 平均码长为:
K (0.25 0.25) 2 0.12 2 3 0.0625 4 4 2.75 (比特/符号)
编码效率为η=1。之所以如此,因为每次所分两组的 概率恰好相等。
5、哈弗曼编码 哈夫曼(Huffman) 编码是一种效率比较高的变长无失 真信源编码方法。
0 1
即时
s2
任何一个码字不是其它码字的延长或前缀
即 时 码
即时码的判决准则
克拉夫特不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则即时码存在 的充要条件是:
r
i 1
n
li
1
唯一可译码的判决准则
2、编码的分类 信源编码可看成是从信源符号集到码符号集的一种映射,即将 信源符号集中的每个元素(可以是单符号,也可以是符号序列)映 射成一个长度为n的码字。对于同一个信源,编码方法是多种的。 【例5.1】 用{u1 ,u2 ,u3,u4, } 表示信源的四个消息,码符号集 为{0,1},表1列出了该信源的几种不同编码。 表1 同一信源的几种不同编码 信 源 消息 u1 u2 u3 各消息 概率 q(u1) q(u2) q(u3)
第五章信源编码(编码定义及定长编码)
所以送一个信源符号x需要的平均信息率为:
K KL logm L
信息率最小就是找到一种编码方式使
KL logm L
最小。
5.2.1定长编码定理
定义:各个码字码长都相等的码 定长码中每个码字长度相等,所以只要定长码是非奇异
码,则必为唯一可译码
非奇异码 唯一可译码
即时码
非奇异码 唯一可译码
即时码
变长码
等长码
消息
概率
C1
C2
C3
C4
C5
C6
u1
1/2
000
0
0
0
1
01
u2
1/4
001
01
10
10
000
001
u3
1/16
010
011
110
1101 001
100
u4
1/16
011
0111 1110 1100 010
101
u5
1/16
100
01111 11110 1001 110
110
u6
1/16
101
解码:按照码符号的顺序,从根节点依次查询到终端节点,就得到对应的 信源符号。再从根节点对剩下的码符号序列做相同的处理,直到处理完码 符号序列中所有的码符号
对应表中的码4分析
A01Fra bibliotek01
1
0
0
1
0
10 1
0
1
000
001 010
011 100 101 110
111
一阶节点 二阶节点 三阶节点
唯一可译码存在的充要条件
我们之后介绍的是二元信道中的编码。
第五章 信源编码
第五章信源编码信息论基础第五章信源编码 本章主要讨论的问题:5.1 离散信源编码5.1.1 编码器5.1.2分组码5.1.3定长码5.1.4 变长码5.2 连续信源编码5.3 相关信源编码简介信源编码:以提高通信有效性为目的的编码。
通常通过压缩信源的冗余度来实现。
采用的方法是压缩每个信源符号的平均比特数或信源的码率。
即同样多的信息用较少的码率传送,使单位时间内传送的平均信息量增加,从而提高通信的有效性。
信源编码理论是信息论的一个重要分支,其理论基础是信源编码的两个定理。
–无失真信源编码定理:是离散信源/数字信号编码的基础;–限失真信源编码定理:是连续信源/模拟信号编码的基础,如语音、图像等信号。
信源编码的分类:离散信源编码、连续信源编码和相关信源编码三类。
–离散信源编码:独立信源编码,可做到无失真编码;–连续信源编码:独立信源编码,只能做到限失真信源编码;–相关信源编码:非独立信源编码。
编码器编码器可以看作这样一个系统,它的输入端为原始信源S ,其符号集为;而信道所能传输的符号集为。
编码器的功能是用符号集X 中的元素,将原始信源的符号变换为相应的码字符号,所以编码器输出端的符号集为称为码字,为码字的码元个数,称为码字的码字长度,简称码长。
码字的集合C 称为码书。
称为码元。
12{,,...,}q S S S S =12{,,...,}r X x x x =12{,,...,}q S s s s =12{,,...,}r X x x x =编码器12:{,,...,}q C W W W 12:{,,...,}q C w w w i S i w i w i L i w i w i x例:二元信道的信源编码器:码符号集X={0,1},如果要将信源通过二元信道传输,必须将信源编成二元码,这也是最常用的一种码。
等长码非等长码非奇异码非奇异码 等长码与变长码码中各个码字都是由同样多个码元构成的,称为等长码,反之,称为变长码。
第5章 信源编码 第1讲 无失真信源编码 定长编码定理 2016
00 01 10 11
0 01 001 111
12/62
余 映 云南大学
5.1 编码的定义
• 采用分组编码方法,需要分组码具有某些属性, 以保证在接收端能够迅速准确地将码译出。 • 下面讨论分组码的属性:
余 映 云南大学
13/62
5.1 编码的定义
• (1) 奇异码和非奇异码
– 若信源符号和码字是一一对应的,则该码为非奇异码; 反之为奇异码。 – 例如表中码1是奇异码,其他是非奇异码。
信源符号 出现概率 码1 码2 码3 码4
A B C D
1/2 1/4 1/8 1/8
0 11 00 11
余 映 云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
18/62
5.1 编码的定义
• (3) 即时码和非即时码
– 唯一可译码又分为非即时码和即时码。 – 即时码是一种没有一个码字构成另一码字前缀的码。 在译码时没有延迟,收到一个完整码字后就能立即译 码。 – 如果收到一个完整码字后,不能立即译码,还需等下 一个码字开始接收后才能判断是否可以译码,这样的 码叫做非即时码。
信源符号
出现概率
码1
码2
码3
码4
a1 a2 a3 a4
1/2 1/4 1/8 1/8
0 11 00 11
余 映 云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
14/62
5.1 编码的定义
• (2) 唯一可译码和非唯一可译码
– 若任意有限长的码元序列,只能被唯一地分割成一个 个的码字,则称为唯一可译码。 – 例如{0, 10, 11}是一种唯一可译码。 – 因为任意一串有限长码序列, – 如100111000
第五章 信源编码LVRH1010
解:将信源通过一个二元信道传输,就必须把信源符号si变换 成由0,1符号组成的码符号序列,即进行编码。可以用不同 的二元码符号序列与信源符号 一一对应,就得到不同的码。
信源符号 P(si) s1 s2 s3 s4 P(s1) P(s2) P(s3) P(s4) 码1 00 01 10 11 码2 0 01 001 111 5.1 编码的定义 定长码 变长码 二次扩展信源符号 二次扩展码字 S1=S1S1 s2=S1S2 …… s4=S4S4 00 001 …… 111111
l ≥ log r q = 5
分析:考虑到符号出现的概率以及符号之间的相关性后,实际平均每 分析 个英文电报符号所提供的信息量约1.4bit,远小于5bit,因此定长编码 后,每个码字只载1.5bit信息,5个二进制符号最大能载5bit信息 ,因 此,定长编码的信息传输效率低。 解决方案: 解决方案 (1)对于不会出现的符号序列不予编码,这样不会造成误差; (2)对于概率非常小的信源符号序列不予编码,这样可能会造成一 定误差,但当信源符号序列N足够大,误差概率非常小
第五章 信源编码 五
问题
• 对信源有两个重要问题 1. 信源输出的信息量的度量问题 度量问题; 度量问题 2. 如何更有效地 有效地表示信源输出的问题 输出的问题; 有效地 输出的问题
信源输出的符号序列,经过信源编码,变换成 适合信道传输的符号序列,同时,在不失真或允许 一定失真的条件下,用尽可能少的码符号来传递信 源消息,提高信息传输的效率。
i =1 8
a7 0.05
a8 , 0.04
HL (X ) 2 .55 得K = = 2.83bit / 符号 90 % K 即每个符号用 2.83bit 进行定长二元编码,共 有 2 2.83 = 7.11种可能性 若取 L = 1,据 η = 根据 η = H( X ) = 0.9 ⇒ ε = 0 .28 H (X ) + ε
数字通信原理05-信源编码
信息码元 监督码元 1011000 1 1101001 0 0110011 1 0110110 0 1001100 1 1011000 1
(1)这种码比水平奇偶校验码有更强的检 错能力。它能发现某行或某列上奇数个错误 和长度不大于方阵中行数(或列数)的突发 错误。
(2)这种码还有可能检测出一部分偶数个 错误。当然,若偶数个错误恰好分布在矩阵 的4个顶点上时,这样的偶数个错误是检测 不出来的。
1.基本原理
差错控制的核心是差错控制编码,不同的编 码方法,有不同的检错或纠错能力,差错控 制编码一般是在用户信息序列后插入一定数 量的新码元,这些新插入的码元称为监督码 元。它们不受用户的控制,最终也不发送给 接收用户,只是系统在传输过程中为了减少 传输差错而采用的一种处理过程。如果信道 的传输速率一定,加入差错控制编码,就降 低了用户输入的信息速率,新加入的码元越 多,冗余度越大,检错纠错越强,但效率越 低。由此可见,通过差错控制编码提高传输 的可靠性是以牺牲传输效率为代价的。
(3)这种码还可以纠正一些错误,例如, 某行某列均不满足监督关系而判定该行该列
5.2.3 汉明码
1、线性分组码
线性码:监督码元与信息码元之间的关系可以 用线性方程表示
分组码:监督码元仅与本组中的信息码元有关
(1)线性分组码的基本概念
线性分组码:将信息序列分为每k位一组的信息序列段,每 个信息序列段按照一定的规律添加r个监督码元,构成总码长 为(n=k+r)的分组码,记为(n,k)。
【例5-1】设输入电话信号抽样值的归一化动 态范围在-1至+1之间,将此动态范围划分 为4096个量化单位,即将1/2048作为1个量化 单位。当输入抽样值为+1270时,试按照13 折线A律特性编码,并求量化误差。
第五章 信源编码定理
信源编码定理和方法
• 编码的定义和类型
• 无失真编码定理
• 限失真编码定理 • 最佳变长编码方法
• 常用信源编码方法
离散信源编码
离散信源编码过程
离散信源编码过程
编码码字的码长
平均码长
码长偏差
信源编码过程
假设信源输出符号序列长度L 1,则 信源符号集合为: A (a1 , a2 a2 , , an ) a1 an X a1 信源概率空间为: P p(a1 ) p(a1 ) p(an ) 需要将这样的符号进行传输,常见的一种信道就是二元 信道,它的基本符号集合为{0,,若要将X 通过这样的 1} 二元信道传输,就必须把信源符号ai 变为由0, 1符号组成的 码符号序列,这个过程就是信源编码。
即时码
各类码的隶属关系
唯一可译码:码字集合 0,10,11,序列 10, 0,11,10, 0, 0 非唯一可译码:码字集合 0,10, 00, 01,序列 10, 0, 0, 01, 00 10, 00, 01, 0, 0 非即时码:码字集合 1,10,100,1000,序列 1,100,10,1000,1 即时码:码字集合 1, 01, 001, 0001,序列 1, 001, 0001, 01
Ki n
信源编码定理和方法
• 编码的定义和类型
• 无失真编码定理
• 限失真编码定理 • 最佳变长编码方法
• 常用信源编码方法
信源编码器
信源序列 X ( X 1 , X 2 ,, X L ), X l a1 , a2 ,, an , l 1, 2,, n 编码序列(码字) Y (Y1 , Y2 ,, YK L ), Yk b1 , b2 ,, bm , k 1, 2,, m K L
第5章 信源编码
计算符号序列长度L
2(X ) L L 2
若已知编码效率η和译码错误概率δ
H (X ) H (X )
(1 ) H ( X )
西南石油大学理学院
三、变长编码定理
1 平均码长的界限—变长编码定理 符号信源空间 X x1 P p( x ) 1
KL log m H ( X ) L
当L足够大时, 必定可使译码码小于δ。若
KL log m H ( X ) 2 L 译码差错一定是有限值 , 当L足够大时,译码必定出错。
西南石油大学理学院
2 切比雪夫不等式 设随机变量ξ有数学期望Mξ及方差Dξ, 则对任何正数ε,不等 式
p(| M | )
因为 K i
log p( x i ) logm
K i logm log p( x i )
所以 K i log log p( xi )
logm
Ki
log p( xi )
所有码字长度满足Kraft不等式。
m K i p( x i )
如何降低平均码长:
m K i p( x i ) 1
七、唯一可译码存在的条件
1°前提条件:非奇异码
西南石油大学理学院
2°唯一可译码存在定理 设n为信源符号或信源符号序列个数,m为码元个数,Ki 为
信源各符号或信源符号序列对应的码长。则唯一可译码存在的 充分和必要条件是满足Kraft不等式
m Ki 1
i 1
n
【注意】
Kraft不等式是一个存在定理,不是唯一可译码的判定定理;
【例 2】 x1→1 x2→10 x3→11
第五章信源编码
信源符号 码1 a1 a2 a3 a4 00 01 10 11 码2 00 00 10 11 码3 1 00 01 10 码4 1 10 110 111 码5 1 01 011 111
且惟一可译。 码
{
非分组码 分组码
分组码:将信源符号序列分成 若干组或块,再进行编码
{
奇异码
非奇异码
{
非唯一可译码 非即时码 唯一可译码 即时码
{
四、码树和kraft不等式 1、 即时码可以用码树来构造,如用二进制码树。 •树根A(倒着长) •二进制---两个树枝, 标号0,1;产生两个 一级节点。 •第n级,2n个n级节点 •终端节点----不再长 出分枝的节点。 例如:n=4,共16个终端节点,可以表示符号数为16 的信源的 每一个符号a1,a2,a3 a4 a5 …a16。用树根到每个终端节点的树枝 标号构成的序列作为该节点信源符号的编码输出(即码字)
由L个符号组成的、每个符号的熵为 HL (X) 的无记忆平稳 信源符号序列 X1X2 Xl XL ,可用KL个符号 Y1, Y2 ,, Yk ,, YK L
时,译码差错一定是有限值,而当L足够大时,译码几乎必定 出错(译码错误概率接近于1)。
1、解释: KL/L-----编码时,每个信源符号输出的 码长。即每个信源符 号用KL/L 个码元来表示。
一、定长编码定理:
码长为 K L的m进制定长非奇异码共有 mK L 个,而被编码的符号 序列总数为.n L;显然,只要 mK L n L , 就可以输出惟一可译码 。
_
第五章信源编码
§5.1.4 信源编码
最佳码定义: 能载荷一定的信息量;
且码字平均长度最短;
可分离的变长码的码字集合。 常用的编码方法:香农码、费诺码、哈夫曼编码。
使出现概率大的信源符号编码后码长尽量短一些。-------编码方法的出发点。
1. 香农编码方法
设信源符号集 X
香农编码是采用信源符号的累计概率分布函数来分配码字。
p ( xi )
1〉码字长度计算
以
i 4 为例,
ห้องสมุดไป่ตู้
累加概率 Pi 0 0.2 0.39 0.57 0.74 0.89 0.99
l og2 p ( xi )
2.34 2.41 2.48 2.56 2.74 3.34 6.66
码字长度 3 3 3 3 3 4 7
Ki
码字 000 001 011 100 101 1110 1111110
码的分类 信源编码可看成是从信源符号集到码符号集的一种映射,即将 信源符号集中的每个元素(可以是单符号,也可以是符号序列)映 射成一个长度为n的码字。对于同一个信源,编码方法是多种的。 【例3.3】 用{u1 ,u2 ,u3,u4}表示信源的四个消息,码符号集为 {0,1},表3-1列出了该信源的几种不同编码。 表3-1 同一信源的几种不同编码 信 源 消息 u1 u2 u3 u4 各消息 概率 q(u1) q(u2) q(u3) q(u4) 码1 00 11 10 11 码2 00 01 10 11 码3 0 1 00 11 码4 1 10 100 1000
一、 通信系统的优化模型:
信
UL
源
信 源 编 码
S
m
加 密
Cm
信 道 编 码
Xn
第5章-信源编码PPT课件
第5章 信源编码
.
1
信源编码
如果信源输出符号序列长度L=1,信源符 号集A(a1,a2,…,an),信源概率空间为
级端点,此时,将少于mn个码字。 右图为非满树
.
12
5.1.1 码字唯一可译的条件
克劳夫特不等式(证明P133)
m元长度为ki,i=1,2,…,n的即时码存在的充分和必要条 件:各码字的长度ki应符合克劳夫特不等式
n
m-ki 1
i 1
{1,01,001,000} 惟一可译码;
{1,01,101,000} 不是惟一可译码;
行限失真编码
.
5
5.1 离散信源编码
定长码与变长码
信源 符号ai
a1 a2 a3 a4
信源符号出 现概率p(ai)
p(a1) p(a2) p(a3) p(a4)
码表 码1 码2 00 0 01 01 10 001 11 111
码可分为两类:
➢固 定 长 度 的 码 , 码 中 所 有码字的长度都相同,如 表中的码1就是定长码。
.
25
5.1.4 哈夫曼(Huffman)编码
(3)对重排后的两个概率最小符号重复步骤(2)的过 程。
(4)不断继续上述过程,直到最后两个符号配以0和 1为止。
(5)从最后一级开始,向前返回得到各个信源符号 所对应的码元序列,即相应的码字。
.
26
5.1.4 哈夫曼(Huffman)编码(例1)
例:对以下信源进行哈夫曼编码。 P166习题5.3
第5章_信源编码讲解
直接映射
矢量量化 神经网络
变换编码
KLT,DCT,DST,DFT WHT,SLT,HAAR 非正交变换
子带编码
宽带语音 宽带音频
小玻变换编码
分形编码
熵压 缩
模型基编码
合成
多带激励
分析
正弦编码
特征 提取
分析 合成 法
法
时频插值 波形插值
多脉冲
RPE-LT MP-MLQ
感觉特性
线性 预测 编码
听觉
视觉
码激励
第8页
表 5.1.1 二进制香农编码
5.1.1 香农编码
xi p(xi) pa(xj) ki 码字 x1 0.25 0.000 2 00(0.000)2
[例5.1.1] :有一单符号离散无记忆信源:
x2 0.25 0.250 2 01(0.010)2 x3 0.20 0.500 3 100(0.100)2
x2, , p( x2 ), ,
xi , , p(xi ), ,
xn p( xn
),
n
p(xi ) 1
i 1
变
长 二进制香农码的编码步骤如下:
编
码
将信源符号按概率从大到小的顺序排列,令:
p(x1)≥ p(x2)≥…≥ p(xn)
令 P(x1)=0,用 Pa(xj),j=i+1 表示第 i 个码字的累加概率,则:
LPC-10 MELP
LD-CELP CS-ACELP VSELP CELP,ACELP
人耳分辨能力-量化 人耳掩蔽效应-感觉加权
空间分辨能力时间 分辨能力幅度分辨 能力颜色分辨能力
第6页
5.1 最佳变长编码
根据信源编码理论,将能够荷载一定信息量且码字的平 均长度最短、可分离的变长码字集合称为最佳变长码。
第五章 信源编码20121103
物理与信息工程学院 郭里婷
25
2012-11-8
第2节 无记忆信源的无失真编码
三、定长编码定理
如何尽可能做到:η = 1, H L ( X) = K , 且无译码错误? 答案:η、H L ( X)和m不变的情况下,增大L
物理与信息工程学院 郭里婷
26
2012-11-8
第2节 无记忆信源的无失真编码
物理与信息工程学院 郭里婷
23
2012-11-8
第2节 无记忆信源的无失真编码
三、定长编码定理
如何尽可能做到:η = 1, H L ( X) = K , 且无译码错误?
物理与信息工程学院 郭里婷
24
2012-11-8
第2节 无记忆信源的无失真编码
三、定长编码定理
例8:X l ∈ { A, B, C , D, E , F , G, H }, B C D E F G H ⎤ ⎡ Xl ⎤ ⎡ A 概率空间 ⎢ ⎥ = ⎢ P ⎦ ⎣0.4 0.18 0.1 0.1 0.07 0.06 0.05 0.04 ⎥ ⎣ ⎦ L = 100 ⇒ H L ( X) = H ( X ) = 2.55bit / 符号, 个信源序列 8100 当m = 2时,若仍要求η = 1,则K L = 255码元 / 序列, 2255 个码字 仍有2255 < 8100,但8100 个信源序列,可能有些出现的概率较小, 所以即使没有给它们分配码字,也不会引起太大的译码差错,δ
3.即时码和非即时码 即时码(非延长码):当收到一个完整的码字后,可以 立即译码 ;反之为非即时码
例5: 如码{1, , , } , 01 001 0001 如码{110, , } , , 100 1000
!即时码是惟一可译码
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X {x1 , x2 ,..., xr }
wi 称为码字, Li 为码字 wi 的码元个数,称为码字 wi 的码 字长度,简称码长。码字的集合C称为码书。 xi 称为码元。
5.1编码器
例:二元信道的信源编码器:码符号集X={0,1}, 如果要将信源通过二元信道传输,必须将信源编成 二元码,这也是最常用的一种码。 等长码 非等长码
N N次扩展信源符号集 S {1 , 2 ,..., q N }, j s j1 s j2 s jN
N次扩展代码组 C N {W1 , W2 ,..., Wq N }, W j W j1W j2 W jN
5.2分组码
分组码
将信源符号集中的每个信源符号si的映射成一个固定的码 字wi,这样的码称为分组码。为了保证在信道的输出端能够 正确、迅速译码,分组码需要满足的一些性质:
H(X ) 0.9 得 =0.28 H(X )
Δ若要求: 译码差错率δ=10-6 , 则L太大 2 ( x) 1.323 L 2 16.875 106 0.282 106 H ( X ) 2.55 85% 此外, 编码效率不高 H0 ( X ) 3
编码后的码字为: 1 ,W2 ,...,Wn 码长为: 1 , k2 ,..., kn W k (1)平均码长 K p(a )k (码符号/信源符号) i i
i 1
——平均每个信源符号所需的码长 (2)信息率
K R log2 m(bit/信源符号 ) L
——编码后,平均每个信源符号能载荷的最大信息量
信息论基础
第五章 信源编码
苗立刚 ligangmiao@ 实验楼417 电话8048018
东北大学秦皇岛分校自动化工程系 2009年3月
第五章 信源编码
本章主要讨论的问题:
5.1 离散信源编码 5.1.1 编码器 5.1.2 分组码 5.1.3 定长码 5.1.4 变长码 5.2 连续信源编码 5.3 相关信源编码
非奇异性:分组码是非奇异码是正确译码的必要条件,Fra bibliotek但非充分条件。
奇异码
非奇异码
5.2分组码
唯一可译性
一个分组码若对于任意有限的整数N,其N阶扩展码均为 非奇异的,则称之为唯一可译码。它不但要求不同的码字表 示不同的信源符号,还要求对由信源符号构成的符号序列进 行编码时,在接收端仍能够正确译码,而不发生混淆。
奇异码——信源符号~码字并非一一对应,译码将一对多 非唯一可译码——一码字是其他码字的组合 非即时码,又名延长码——一码字是其他码字的延长 即时码,又名异字头码,异前置码——收到一个完整码字后, 可立即译出
5.4变长码
树图法构造即时码(异前置码)
(1) 码树画法(m进制) 从树根出发,画m条树枝,树枝端点称为一级节点,有m个; 从第一级节点出发,再画m条树枝,得第二级节点,有m2个; 第n级节点,共有mn个。 串联的树枝成为联枝。从树根出发到每一个终节点的联枝 代表一个码字。 中间节点 终节点 树根
满树
非满树,全树
非全树
5.4变长码
满树 —— 每个码字的联枝数均相同时(定长码) 非满树 —— 当码字的联枝数不同时(变长码) 全树 —— 每个中间节点的后续分支数均为m 非全树 —— 有些中间节点的后续分支数不足m
中间节点 终节点 树根
非满树,全树 满树 非全树 即时码,异前置码——每个码字都被安排在终节点上 命题:一个唯一可译码成为即时码的充分必要条件是其中任 何一个码字都不是其他码字的前缀。
5.3定长码
信源编码
信源符号→码符号,以适合信道传输的一种映射(变换) L长序列
X ( X1 X 2 X l X L )
X l a1, a2 ,, ai , , an
信源编码器 信源编码器
K长码字
Y (Y1Y2 Yk X K )
Yk b1 , b2 ,, bj ,, bm
(5)结论 (单符号)信源熵H(X)实为一个界限 当 R>H(X)时 —— 无失真译码 当 R<H(X)时 —— 有失真译码
5.3定长码
[例] 给定信源模型:8种符号和概率 a2 a3 a4 a5 a6 a7 a8 X a1 P( X ) 0.4 0.18 0.10 0.10 0.07 0.06 0.05 0.04 算得:H(X)=2.55 bit /信源符号, 2(X) =1.323 Δ若要求:编码效率 =90%,由
命题:一个唯一可译码成为即时码的充分必要条件是其中任 何一个码字都不是其他码字的前缀。
即时码一定是唯一可译码;反之,唯一可译码不一定是 即时码。
5.3定长码
定长码
若对信源S进行等长编码,那么信源S存在唯一可译码的条 件是:
信源符号的个数
qr
l
码字的个数
其中,l是码长,r是码符号集中的码元数,q信源符号个数。 也就是说,码字的个数必须不小于信源符号的个数。 例:如果有四个信源符号{s1,s2,s3,s4},采用二元编码, l=2,则可以编成s1=00,s2=01,s3=10,s4=11。
2 ( x) 只要 L 2 ,译码差错率必小于 2 ( x) E{[ I ( xi ) H ( X )]2} ——信源序列自信息方差
5.3定长码
(4)逆定理指出:
若R比H(X) 小一个 时,译码差错未必超过 若R比H(X) 小两个 时,译码差错必定大于
L→≦时必失真
简介
信源编码:以提高通信有效性为目的的编码。通常通过压缩信 源的冗余度来实现。采用的方法是压缩每个信源符号的平均比 特数或信源的码率。即同样多的信息用较少的码率传送,使单 位时间内传送的平均信息量增加,从而提高通信的有效性。
信源编码理论是信息论的一个重要分支,其理论基础是信源编 码的两个定理。 –无失真信源编码定理:是离散信源/数字信号编码的基础; –限失真信源编码定理:是连续信源/模拟信号编码的基础, 如语音、图像等信号。 信源编码的分类:离散信源编码、连续信源编码和相关信源编 码三类。 –离散信源编码:独立信源编码,可做到无失真编码; –连续信源编码:独立信源编码,只能做到限失真信源编码; –相关信源编码:非独立信源编码。
变长编码
5.4变长码
变长码的分类和主要编码方法
信源符号 出现概率 码1 码2 码3 码4
s1 s2 s3 s4
1/2 1/4 1/8 1/8
0 11 00 11
0 10 00 01
1 10 100 1000
1 01 001 0001
码1是一个奇异码,不是唯一可译码;码2是非奇异码,也 不是唯一可译码,因为收到一串序列无法唯一译出对应的原符 号序列,如01000,即可译作s4s3s1,也可译作s4s1s3,s1s2s3或 s1s2s1s1;码3和码4都是唯一可译的。
时译码差错必为有限值,且当L足够大时,译码几乎必定出错。
5.3定长码
K log 2 m H ( X ) (2.4.1) 说明: L (1)信息率(编码速率) R =(K/L)log2m bit/信源符号 log2m —— 每个码符号的最大熵(bit/码符号) Klog2m —— 每个码符号序列最大熵(bit/码序列) (K/L)log2m —— 编码后,平均每个信源符号所能载荷的最 大信息量 (2)编码效率
K 代表平均码序列长度。
已知信源平均输出信息率为
故有
K R log 2 m L
log 2 m H (X ) R H (X ) L
若一离散平稳无记忆序列信源的平均符号熵为H(X),则必存在
一种无失真编码方法,使信息率R满足:H(X)≤R≤ H(X) +
5.4变长码
对信源进行变长编码一般所要求的信源符号长度L比定长 编码小得多。编码效率的下界为 H(X ) H(X ) log 2 m R H(X ) L 例如:二元编码,m=2,log2m=1。如果H(X)=2.5525,若要求
H(X ) (bit/码符号) (3)(信道)信息传输率 Rc K
——编码后, 平均每个码符号载荷的(信源)信息量
5.4变长码
单符号变长编码定理
若一离散无记忆信源的符号熵为H(X),对信源符号以m进 制码元作变长编码,则必定存在一种无失真编码方法,其码字 平均码长满足
H(X ) H(X ) 1 K log 2 m log 2 m
唯一可译码 非即时码
唯一可译码 即时码
5.2分组码
即时码
无须考虑后续的码符号,即可从码符号序列中译出码字, 这样的唯一可译码称为即时码。
设一个码字 Wi Wi1Wi2 Wil ,对于任意的 1 j l ,称 码符号序列的前j个元素 Wi Wi Wi 为码字 Wi 的前缀。
1 2 j
等长码与变长码
非奇异码
非奇异码
码中各个码字都是由同样多个码元构成的,称为等长 码,反之,称为变长码。
5.1编码器
奇异码与非奇异码
若一组码中所有码字都不相同,称为非奇异码。否则成 为奇异码。
奇异码
奇异码
5.1编码器
N次扩展码
信源符号集 S {s1, s2 ,..., sq } 代码组(码书) C {W1 ,W2 ,...,Wq }
5.3定长码
定长编码定理:由L个符号组成的,平均符号熵为H(X)的平 稳无记忆符号序列X,可用由K个码符号(每个有m种取值)组成的 码序列作定长编码。对任意 >0, >0 ,有: (1)正定理:只要
K log 2 m H ( X ) (2.4.1) L 则当L足够大时,译码差错必小于 (2)逆定理:当 K log 2 m H ( X ) 2 (2.4.2) L
5.1编码器