第五章信源编码(编码定义及定长编码)
第5章 5.0信源编码定理
第1章概述第2章信源熵第3章信道容量第4章信息率失真函数第5章信源编码第6章信道编码第7章密码体制的安全性测度信源编码¾信源编码是以提高通信的有效性为目的编码。
¾通常通过压缩信源的冗余度来实现。
¾采用的一般方法是压缩每个信源符号的平均比特数或信源的码率。
同样多的信息用较少的码率来传送,使单位时间内传送的平均信息量增加,从而提高通信的有效性。
信源编码的基本途径有两个:¾使序列中的各个符号尽可能地互相独立,即解除相关性;¾使编码中各个符号出现的概率尽可能地相等,即概率均匀化。
信源编码的基础是信息论中的两个编码定理:¾无失真编码定理¾限失真编码定理无失真编码只适用于离散信源;对于连续信源,只能在失真受限制的情况下进行限失真编码。
本章首先介绍信源编码的相关概念以及信源编码定理,然后描述编码方法。
本章内容安排 信源编码定理 信源编码概念香农第一定理香农第三定理 信源编码方法 离散信源编码连续信源编码相关信源编码变换编码信源编码概念及信源编码定理信源编码及有关概念无失真信源编码定理衡量编码效果的公式定长信源编码定理变长信源编码定理限失真信源编码定理无失真信源编码-概念无失真信源编码要求精确地复现信源的输出保证信源的全部信息无损的送给信宿研究方法只考虑有效性,不考虑可靠性将信道及信道编解码整体看成一个无噪无损信道无失真信源编码器信源X={x1,x2 ,...,x q}码W={W1,W2,...,W q}码符号集C={c1,c2,...,c m}无失真信源编码器-示意图无失真信源编码器-输入输出描述信源符号集X=[x1,x2,…x n],共有n个信源符号。
码符号集C=[c1,c2,…c m],共有m个码符号。
码符号集中的元素称为码元或者码符号。
码字集合W=[W1,W2,…W n],与信源符号一一对应码字Wi =(ci1ci2…ciki)其中,长度ki称为码字长度,简称码长。
第5章:信源编码
可以看出,编码效率并不是很高。
4、费诺编码
将概率按从大到小的顺序排列,令:
p(x1)≥ p(x2)≥…≥ p(xn)
按编码进制数将概率分组,使每组概率尽可能接近或相
等。如编二进制码就分成两组,编 m 进制码就分成 m
组。
给每一组分配一位码元。 将每一分组再按同样原则划分,重复步骤 2 和 3,直 至概率不再可分为止。
麦克米伦不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则唯一可译码 存在的充要条件是:
r
i 1
n
li
1
不同编码方式的衡量标准
平均码长:对离散无记忆信源进行信源编码,设编码后各个 码字的码长分别为
信源熵为:H(X)=2.75(比特/符号) 平均码长为:
K (0.25 0.25) 2 0.12 2 3 0.0625 4 4 2.75 (比特/符号)
编码效率为η=1。之所以如此,因为每次所分两组的 概率恰好相等。
5、哈弗曼编码 哈夫曼(Huffman) 编码是一种效率比较高的变长无失 真信源编码方法。
0 1
即时
s2
任何一个码字不是其它码字的延长或前缀
即 时 码
即时码的判决准则
克拉夫特不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则即时码存在 的充要条件是:
r
i 1
n
li
1
唯一可译码的判决准则
2、编码的分类 信源编码可看成是从信源符号集到码符号集的一种映射,即将 信源符号集中的每个元素(可以是单符号,也可以是符号序列)映 射成一个长度为n的码字。对于同一个信源,编码方法是多种的。 【例5.1】 用{u1 ,u2 ,u3,u4, } 表示信源的四个消息,码符号集 为{0,1},表1列出了该信源的几种不同编码。 表1 同一信源的几种不同编码 信 源 消息 u1 u2 u3 各消息 概率 q(u1) q(u2) q(u3)
第五章信源编码(编码定义及定长编码)
所以送一个信源符号x需要的平均信息率为:
K KL logm L
信息率最小就是找到一种编码方式使
KL logm L
最小。
5.2.1定长编码定理
定义:各个码字码长都相等的码 定长码中每个码字长度相等,所以只要定长码是非奇异
码,则必为唯一可译码
非奇异码 唯一可译码
即时码
非奇异码 唯一可译码
即时码
变长码
等长码
消息
概率
C1
C2
C3
C4
C5
C6
u1
1/2
000
0
0
0
1
01
u2
1/4
001
01
10
10
000
001
u3
1/16
010
011
110
1101 001
100
u4
1/16
011
0111 1110 1100 010
101
u5
1/16
100
01111 11110 1001 110
110
u6
1/16
101
解码:按照码符号的顺序,从根节点依次查询到终端节点,就得到对应的 信源符号。再从根节点对剩下的码符号序列做相同的处理,直到处理完码 符号序列中所有的码符号
对应表中的码4分析
A01Fra bibliotek01
1
0
0
1
0
10 1
0
1
000
001 010
011 100 101 110
111
一阶节点 二阶节点 三阶节点
唯一可译码存在的充要条件
我们之后介绍的是二元信道中的编码。
第五章 信源编码
第五章信源编码信息论基础第五章信源编码 本章主要讨论的问题:5.1 离散信源编码5.1.1 编码器5.1.2分组码5.1.3定长码5.1.4 变长码5.2 连续信源编码5.3 相关信源编码简介信源编码:以提高通信有效性为目的的编码。
通常通过压缩信源的冗余度来实现。
采用的方法是压缩每个信源符号的平均比特数或信源的码率。
即同样多的信息用较少的码率传送,使单位时间内传送的平均信息量增加,从而提高通信的有效性。
信源编码理论是信息论的一个重要分支,其理论基础是信源编码的两个定理。
–无失真信源编码定理:是离散信源/数字信号编码的基础;–限失真信源编码定理:是连续信源/模拟信号编码的基础,如语音、图像等信号。
信源编码的分类:离散信源编码、连续信源编码和相关信源编码三类。
–离散信源编码:独立信源编码,可做到无失真编码;–连续信源编码:独立信源编码,只能做到限失真信源编码;–相关信源编码:非独立信源编码。
编码器编码器可以看作这样一个系统,它的输入端为原始信源S ,其符号集为;而信道所能传输的符号集为。
编码器的功能是用符号集X 中的元素,将原始信源的符号变换为相应的码字符号,所以编码器输出端的符号集为称为码字,为码字的码元个数,称为码字的码字长度,简称码长。
码字的集合C 称为码书。
称为码元。
12{,,...,}q S S S S =12{,,...,}r X x x x =12{,,...,}q S s s s =12{,,...,}r X x x x =编码器12:{,,...,}q C W W W 12:{,,...,}q C w w w i S i w i w i L i w i w i x例:二元信道的信源编码器:码符号集X={0,1},如果要将信源通过二元信道传输,必须将信源编成二元码,这也是最常用的一种码。
等长码非等长码非奇异码非奇异码 等长码与变长码码中各个码字都是由同样多个码元构成的,称为等长码,反之,称为变长码。
第五章 信源编码与编码定理
log n = H0 ≥ H1 ≥ H2 ≥ ⋯ ≥ Hm+1 ≥ ⋯ ≥ H∞
§5. 2 定长编码及定长编码定理
上式表明对信源特性了解越多,则所需传输的信息量就越少。 因此我们对Hm感兴趣,若把L个消息符号排成一个序列,不论其 是否有记忆,只要统计出Hm的值,就对压缩序列的冗余有利。我 们可以仅从符号间相互独立的序列中看到这一特点。 从数学的大数定律中可以证明这样一个结论,如果对L个消 息符号可构成无记忆序列,则按每一个序列的出现概率可将所有 序列分成两大类:一类是高概率序列类 高概率序列类;另一类是低概率序列类 低概率序列类。 高概率序列类 低概率序列类 所谓高概率序列是指属于此集合的元素,大体上将以几乎相同的 概率出现。一般称为渐近等概率集合 渐近等概率集合,记AL。而且L越大这种等 渐近等概率集合 等 概率特性越明显。另一类集合中的序列,它的出现概率很低,几 概率特性越明显 C 乎为零。所以我们把这一部分序列集合称为低概率集合 低概率集合,记为 AL 低概率集合
§5. 1 编码问题的一般概念与定义
⒉ 限失真信源编码(Source coding with finite distortion) 此编码方式不能构成可逆编码,即编码后的码字序列 经解码(反变换)处理后,所恢复的消息序列与发端的原消 息序列存在有一定的失真。这种编码适合于连续信源模拟 信号的编码,因为对连续信源的信号无论做何种处理,都 无法避免信息的损失。比如语音信号,即使采用64Kbit/s 以上的速率量化,也会有相当的信息产生丢失,只不过有 时人耳察觉不到而已。实际工程中失真大量存在,而且在 允许失真的限度下进行编码处理对于大多数用户都是可以 接受的。因此对于信息量无限大的连续变量来说,按照熵 编码的原则压缩,信息丢失的程度应该是最小。
第5章 信源编码 第1讲 无失真信源编码 定长编码定理 2016
00 01 10 11
0 01 001 111
12/62
余 映 云南大学
5.1 编码的定义
• 采用分组编码方法,需要分组码具有某些属性, 以保证在接收端能够迅速准确地将码译出。 • 下面讨论分组码的属性:
余 映 云南大学
13/62
5.1 编码的定义
• (1) 奇异码和非奇异码
– 若信源符号和码字是一一对应的,则该码为非奇异码; 反之为奇异码。 – 例如表中码1是奇异码,其他是非奇异码。
信源符号 出现概率 码1 码2 码3 码4
A B C D
1/2 1/4 1/8 1/8
0 11 00 11
余 映 云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
18/62
5.1 编码的定义
• (3) 即时码和非即时码
– 唯一可译码又分为非即时码和即时码。 – 即时码是一种没有一个码字构成另一码字前缀的码。 在译码时没有延迟,收到一个完整码字后就能立即译 码。 – 如果收到一个完整码字后,不能立即译码,还需等下 一个码字开始接收后才能判断是否可以译码,这样的 码叫做非即时码。
信源符号
出现概率
码1
码2
码3
码4
a1 a2 a3 a4
1/2 1/4 1/8 1/8
0 11 00 11
余 映 云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
14/62
5.1 编码的定义
• (2) 唯一可译码和非唯一可译码
– 若任意有限长的码元序列,只能被唯一地分割成一个 个的码字,则称为唯一可译码。 – 例如{0, 10, 11}是一种唯一可译码。 – 因为任意一串有限长码序列, – 如100111000
第五章信源编码
(每个符号有m种可能值)进行定长编码。对任意的 0,0
只要
KLHL(X)ε L logm
,则:当L足够大时,必可使译码差
错小于 (几乎无失真编码);反之,当 KLHL(X)2ε L logm
时,译码差错一定是有限值,而当L足够大时,译码几乎必定 出错(译码错误概率接近于1)。
1、解释: KL/L-----编码时,每个信源符号输出的 码长。即每个信源符
其中:左边--KL长码字所能携带的最大信息量, 右边--L长信源序列携带的信息量。
定理表明,只要码字所能携带的信息量大于信源序列输出的信 息量,则可以实现几乎无失真编码,当然条件是L足够大。 反之,不可能实现无失真的编码,也就是不可能做一种编码 器,能使收端译码时差错概率趋于零。
2、举例: (1 单 ) 符号 X A 信 {a1,a源 2...8} ., .n,a 8 ,等,L 概 1 。 分 H 1(X )H (X )lb3 8b /信 it 源符号。 若进行二进B制 {0编 ,1}m ,码 2,据定理,只要 K LLKLH lo(X g)m 3码元 /信源符号,就 无可 失以 真实 编现 码 事实上 3位,二进制码确实示 可8种 以信 表源符号。
或映射规则 元 b 转 j,j换 1,2..m 成 .构由 成码 的码 (也元 称序 为列
y i,i1,2..n.L。
f:xiyi
码K 长 L, i i1,2..n.L .; 平 均_KL 码 nL长 KLPi(: yi)码/元 符 号 序
i1 _
定长编 KL1 码 KL: 2...K .L .L n.KL, KLKL
注:奇异码一定非惟一可译。(非奇异码则不一定)
4、即时码和非即时码:
收到一个完整的码字后能立即译码,或曰及时可译---即时码
信息论与编码第5章
信息论与编码第5章第五章信源编码(第⼗讲)(2课时)主要内容:(1)编码的定义(2)⽆失真信源编码重点:定长编码定理、变长编码定理、最佳变长编码。
难点:定长编码定理、哈夫曼编码⽅法。
作业:5。
2,5。
4,5。
6;说明:本堂课推导内容较多,枯燥平淡,不易激发学⽣兴趣,要注意多讨论⽤途。
另外,注意,解题⽅法。
多加⼀些内容丰富知识和理解。
通信的实质是信息的传输。
⽽⾼速度、⾼质量地传送信息是信息传输的基本问题。
将信源信息通过信道传送给信宿,怎样才能做到尽可能不失真⽽⼜快速呢?这就需要解决两个问题:第⼀,在不失真或允许⼀定失真的条件下,如何⽤尽可能少的符号来传送信源信息;第⼆,在信道受⼲扰的情况下,如何增加信号的抗⼲扰能⼒,同时⼜使得信息传输率最⼤。
为了解决这两个问题,就要引⼊信源编码和信道编码。
⼀般来说,提⾼抗⼲扰能⼒(降低失真或错误概率)往往是以降低信息传输率为代价的;反之,要提⾼信息传输率常常⼜会使抗⼲扰能⼒减弱。
⼆者是有⽭盾的。
然⽽在信息论的编码定理中,已从理论上证明,⾄少存在某种最佳的编码或信息处理⽅法,能够解决上述⽭盾,做到既可靠⼜有效地传输信息。
这些结论对各种通信系统的设计和估价具有重⼤的理论指导意义。
§3.1 编码的定义编码实质上是对信源的原始符号按⼀定的数学规则进⾏的⼀种变换。
讨论⽆失真信源编码,可以不考虑⼲扰问题,所以它的数学描述⽐较简单。
图 3.1是⼀个信源编码器,它的输⼊是信源符号},,, {21q s s s S =,同时存在另⼀符号},,,{21r x x x X =,⼀般来说,元素xj 是适合信道传输的,称为码符号(或者码元)。
编码器的功能就是将信源符号集中的符号s i (或者长为N 的信源符号序列)变换成由x j (j=1,2,3,…r)组成的长度为l i 的⼀⼀对应的序列。
输出的码符号序列称为码字,长度l i 称为码字长度或简称码长。
可见,编码就是从信源符号到码符号的⼀种映射。
第五章无失真信源编码分析
s jN
C N {w 1 , w 2 , , w q N }
w j w j1 w j2 w jN
s j s j1 s j2
j 1, 2 , , q N
j1 , j 2 , , j N 1, 2 , , q
第五章:无失真信源编码
一、信源编码的相关概念
3. N次扩展码(续1)
2 2.5 3 3
s1= s1 s1 s2= s1 s2 s3= s1 s3 s4= s1 s4 s5= s2 s1 s6= s2 s2 s7= s2 s3 s8= s2 s4
1/4 1/8 1/16 1/16
1/8
1/16 1/32
1.5
2 2.5
1/32
2.5
s9 = s3 s 1 s10= s3 s2 s11= s3 s3 s12= s3 s4 s13= s4 s1 s14= s4 s2 s15= s4 s3 s16= s4 s4
2) 非奇异码
s1 0 s2 10 s3 s4 00 01
译码 0 10 00 01 0 译码
s1 s 2 s 3 s 4 s1
01 00
00 10
s 4 s3 s3 s 2
第五章:无失真信源编码
一、信源编码的相关概念
6. 唯一可译性(续4)
3)
等长码
非奇异码
唯一可译码
s1 s2
00 01
s3 10 s4 11
第五章:无失真信源编码
一、信源编码的相关概念
8. 即时码的构造方法(续4)
非分组码 奇异码 非唯一可译码 码 分组码 非奇异码 即时码 唯一可译码 非即时码
五章节信源编码
• 编的码 信器 源将 符信 号源 序符列号vi)集变中成的由信码源符符号号组si(成或的长长为为N 的与信源符号一一对应的输出序列。即 :
si (i 1, 2,L , q) Wi (i 1, 2,L , q) ( xi1, xi2,L , xili ), xij X
• 信源编码的基本途径有两个:
– 一是编码后使序列中的各个符号之间尽可能地 互相独立,即解除相关性----方法包括预测编 码和变换编码.
– 二是使编码后各个符号出现的概率尽可能相等, 即均匀化分布----方法主要是统计编码.
• 信源编码常分为无失真信源编码和限失真信源 编码,前者主要用于文字、数据信源的压缩, 后者主要于图像、语音信源的压缩。
1
01
0
1
10
01
10
1
00
110
001
11
10
11
111 0001
• 2)同价码
若码符号集X:{ x1, x2 ,..., xr }中每个码符号所 占的传输时间都相同,则所得的码为同价码。
我们一般讨论同价码,对同价码来说等长 码中每个码字的传输时间相同,而变长码中 每个码字的传输时间就不一定相同。
p(s1)
00
0
s2
p (s2)
01
01
s3
p (s3)
10
001
s4
p (s4)
11
101
• (4)分组码
若每个信源符号按照固定的码表映射成一 个码字,则称为分组码。否则就是非分组码.
如果采用分组编码方法,需要分组码具有 某些属性,以保证在接收端能够迅速而准确地 将接收到的码译成与信源符号对应的消息。下 面讨论分组码的一些直观属性。
第五章 信源编码定理
信源编码定理和方法
• 编码的定义和类型
• 无失真编码定理
• 限失真编码定理 • 最佳变长编码方法
• 常用信源编码方法
离散信源编码
离散信源编码过程
离散信源编码过程
编码码字的码长
平均码长
码长偏差
信源编码过程
假设信源输出符号序列长度L 1,则 信源符号集合为: A (a1 , a2 a2 , , an ) a1 an X a1 信源概率空间为: P p(a1 ) p(a1 ) p(an ) 需要将这样的符号进行传输,常见的一种信道就是二元 信道,它的基本符号集合为{0,,若要将X 通过这样的 1} 二元信道传输,就必须把信源符号ai 变为由0, 1符号组成的 码符号序列,这个过程就是信源编码。
即时码
各类码的隶属关系
唯一可译码:码字集合 0,10,11,序列 10, 0,11,10, 0, 0 非唯一可译码:码字集合 0,10, 00, 01,序列 10, 0, 0, 01, 00 10, 00, 01, 0, 0 非即时码:码字集合 1,10,100,1000,序列 1,100,10,1000,1 即时码:码字集合 1, 01, 001, 0001,序列 1, 001, 0001, 01
Ki n
信源编码定理和方法
• 编码的定义和类型
• 无失真编码定理
• 限失真编码定理 • 最佳变长编码方法
• 常用信源编码方法
信源编码器
信源序列 X ( X 1 , X 2 ,, X L ), X l a1 , a2 ,, an , l 1, 2,, n 编码序列(码字) Y (Y1 , Y2 ,, YK L ), Yk b1 , b2 ,, bm , k 1, 2,, m K L
(信息论)第5章无失真信源编码
定长编码定理
定长信源编码定理讨论了编码的有关参数对译 码差错的限制关系
sq p s q
定理 5.3.1 设离散无记忆信源
S s1 P p s 1 p s 2 s2
的熵为H S ,其 N 次扩展信源为
S N 1 p 1 P
2 q p 2 p q
N N
现在用码符号集 X x1 , x2 ,, xr 对N次扩展信源 S N 进行长度为 l 的定长编码,对于 0, 0 ,只要满足
l H S N log r
则当 N 足够大时,译码错误概率为任意小,几乎可以实 现无失真编码。 反之,若满足
l H S 2 N log r
则不可能实现无失真编码。而当N足够大时,译码错误概 14 率近似等于1。
以上的定理5.3.1 和定理5.3.2实际上说明的是一个 问题,虽然该定理是在平稳无记忆离散信源的条件下 证明的,但它也同样适合于平稳有记忆信源,只要要 2 求有记忆信源的极限熵 H S 和极限方差 存在 即可。对于平稳有记忆信源,式(5.6)和式(5.7 ) 中 H S 应该为极限熵 H S 。
变长码(可变长度码)
2
奇异码:若码中所有码字都不相同,则称此码为非
奇异码。反之,称为奇异码。
同价码:每个码符号所占的传输时间都相同的码。定
长码中每个码字的传输时间相同。而变长码中的每个码 字的传输时间不一定相等。
表 5.1
信源符号si
信源符号出现概率 si p
第5章 信源编码
计算符号序列长度L
2(X ) L L 2
若已知编码效率η和译码错误概率δ
H (X ) H (X )
(1 ) H ( X )
西南石油大学理学院
三、变长编码定理
1 平均码长的界限—变长编码定理 符号信源空间 X x1 P p( x ) 1
KL log m H ( X ) L
当L足够大时, 必定可使译码码小于δ。若
KL log m H ( X ) 2 L 译码差错一定是有限值 , 当L足够大时,译码必定出错。
西南石油大学理学院
2 切比雪夫不等式 设随机变量ξ有数学期望Mξ及方差Dξ, 则对任何正数ε,不等 式
p(| M | )
因为 K i
log p( x i ) logm
K i logm log p( x i )
所以 K i log log p( xi )
logm
Ki
log p( xi )
所有码字长度满足Kraft不等式。
m K i p( x i )
如何降低平均码长:
m K i p( x i ) 1
七、唯一可译码存在的条件
1°前提条件:非奇异码
西南石油大学理学院
2°唯一可译码存在定理 设n为信源符号或信源符号序列个数,m为码元个数,Ki 为
信源各符号或信源符号序列对应的码长。则唯一可译码存在的 充分和必要条件是满足Kraft不等式
m Ki 1
i 1
n
【注意】
Kraft不等式是一个存在定理,不是唯一可译码的判定定理;
【例 2】 x1→1 x2→10 x3→11
第5章_信源编码讲解
直接映射
矢量量化 神经网络
变换编码
KLT,DCT,DST,DFT WHT,SLT,HAAR 非正交变换
子带编码
宽带语音 宽带音频
小玻变换编码
分形编码
熵压 缩
模型基编码
合成
多带激励
分析
正弦编码
特征 提取
分析 合成 法
法
时频插值 波形插值
多脉冲
RPE-LT MP-MLQ
感觉特性
线性 预测 编码
听觉
视觉
码激励
第8页
表 5.1.1 二进制香农编码
5.1.1 香农编码
xi p(xi) pa(xj) ki 码字 x1 0.25 0.000 2 00(0.000)2
[例5.1.1] :有一单符号离散无记忆信源:
x2 0.25 0.250 2 01(0.010)2 x3 0.20 0.500 3 100(0.100)2
x2, , p( x2 ), ,
xi , , p(xi ), ,
xn p( xn
),
n
p(xi ) 1
i 1
变
长 二进制香农码的编码步骤如下:
编
码
将信源符号按概率从大到小的顺序排列,令:
p(x1)≥ p(x2)≥…≥ p(xn)
令 P(x1)=0,用 Pa(xj),j=i+1 表示第 i 个码字的累加概率,则:
LPC-10 MELP
LD-CELP CS-ACELP VSELP CELP,ACELP
人耳分辨能力-量化 人耳掩蔽效应-感觉加权
空间分辨能力时间 分辨能力幅度分辨 能力颜色分辨能力
第6页
5.1 最佳变长编码
根据信源编码理论,将能够荷载一定信息量且码字的平 均长度最短、可分离的变长码字集合称为最佳变长码。
第五章 信源编码(完结)
5.1编码的定义
非分组码 奇异码 码 分组码 非唯一可译码 非即时码 非奇异码 唯一可译码 即时码 (非延长码)
码树 表示各码字的构成
树根—码字的起点 0 0 1 0 A 1 0 1 0 0 1 1 1 0 0 二进制码树 节数—码长 01 2 1 2 0 分成r个树枝--r为码的进制数 中间节点—码字的一部分 终端节点—码字1101
K1=1,K2=2,K3=2,K4=3,应用Kraft不等式,得:
2
i 1
4
Ki
2 2
110
10 0 0 0 1 0
1
2
2
2
2
3
9 1 8
111 11
1
不存在满足这种 Ki的唯一可译码 这样的码字就存 在唯一可译码 中间节点
如果将各码字长度改成K1=1,K2=2,K3=3,K4=3,则
信源
X信源编码器Fra bibliotekY信道
码表
5.1编码的定义
如果信源输出的符号序列长度L=1,则信源符号集为:
A {a1 , a2 ,
, an }
an p(an )
信源概率空间为:
X a1 P p(a ) 1
a2 p(a2 )
若要将信源X通过二元信道传输,就必须把信源符号ai变换成 由0,1符号组成的码符号序列Y ,这个过程就是信源编码。所 编出的码称为二元码。
5.2 无失真信源编码
•信源编码器输入的消息序列: X ( X1, X 2 , , X l , , X L ), X l {a1, a2 , •输出的码序列(码字)为:
, ai ,
, an}
P93 例5-3
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
111
(1)哪些是唯一可译码 (2)哪些是即时码 (3)计算平均码长和编码效率
树图法
对于m进制树图,有树根、树枝和节点。 树图最顶部的节点称为树根; 每一个分支称为树枝; 树枝的尽头称为节点,每个节点生出的树枝数目
等于码符号数m; 从树根到终端节点各树枝代表的码符号顺次连接,
就得到了编码码字。
5.1编码的定义
分组码定义:将信源消息分成若干组,即符号序 列Xi=[xi1,xi2,...,xiL],序列中的每一个符号取自于符 号集A,xil属于{a1 , a2 ,···, ai ,···, an},而 每个符号序列Xi依照固定的码表映射成一个码字Yi, 这样的码称为分组码,有时也叫块码。
分组码百科定义:它把信源待发的信息序列按固 定的κ位一组划分成消息组,再将每一消息组独立 变换成长为n(n>κ)的二进制数字组,称为码字。 如果消息组的数目为M(显然M≤2κ),由此所获得的 M个码字的全体便称为码长为n、信息数目为M的 分组码,记为【n,M】。
哈夫曼编码的编码结果可以看出,信源出现符号小的a7编 码长度是4位,信源出现符号小的a1编码长度是2位,平均 码长计算得2.72码元/符号,输出符号码长减小。
信源编码(主要内容)
信源编码定理 ❖ 信源编码基本概念 ❖ 定长信源编码 ❖ 变长信源编码
信源编码方法 离散信源编码 连续信源编码 相关信源编码 变换编码
消息的冗余,特别是大量的冗余,为我们提高通 信效率,压缩信号容量提供了基础。为了提高传 输效率,对大量冗余进行压缩,即信源编码。
信源编码
➢ 信源编码是以提高通信的有效性为目的 编码。
➢ 采用的一般方法是压缩每个信源符号的 平均比特数。同样多的信息用较少的信 息率来传送,使单位时间内传送的平均 信息量增加,从而提高通信的有效性。
华中科技大学书中定义:若一种码中的所有码字 都互不相同,则称此分组码为非奇异码,否则称 为奇异码。
可以看出,表中码1是奇异码,有两个11码。其他 是非奇异码
(2)唯一可译码
书中定义:任意有限长序列,只能被分割成一个个的码字,便可以称 为唯一可译码。
例如给定一个信源,编码后的码字有{0,,10,11},就是说信源只能变 出这三种码字。任意给定一个序列100111000,按照分割成信源定义 的三种码字可以分成10,0,11,10,0,0唯一一种方式。任何其他分割法都 会产生信源不能发出的码字。这种码字就是唯一可译码
只有分组码才有对应的码表,而非分组码中不存在码表。
编码定义:二元信道(基本符号0,1)中,若将信源X通过 这样的二元信道传输,就必须把信源符号ai 变换成有1.0 符号组成的码符号序列,这个过程就是信源编码。
编码的广泛定义:编码是信息从一种形式或格式转换为另 一种形式的过程也称为计算机编程语言的代码简称编码。 用预先规定的方法将文字、数字或其它对象编成数码,或 将信息、数据转换成规定的电脉冲信号。
等长码
消息
概率
C1
C2
C3
C4
C5
C6
u1
1/2
000
0
0
0
1
01
u2
1/4
001
01
10
10
000
001
u3
1/16
010
011
110
1101 001
100
u4
1/16
011
0111 1110 1100 010
101
u5
1/16
100
01111 11110 1001 110
110
u6
1/16
101
所以送一个信源符号x需要的平均信息率为:
K KL logm L
信息率最小就是找到一种编码方式使
KL logm L
最小。
5.2.1定长编码定理
定义:各个码字码长都相等的码 定长码中每个码字长度相等,所以只要定长码是非奇异
码,则必为唯一可译码
非奇异码 唯一可译码
即时码
非奇异码 唯一可译码
即时码
变长码
克劳夫特不等式:m是进制数,n是信源符号数
n
mKi 1
i1
1.唯一可译码必定满足不等式
2.满足不等式的码存在唯一可译码,但不一定是 唯一可译码
此定理只证明存在性
例题p88
无失真信源编码-概念
无失真信源编码: 要求精确地复现信源的输出 保证信源的全部信息无损的送给信宿
研究方法: 只考虑有效性,不考虑可靠性 将信道编解码看成一个无噪无损信道
码1是奇异码,必定不能唯一可译,因为如果分到11码,就不确定是 信源发的a2还是a4
码2也不是唯一可译码,看码2的码字特点,若是序列中有一段码是00, 我们即可以分成00对应a3,也可以分成0,0对应发两次a1.
码3是唯一可译码。因为分解时只要遇到1就看后面有几个0,确定唯 一译码
(3)非即时码和即时码
第五章 信源编码
5.1编码的定义 5.2无失真信源编码
5.2.1定长编码定理
31456002 张安然
回顾:为什么进行信源编码?
理论上,信源传送信息所需要的信息率:极限熵 H∞(X)或信息率失真函数R(D).
极限熵H∞(X) :多符号离散平稳信源实际上就 是原始信源在不断地发出符号,随着信源之间的 依赖关系(即信源的相关性)变多,信源的实际 熵越小(第二章P32-33证明),越趋于H∞(X)。 所以H∞(X)是离散平稳有记忆信源平均每发一 个符号提供的信息量的最小值。
采用等概率下传送方式,计算得R
1
1
H
/
H0
H0 H H0
这样,可以计算出R=0.71。这一结论说明,英文
信 源 , 从 理 论 上 看 71 % 是 多 余 成 分 。 直 观 地 说
100页英文书,理论上看仅有29页是有效的,其
余71页是多余的。正是由于这一多余量的存在,
才有可能对英文信源进行压缩编码。
m=2的二进制树图
A
0
1
0
1
1
0
0
1
0
10 1
0
1
000
001 010
011 100 101 110
111
一阶节点 二阶节点 三阶节点
整树与非整树
考虑一个树有r阶节点
整树:码树的各个分支都延伸到最后一级端点, 此时,将共有mr个码字;
非整树:码树中存在分支,没有延伸到最后一级 端点,此时,将少于mr个码字。
下面,首先求得独立等概率情况,即
H 0 log2 27 4.76bit
其次,计算独立不等概率情况,
27
H1 pi log pi 4.03bit
i 1
再次,若仅考虑字母有一维相关性,求H2
H2 3.32bit
最后,利用统计推断方法求出,由于采用的逼近的方法和 所取的样本的不同,推算值也有不同,这里采用Shannon 的推断值。 H 1.4bit
【例】对学生的成绩等级进行编码,分为优、良、 中、差4个 等级。
信源符号集X=[a1,a2,…an]={优、良、中、差} 用二元码,码符号集合为{0,1} 码字集合为 Y=[W1,W2,…Wn]={00,01,10,11}
编码过程:00代表优,01代表良,10代表中,11代 表差。每一个码字都是2个码符号组成的序列。
由无失真条件可得:
nL mK 两边取以2为底的对数,有
L log n K log m 或
K L
log n log m
logm
n
编码的目的:希望传送Y时所需的信息率(信息率是通过 接收到的信息可获得的发送信息的信息量,即互信息。单 位:bit/符号)最小。
序列Y的最大信息量是K·logm(序列长乘以每个符号的最 大信息熵)
解码:按照码符号的顺序,从根节点依次查询到终端节点,就得到对应的 信源符号。再从根节点对剩下的码符号序列做相同的处理,直到处理完码 符号序列中所有的码符号
对应表中的码4分析
A
0
1
0
1
1
0
0
1
0
10 1
0
1
000
001 010
011 100 101 110
111
一阶节点 二阶节点 三阶节点
唯一可译码存在的充要条件
信源符号
符号出现概 率p(ai)
码1
a1
1/2
0
a2
1/4
11
a3
1/8
00
a4
1/8
11
码2
码3
码4
0
1
1
10
10
01
00
100
001
01
1000
0001
(1)奇异码与非奇异码
书中定义:若信源符号和码字是一一对应的,则 该码是非奇异码;反之,是奇异码。这个定义可 以理解为数学意义上的映射,每一个符号均可以 在码字集合中找到唯一对应的码。
我们之后介绍的是二元信道中的编码。
信源编码器-示意图
信源符号集X=[a1,a2,…an]: 代表信源发出的消息,共有n个信源符号。 码表(码符号集) 码符号集中的元素称为码元或者码符号,适合信道传输。 码字集合Y=[W1,W2,…Wn]: 与信源符号一一对应,码字由码符号序列组成。
一个简单的编码实例
➢ 信源编码的目的就是要减少冗余,提高编 码效率。
信源编码的基本途径(即消除冗余度 来源的途径)有两个:
使序列中的各个符号尽可能地互相独 立,即解除相关性;
使编码中各个符号出现的概率尽可能 地相等,即概率均匀化。
根据能否在解码后完全准确的恢复出原始消息 (可逆)分为:
无失真信源编码