3.1离散无记忆信源等长编码
第6讲——离散无记忆信源等长编码2014
即当L足够大时, I L 将以概率1取值为H(U)。
推论1(特定序列出现的概率)
若 u L TU (L, ) ,则 2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ] 即
P r uL T U ( L, ) 1
无扰编码定理
N R log D, 编码速率 L
若R>H(U),则R是可达的;若R<H(U) ,则R是 不可达的。 对于给定的离散无记忆信源,若D元码的速率R超过 信源的熵,即 N / L log D [ H (U ) ],则存在有编码 方法,当L足够大时就能使译码错误概率任意小。
信源及其分类
【分类方法】 按照某时刻信源输出消息的取值集合的离散性和连续性, 信源可分为离散信源和连续信源; 按照信源输出消息的所对应的随机序列的平稳性,信源可 分为平稳信源和非平稳信源; 按照信源输出消息的所对应的随机序列中随机变量前后之 间有无依赖关系,信源可分为无记忆信源和有记忆信源。
离散无记忆信源的等长编码
2
L ( H (U ) )
TU (L, ) 2 L[ H (U ) ]
TU (L, ) 2L[ H (U ) ]
2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ]
uL TU ( L. )
有 1
p(uL )
I (u L ) log p(u L ) log p(ul ) [ log p(ul )] I (ul )
其中, I (ul ) 是信源从字母集A中独立选出某个字母所获得的 信息量。
l
l
第三章离散源无失真编码
第三章 离散信源无失真编码3.2离散无记忆信源,熵为H[x],对信源的L 长序列进行等长编码,码字是长为n 的D 进制符号串,问:(1)满足什么条件,可实现无失真编码。
(2)L 增大,编码效率 也会增大吗? 解:(1)当log ()n D LH X ≥时,可实现无失真编码;(2)等长编码时,从总的趋势来说,增加L 可提高编码效率,且当L →∞时,1η→。
但不一定L 的每次增加都一定会使编码效率提高。
3.3变长编码定理指明,对信源进行变长编码,总可以找到一种惟一可译码,使码长n 满足D X H log )(≤n <D X H log )(+L 1,试问在n >D X H log )(+L1时,能否也找到惟一可译码? 解:在n >D X H log )(+L1时,不能找到惟一可译码。
证明:假设在n >D X H log )(+L1时,能否也找到惟一可译码,则由变长编码定理当n 满足D X H log )(≤n <D X H log )(+L 1,总可以找到一种惟一可译码知:在n ≥DX H log )( ① 时,总可以找到一种惟一可译码。
由①式有:Ln ≥L X H )(logD ② 对于离散无记忆信源,有H(x)=LX H )( 代入式②得:n L≥ D x H log )(即在nL≥Dx H log )(时,总可以找到一种惟一可译码;而由定理给定熵H (X )及有D 个元素的码符号集,构成惟一可译码,其平均码长满足D X H log )(≤n L <DX H log )(+1 两者矛盾,故假设不存在。
所以,在n >D X H log )(+L1时,不能找到惟一可译码。
3.7对一信源提供6种不同的编码方案:码1~码6,如表3-10所示(1) 这些码中哪些是惟一可译码? (2) 这些码中哪些是即时码?(3) 对所有唯一可译码求出其平均码长。
解:码1: 其二次扩展码是奇异码,如u1u2和u5u1对应的码字均为010;码2: 是惟一可译码,非奇异等长码是惟一可译码,且是即时码,平均码长为3; 码3: 是延长码,是惟一可译码,但不是即时码,平均码长为n =∑=71iii n p =3.06 码4: 是非延长码,故是惟一可译码,也是即时码;平均码长n =∑=71iii n p =3.06 码5: 是数码,即非延长码,因此是即时码;平均码长n =∑=71iii n p =2.625 码6:是非延长码,故是惟一可译码,也是即时码;平均码长n =∑=71iii n p =3.125 综上所述,码2~6均为惟一可译码,码2、4、5、6是即时码。
第三章 信源编码(一)离散信源无失真编码
离散无记忆源的等长编码
在无错编码的前提下,编码的最低代价 当R≥logK时,能够实现无错编码。 当R<H(U1)时,无论怎样编码都是有错编码。这是 因为R<H(U1)≤logK。 (如果H(U1)=logK,则以上两种情形已经概括了全部情 形。但如果H(U1)<logK,则还有一种情形) 当logK>R>H(U1)时,虽然无论怎样编码都是有错编 码,但可以适当地编码和译码使译码错误的概率pe 任意小。这就是所谓“渐进无错编码”。
如何证明?
弱、强e典型序列集
定义3.2.1:令H(U)是集{U, p(ak)}的熵,e是正数,集合
TU ( L, e ) {uL : H (U ) e I L H (U ) e }
定义为给定源U输出的长为L的典型序列集。 ——弱e-典型序列集 定义3.2.2:令H(U)是集{U, p(ak)}的熵,e是正数,集合 定义为给定源输出的长为L的e-典型序列集,其中Lk 是在L长序列中符号ak出现的次数 ——强e-典型序列集
3.2 离散无记忆源的等长 编码
离散无记忆源
字母表A={a1,…,aK},概率分别为p1,…,pK,长为L 的源输出序列uL={u1,…,uL},共有KL种序列 码符号字母表B={b1,…,bD},以码符号表示源输 出序列,D元码 等长D元码,能够选择的不同码字的个数为DN, 不等长D元码的个数,能够选择的不同码字的
设给定编码设备的编码速率R0=0.5。则 R0>0.037587148=H(U)。 希望: ①2元编码的实际编码速率R≤R0; ②译码错误的概率不超过ε。其中取 ε=0.1; ε=0.05; ε=0.01。
DMS的等长编码
第三章信源编码离散信源无失真编码-PPT精选文档
②平均码字长度。设信源随机变量U的概率分布为{ak, p(ak), k=1~K},事件ak对应的码字长度为nk,则平均码字长度为
n nk p(ak )
k 1
K
希望 n 小。 解决方案:概率大的事件用短码字。 ③实时译码和容量限制。
第三章:信源编码(一) 离散信源无失真编码
§3.1 §3.2 §3.3 码 §3.4 §3.5 信源及其分类 离散无记忆(简单)信源的等长编码 离散无记忆(简单)信源的不等长编 最佳不等长编码 算术编码和LZ编码
1
2019/2/28
§3.3 离散无记忆(简单)信 源的不等长编码
(顺序地叙述以下的概念) (1)不等长编码的优越性 总体上减少码字的长度。 (2)不等长编码的特殊问题 ①唯一可译性,或者叫做可识别性。对于一个码,如果存在一 种译码方法,使任意若干个码字所组成的字母串只能唯一 地被翻译成这几个码字所对应的事件序列。这个码就被称 为是唯一可译的。 解决方案:适当地编码,使得每个码字都具有识别标记。 (注解:一个唯一可译的、码字长度不超过N的D元码,其码字 个数小于D(DN-1)/(D-1)个。这是因为两个码字c(1)和c(2) 连 接成的字母串c(1)c(2) 不能是码字)
D
k 1
2019/2/28
K
nk
1
10
§3.3 离散无记忆(简单)信 源的不等长编码
证明 不妨设n1≤n2≤…≤nK。则 各码字长度分别为n1、n2、…、nK的D元异字头码存在; 当且仅当:存在这样一个D叉树,树上有n1级、n2级、…、nK级 树梢; 当且仅当:nK级D叉满树有不存在上下关系的n1级、n2级、…、 nK级节点; 当且仅当: nK级D叉满树的树梢数量不小于
等长信源编码定理
信息论作业等长信源编码定理在信息传输过程中,绝大多数信道无法传输原始信息(比如汉字信息),因此在传输信息时需要对信息进行编码转换,以便适合信道传输。
编码分为等长码和变长码,所谓等长码,就是对信源符号集的每个符号编码时的码字的长度是相同的。
本文主要针对等长信源编码进行相关讨论。
在对信源进行编码时,若要实现无失真的编码,这就要求信源符号与码字是一一对应的,即信源符号到码字的转换是唯一的,码字到信源符号的转换也是唯一的。
从理论上说,等长f非奇异码一定是唯一可译码,而且如果信源符号有q个,每个码元符号数为r个,则编码的码长l必须满足关系:l≥log q按照这个公式计算,英文电报有32个字符,如果采取二进制编码(码元符号为0和1),则需要至少5位的码长,5位的码长所携带的信息量为5比特。
我们知道,当信源符号等概率分布,且信源符号之间无相关性时,信源所携带的平均信息量最大,如果32英文字符等概率出现,则携带的最大信息量正好是5比特,跟5位码长编码携带的信息量是一致的,但是,32个英文字符并不是等概率出现的,字符之间也是存在依赖性的,因此信源所携带的信息量则会远远低于5比特(实际应用中测量信息量为1.4比特),那就意味着,如果考虑信源的实际概率分布空间和心愿符号之间的依赖性,若要携带信源的全部信息量,完全可以采用更短的码长进行编码,即对某一给定概率空间的信源,对其进行无失真等长编码时,必然存在一个码长的理论极限值。
等长信源编码定理则给出了这个理论极限值。
等长信源编码定理:一个熵为H(s)的离散无记忆信源,若对信源长为N的符号序列进行等长编码,设码字是从r个字母的码符号集中,选取l个码元组成,对于任意的ε>0,只要满足l≥H S+ε当N足够大时,可实现几乎无失真编码,即译码错误概率为任意小。
反之,若l N ≤H S−2εlog r则不可能实现无失真编码,而当N足够大时,译码错误概率近似于等于1 。
这个公式为最佳无失真等长编码指明了方向,即要求编码的码长最短而且保证译码的差错概率。
第三章 离散信源无失真编码
(比特/码元时间)
3.2 等长码及等长编码定理
考虑对一简单信源S进行等长编码,信源符号集有K个符 号,码符号集含D个符号,码字长度记为n。要得到惟一可译 码,必须满足下式 K≤Dn 对单符号信源S的L次扩展信源S(L)进行等长编码,要得到码长 为n的惟一可译码,必须满足 KL≤Dn (3-5) 对式(3-5)两边取对数,得 n log K (3-6) L log D 对于那些出现概率极小的字符序列不予编码,这样可以减小平 均码长,当然这样会带来一定的失真。下面的[定理3.1] 将证明,当 满足一定的条件时,在L →∞时,译码错误概率pe →0
pe <δ(ε、δ为无穷小量);反之,当 现无差错编码。
n H X L log 时,则不可能实 D
编码效率 L[ H ( X ) ] n H X 1 定理3.1要求 ,即 ,可看出比值
LH ( X ) n log D
L log D
n log D
是一个小于1的无量纲纯数,定义它为等长编码的编码
定理3.1 等长编码定理 设离散无记忆信源S ={x1 ,x2 ,…,xk} S ( L) {s1, s2 ,, sk L },对 的熵为H(X),S的L维扩展信源为 信源输出的L长序列si ,i = 1, 2, …, kL 进行等长编码,码字是长 度为n的D进制符号串,当满足条件 n H X ,则L →∞时, L log D 可使译码差错
显然,即时码是惟一可译码,而惟一可译码不一定是即 时码。
即时码可用树图法来构造。
15
【例3.4】 用树图法表示表3-2中的码3,如图3-3所示(D =2)。 树根 0 深度 编码 1 0 u1 u1:1 1 0 u2 u2:01 1 u3:001 u3 1 u4:0001 u
第三章 信源编码-离散无记忆源等长编码
第三章 信源编码——离散信源无失真编码本章分析问题:在信宿要求无失真接收时,或所有信源信息无损的条件下,离散信源输出的表示——即信源编码问题。
内容:信源分类,信息速率的计算,编码定理,有效编码方法等。
一、信源及其分类 1. 离散信源和连续信源离散信源表示:…U-2U-1U0U1U2…其中UL随机变量,取值范围:A={a1,a2,…ak} 2.无记忆源和有记忆源无记忆源:各UL彼此统计独立简单信源:各UL彼此统计独立且服从同一概率分布 P(UL=ak)=Pk,k=1,2,…,K∑=Kk 1Pk=1有记忆源:各UL取值相关。
UL=(U1,U2,…,UL)∈UL,其概率分布由L维随机矢量表示,P(UL=a)=P(U1=ak1,…,UL=akL) 3.平稳信源:概率分布与起始下标无关P(U1=ak1,…,UL=akL)=P(Ut+1=ak1,…,UL=akL)4.各态历经源:信源输出的随机序列具有各态历经性。
5.有限记忆源:用条件概率P(UL,UL-1,UL-2,UL-m)表述。
m为记忆阶数。
6.马尔可夫源:有限记忆源可用有限状态马尔可夫链描述,当m=1时为简单马尔可夫链。
7.时间离散的连续源:各随机变量UL取值连续。
8.随机波形源:时间和取值上均连续的信源;由随机过程u(t)描述,时间或频率上有限的随机过程可展开成分量取值连续的随机矢量表示,即时间上离散,取值连续的信源。
9.混合信源二、离散无记忆源的等长编码离散无记忆源:DMSL长信源输出序列:UL=(U1,U2,…,UL),Ul取值{a1,a2,…ak},共KL种不同序列。
对每个输出序列用D元码进行等长编码,码长为N,则可选码共有DN个。
1.单义可译码或唯一可译码:条件:DN≥KL=M,即N≥LlogK/logDN/L:每个信源符号所需的平均码元数;N/L→3.322;2.信息无损编码要求:设每个信源符号的信息量为H(U),则L长信源序列的最大熵值为LH(U),编码时由于D个码元独立等概时携带信息量最大,使码长最短。
信息论基础——信源编码
6
H (X ) p (x i)lo g 2p (x i) 2 .4 2 (比 特 /符 号 ) i 1
对上述信源采用香农编码的信息率为 R L L lo g 2 m 2 1 .7 lo g 2 2 2 .7 这 里 L 1 ,m 2
3 011 (0.011)2
0.60
4 1001 (0.10011)2
0.775
4 1100 (0.110001)2
0.90
5 111001 (0.1110011)2
0.975 6 111110 (0.1111100)2
13
算术码—Shannon-Fano-Elias码
计算出给定信源香农码的平均码长
L 0 . 2 5 2 2 ( 0 . 2 0 . 1 5 ) 3 0 . 1 0 4 0 . 0 5 5 2 . 7 ( 比 特 / 符 号 )
若对上述信源采用等长编码,要做到无失真译码,每个符号至少要用3 个比特表示。相比较,香农编码对信源进行了压缩。
数据压缩和信源编码
3.1 等长码 3.2 变长编码 3.3 哈夫曼码 3.4 算术码 3.5 通用信源编码 习题三
香农-费诺码 LZW算法
1
算术码—Shannon-Fano-Elias码
0.概述
是第一个能够找到的好的变长码.
原则:按照符号出现的概率从大到小排序,然后将 其分成两个出现概率相同或几乎相同的子集—一个 子集的编码均以0打头,另一个子集的编码均以1打 头;然后把每个子集再分成两个更小的子集,同样 确定所有码字的第二位,依次循环.
4 4
号字母表为U 0,1,求信源的算术码.
9
信息论与编码理论--第三章
F (ak ) P(ai )
i 1
k
修正累 计分布 函数
1 F (ak ) P(ai ) P(ak ) 2 i 1
k 1
Shannon-Fano-Elias编码
采用 F (ak ) 的数值作为ak的码字
1 码长 l (ak ) log 1 P(ak ) F (ak ) F (ak ) l ( a )
LZ编码
利用字典编码方法 信源符号A=(a1…aK) 将序列分为不同的段
取最短长度的连续符号构成段,保证互不相同。 先取一个符号分段,若与前面段相同,就再取 一个符号,直至序列结束 得到字典表,码字由段号加后一个符号组成。 单符号的码字,段号为0
LZ编码
a0 a0 a2 a3a1a1a0 a0 a0 a3a2 a0 , a0 a2 , a3 , a1 , a1a0 , a0 a0 , a3a2
第三章 信源编码(一) 离散信源无失真编码
3.1 3.2 3.3 3.4
信源及其分类 离散无记忆信源的等长编码 离散无记忆信源的不等长编码 最佳不等长编码
3.1 信源及其分类
信源及其分类
离散信源 …U-2,U-1,U0,U1,U2,…,Ul取自字母表A 无记忆信源: Ul彼此独立 有记忆信源:Ul彼此相关 简单信源: Ul独立同分布 平稳信源,各态历经源 M阶记忆源(有限状态马尔可夫链) 连续信源
l 1 L
I (uL ) IL , L , I L H (U ) L
E ( I L ) H (U ), Pr{| I L H (U ) | e } Le
2 I 2
弱、强e典型序列集
第三章 离散信源
Wuhan University
3.1 信源及其分类 3.2 离散无记忆信源的等长编码
1
信源的描述及分类
Wuhan University
信源的统计特性 信源是信息的来源,是产生消息(符号)或消 息序列的来源。 由于消息的不确定性,因此,信源是产生随 机变量、随机序列和随机过程的源。 客观信源的基本特性是具有随机不确定性。
Wuhan University
二进制无记忆信源的N次扩展:把每
N个二进制数字组成一组,则信源等 效成一个具有2N个符号的新信源,把 它称为单符号二进制无记忆信源的N 次扩展信源。
7
单符号信源的扩展
Wuhan University
例1:电报系统中,可以认为每二个二进制数
字组成一组。这样信源输出的是由二个二进 制数字组成的一组组符号。这时可以将它们 等效看成一个新的信源,它由四个符号00, 01,10,11组成,把该信源称为二进制无记 忆信源的二次扩展。
≥LlogK 没有考虑信源统计特性,认为每个 信源符号独立等概。 考虑信源统计特性时,无错编码的 条件: NlogD ≥LH(U) R≥H(U)
统计平均,仅当L 为无限时
22
离散无记忆信源的等长编码
Wuhan University
R ≥H(U) 在无错编码的前提下,编码的最低代价 当R≥logK时,能够实现无错编码。 当R<H(U)时,无论怎样编码都是有错 编码。 当logK>R>H(U)时,可以适当地编码 和译码使译码错误的概率pe任意小。 这就是所谓“渐进无错编码”。
K k 1 k
15
离散无记忆信源的等长编码
Wuhan University
ch3离散无记忆信源的无损编码
算术编码(AC)
初始时设S=Φ ,F(Φ)=0,p(Φ)=1。 计算序列的积累概率和序列的概率。
F ( Sur ) F ( S ) p( S ) F (ur ) p( Sur ) p( S ) p(ur )
1 计算码长 L log p ( S )
序列
Φ
1 11 111 1110 11101 111010 1110101 11101011
F(S) 0 0.01 0.0111 0.100101 0.100101 0.1001101011 0.1001101011 0.10011100000001 0.1001110011110111
P(S) 1 0.11 0.1001 0.011011 0.00011011 0.0001010001 0.000001010001 0.00000011110011 0.0000001011011001
离散无记忆信源的等长编码
Shannon等长信源编码定理 熵为H(U)的离散无记忆信源,对信源输 出长度为L的输出序列进行编码,假设编码字 符表有D个符号,则当
N L[ H (U ) L ] / log D
时,信源可以实现无损编码。反之若
N L[ H (U ) L ] / log D
将信源的K个符号按概率递减次序排列。 将两个概率最小的信源符号合并成一个新符号,
新符号的概率值为两个信源符号概率值的和。 依次类推,直至信源最后只剩下一个符号。 将每次合并的两个信源符号分别用0和1表示。 由后向前返回,就得到各信源符号对应的码字。
D元Huffman编码步骤:
增补D-M个概率为0的虚拟符号,其中M由下式给出:
信源编码等长码
● 根
0
º
0
1● 1●
0 1
10
º
0
110
º
111
º
码字是从树根节点出发到达终节点所对应的码符号序列
•
码的分类结构图
奇异码 非奇异码
唯一可译码
非唯一可译码
等长码
非等长码
即时码
延时码
• 平均码长
码字长度
n nm P(Cm )
码 , 或单义可译码。否则,就称为非唯一可译码或非 单义可译码。
例如,表3.1中码1是唯一可译码,而码2是非唯一可
译码。因为对于码2,其有限长的码符号序列能译成 不同的信源符号序列。如码符号序列为0010,可译 成s1s2s1或s3s1,就不唯一了。
唯一可译码 非唯一 可译码
表3.1
唯一可译码
[定义] 若W中任一有限长的码字序列 (即有限长的一 串W),可以被唯一地分割成一个一个码字,就称为是单义 可译或唯一可译的,W也叫做单义代码。 从扩展性定义:码的任意N次扩展码都是非奇异码,则唯一可译
• 求信息传输速率。
7 i=0
H X =-p(x i )log(p(x i )) 2.75log2 2.75(比特/符号) 1 1 1 n 2 2 2 3 2 4 2.75 (码元/符号) 4 8 16 信源特殊分 H X 2.75 RD = =1(比特/码元时间) 布,每个消 2.75 n 息的概率
码C: 0 10
110
111
4、码C是唯一可译的,因为任一串有限长的码字w, 如 100111011010 只能被分割成 10,0,111,0,110,10 任何其他分割方法都会产生一些不属于代码W的 码字(如1,001,11,011,010);
3.1离散无记忆信源等长编码
3.1离散无记忆信源等长编码3.1离散无记忆信源等长编码3.1离散无记忆信源等长编码几乎无失真等长编码选择L 足够长,使N log D ≥L [H (U ) +εL ]εL 为与L 有关的正数,且当L →∞时有εL →0, 才其中,能不损失信息。
然而这样的编码不总能保证单义可译,但非单义可译所引起的错误可渐近为任意小。
反之,若N log D3.2 离散无记忆(简单)信源的等长编码编码速率R =N log D /L R =N log D /L ≥log K关于编码速率的说明:表示一个长度为N 的D 元码字给一个长度为L 的消息的每个符号所提供的信息量。
3.2 离散无记忆(简单)信源的等长编码一个消息序列U L 每符号含有信息量算术平均为:I L =I (u L ) /L =∑I (u l ) /Ll信源的熵为H(U)E (I (u l ))=∑p (a k ) I (a k ) =H (U )k设I (u l ) 的方差为σI 2σ=D (I (u l ))=∑p (a k ) (I (a k ) ?H (U ))2Ik23.2 离散无记忆(简单)信源的等长编码例信源发出的消息序列长度L=8。
a 2??a 1u l ~??1/43/4?I (a 1)I (a 2)?I (u l )~??3/4??1/42H (U )=0.81bitσ=D (I (u l ))=∑p (a k ) (I (a k ) ?H (U ))=0.4712Ik长为8的序列是(a1+a2) 8的展开式的所有项,共28个。
消息序列的概率是(p1+p2) 8的二项展开式中的各项。
I 8(a 18)=I (a 18)/8=I (a 1)5I 8(a 13a 2)=(3I (a 1)+5I (a 2))/83.2 离散无记忆(简单)信源的等长编码3.2.2 信源划分定理典型序列集的定义令H(U)是集{U , p (a k ) }的熵,ε>0,T U (L , ε) ={u L :H (U ) ?ε≤I L ≤H (U ) +ε}(IL=I (u L )/L , u L ∈UL)定义为给定信源U 输出长为L 的典型序列集T U (L , ε) 的补集它称作弱ε典型序列集;相应地,为非典型序列集。
第4章 离散无记忆信源无失真编码
第4章离散无记忆信源无失真编码主要内容1、基本概念2、码的唯一可译性3、定长编码定理和定长编码方法4、变长编码定理5 变长编码方法6 几种实用的无失真信源编码1、基本概念信源发出的消息序列通常不能直接送给信道传输,需要经过信源编码和信道编码。
信道编码的目的是降低差错率,提高传送的可靠性。
信源编码的目的是为了降低冗余度,提高通信的有效性。
编码是一种映射,是将输入符号映射成码字。
无失真编码,映射一一对应,可逆。
编码器模型:码长:码字所含码元的个数定长编码:所有码字均有相同的码长,对应的码叫做定长码(FLC ,Fixed Length code);否则为变长编码。
编码器12{,,,}q u u u 12{,,,}r x x x WU12{,,,}q w w w X信源平均码长:码中所有码字码长的统计平均,即码元/符号编码效率:编码后的实际信息率与编码后的最大信息率之比冗余度:l l l2、码的唯一可译性(1)基本概念奇异码:一组码中含相同码字。
非奇异码:所有的码字都不相同。
唯一可译性:码字组成的任意有限长码字序列都能恢复成唯一的信源序列。
续长码:有些码字是在另一些码字后面添加码元得来的。
及时码:码字的最后一个码元出现时,译码器能立即判断一个码字已经结束,可以立即译码。
非续长码:任一码字都不是其它码字的延长。
唯一可译码定长非奇异码非续长码非奇异码5种不同的码35124121142183184()00001000100001001101001110011111110111111i P u W W W W W U u u u u(2)码树和Kraft不等式从树根开始,生长r个树枝,在节点处再各自生长r个树枝。
节点:树枝与树枝的交点。
l阶节点:经过l根树枝到达的节点。
整树:节点长出的树枝数等于r定理:对于任一r进制非续长码,各码字的码长必须满足Kraft不等式:反过来,若上式成立,就一定能构造一个r 进制非续长码。
信息理论与编码 第四章 离散无记忆信源无失真编码
7
63
H (U ) i1 P(ui ) log P(ui ) 32 bit/符号
l l 3 码元/符号
c
H (U ) l log r
63 32
3 log 2
65.625%
提高编码效率的方法:对符号串进行编码,同时
引入一定的失真。
20
4、引入失真,提高编码效率
lN H (U )
N log r
4
11 11
l
P(ui )li
i 1
1 2 3 3 24 88
1.75 码元/符号
编码策略: 出现概率大的符
编码策略:采用等长
号采用较短的码字,出现概
的码字
率小的符号采用较长的码字7
3、信息率
信
U
源 {u1,u2 , ,uq}
编码器 f
W
X
{w1,w2 , ,wq} {x1,x2 , ,xr }
限定定长编码码长的最小值,因此最佳的定长编码效率为:
c
H (U ) l log r
H (U ) lN log r
H (U )
H (U )
(1c )H (U ) c
(4-3-9)
N
可以证明,差错率满足关系:Pe
2 (U N 2
)
信源自信息量的方差
2 (U ) E I (ui ) H (U )2 P(ui )log P(ui )2 H (U )2
f 是一 一对应 的映射
P(wi ) P(ui ) i 1,2, ,q
X
{x1,x2 , ,xr }
H(W ) H(U) bit/码字或 bit/符号
新信源X :H (X ) H (W ) H (U ) bit/码元
第8讲——离散无记忆信源等长编码
ˆ 译码 : x < 2 LR 则 u L = u L 若
ˆ 若 x = 2 LR 则 u L = (00 0)
ˆ pe = Pr {u L ≠ u L } = Pr u L ∈ T ( L, ε ) ≤ ε
{
}
Байду номын сангаас
因此,R为可达速率。
即当L足够大时,I L将以概率1取值为H(U)。
N log D > LH (U )
典型序列
∀ 令H(U)是集 {U , p(ak )} 的熵,ε > 0
TU ( L, ε ) = {u L : H (U ) − ε ≤ I L ≤ H (U ) + ε }
定义为给定信源U输出长为L的典型序列集,又可称作 弱ε典型序列集;相应 TU ( L, ε ) 的补集为非典型序列集。 令H(U)是集 {U , p(ak )} 的熵, ε > 0 ∀
∑ E[I (u )]
l l
L
= H (U )
方差为
E[
1 I (u L ) − H (U )]2 = 2 E[ I (u L ) − LH (U )]2 L L 1 = 2 E[∑ I (u l ) − LH (U )] 2 L l
=
1 * Lσ I2 = σ I2 / L L2
由契比雪夫大数定理,对于 ∀ε > 0
⎡ I (u L ) ⎤ σ I2 Pr ⎢ − H (U ) > ε ⎥ < 2 = pe ⎣ L ⎦ Lε
例 题
掷硬币:正面出现p=0.25,这时信源熵H(U)=0.81。 (1)若采用等长二元无错编码时,
等长信源编码定理
等长信源编码定理等长信源编码定理是信息论中的一项重要定理,它对于我们理解信源编码的原理和性能极为关键。
在本文中,我们将介绍等长信源编码定理的背景、概念以及在信息传输中的实际应用。
信息论是一门研究信息传输的学科,旨在了解信息的量、传输和处理过程,并找到最优的方法。
而信源编码则是信息传输中的一个非常重要的环节,其目的是通过重新编码信息来减小传输所需的比特数。
传统的信源编码方法中,常用的是等概率编码算法,即将所有的源符号按照相等的概率进行编码。
然而,等概率编码并不能充分利用信源的统计特性,传输效率并不高。
于是,等长信源编码定理应运而生。
它的核心思想是通过使用可变长度的编码来提高传输效率。
根据定理,对于任意信源,只要采用合适的编码方式,我们可以实现将信源符号以比特率趋向于熵的编码方式进行传输,同时保证传输的无失真。
具体来说,等长信源编码定理指出,当信源满足马尔可夫性和平稳性的条件时,存在一种能够将信源符号以接近信息熵的平均比特率进行传输的编码方案。
这种编码被称为等长编码,相比于等概率编码,它可以大大提高传输的效率,节省传输的带宽资源。
等长信源编码定理的应用非常广泛。
在数据压缩和存储中,我们可以利用等长信源编码定理的思想来设计更高效的压缩算法,减小数据存储空间的占用。
在数据传输和通信中,等长信源编码定理可以被应用于无线通信、数据传输等场景,提高传输的速率和质量。
总之,等长信源编码定理在信息论中扮演着重要的角色。
通过合理的信源编码设计,我们可以在信息传输过程中实现高效、无失真的传输。
在实际应用中,我们可以利用等长信源编码定理来设计更好的数据压缩算法,提高数据传输的效率和质量。
希望本文对读者们理解等长信源编码定理及其应用有所启发。
等长信源编码定理
等长信源编码定理等长信源编码定理,又称为香农定理,是由信息论奠基人克劳德·香农在1948年提出的一个重要定理。
这个定理为信息论的发展做出了重要贡献,也为通信领域的研究与实践提供了重要的指导。
等长信源编码定理的核心思想是,对于一个具有确定概率分布的等长信源而言,存在一种编码方式,使得编码后的二进制序列的平均码长可以无限接近于该信源的熵。
熵是信息论中一个重要的概念,可以用来衡量一个随机变量的不确定性。
在信息论中,等长编码是一种编码方式,即每个符号在编码后的二进制序列的长度是固定的。
等长编码的优点是可以简化编码和解码的过程,使得通信系统的实现更加简单。
而等长信源编码定理的提出,为等长编码的设计与优化提供了理论支持。
为了更好地理解等长信源编码定理,我们可以从以下几个方面展开:1. 等长信源编码定理的概念与原理:介绍等长信源编码定理的定义、描述和基本原理。
重点强调信息熵与编码平均码长之间的关系,以及如何通过等长编码来接近信源的熵。
2. 信息熵的计算与性质:详细介绍信息熵的计算方法,并探讨信息熵与信源特性之间的关系。
强调信息熵可以作为捕捉信源特性的一个重要指标,通过熵的计算可以了解信源的不确定性和冗余度。
3. 码长与压缩比的关系:讨论编码序列的平均码长与信息熵之间的关系,并探讨码长与压缩比之间的关系。
通过数学推导和实例分析,让读者更好地理解码长对于压缩效率的影响。
4. Huffman编码算法:介绍Huffman编码算法,这是一种常用的等长编码方法。
分析Huffman编码算法的设计原理与步骤,以及如何通过Huffman编码实现最优等长编码。
5. 应用场景与实际应用:探讨等长信源编码定理在实际应用中的意义与作用。
分析等长编码在数据压缩、通信系统设计和储存系统中的应用案例,强调等长编码对于提高通信效率和资源利用率的重要性。
6. 发展和挑战:对等长信源编码定理的发展和未来挑战进行展望。
介绍近年来在等长编码方面的研究成果与新进展,讨论目前仍然存在的问题和待解决的挑战。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.1离散无记忆信源等长编码
几乎无失真等长编码
选择L 足够长,使
其中,
为与L 有关的正数,且当时有,才能不损失信息。
然而这样的编码不总能保证单义可译,但非单义可译所引起的错误可渐近为任意小。
反之,若,编码误差变得任意大。
]
)([log L U H L D N ε+≥L ε∞→L 0→L ε])([log L U H L D N ε−<
3.2 离散无记忆(简单)信源的等长编码编码速率
R=N log D/L
R=N log D/L≥log K
关于编码速率的说明:
表示一个长度为N的D元码字给一个长度为L的消息的每个符号所提供的信息量。
一个消息序列U L 每符号含有信息量算术平均为:
信源的熵为H(U)
设I (u l )的方差为3.2 离散无记忆(简单)信源的等长编码
()/()/L L l l
I I L I u L
==∑u ()()()
()()l k k k
E I u p a I a H U ==∑2
I σ()()()()
2
2()()I
l k k k
D I u p a I a H U σ==−∑
3.2 离散无记忆(简单)信源的等长编码
例信源发出的消息序列长度L=8。
长为8的序列是(a 1+a 2)8的展开式的所有项,共28个。
消息序列的概率是(p 1+p 2)8的二项展开式中的各项。
1
2~1/43/4l a a u ⎛⎞⎜⎟
⎝⎠
()()()12~1/4
3/4l I a I a I u ⎛⎞
⎜⎟
⎝⎠()0.81H U bit
=()()()()2
2
()()0.471
I
l k k k
D I u p a I a H U σ==−=∑()()()
888111/8I a I a I a ==()()()()35
8121235/8
I a a I a I a =+
3.2.2 信源划分定理
•典型序列集的定义
•令H(U)是集的熵,,
•定义为给定信源U 输出长为L 的典型序列集
它称作弱ε典型序列集;相应地,
的补集为非典型序列集。
3.2 离散无记忆(简单)信源的等长编码
{})(,k a p U 0>ε{}
εεε+≤≤−=)()(:),(U H I U H L T L L U u ()
()/,L
L
L L I
I L U
=∈u u ),(εL T U
令u L 是信源的长为L 的输出序列,其中,是序列中出现的次数。
称为强典型序列集。
例4次掷硬币试验强典型序列有{0011}, {1001}, {1100}, {1100}, {0011}, {1010}.
ε>{}
(,):[()][()]U L k k k T L L p a L L p a εεε=−≤≤+u k L k a {},()k U p a
例信源发出的消息序列长度L=8,对其二元随机编码。
I 8的数值:
2, 1.80, 1.60, 1.41, 1.21, 1.01, 0.811, 0.61, 0.415
12~1/43/4a a U ⎛⎞
⎜⎟
⎝⎠
()0.81H U bit
=87162534435261781121212121212122
a ,a a ,a a ,a a ,a a ,a a ,a a ,a a ,a
()()20.471
I k D I a σ==
()4435261781212
12
12
2
22
a a ,a a ,a a ,a a ,a 163/0.3679.
I
L σε
=若对共个序列编码,错误概率上限是
()()()()()()()8
7
6
2
5
3
01238
8
8
8
C 1/4C 1/43/4C 1/43/4C 1/43/40.027
e P =+++=261735121212
0.2a a ,a a ,a a
ε=弱典型序列是44352617812
12
12
12
2
0.4a a ,a a ,a a ,a a ,a
ε=弱典型序列是87162531121212
a ,a a ,a a ,a a
3.2 离散无记忆(简单)信源的等长编码
3.2.3 离散无记忆信源编码定理
•可达
•对于给定的信源和编码速率R 以及任意,若
存在有,
和,使当时,就称R 是可达的,否则称此R 不可达。
例掷硬币实验R=1bit 可达;R=0.5bit 不可达。
0>ε0L ()E ()D 0L L >ε<e p
复习
无失真等长编码的充要条件
信源符号{a 1,a 2,…,a K } 码字符号{0,1,…,D-1}长l 的消息序列a i1a i2…a il 长为N 的码字n 1n 2…n N
D N ≥K L
N log D /L ≥log K
编码速率R =N log D /L R ≥log K
典型序列集
典型序列的数量
(1-ε
)2L (H (U )-ε)≤|T U (L ,
ε)|≤2
L (H (U )+ε)特定典型序列出现的概率
若一个特定的事件(u 1u 2…u L )∈T U (L , ε),则
2-L (H (U )+ε)≤P {(u 1u 2…u L )=(a i 1a i 2…a i L )}≤2-L (H (U )-ε)
Asymptotic Equipartition Property
{}
εεε+≤≤−=)()(:),(U H I U H L T L L U u
3.2 离散无记忆(简单)信源的等长编码
3.2.3 离散无记忆信源编码定理编码效率
最佳编码时,其
中,。
1
/)(≤=R U H η])(/[)(εη+=U H U H 0>ε
作业3.1 3.2。