第7讲——离散无记忆信源等长编码
信源编码等长码
● 根
0
º
0
1● 1●
0 1
10
º
0
110
º
111
º
码字是从树根节点出发到达终节点所对应的码符号序列
•
码的分类结构图
奇异码 非奇异码
唯一可译码
非唯一可译码
等长码
非等长码
即时码
延时码
• 平均码长
码字长度
n nm P(Cm )
码 , 或单义可译码。否则,就称为非唯一可译码或非 单义可译码。
例如,表3.1中码1是唯一可译码,而码2是非唯一可
译码。因为对于码2,其有限长的码符号序列能译成 不同的信源符号序列。如码符号序列为0010,可译 成s1s2s1或s3s1,就不唯一了。
唯一可译码 非唯一 可译码
表3.1
唯一可译码
[定义] 若W中任一有限长的码字序列 (即有限长的一 串W),可以被唯一地分割成一个一个码字,就称为是单义 可译或唯一可译的,W也叫做单义代码。 从扩展性定义:码的任意N次扩展码都是非奇异码,则唯一可译
• 求信息传输速率。
7 i=0
H X =-p(x i )log(p(x i )) 2.75log2 2.75(比特/符号) 1 1 1 n 2 2 2 3 2 4 2.75 (码元/符号) 4 8 16 信源特殊分 H X 2.75 RD = =1(比特/码元时间) 布,每个消 2.75 n 息的概率
码C: 0 10
110
111
4、码C是唯一可译的,因为任一串有限长的码字w, 如 100111011010 只能被分割成 10,0,111,0,110,10 任何其他分割方法都会产生一些不属于代码W的 码字(如1,001,11,011,010);
第7讲——离散无记忆信源不等长编码2014
Review
等长编码
消息集
u L
码字集 v N
log M N log D 编码速率: R , M DN L L N log D L log K N L D K 无失真 R log K
几乎无失真
N log D LH (U )
R H (U )
kr 1
K
K
( nk1 nk2 nkr )
i r nmin
i A D i
r nmax nK D Ai D i k 1 i r nmin K
r
由码的唯一可译性,可知长度为i含r个码字的序列 必不相同,于是 Ai Di ,则
1 1 rn max log2 r nmax nmin nk r r D 1 (rnmax rnmin ) 2 k 1 k rnmin 当 r 时,上式右边指数项趋于0,因而右边趋于1。 K 1 r
对典型序列无误编码
Review
例题
掷硬币:正面出现p=0.25,这时信源熵H(U)=0.811比特。
(1)若采用等长二元无错编码时, N H (U ) / R 81.1% R log D 1
5 p 10 (2)若采用只对典型序列编码,要求译码错误概率 e H (U ) / R 0.95,求L
如码字{0,10,010,111}虽然满足Kraft不等式,但 它不是唯一可译码。
nk 1 2 3 3 2 2 2 2 2 1 k 1 4
010可译码为010,或 0 , 10
Kraft不等式充分性证明
证明: 不妨设n1≤n2≤…≤nK,则n1级节点中的任何一个 作端点即占去了满树中所有可能nK级节点的
信息论与纠错编码题库 (1)
第三章 离散信源无失真编码3.2离散无记忆信源,熵为H[x],对信源的L 长序列进行等长编码,码字是长为n 的D 进制符号串,问:(1)满足什么条件,可实现无失真编码。
(2)L 增大,编码效率 也会增大吗? 解:(1)当log ()n D LH X ≥时,可实现无失真编码;(2)等长编码时,从总的趋势来说,增加L 可提高编码效率,且当L →∞时,1η→。
但不一定L 的每次增加都一定会使编码效率提高。
3.3变长编码定理指明,对信源进行变长编码,总可以找到一种惟一可译码,使码长n 满足D X H log )(≤n <D X H log )(+L 1,试问在n >D X H log )(+L1时,能否也找到惟一可译码? 解:在n >D X H log )(+L1时,不能找到惟一可译码。
证明:假设在n >D X H log )(+L1时,能否也找到惟一可译码,则由变长编码定理当n 满足D X H log )(≤n <D X H log )(+L 1,总可以找到一种惟一可译码知:在n ≥DX H log )( ① 时,总可以找到一种惟一可译码。
由①式有:Ln ≥L X H )(logD ② 对于离散无记忆信源,有H(x)=LX H )( 代入式②得:n L≥ D x H log )(即在nL≥Dx H log )(时,总可以找到一种惟一可译码;而由定理给定熵H (X )及有D 个元素的码符号集,构成惟一可译码,其平均码长满足D X H log )(≤n L <DX H log )(+1 两者矛盾,故假设不存在。
所以,在n >D X H log )(+L1时,不能找到惟一可译码。
3.7对一信源提供6种不同的编码方案:码1~码6,如表3-10所示信源消息 消息概率 码1 码2 码3 码4 码5 码6 u1 1/4 0 001 1 1 00 000 u2 1/4 10 010 10 01 01 001 U3 1/8 00 011 100 001 100 011 u4 1/8 11 100 1000 0001 101 100 u5 1/8 01 101 10000 00001 110 101 u6 1/16 001 110 100000 000001 1110 1110 u71/161111111000000000000111111111(1) 这些码中哪些是惟一可译码? (2) 这些码中哪些是即时码?(3) 对所有唯一可译码求出其平均码长。
ch3离散无记忆信源的无损编码
算术编码(AC)
初始时设S=Φ ,F(Φ)=0,p(Φ)=1。 计算序列的积累概率和序列的概率。
F ( Sur ) F ( S ) p( S ) F (ur ) p( Sur ) p( S ) p(ur )
1 计算码长 L log p ( S )
序列
Φ
1 11 111 1110 11101 111010 1110101 11101011
F(S) 0 0.01 0.0111 0.100101 0.100101 0.1001101011 0.1001101011 0.10011100000001 0.1001110011110111
P(S) 1 0.11 0.1001 0.011011 0.00011011 0.0001010001 0.000001010001 0.00000011110011 0.0000001011011001
离散无记忆信源的等长编码
Shannon等长信源编码定理 熵为H(U)的离散无记忆信源,对信源输 出长度为L的输出序列进行编码,假设编码字 符表有D个符号,则当
N L[ H (U ) L ] / log D
时,信源可以实现无损编码。反之若
N L[ H (U ) L ] / log D
将信源的K个符号按概率递减次序排列。 将两个概率最小的信源符号合并成一个新符号,
新符号的概率值为两个信源符号概率值的和。 依次类推,直至信源最后只剩下一个符号。 将每次合并的两个信源符号分别用0和1表示。 由后向前返回,就得到各信源符号对应的码字。
D元Huffman编码步骤:
增补D-M个概率为0的虚拟符号,其中M由下式给出:
信息理论与编码 第四章 离散无记忆信源无失真编码
7
63
H (U ) i1 P(ui ) log P(ui ) 32 bit/符号
l l 3 码元/符号
c
H (U ) l log r
63 32
3 log 2
65.625%
提高编码效率的方法:对符号串进行编码,同时
引入一定的失真。
20
4、引入失真,提高编码效率
lN H (U )
N log r
4
11 11
l
P(ui )li
i 1
1 2 3 3 24 88
1.75 码元/符号
编码策略: 出现概率大的符
编码策略:采用等长
号采用较短的码字,出现概
的码字
率小的符号采用较长的码字7
3、信息率
信
U
源 {u1,u2 , ,uq}
编码器 f
W
X
{w1,w2 , ,wq} {x1,x2 , ,xr }
限定定长编码码长的最小值,因此最佳的定长编码效率为:
c
H (U ) l log r
H (U ) lN log r
H (U )
H (U )
(1c )H (U ) c
(4-3-9)
N
可以证明,差错率满足关系:Pe
2 (U N 2
)
信源自信息量的方差
2 (U ) E I (ui ) H (U )2 P(ui )log P(ui )2 H (U )2
f 是一 一对应 的映射
P(wi ) P(ui ) i 1,2, ,q
X
{x1,x2 , ,xr }
H(W ) H(U) bit/码字或 bit/符号
新信源X :H (X ) H (W ) H (U ) bit/码元
3.1离散无记忆信源等长编码
3.1离散无记忆信源等长编码3.1离散无记忆信源等长编码3.1离散无记忆信源等长编码几乎无失真等长编码选择L 足够长,使N log D ≥L [H (U ) +εL ]εL 为与L 有关的正数,且当L →∞时有εL →0, 才其中,能不损失信息。
然而这样的编码不总能保证单义可译,但非单义可译所引起的错误可渐近为任意小。
反之,若N log D3.2 离散无记忆(简单)信源的等长编码编码速率R =N log D /L R =N log D /L ≥log K关于编码速率的说明:表示一个长度为N 的D 元码字给一个长度为L 的消息的每个符号所提供的信息量。
3.2 离散无记忆(简单)信源的等长编码一个消息序列U L 每符号含有信息量算术平均为:I L =I (u L ) /L =∑I (u l ) /Ll信源的熵为H(U)E (I (u l ))=∑p (a k ) I (a k ) =H (U )k设I (u l ) 的方差为σI 2σ=D (I (u l ))=∑p (a k ) (I (a k ) ?H (U ))2Ik23.2 离散无记忆(简单)信源的等长编码例信源发出的消息序列长度L=8。
a 2??a 1u l ~??1/43/4?I (a 1)I (a 2)?I (u l )~??3/4??1/42H (U )=0.81bitσ=D (I (u l ))=∑p (a k ) (I (a k ) ?H (U ))=0.4712Ik长为8的序列是(a1+a2) 8的展开式的所有项,共28个。
消息序列的概率是(p1+p2) 8的二项展开式中的各项。
I 8(a 18)=I (a 18)/8=I (a 1)5I 8(a 13a 2)=(3I (a 1)+5I (a 2))/83.2 离散无记忆(简单)信源的等长编码3.2.2 信源划分定理典型序列集的定义令H(U)是集{U , p (a k ) }的熵,ε>0,T U (L , ε) ={u L :H (U ) ?ε≤I L ≤H (U ) +ε}(IL=I (u L )/L , u L ∈UL)定义为给定信源U 输出长为L 的典型序列集T U (L , ε) 的补集它称作弱ε典型序列集;相应地,为非典型序列集。
第三章 信源编码-离散无记忆源等长编码
第三章 信源编码——离散信源无失真编码本章分析问题:在信宿要求无失真接收时,或所有信源信息无损的条件下,离散信源输出的表示——即信源编码问题。
内容:信源分类,信息速率的计算,编码定理,有效编码方法等。
一、信源及其分类 1. 离散信源和连续信源离散信源表示:…U-2U-1U0U1U2…其中UL随机变量,取值范围:A={a1,a2,…ak} 2.无记忆源和有记忆源无记忆源:各UL彼此统计独立简单信源:各UL彼此统计独立且服从同一概率分布 P(UL=ak)=Pk,k=1,2,…,K∑=Kk 1Pk=1有记忆源:各UL取值相关。
UL=(U1,U2,…,UL)∈UL,其概率分布由L维随机矢量表示,P(UL=a)=P(U1=ak1,…,UL=akL) 3.平稳信源:概率分布与起始下标无关P(U1=ak1,…,UL=akL)=P(Ut+1=ak1,…,UL=akL)4.各态历经源:信源输出的随机序列具有各态历经性。
5.有限记忆源:用条件概率P(UL,UL-1,UL-2,UL-m)表述。
m为记忆阶数。
6.马尔可夫源:有限记忆源可用有限状态马尔可夫链描述,当m=1时为简单马尔可夫链。
7.时间离散的连续源:各随机变量UL取值连续。
8.随机波形源:时间和取值上均连续的信源;由随机过程u(t)描述,时间或频率上有限的随机过程可展开成分量取值连续的随机矢量表示,即时间上离散,取值连续的信源。
9.混合信源二、离散无记忆源的等长编码离散无记忆源:DMSL长信源输出序列:UL=(U1,U2,…,UL),Ul取值{a1,a2,…ak},共KL种不同序列。
对每个输出序列用D元码进行等长编码,码长为N,则可选码共有DN个。
1.单义可译码或唯一可译码:条件:DN≥KL=M,即N≥LlogK/logDN/L:每个信源符号所需的平均码元数;N/L→3.322;2.信息无损编码要求:设每个信源符号的信息量为H(U),则L长信源序列的最大熵值为LH(U),编码时由于D个码元独立等概时携带信息量最大,使码长最短。
离散无记忆源的不等长编码
码A4:唯一可译、无译码延时,为即时码。
唯一可译码可能会出现译码延时
两个码字序列
只有当第15个比特出现后才能分开这两个序列 译码延时为15个比特
对于无限码字序列,译码延时可能无限
关于不等长编码(唯一可译性)的几个定
义
判别不等长编码唯一可译的方法
-后缀分解集系列判别
两个等式中后缀都是si , 而前缀和结果互换
3.2 离散无记忆源的不等长编码
3.2.1
不等长编码的唯一可译性和译码延
时
•不等长编码往往比等长编码更有效。 •设第k个消息用长度nk的D进制符号表示, 则平均每个消息码长为
不等长编码的复杂性
1.译码歧义 (要求编码唯一可译) 2.译码延时 (尽量降低译码延时)
码A3:唯一可译,但要收到下一个码字第一个符号“0”时才能判定 码字结束,故有译码延时。
例
编码唯一可译的充要条件
(但可能存在无限或有限的译码延时)
构造模糊序列
模糊序列:序列存在两种及两种以上不同的 译码形式
唯一可译且具有有限译码延时 后缀分解集无码字 且存在 某个n
唯一可译且无译码延时 后缀分能存在无限译码延时 后缀分解集无码字 并且 所有后缀分解集都非空
3.2.2 Kraft不等式
3.2.3 不等长编码定理
L:消息序列长度 N:编码序列长度
平均表示一个消息码元的编码码元数
定理3.2.4
离散无记忆源=>信源输出长度为L的熵为 每个信源输出符号熵的和
不等式两边同除以L
等长编码定理、不等长编码定理两者统一!
例
第七位
以0开头的码字可能为01, 也可能为011
现代通信原理(罗新民)指导书_第七章_信源编码_习题详解1
第七章 信源编码7-1已知某地天气预报状态分为六种:晴天、多云、阴天、小雨、中雨、大雨。
① 若六种状态等概出现,求每种消息的平均信息量及等长二进制编码的码长N 。
② 若六种状态出现的概率为:晴天—0.6;多云—0.22;阴天—0.1;小雨—0.06;中雨—0.013;大雨—0.007。
试计算消息的平均信息量,若按Huffman 码进行最佳编码,试求各状态编码及平均码长N 。
解: ①每种状态出现的概率为6,...,1,61==i P i因此消息的平均信息量为∑=-===6122/58.26log 1log i ii bit P P I 消息 等长二进制编码的码长N =[][]316log 1log 22=+=+L 。
②各种状态出现的概率如题所给,则消息的平均信息量为6212222221log 0.6log 0.60.22log 0.220.1log 0.10.06log 0.060.013log 0.0130.007log 0.0071.63/i i iI P P bit -== = ------ ≈ ∑消息Huffman 编码树如下图所示:由此可以得到各状态编码为:晴—0,多云—10,阴天—110,小雨—1110,中雨—11110, 大雨—11111。
平均码长为:6110.620.2230.140.0650.01350.0071.68i ii N n P == =⨯+⨯+⨯+⨯+⨯+⨯ =∑—7-2某一离散无记忆信源(DMS )由8个字母(1,2,,8)i X i =⋅⋅⋅组成,设每个字母出现的概率分别为:0.25,0.20,0.15,0.12,0.10,0.08,0.05,0.05。
试求: ① Huffman 编码时产生的8个不等长码字; ② 平均二进制编码长度N ; ③ 信源的熵,并与N 比较。
解:①采用冒泡法画出Huffman 编码树如下图所示可以得到按概率从大到小8个不等长码字依次为:0100,0101,1110,1111,011,100,00,1087654321========X X X X X X X X②平均二进制编码长度为8120.2520.2030.1530.1240.140.0840.0540.052.83i ii N n P == =⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯ =∑ ③信源的熵∑=≈-=81279.2log)(i i i P P x H 。
信息理论与编码_ 离散无记忆信源无失真编码_
3、编码器的输出f 是一一对应的映射i i P w P u i q()()1,2,, H W H U ()()bit/码字或bit/符号H W H U H X l l()()()bit/码元新信源X :编码后的信息率R :平均一个码元携带的信息量。
H W H U H X l l()()()bit/码元平均码长越小,每个码元携带的信息量就越多,传输一个码元就传输了较多的信息。
R X{,,,}12r x x x 编码器f12{,,,}q u u u 12{,,,}r x x x WU12{,,,}q w w w X信源4、编码效率为了衡量编码效果,定义编码效率:编码后的实际信息率与编码后的最大信息率之比。
max max ()()()()log log c R H X H U l H U R H X r l r注:编码效率实际上也是新信源X 的信息含量效率或熵的相对率。
新信源的冗余度也是码的冗余度:1c c X{,,,}12rx x x 编码器f12{,,,}q u u u 12{,,,}r x x x WU12{,,,}q w w w X信源5种不同的码i P u W W W W W U u u u u 351241234()1200001001401000010011810100111001118111110111111W 1: 定长码。
W 3: 变长码。
奇异码。
定长非奇异码肯定是UDC u u u u u u u u u u u u u12434321121211,00,10,010110,01,00,11,00,1,00,1W 2: 定长码。
W 4: 变长码。
W 5: 变长码。
非奇异码。
非奇异码。
非奇异码。
非奇异码。
续长码。
非续长码。
续长码。
及时码。
非及时码。
奇异码肯定不是UDC不是UDC非续长码肯定是UDC 是UDC非及时码。
非续长码。
W 3:1001001唯一可译码定长非奇异码非续长码非奇异码码奇异码非奇异码非唯一可译码唯一可译码定长非奇异码变长非续长码(部分)变长续长码4.3 定长编码定理和定长编码方法1、对信源输出的符号序列进行编码DMS编码器f12{,,,}q u u u 12{,,,}r x x x WU 12{,,,}q w w w XX12{,,,}r x x x DMS编码器f 12{,,,}N q 12{,,,}r x x x WNU 12{,,,}Nq w w w XX12{,,,}r x x x 对信源U 的单个符号进行编码对信源U 的N 长符号串进行编码对扩展信源U N 的单个符号进行编码12i i i iNu u u 1212,,,{,,,}i i iN q u u u u u u2、定长编码定理r 进制定长编码,码长为l N , 可用的码字数目:Nl r Nl Nrq唯一可译max max ()log ()log log N r H U l q H U N r r信息传输率编码效率()()/N H U R H X l Nmax ()()()log c NH X H U l H X r Nbit/码元DMS编码器f 12{,,,}Nq 12{,,,}r x x x W NU 12{,,,}N q w w w XX12{,,,}r x x x定长无失真编码定理:用r 元符号表对离散无记忆信源U 的N 长符号序列进行定长编码,N 长符号序列对应的码长为l N ,若对于任意小的正数ε,有不等式:就几乎能做到无失真编码,且随着序列长度N 的增大,译码差错率趋于0。
第三章 离散信源
Wuhan University
3.1 信源及其分类 3.2 离散无记忆信源的等长编码
1
信源的描述及分类
Wuhan University
信源的统计特性 信源是信息的来源,是产生消息(符号)或消 息序列的来源。 由于消息的不确定性,因此,信源是产生随 机变量、随机序列和随机过程的源。 客观信源的基本特性是具有随机不确定性。
Wuhan University
二进制无记忆信源的N次扩展:把每
N个二进制数字组成一组,则信源等 效成一个具有2N个符号的新信源,把 它称为单符号二进制无记忆信源的N 次扩展信源。
7
单符号信源的扩展
Wuhan University
例1:电报系统中,可以认为每二个二进制数
字组成一组。这样信源输出的是由二个二进 制数字组成的一组组符号。这时可以将它们 等效看成一个新的信源,它由四个符号00, 01,10,11组成,把该信源称为二进制无记 忆信源的二次扩展。
≥LlogK 没有考虑信源统计特性,认为每个 信源符号独立等概。 考虑信源统计特性时,无错编码的 条件: NlogD ≥LH(U) R≥H(U)
统计平均,仅当L 为无限时
22
离散无记忆信源的等长编码
Wuhan University
R ≥H(U) 在无错编码的前提下,编码的最低代价 当R≥logK时,能够实现无错编码。 当R<H(U)时,无论怎样编码都是有错 编码。 当logK>R>H(U)时,可以适当地编码 和译码使译码错误的概率pe任意小。 这就是所谓“渐进无错编码”。
K k 1 k
15
离散无记忆信源的等长编码
Wuhan University
《通信原理》教学课件 张力军 第7章
24
第7章 信源与信源编码
7.5 模拟信源的编码技术
1. 脉冲编码调制(PCM)
PCM解决问题思路:对信号压扩处理,令大信号大量阶
小信号小量阶,保持相对的信噪比不变。
具体做法:数学表达A率(中、欧)或律(美、日)
y Ax 0x1
1lnA
A
y1lnAx 1x1 1lnA A
(7.5-1)
量化:十三折线 缺点:PCM是标量量化,语音信号的相关性没有被充分
利用,因此,更先进的ADPCM和参数编码逐渐盛行 25
y
PCM十三折线
1
A律()
7/8
A1律3折量线化 ⑦
⑧
6/8
⑥
5/8 ⑤
线性量化
4/8 ④
3/8 ③
2/8 ②
x1 0.4
x2 0.2
x3 0.2
x4 x5
0.1 0 0.1 1
x1 0.4
x2 0.2
x3 0.2 0 x4 x5 0.2 1
x4 x5
0x3 1
0 1 x2
0 1 x1
0 1
第3步排序 符号 概率
x1 x3x4x5
x2
0.4
0.4 0 0.2 1
第4步排序 符号 概率
x2x3x4x5 0.6 0 x1 0.4 1
1.0
编出的霍夫曼码
符号 码字 码长
x1 1 x2 01 2 x3 000 3 x4 0010 4 x5 0011 4
1
16
第7章 信源与信源编码
7.3 离散信源编码
7.3.2 平稳离散信源的编码
7-第七讲_变长信源编码定理
变长信源编码定理
7-1 7-2 变长信源编码定理 Huffman编码
7-1 变长信源编码定理
1、基本概念 对信源输出的消息(一个符号或者一串符号)采用 不同长度的码字表示,则这种编码方法叫做变长编码。 一般应使出现概率大的消息用较短的码字表示,出现概 率小的消息用较长的码字表示,这样将会提高编码效率。
i 1 q q
L
L log r H ( S ) 1 pi
q
pi li log r
i 1 li
q
pi log
i 1
r
li
pi
log r
i 1
0
存在上界证明:构造即时码:
i log r
1 pi
log pi log r
i 1,2,...q
设信源有q个符号,第 i 个消息以长为 li 的 r-元 码表示,当信源为无记忆时,平均每个信源号所需的码
长为平均码长:
L P ( si )li
i 1
q
变长码与定长码的优缺点:同步、译码延时、效率方面。 信源符 号集 a1 a2 a3 a4 概率 0.5 0.25 0.125 0.125 码A 0 0 1 10 码B 0 1 00 11 码C 0 10 110 111 码D 0 01 011 0111
其信源编码后所得的二进制代码组长度为 Pj 平均长度为
LN Pj l j
j 1 q
N
,
lj ,代码组的
它满足:
H (S ) log r
1 N
LN N
H (S ) log r
( R'
L log r N
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
有 即
1 H (U ) log p(u L ) H (U ) L
L[ H (U ) ] log p(u L ) L[ H (U ) ]
等式两边各项取指数,即得证。
推论2(典型序列数目)
U , p(ak )和 0 ,典型序列 当L足够大时,对于给定的信源
每个序列平均符号的信息量接近于信源熵H(U); 所有典型序列的概率和趋近于1。
T (L, )
个别非典型序列的概率不一定比个别典型序列的概率低。 虽然非典型序列集中序列的总概率很小,但是元素数目 不一定小。
理解典型序列
个别非典型序列的概率不一定比个别典型序列的概率低。 掷硬币试验:正面出现概率p,反面出现概率1-p 典型序列 p pL (1 p) L pL 非典型序列(全反) (1 p)L 虽然非典型序列集中序列的总概率很小,但是元素数目 不一定小。 TU ( L, ) 2 L[ H (U ) ] 2 L[ H (U ) ] L[log K H (U ) ] 2 KL UL 2 L log K
I L 将以概率1取值为H(U)。 即当L足够大时,
推论1(特定序列出现的概率)
若 u L TU (L, ) ,则 2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ] 即
p(uL ) 2 LH (U )
证明:从典型序列定义式
TU ( L, ) uL : H (U ) I L H (U )
第七讲 离散无记忆信源 等长编码
信源编码基本概念
消息集 码字集
u L
信源输出序列 字母表 码字序列 集合
v N
u L (u1 , u 2 ,, u L )
a1 , a 2 ,, a K A p , p , , p K 1 2
v N (v1 , v2 ,, vN )
每个英文电报符号 至少要用5位二元符 号编码
实际英文电报符号信源,在考虑了符号出现的概率以 及符号之间的依赖性后,平均每个英文电报符号所提 供的信息量约等于1.4比特,即编码后5个二元符号只 携带约1.4比特的信息量,远小于5比特( 最大熵),可 见编码后的信息传输效率极低。
Hale Waihona Puke 无失真等长编码X Y
信源
N log D
LH (U )
p(u L ) p(ul )
l
I (u L ) log p(u L ) log p(ul ) [ log p(ul )] I (ul )
l l l
I L I (u L ) / L
令信源的熵为 H (U ),I (ul ) 的方差为 I ,则 I L 的均值为
可选 ,这可以通过适当选择L来实现,上式可以写成
I (u L ) Pr H (U ) 1 L
即当L足够大时,I L将以概率1取值为H(U)。
N log D LH (U )
典型序列
U , p(ak ) 的熵, 0 令H(U)是集
定义为给定信源U输出长为L的典型序列集,其中,
Lk 是L序列中 ak出现的次数,又称之为强典型序列集。
信源划分定理
定理: 给定信源 U , p(ak )和 0,当 L 时,
Pr TU ( L, ) 1
由契比雪夫大数定理,对于
0
I (u L ) I2 Pr H (U ) 2 L L
L长序列
信源编码器 码表
DN K L
N log D L log K
信道
N长码字
N log D LH (U )
几乎无失真编码
几乎无失真等长编码
选择L足够长,使
N log D L[ H (U ) L ]
其中, L为与L有关的正数,且当 L 时有 L 0 ,才 能不损失信息。然而这样的编码不总能保证单义可译, 但非单义可译所引起的错误可渐近为任意小。反之, 若 N log D L[ H (U ) ,编码误差变得任意大。 L]
2
方差为
I (ul ) EI (ul ) I (u L ) l l E E H (U ) L L L
E[
I (u L ) 1 H (U )] 2 2 E[ I (u L ) LH (U )] 2 L L 1 2 E[ I (u l ) LH (U )]2 L l
可达
对于给定的信源和编码速率R以及任意 0 若存在有L0 E () D() 使当码长 L L0 时 pe 就称R是可达的,否则称此R不可达。
无扰编码定理
若R>H(U),则R是可达的;若R<H(U) ,则R是 不可达的。 对于给定的离散无记忆信源,若D元码的速率R超过 信源的熵,即 N / L log D [ H (U ) ],则存在有编码 方法,当L足够大时就能使译码错误概率任意小。 编码效率 H (U ) / R
信源划分定理
定理: 给定信源 U , p(ak )和 0,当 L 时,
Pr TU ( L, ) 1 对于任意小 0,存在有正整数 L0,使得当
L L0时,有
Pr u L TU ( L, ) 1
由契比雪夫大数定理,对于
0
uL TU ( L. )
2 L( H (U ) ) TU ( L, ) 2 L[ H (U ) ]
即 TU (L, ) (1 )2L[ H (U ) ]
理解典型序列
一个离散无记忆信源输出的消息序列可以分为两组,
T ( L, ) 各序列出现的概率近于相等;
H (U ) / H (U )
(1 )2L[ H (U ) ] TU (L, ) 2L[ H (U ) ]
证明充分性
令 R H (U ),取 L L 。由信源划分定理推论2,对于 0
0
通过选择足够大的L,可使 TU (L, ) 2L[ H (U ) ] 2LR 编码: 对于每个 u L TU ( L, ) 依次标以码号1,2,…,2LR-1, 并令 相应号数的二元序列 作为相应消息的码字;而对于
因为R H (U ) 2 ,所以有 2L[ H (U ) 2 ] 个码字, 而典型 序列的个数至少为 (1 )2L[ H (U ) ] ,所以在TU ( L, ) 中的 序列可以找到码字的概率为
p 2L[ H (U )2 ] /(1 )2L[ H (U ) ] 2 L /(1 )
I (u L ) I2 Pr H (U ) 2 L L
I (u L ) I2 Pr H (U ) 1 2 1 L L
可选 ,这可以通过适当选择L来实现,上式可以写成
I (u L ) Pr H (U ) 1 L
I (u L ) I2 Pr H (U ) 1 2 1 L L
可选 ,这可以通过适当选择L来实现,上式可以写成
I (u L ) Pr H (U ) 1 L
I L 将以概率1取值为H(U)。 即当L足够大时,
码3 1 10 100 1000
码4 1 01 001 0001
无失真等长编码
X
Y
信源
L长序列
K
L
信源编码器
码表
DN K L
N log D L log K
DN
信道
N长码字
D K
N
L
实 例
英文电报27个符号,K=27,L=1,D=2(二元编码)
log 2 K NL log 2 27 5 log 2 D
u L T U ( L, ),都用第2LR个标号(000· · · 000)表示。
译码 : 若x2
LR
ˆ L uL 则u
ˆ L (000) 若 x 2 LR 则 u
ˆ L uL Pr uL T (L, ) pe Pr u
因此,R为可达速率。
1 2 2 * L I I /L 2 L
由契比雪夫大数定理,对于 0
I (u L ) I2 Pr H (U ) 2 L L
I (u L ) I2 Pr H (U ) 1 2 1 L L
TU ( L, ) uL : H (U ) I L H (U )
定义为给定信源U输出长为L的典型序列集,又可称作 弱ε典型序列集; 相应 TU ( L, ) 的补集为非典型序列集。
U , p(ak )的熵, 令H(U)是集 0
TU ( L, ) uL : L[ p(ak ) ] Lk L[ p(ak ) ]
2
L ( H (U ) )
TU (L, ) 2 L[ H (U ) ]
TU (L, ) 2L[ H (U ) ]
2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ]
uL TU ( L. )
有 1
p(uL )
B b1 , b2 ,, bD
D元码 等长码 不等长码 唯一可译码
信源编码基本概念
信源符号 信源符号 出现概率
a1 a2 a3 a4
p(a1)=1/2 p(a2)=1/4 p(a3)=1/8 p(a4)=1/8
码0 00 01 10 11
码1 0 11 00 11