信息论基础与编码(第五章)

合集下载

信息论与编码(第二版)陈运主编课件第五章 (1)

信息论与编码(第二版)陈运主编课件第五章 (1)
i 1
6
H ( x) 89.63% R
作业

5.1
2
3 4
令p(a0 ) 0, 用pa (a j )( j i 1)表示第i个码字的 累加概率pa (a j ) p(ai )
j 1 i 0
log 2 p(ai ) ki 1 log 2 p(ai ) ki 为第i个码字的长度
把pa (a j )用二进制表示,并取小数点后的ki 位 作为ai的码字
码序列:C W1W2 ...WK Wk {b1 , b2 ...bm }
定长 消息序列
码序列
变长
定理说明
m-码序列中每个符号的可能取值,单个符号的 信息量为 log m K-定长编码的长度,总信息量 K log m L-信源符号的长度,平均每个符号的信息量为 K log m
K log m H(X ) 信息率: R L H(X ) 编码效率字是否可分离?
消息 概率 a1 0.5 a2 0.25 a3 0.125 0.125 a4
码A 0 0 1 10
不可 分离
码B 0 1 00 11
不可 分离
可分离 可分离 即时码 有延时 异前置码
码C 0 01 011 0111
码D 0 10 110 1110
克拉夫特不等式
L
信息率略大于信源熵,可做到无失真译码
例题

P66 例2.4.1
结论:定长编码简单,但要达到一定的差错 率不易实现,且编码效率低。
2
变长编码定理:
对离散无记忆信源,消息长度为L,符号熵为H(X), 对信源进行m元变长编码,一定存在无失真的信源编 码方法
其码字平均长度
K 满足:

信息论基础与应用-李梅-第五章 无失真信源编码解析

信息论基础与应用-李梅-第五章 无失真信源编码解析
s1 s1s1 s 2 s1s2 s3 s1s3 s16 s4 s4
二次扩展码码字 w j ( j 1, 2,...,16)
w1 w1w1 00 w 2 w1w2 001 w3 w1w3 0001 w16 w4 w4 111111
第五章:无失真信源编码
一、信源编码的相关概念
4. 关于编码的一些术语

编码器输出的码符号序列 wi称为码字;长度 li 称为码 字长度,简称码长;全体码字的集合C称为码。 若码符号集合为X={0,1},则所得的码字都是二元序 列,称为二元码。

将信源符号集中的每个信源符号
si 固定的映射成某
一个码字 wi ,这样的码称为分组码。
码字与信源符号一一对应
2) 不同的信源符号序列对应不同的码字序列
第五章:无失真信源编码
一、信源编码的相关概念
6. 唯一可译性(续2)
例1:
1) 奇异码
s1 s2 s3 s4
0 11 00 Байду номын сангаас1
译码 11
s2 s4
奇异码一定不是唯一可译码
第五章:无失真信源编码
一、信源编码的相关概念
6. 唯一可译性(续3)
译码 0 0 0 1 1 0 1 1
s1s2 s3 s4
第五章:无失真信源编码
一、信源编码的相关概念
6. 唯一可译性(续5)
4)
唯一可译码 1 1 0 1 0 0 1 0 0 0 0
s1 s2
1 10
1 0
1
s2 / s3 ?
s3 100 s4 1000

为非即时码
第五章:无失真信源编码
一、信源编码的相关概念

信息论与编码第5章限失真信源编码

信息论与编码第5章限失真信源编码
4 1 0
第一节 失真测度
• 以上所举的三个例子说明了具体失真度的定义. 一般情况下根据实际信源的失真, 可以定义不同 的失真和误差的度量.
• 另外还可按照其他标准, 如引起的损失、风险、 主观感受上的差别大小等来定义失真度d(ui,vj).
• 从实用意义上说, 研究符号实际信源主观要求的、 合理的失真函数是很重要的.
第一节 失真测度
设信源变量为U={u1,…,ur}, 接收端变量为 V={v1,…,vs}, 对于每一对(u,v), 指定一个非负 函数
d(ui,vj)≥0 称为单个符号的失真度(或称失真函数). 失真函数用来表征信源发出符号ui, 而接收端再现 成符号vj所引起的误差或失真. d越小表示失真越小, 等于0表示没有失真.
➢ 应该指出, 研究R(D)时, 条件概率p(v|u)并没有 实际信道的含义. 只是为了求互信息的最小值而引 用的、假想的可变试验信道. ➢ 实际上这些信道反映的仅是不同的有失真信源编 码或信源压缩. 所以改变试验信道求平均互信息最 小值, 实质上是选择编码方式使信息传输率为最小.
率失真理论与信息传输理论的对偶关系
– 接收端获得的平均信息量可用平均互信息量I(U;V)表示;
– 这就变成了在满足保真度准则的条件下 D D 找平均互信息量I(U;V)的最小值.
,寻
– 因为BD是所有满足保真度准则的试验信道集合, 即可以 在D失真许可的试验信道集合BD中寻找某一个信道 p(vj|ui), 使I(U;V)取最小值.
本章所讨论的内容是量化、数模转换、频带 压缩和数据压缩的理论基础.
前言
本章主要介绍信息率失真理论的基本内容, 侧 重讨论离散无记忆信源.
首先给出信源的失真度和信息率失真函数的定 义与性质, 然后讨论离散信源的信息率失真函数计 算. 在这个基础上论述保真度准则下的信源编码定 理.

信息论与编码 曹雪虹 PPT 第第5章

信息论与编码 曹雪虹 PPT 第第5章
H L ( X) η= , ε >0 H L ( X) + ε
信息论基础B
25
5.2 无失真信源编码
编码定理从理论上阐明了编码效率接近1的理想 编码器的存在性,它使输出符号的信息率与信 源熵之比接近于1,即
H L ( X) →1 KL log m L
信息论基础B
L取无限长
26
5.2 无失真信源编码
R3=0.985比特/二元码符号 L=4 η = 0.991
4
R4=0.991比特/二元码符号
信息论基础B
40
5.2 无失真信源编码
定长二元码编码,要求编码效率达到96%时 -5 ,允许译码错误概率 δ ≤ 10
σ (X ) =
2
∑ p (log p )
i i i =1
2
2
− [ H ( X )]
42
5.2 无失真信源编码
香农(Shannon)编码 将信源消息符号按其出现的概率大小依次 排列
p1 ≥ p2 ≥ L ≥ pn
确定满足下列不等式的整数码长Ki。
信息论基础B
7
5.1 编码的定义
如图5-1所示,如果信源输出符号序列长度L=1,信源 符号集A(a1,a2,…,an) 信源概率空间为
X a1 = P p(a1 )
a2 L an p ( a 2 ) L p ( an )
若将信源X通过二元信道传输 , 若将信源 通过二元信道传输, 就必须把信源符 通过二元信道传输 变换成由0, 符号组成的码符号序列 符号组成的码符号序列, 号 ai 变换成由 , 1符号组成的码符号序列 , 这个 过程就是信源编码
例 设离散无记忆信源概率空间为

信息论基础 第五章

信息论基础 第五章

5.1.2码的分类 分组码和非分组码 分组码:将信源符号集中的每个信源符号si固定地映射成一个码字wi, 这样的码称为分组码。 非分组码:又称树码,编码器输出的码符号通常与编码器的所有信源 符号都有关。 2.奇异码与非奇异码 非奇异码:若一种分组码中的所有码字都不相同,则称此分组码为非 奇异码,否则称为奇异码。 非奇异码是分组码能够正确译码的必要条件,而不是充分条件。
5.2定长码 定长非奇异码一定是唯一可译码。
若对一个有q个信源符号的信源S进行定长编码,那么信源S存在唯 一可译定长码的条件是
qr
N
l
其中,r是码符号集中的码元数,l 是定长码的码长。
q r
l
5.3变长码及变长编码定理
5.3.1 Kraft不等式和McMillan不等式 Kraft不等式
McMillan不等式
r li 1
i 1
q
定理5.3 设信源符号集为S={s1,s2,…sq},码符号集为X={x1,x2,…xr},对信 源进行编码,得到的码为C= {w1,w2,…wq},码长分别为l1,l2,…lq.即 q 时码存在的充要条件是 这称为Kraft不等式。 li
r
i 1
1
5.3.2
定理5.1一个唯一可译码成为即时码的充要条件是其中任何一个码 字都不是其他码字的前缀。
充要性:
如果任何一个码字都不是其他码字的前缀, 则在接收到一个相当于一个完整码字的码符号后便可立即译码,
无需考虑其后的码符号。
必要性: 如果设wi是wj的前缀,则在收到相当于wi的码符号序列后还不能立 即判定它是一个完整的码字,若想正确译码,还必须参考后续的码 符号,这与即时码的定义相矛盾,所以即时码的必要条件是其中任 何一个码字都不是其他码字的前缀。

信息论基础第五章课后答案

信息论基础第五章课后答案

5.1设有信源⎭⎬⎫⎩⎨⎧=⎪⎪⎭⎫ ⎝⎛01.01.015.017.018.019.02.0)(7654321a a a a a a a X P X (1)求信源熵H(X)(2)编二进制香农码(3)计算其平均码长及编码效率解:(1)H(X)=-)(log )(21i ni i a p a p ∑=H(X)=-0.2log 20.2-0.19log 20.19-0.18log 20.18-0.17log 20.17-0.15log 20.15-0.log 20.1-0.01log 20.01H(X)=2.61(bit/sign)(2)ia i P(ai)jP(aj)ki码字a 001a 10.210.0030002a 20.1920.2030013a 30.1830.3930114a 40.1740.5731005a 50.1550.7431016a 60.160.89411107a 70.0170.9971111110(3)平均码长:-k =3*0.2+3*0.19+3*0.18+3*0.17+3*0.15+4*0.1+7*0.01=3.14(bit/sign)编码效率:η=R X H )(=-KX H )(=14.361.2=83.1%5.2对习题5.1的信源二进制费诺码,计算器编码效率。

⎭⎬⎫⎩⎨⎧=⎪⎪⎭⎫ ⎝⎛0.01 0.1 0.15 0.17 0.18 0.19 2.0 )(7654321a a a a a a a X P X 解:Xi)(i X P 编码码字ik 1X 0.2000022X 0.191001033X 0.18101134X 0.17101025X 0.151011036X 0.110111047X 0.01111114%2.9574.2609.2)()(74.2 01.0.041.0415.0317.0218.0319.032.02 )(/bit 609.2)(1.5=====⨯+⨯+⨯+⨯+⨯+⨯+⨯===∑KX H R X H X p k K sign X H ii i η已知由5.3、对信源⎭⎬⎫⎩⎨⎧=⎪⎪⎭⎫ ⎝⎛01.01.015.017.018.019.02.0)(7654321x x x x x x x X P X 编二进制和三进制赫夫曼码,计算各自的平均码长和编码效率。

信息论与编码第五章部分PPT课件

信息论与编码第五章部分PPT课件
a
符号概率
pi
0.100(1/2)
符号累积概率
Pr
0.000(0)
b 0.010(1/4) 0.100(1/2)
c 0.001(1/8) 0.110(3/4)
d 0.001(1/8) 0.111(7/8)
译码
C(abda)=0.010111<0.1[0,0.1] 第一个符号为a 放大至[0,1](×pa-1):
可以纠正一位错码 dmin=3
可以纠正一位错码
可纠正一位错码同时 检出二位错码dmin=4
定理(1)能检出e个错码的条件是d0>=e+1;
(2)能纠正t个错码的条件是t=INT[(dmin-1)/2];
(3)能纠正t个错码,同时检出e个错码的条件是d0>=e+t+1。
刚才的发言,如 有不当之处请多指
正。谢谢大家!
2021/3/9
28
信源消息
符号ai
a1 a2 a3 a4 a5 a6 a7
符号概
率(ai)
0.20 0.19 0.18 0.17 0.15 0.10 0.01
累加概 -log p(ai)
率Pi
0 0.2 0.39 0.57 0.74 0.89 0.99
2.32 2.39 2.47 2.56 2.74 3.32 6.64
C ( ) 0, A( ) 1
C ( Sr
A
(
Sr
) )
C (S A(S
) )
pi
A(S
) Pr
L log 1 A(S )
C() 0, A() 1
C(Sr) A(Sr)
C(S) A(S)pi
A(S)Pr

信息理论基础第五章课件

信息理论基础第五章课件
则有:
r l 2 N ( H ( S ) 2 )
即可以编码得到的码字总数不超过….?
根据MG的下界可知,此时码字的总数小于典型序列数目, 因此典型序列中有一些序列没有码字与之对应。将有码字 对应的信源序列的概率和记为P(β),它必须满足:
P( ) r l max( p( j ))
编码器可以用下图表示: 信源 编码器 信道
码表 图5-1 信源编码器示意图 信源编码器的输入是信源符号集S={s1,s2,…sq},共 有q个信源符号。 码表又称码符号集,记为 X={x1,x2,…xr},码符号集 中的元素称为码元或者码符号。 编码器的作用就是将信源符号集中的符号si变成由 li个码符号组成的一一对应的码符号序列,称为码字。 用ωi表示。对应的li称为码字长度或码长。
将信源符号集中的每一个符号都固定地映射成一个 码字,这个的码称为分组码。
与分组码对应的是非分组码,又称为树码。 2.奇异码与非奇异码
定义
若一个分组码中所有的码字都不相同,则称此码为 非奇异码。否则为奇异码。
例子见教材。
3.唯一可译码与非唯一可译码
定义
任意有限长的码元序列,如果只能唯一地分割成一 个个码字,便称为唯一可译码。
p( j ) 2
N H ( S )
p(G ) N H ( S ) MG [1 ( N , )]2 max( p( j ))
下界
对仅仅对典型序列进行编码,要求码字总数rl满足:
r l MG
根据典型序列的个数的上界和下界,得
r l 2 N ( H ( S ) )
i
q
注:上式考虑的是sjk所有不同的取值。 I(sjk)的方差为:

信息论基础第5章无失真信源编码

信息论基础第5章无失真信源编码
进行霍夫曼编码时,应把合并后的概率总是放在 其他相同概率的信源符号之上,以得到码长方差最小 的码。
r 元霍夫曼编码步骤:
1) 验证所给 q 是否满足 q (r 1) r ,若不满足该式,
可以人为地增加 t 个概率为零的符号,满足式
n (r 1) r ,以使最后一步有 r 个信源符号;
2) 取概率最小的 r 个符号合并成一个新符号,并分别用 0, 1,…,(r 1) 给各分支赋值,把这些符号的概率相加作为该新 符号的概率;
上述不等式只是即时码存在的充要条件,而不能作为判别的依据。
需要注意的是,克拉夫特不等式是即时码存在的充要条件,而 不能作为判别的依据。后来麦克米伦(B. McMillan)证明唯一可译 码也满足克拉夫特不等式。这说明在码长选择的条件上,即时码与 唯一可译码是一致的。
【例】 对于二元码,即 r 2 ,如果 q 4 , L1 2 , L2 2 ,
原始信源普遍存在剩余度,香农信息论认为信源的剩余度主 要来自两个方面:一是信源符号间的相关性,二是信源符号概率 分布的不均匀性。为了去除信源剩余度,提高信源的信息传输率, 必须对信源进行压缩编码。
目前去除信源符号间相关性的主要方法是预测编码和变换编 码,而去除信源符号概率分布不均匀性的主要方法是统计编码。
《信息论基础》
第5章 无失真信源编码
第 2 章已经讨论了离散信源的信息度量—信源熵, 本章将讨论信源的另一个重要问题:如何对信源的输出 进行适当的编码,才能用尽可能少的码元来表示信源信 息,做到以最大的信息传输率无差错地传输信息呢?即 无失真信源编码,它解决的是通信的有效性问题。
本章将首先介绍信源编码器;然后从理论上阐述无 失真信源编码定理,得出“平均码长的理论极限值就是

信息论基础与编码(第五章)

信息论基础与编码(第五章)

5-1 有一信源,它有六种可能的输出,其概率分布如下表所示,表中给出了对应的六种编码12345C C C C C 、、、、和6C 。

(1) 求这些码中哪些是唯一可译码; (2) 求哪些是非延长码(即时码);(3) 对所有唯一可译码求出其平均码长。

解:(1(2)1,3,6是即时码。

5-2证明若存在一个码长为12,,,q l l l ⋅⋅⋅的唯一可译码,则一定存在具有相同码长的即时码。

证明:由定理可知若存在一个码长为Lq L L ,,2,1 的唯一可译码,则必定满足kraft 不等式∑=-qi l ir1≤1。

由定理44⋅可知若码长满足kraft 不等式,则一定存在这样码长的即时码。

所以若存在码长Lq L L ,,2,1 的唯一可译码,则一定存在具有相同码长P (y=0)的即时码。

5-3设信源126126()s s s S p p p P s ⋅⋅⋅⎡⎤⎡⎤=⎢⎥⎢⎥⋅⋅⋅⎣⎦⎣⎦,611i i p ==∑。

将此信源编码成为r 元唯一可译变长码(即码符号集12{,,,}r X x x x =⋅⋅⋅),其对应的码长为(126,,,l l l ⋅⋅⋅)=(1,1,2,3,2,3),求r 值的最小下限。

解:要将此信源编码成为 r 元唯一可译变长码,其码字对应的码长(l 1 ,l 2 ,l 3, l 4,l 5, l 6)=(1,1,2,3,2,3) 必须满足克拉夫特不等式,即132321161≤+++++=------=-∑r r r r r r ri li所以要满足122232≤++r r r ,其中 r 是大于或等于1的正整数。

可见,当r=1时,不能满足Kraft 不等式。

当r=2, 1824222>++,不能满足Kraft 。

当r=3,127262729232<=++,满足Kraft 。

所以,求得r 的最大值下限值等于3。

5-4设某城市有805门公务和60000门居民。

作为系统工程师,你需要为这些用户分配。

《信息论与编码基础》唐朝京 课后答案

《信息论与编码基础》唐朝京 课后答案

H ( X N ) = NH ( X ) = 1000 × 13.288 = 13288 bit / symbol
N=
w.
H ( X N ) 2.1 × 10 6 = = 158037 H (X ) 13.288


i
∑ p( x ) = 1.07 > 1 。
i
6

案 网
= −(0.2 log 2 0.2 + 0.19 log 2 0.19 + 0.18 log 2 0.18 + 0.17 log 2 0.17 + 0.16 log 2 0.16 + 0.17 log 2 0.17)
' p1' = p1 − ε , p 2 = p 2 + ε ,其中 0 < 2ε ≤ p1 − p 2 ,而其他概率值不变。试证明由
此所得新的概率空间的熵是增加的,并用熵的物理意义作以解释。
证: H = H ( P 1 LP 1 log P 1 −P 2 log P 2 − q ) = −P


H ' = H (P q) 1 −ε, P 2 + ε, P 3LP
案 网
x2(不是大学生) 0.75
课后答案网
2.3 掷两颗骰子,当其向上的面的小圆点之和是 3 时,该消息包含的信息量是多 少?当小圆点之和是 7 时,该消息所包含的信息量又是多少?
解: 1)因圆点之和为 3 的概率 p ( x ) = p (1, 2) + p (2,1) =
解: 1)
H ( X ) = log 2 n = log 2 128 = 7 bit / symbol
ww
2) 3)

信息论与编码(第二版)陈运主编课件第五章 (4)

信息论与编码(第二版)陈运主编课件第五章 (4)

~ d 0 x1 q0
c1 1 1 q1 1 ~ ~ x2 dq0 dq1 x1 dq1 0 0.125 0.125
d q 2 0.125 d 2 x2 ~2 0.15 0.125 0 x x c 1 x d ~ 0.125 0.125 0.25
max
dt
Ts

大于奈奎斯特采样定理的要求。
差分脉冲编码调制
差分脉冲编码调制原理如下,其中(a)为发送端,(b)为接收端。
xn +
+ +
dn
量化
d qn
编码
cn
cn
译码
d qn +
+
xn
~ xn
~ xn
x
i 1
n
n i
d
i 1
n
qn i
~n i x
(a)
(b)
xn 与量化预测值~n 之差d n 进行量化; x 在发送端,将信号值
作业
5.15
d q3 0.125
x x3 d q3 ~3 0.125 0.25 0.125
~ ~ x4 dq0 dq1 dq 2 dq 3 x3 dq 3 0.25 0.125 0.125 d x ~ 0.2 0.125 0 d 0.125 x
2 2 2
d q 2 0.09381011 2 ( )
c2 1011
x x2 d q 2 ~2 0.0938 0.0625 0.1563
~ d ~ 0.0938 0.0625 0.1563 x3 x2 q2
d 3 x3 ~3 0.23 0.1563 0.0737 x

信息论与编码 第5章(1)

信息论与编码 第5章(1)
第5章(第1讲)
信源编码
2015-1-13 1
数字通信系统的一般模型
干扰源
信源
编码器
调制器
物理信道 实际信道
解调器
译码器
信宿
编码信道
等效信道
2 2015-1-13

信息通过信道传输到信宿的过程即为通信。要做到 既不失真又快速地通信,需要解决两个问题: 在不失真或允许一定失真条件下,如何提高信息 传输速度----这是本章要讨论的信源编码问题.
17 2015-1-13
编码的定义
(2)唯一可译码 非即时码: 如果接收端收到一个完整的码字后不能立即译码,还 需等下一个码字开始接收后才能判断是否可以译码 即时码(非延长码,异前缀码): 在译码时无需参考后续的码符号就能立即作出判断, 译成对应的信源符号。 任意一个码字都不是其它码字的前缀部分 在延长码中,有的码是唯一可译的,取决于码的总体结 构,如码3, “1,10,100,1000”.


减少冗余,提高编码效率。具体的说,就是针对信源输 出符号序列的统计特性,寻找一定的把信源输出符号序 列变换为最短码字序列的方法。 符号变换:使信源输出符号与信道的输入符号相匹配。

信源编码的基本途径有两个:

一是编码后使序列中的各个符号之间尽可能地互相独立, 即解除相关性----方法包括预测编码和变换编码. 二是使编码后各个符号出现的概率尽可能相等,即均匀 化分布----方法主要是统计编码.


首先观察是否是非奇异码。若是奇异码,肯定不是唯一可 译码 其次,计算是否满足Kraft不等式。若不满足一定不是唯 一可译码; 然后将码画成一棵树图,观察是否满足异前缀码的树图的 构造,若满足则是唯一可译码。 缺点:若是前缀码时,则无法判断是否是唯一可译码。

信息论基础课件5.1

信息论基础课件5.1

克拉夫特( 克拉夫特(Kraft)不等式 )
m 元长度为 k i , i = 1,2, L , n 的即时码(异前置码) 的即时码(异前置码) 存在的充要条件是: 存在的充要条件是: m − ki ≤ 1 ∑
i =1 n
设即时码的第i个码字的长度为 设即时码的第 个码字的长度为ki 个码字的长度为 构造一个满树图,在第 级共有m 个节点, 构造一个满树图,在第ki级共有 ki个节点,
H( X) R < H( X ) + ε ≤
1
香农第一编码定理给出了码字的平均长度的下界和 上界。但并不是说大于这上界不能构成唯一可译码, 上界。但并不是说大于这上界不能构成唯一可译码, 尽可能短。 而是因为我们总是希望 k 尽可能短。定理说明当平 均码长小于上界时,唯一可译码也存在。也就是说, 均码长小于上界时,唯一可译码也存在。也就是说, 定理给出的是最佳码的最短平均码长, 定理给出的是最佳码的最短平均码长,并指出这个 最短的平均码长与信源熵是有关的。 最短的平均码长与信源熵是有关的。 编码效率为
4
5.1
离散信源编码
5.1.1 码字唯一可译的条件
若码的任意一串有限长的码符号序列只能唯一地被译 成所对应的信源符号序列,则此码称为唯一可译码, 成所对应的信源符号序列,则此码称为唯一可译码, 否则就称为非唯一可译码。 否则就称为非唯一可译码。 非即时码和即时码: 非即时码和即时码: 如果接收端收到一个完整的码字后,不能立即译码, 如果接收端收到一个完整的码字后,不能立即译码, 还要等下一个码字开始接收后才能判断是否可以译码, 还要等下一个码字开始接收后才能判断是否可以译码, 这样的码叫做非即时码。 这样的码叫做非即时码。
11
例题(5.1):设 : 例题 信源共有7个符 信源共有 个符 号组成, 号组成,其概率 如表所示, 如表所示, 求其香农码。 求其香农码。

第5章信源编码-信息论与编码(第3版)-曹雪虹-清华大学出版社

第5章信源编码-信息论与编码(第3版)-曹雪虹-清华大学出版社

普通高等教育“十五”国家级规划教材《信息论与编码》 曹雪虹等编著
7
5.1 编码的概念
码可分为两类: 一、固定长度的码,码中所有码字的长度
都相同,如表5-1中的码1就是定长码 二、可变长度码,码中的码字长短不一,
如表中码2就是变长码。
普通高等教育“十五”国家级规划教材《信息论与编码》 曹雪虹等编著
8
1
第5章 信源编码
信源编码的作用可归纳为:
(1) 符号变换:使信源的输出符号与信 道的输入符号相匹配;
(2)信息匹配:使信息传输率达到信道 容量;
(3) 冗余度压缩:使编码效率等于或接 近100%。
普通高等教育“十五”国家级规划教材《信息论与编码》 曹雪虹等编著
2
第5章 信源编码
信源编码的基础是信息论中的两个编码定理:
每个符号序列xi依照固定码表映射成一个码字yi, yi=(yi1yi2…yil…yiL), yilB={b1,b2,…,bi,…,bm}
这样的码称为分组码,有时也叫块码。只有分组码才有对 应的码表,而非分组码中则不存在码表。
普通高等教育“十五”国家级规划教材《信息论与编码》 曹雪虹等编著
6
5.1 编码的概念
9
5.1 编码的概念
(1)奇异码和非奇异码 若信源符号和码字是一一对应的,则该 码为非奇异码。反之为奇异码。 如表5-2中的码1是奇异码,码2是非奇异 码。
普通高等教育“十五”国家级规划教材《信息论与编码》 曹雪虹等编著
10
5.1 编码的概念
(2)唯一可译码 任意有限长的码元序列,只能被唯一地 分割成一个个的码字,便称为唯一可译 码
如图5-1所示,如果信源输出符号序列长度L=1,
信源符号集A(a1,a2,…,an)

信息论讲义-第五章(13讲)

信息论讲义-第五章(13讲)

信息理论基础第13讲北京航空航天大学201教研室陈杰21.编码器—信源符号集S =(s 1,s 2, …s q )—码符号集X =(x 1,x 2…x r )—代码组(Source Code ) C =(W 1, W 2,…W q )—码字(Codeword ) W i =(x l1,x l2,…x li )2. 分组码—奇异性(Non-singular )—唯一可译性(Uniquely decodable )—即时码(Instantaneous )All codesNon-singular codesUniquely decodable codesInstantaneous codesFigure 5.1. Classes of codes343. 定长编码3.1 唯一可译定长码编码速率编码效率log log L ql N r=≥log 1log q r +>log log L r R qN=≥()()log H S H S R qη=≤例:英文字符数q =27,且log 2q=4.754 bit 信源熵H (S )=4.03 bit ,取编码速率R=log 2q 则编码效率η=85%53. 定长编码3.2 定长码编码定理(1)正定理:(2)逆定理:log ()L rR H S Nε=≥+2[()]i E D I s p N ε≤log ()2L rR H S Nε=≤−12N E p ε−≥−0E p →1E p →63. 定长编码3.2 定长码编码定理根据正定理,令p E <δlog ()L rR H S Nε=≥+2[()]i E D I s p N δε≤<2[()]i D I s N εδ≥()H S Rη=()()H s H s ε≤+[]222()()(1)i D I s N H S ηηδ≥⋅−1()H s ηεη−=75.4 变长码•引入1. 变长码无需很长的码长就能实现高效率的无失真信源编码2.变长码必须是唯一可译码,才能实现无失真编码3.变长码是唯一可译码的充要条件:(1)非奇异码(2)任意有限次扩展码是非奇异码4. 变长码必须即时码85.4.1码的分类和主要编码方法信源编码方法:⑴匹配编码:概率大的信源符号,代码长度短;反之,代码长度长⑵变换编码:从一种空间变换成另一种空间,然后进行编码⑶识别编码:对有标准形状的文字、符号和数据进行编码9定理:设信源符号集为S=(s 1,s 2, …,s q,),码符号集为X=(x 1,x 2, …x r ),对信源进行编码,代码组C=(W 1,W 2, …W q ),相应码长分别l 1,l 2,…l q ,即时码存在(唯一可译码存在)的充要条件为:11≤∑=−qi l ir10释:(1)克拉夫特(Kraft)不等式为即时码存在充要条件(2)麦克米伦(McMilan )不等式为唯一可译码存在充要条件(3)该定理不能作为判别一种码是否为即时码(唯一可译码)的判据(4)当码字长度和码符号满足该不等式时,必可构造出即时码(唯一可译码)115.4.3 唯一可译码判别准则•唯一可译码:如果一个分组码对于任意有限的整数N ,其N 次扩展码均为非奇异码,则为唯一可译码•唯一可译码的充要条件:(见书上128页)121.码平均长度离散无记忆信源为编码后的码子码字的长度因为是唯一可译码,s i 和W i 一一对应则码字平均长度为[]1212()()()q q s s s S P p s p s p s ⎡⎤=⎢⎥⎣⎦""12,,,qW W W "ql l l ,,,21"()()i i p s p W =11()()q qi i i ii i L p W l p s l ====∑∑13释:(1)是每个信源符号编码需要的平均码符号个数;(2) 编码后,每个信源符号s i 平均用个码符号来表示,平均每个码符号携带的信息量是信道的信息传输率(3) 若传输一个码符号需要t 秒,则每秒传输率为故L L L s H X H R )()(==Ls H R t R t )(1==bit/码符号bit/秒L R t 信息传输率高2.紧致码定义:对于某一个信源和某一码符号集,若有一L个唯一可译码,其平均码长度小于所有其它唯一可译码的平均码长度,则称该码为紧致码(也称最佳码)•释:无失真信源编码核心问题是寻找紧致码14153.定理:(平均码长下界)设离散无记忆信源的信源熵为H (S ),用码符号集进行编码,则存在一种编码方式构成唯一可译码,平均码长满足[]1212()()()q q s s s SP p s p s p s ⎡⎤=⎢⎥⎣⎦""},,,{21q x x x X "=L rS H L r S H log )(1log )(+<≤16释:(1) 的极限值为,即下界;小于下界,则唯一可译码不存在(2) 当选择时,才能达到下界(3) 紧致码平均码长不一定达到下界(4) 达到下界的唯一可译码是紧致码(5) 紧致码最短码长L ()log H S r Llog ()log i i p s l r=−rS H L log )(=174 变长无失真信源编码定理(香农第一定理)定理:设离散无记忆信源其信源熵为H (S ),它的N 次扩展信源为[]1212()()()q q s s s SP p s p s p s ⎡⎤=⎢⎥⎣⎦""1212()()()N N qN q S P p p p αααααα⎡⎤⎡⎤=⎢⎥⎣⎦⎢⎥⎣⎦""18扩展信源熵为H (S N ),码符号集X =(x 1,x 2, …x r ),用X 对S N 编码,则总可以找到一种编码方法,构成唯一可译码,使信源S 中的每个信源符号所需要的码字平均长度满足或rS H N L N r S H N log )(1log )(≥>+)(1)(S H NL N S H r N r ≥>+19当时,则其中,是扩展信源中每个信源符号对应的平均码长式中,是对应的码字长度∞→N )(lim S H N L r N N =∞→rS H N L N N log )(lim =∞→N L i α1()Nq N i ii L p αλ==∑i λi α20释:对于平稳遍历的离散有记忆信源(如马尔可夫信源),有其中,为有记忆信源的极限熵N L N L 原始信源平均码长N次扩展信源编码后每原始信源符号的平均码长≥rH N L N N log lim ∞∞→=∞H5.4.4变长信源编码定理5.编码速率、编码效率、剩余度(1) 编码速率:变长编码的编码速率为 LN R= log r N (2) 编码效率:编码效率定义为H ( S ) NH r ( S ) NH ( S ) = = η= R LN LN log r(3) 剩余度:定长码的剩余度为NH r ( S ) γ = 1 −η = 1 − LN21例题 例5.2 设离散无记忆信源Ss2 ⎤ ⎡S ⎤ ⎡ s1 ⎢ P( S ) ⎥ = ⎢0.75 0.25⎥ ⎣ ⎦ ⎣ ⎦ 对信源S及其扩展信源进行二元变长编码, 求当信源扩展次数N=2,3,4时的平均码长和 编码效率。

定长编码定理_信息论基础与编码_[共2页]

定长编码定理_信息论基础与编码_[共2页]

第5章 信源编码101对于信源输出的消息序列12()l L X x x x x =L L ,其中12{,,,}l n x a a a ∈L ,经信源编码后得到的码字序列12()k K Y y y y y =L L ,其中12{,,,}k m y b b b =L 。

输入消息总共有L n 种可能的组合,而输出的码字总共有K m 种可能的组合。

要实现无失真的信源编码,必须满足两项最基本的要求。

① 无失真,即要求编成的码字Y 能够无失真地复制消息X 。

② 有效,即尽可能少地传送信源中最必要的信息,或者说传送的码字要少于信源给出的消息。

显然,在不考虑信源的统计特性时,这两项基本要求是相互矛盾的,是不可能同时达到的。

因为若要满足无失真的要求,就必须使每个信源输出的消息都能找到一个对应的码字,即应满足K L m n ≥ 或22log log n KL m≥ (5-3)若n =m ,则必有码字长度K ≥消息长度L ,这显然不满足第二条有效性的要求;若K =L ,则m ≥n ,也不满足有效性的要求。

因此,要想同时满足上述两个基本要求,唯一的办法是从信源的统计特性上想办法。

不等式(5-3)中,左端为码字长度与消息长度之比;右端为等概率条件下信源熵与码字熵之比。

考虑信源的实际统计特性,一般情况下是不等概的,此时的信源熵为()log i i iH X p p =−∑。

将其代入式(5-3),有2()log K H X L m≥ (5-4)这样,即使m =n ,只要满足2log ()m H X >,就有可能实现K <L ,有可能同时满足上述的两个基本要求。

在具体实现时,既可以采用码字长度K 不变的等长码,也可以更加灵活地采用码字长度K 变化的变长码。

无失真信源编码定理包括定长编码定理和变长编码定理,下面分别讨论。

5.2.1 定长编码定理定理:由L 个符号组成的、每个符号的熵为()H X 的离散无记忆平稳信源符号序列X =12()l L X X X X L L ,可用K 个符号12()k K Y Y Y Y Y =L L 进行定长编码,且12{,,,}k m Y y y y =L 。

(完整版)信息论第五章答案

(完整版)信息论第五章答案

5.1 设信源⎭⎬⎫⎩⎨⎧=⎥⎦⎤⎢⎣⎡01.01.015.017.018.019.02.0)(7654321x x x x x x x X P X (1) 求信源熵H(X); (2) 编二进制香农码;(3) 计算平均码长和编码效率。

解: (1)symbolbit x p x p X H i i i /609.2)01.0log 01.01.0log 1.015.0log 15.017.0log 17.018.0log 18.019.0log 19.02.0log 2.0()(log )()(2222222712=⨯+⨯+⨯+⨯+⨯+⨯+⨯-=-=∑=%1.8314.3609.2)()(14.301.071.0415.0317.0318.0319.032.03)(=====⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑KX H R X H x p k K ii i η5.2 对信源⎭⎬⎫⎩⎨⎧=⎥⎦⎤⎢⎣⎡01.01.015.017.018.019.02.0)(7654321x x x x x x x X P X 编二进制费诺码,计算编码效率。

%2.9574.2609.2)()(74.201.041.0415.0317.0218.0319.032.02)(=====⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑KX H R X H x p k K ii i η5.3 对信源⎭⎬⎫⎩⎨⎧=⎥⎦⎤⎢⎣⎡01.01.015.017.018.019.02.0)(7654321x x x x x x x X P X 编二进制和三进制哈夫曼码,计算各自的平均码长和编码效率。

解:%9.9572.2609.2)()(72.201.041.0415.0317.0318.0319.022.02)(=====⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑KX H R X H x p k K ii i η%4.913log 8.1609.2log )()(8.1)01.01.015.017.018.019.0(22.01)(22=⨯====+++++⨯+⨯==∑m LK X H R X H x p k K ii i η5.4 设信源⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧=⎥⎦⎤⎢⎣⎡12811281641321161814121)(87654321x x x x x x x x X P X (1) 求信源熵H(X);(2) 编二进制香农码和二进制费诺码;(3) 计算二进制香农码和二进制费诺码的平均码长和编码效率; (4) 编三进制费诺码;(5) 计算三进制费诺码的平均码长和编码效率;解: (1)symbolbit x p x p X H i i i /984.1128log 1281128log 128164log 64132log 32116log 1618log 814log 412log 21)(log )()(22222222812=⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=-=∑==127/64 bit/symbol (2)二进制费诺码:香农编码效率:%100984.1984.1)()(64/127984.17128171281664153214161381241121)(======⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑KX H R X H x p k K ii i η费诺编码效率:%100984.1984.1)()(984.17128171281664153214161381241121)(=====⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑KX H R X H x p k K ii i η(5)%3.943log 328.1984.1log )()(328.14128141281364133212161281141121)(22=⨯=⋅===⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯==∑m K X H R X H x p k K ii i η5.5 设无记忆二进制信源⎭⎬⎫⎩⎨⎧=⎥⎦⎤⎢⎣⎡1.09.010)(X P X先把信源序列编成数字0,1,2,……,8,再替换成二进制变长码字,如下表所示。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

5-1 有一信源,它有六种可能的输出,其概率分布如下表所示,表中给出了对应的六种编码12345C C C C C 、、、、和6C 。

(1) 求这些码中哪些是唯一可译码; (2) 求哪些是非延长码(即时码);(3) 对所有唯一可译码求出其平均码长。

解:(1(2)1,3,6是即时码。

5-2证明若存在一个码长为12,,,q l l l ⋅⋅⋅的唯一可译码,则一定存在具有相同码长的即时码。

证明:由定理可知若存在一个码长为的唯一可译码,则必定满足kraft 不等式1。

由定理4可知若码长满足kraft 不等式,则一定存在这样码长的即时码。

所以若存在码长的唯一可译码,则一定存在具有相同码长P (y=0)的即时码。

5-3设信源126126()s s s S p p p P s ⋅⋅⋅⎡⎤⎡⎤=⎢⎥⎢⎥⋅⋅⋅⎣⎦⎣⎦,611i i p ==∑。

将此信源编码成为r 元唯一可译变长码(即码符号集12{,,,}r X x x x =⋅⋅⋅),其对应的码长为(126,,,l l l ⋅⋅⋅)=(1,1,2,3,2,3),求r 值的最小下限。

解:要将此信源编码成为 r 元唯一可译变长码,其码字对应的码长(l 1 ,l 2 ,l 3, l 4,l 5, l 6)=(1,1,2,3,2,3) 必须满足克拉夫特不等式,即132321161≤+++++=------=-∑r r r r r r ri liLq L L ,,2,1 ∑=-qi l ir1≤4⋅Lq L L ,,2,1所以要满足122232≤++r r r ,其中 r 是大于或等于1的正整数。

可见,当r=1时,不能满足Kraft 不等式。

当r=2, 1824222>++,不能满足Kraft 。

当r=3, 127262729232<=++,满足Kraft 。

所以,求得r 的最大值下限值等于3。

5-4设某城市有805门公务电话和60000门居民电话。

作为系统工程师,你需要为这些用户分配电话号码。

所有号码均是十进制数,且不考虑电话系统中0、1不可用在号码首位的限制。

(提示:用异前缀码概念) (1)如果要求所有公务电话号码为3位长,所有居民电话号码等长,求居民号码长度1L 的最小值;(2)设城市分为A 、B 两个区,其中A 区有9000门电话,B 区有51000门电话。

现进一步要求A 区的电话号码比B 区的短1位,试求A 区号码长度2L 的最小值。

解:(a) 805门电话要占用1000个3位数中的805个,即要占用首位为0~ 7的所有数字及以8为首的5个数字。

因为要求居民电话号码等长, 以9为首的数字5位长可定义10 000个号码,6位长可定义100 000 个号码。

所以min L 16=。

或由Craft 不等式,有805106000010131⨯+⨯≤--L解得L 1103180********5488≥--⨯=-log ., 即min L 16=(b) 在(a)的基础上,将80为首的数字用于最后5个公务电话,81~86 为首的6位数用于B 区51 000个号码,以9为首的5位数用于A 区9 000 个号码。

所以,min L 25=。

或由Draft 不等式,有 80510900010510001013122⨯+⨯+⨯≤---+L L ()或 8051090005100010101312⨯++⨯⨯≤---()L解得L 2103180510900051004859≥--⨯+=-log . 即min L 25=5-5求概率分布为)152,152,51,51,31(的信源的二元霍夫曼码。

讨论此码对于概率分布为)51,51,51,51,51(的信源也是最佳二元码。

解:信源的概率分布为:)152,152,51,51,31()(=i s p二元霍夫曼码:00,10,11,010,011,码长:2,2,2,3,3当信源给定时,二元霍夫曼码是最佳二元码。

所以对于概率分布为)51,51,51,51,51(的信源,其最佳二元码就是二元霍夫曼码。

这二元霍夫曼码一定是三个信源符号的码长为2(码符号/信源符号),另二个信源符号的码长为3(码符号/信源符号),其平均码长最短。

因此,上述对概率分布为)152,152,51,51,31(信源所编的二元霍夫曼码也是概略分布为)51,51,51,51,51(信源的最佳二元码。

5-6 设二元霍夫曼码为(00,01,10,11)和(0,10,110,111),求出可以编得这些霍夫曼码的信源的所有概率分布。

解:由题意 假设信源所发出的是个符号的概率为 )P(S )P(S )P(S )P(S 1234≥≥≥ 由霍夫曼编码的特点知:1)P(S )P(S )P(S )P(S 1234=+++根据霍夫曼编码的方法,每次概率最小的两个信源符号合并成一个符号,构成新的缩减信源,直至最后只剩两个符号。

而且当缩减信源中的所有符号概率相等时,总是将合并的符号放在最上面。

所以,对于二元霍夫曼码为(00,01,10,11)来说,每个信源都要缩减一次,所以34()()P S P S +要大于1()P S 和2()P S ,这时必有12111P(S )P(S ),P(S )33+≥≤同理对于二元霍夫曼码为(0,10,110,111)有34111P(S )P(S ),P(S )>33+<信源概率分布满足以上条件则其霍夫曼编码符合题意。

5-7 设一信源有K =6个符号,其概率分别为:123()1/2,()1/4,()1/8P s P s P s ===,45()()1/20P s P s ==,6()1/40P s =,对该信源进行霍夫曼二进制编码,并求编码效率。

解:相应的Huffman 编码是:{1,01,001,0001,00000,00001}。

平均码长=1.95,熵=1.94 () 1.940.9951.95log 2H X L η===5-8 设信源概率空间为:()⎥⎦⎤⎢⎣⎡s P S =⎥⎦⎤⎢⎣⎡9.0,1.0,21s s , (1)求()S H 和信源冗余度;(2)设码符号为X ={0,1},编出S 的紧致码,并求紧致码的平均码长L ;(3)把信源的N 次无记忆扩展信源N S 编成紧致码,试求N =2,3,4,∞时的平均码长⎪⎪⎭⎫ ⎝⎛N L N ; (4)计算上述N =1,2,3,4这四种码的编码效率和码冗余度。

解:(1)信源()=⎥⎦⎤⎢⎣⎡s P S ⎥⎦⎤⎢⎣⎡9.01.021s s 其 ()()()≈-=∑=ii is P s P s H log 210.469 比特/符号剩余度()=-=2log 1s H γ0.531=53.1%(2)码符号X={0,1},对信源S 编紧致码为:1s 0→,12→s 其平均码长L =1 码符号/信源符号 (3) 当N=2时()⎥⎦⎤⎢⎣⎡i P S α2=⎥⎦⎤⎢⎣⎡====81.0,09.0,09.0,01.0,,,224133212111s s s s s s s s αααα紧致码(即霍夫曼码)为,4α ,3α ,2α 1α码字i W 0 , 10 , 110 , 111 码长i l 1 , 2 , 3 , 3平均码长⎪⎪⎭⎫⎝⎛N L N=21()ii ilP ∑=41α≈0.645 码符号/信源符号N=3时,()⎥⎦⎤⎢⎣⎡i P S α3=()()()()()()()()⎥⎦⎤⎢⎣⎡⋅⋅⋅⋅⋅⋅32222223876543219.0,9.01.0,9.01.0,9.01.0,9.01.0,9.01.0,9.01.0,1.0,,,,,,,αααααααα对信源3S 进行霍夫曼编码,其紧致码为,8α ,7α ,6α ,5α,4α ,3α ,2α1α码字i W 0 , 100 , 101 , 110 , 11100 , 11101 , 11110 , 11111 码长i l 1 , 3 , 3 , 3 , 5 , 5 , 5 , 5平均码长 ⎪⎪⎭⎫ ⎝⎛N LN=31()ii ilP ∑=81α≈0.533 码符号/信源符号N=4时,()⎥⎦⎤⎢⎣⎡i P S α4=()()()()()()()()()()()⎢⎣⎡,9.01.0,9.01.0,9.01.0,9.01.0,9.01.0,9.01.0,9.01.0,1.0,,,,,,,,2222223333487654321αααααααα()()()()()()()()()()()⎥⎦⎤433332222221615141312111099.0,9.01.0,9.01.0,9.01.0,9.01.0,9.01.0,9.01.0,9.01.0,,,,,,,αααααααα对信源4S 进行霍夫曼编码,其紧致码为,16α ,15α ,14α ,13α,12α ,11α ,10α,9α码字i W 0 , 100 , 101 , 110 , 1110 , 111110 , 1111000 , 1111001,码长i l 1 , 3 , 3 , 3 , 4 , 6 , 7 , 7 , ,8α ,7α ,6α ,5α,4α ,3α ,2α 1α码字i W 1111010 , 1111011 , 1111110 , 111111101 , 111111110 , 111111111 ,1111111000 , 1111111001码长i l 7 , 7 , 7 , 9 , 9 , 9 , 10 , 10平均码长⎪⎪⎭⎫⎝⎛N L N=41()≈∑=ii ilP 161α0.493 码符号/信源符号N=∞时,根据香农第一定理,其紧致码的平均码长∞→N limN L N =()rs H log ≈0.469 码符号/信源符号 (4) 编码效率 ()()LS H L S H r ==η (r=2)码剩余度 1-()()LS H L S H r -=-=11η (r=2) 所以 N=1 编码效率≈1η0.469 码剩余度≈0.531=53.1% N=2 ≈2η0.727 ≈0.273=27.3% N=3 ≈3η0.880 ≈0.120=12%N=4≈4η0.951 ≈0.049=4.9%从本题讨论可知,对于变长紧致码,当N 不很大时,就可以达到高效的无失真信源编码。

5-9设信源空间为:⎥⎦⎤⎢⎣⎡)s (P S =123456780.40.20.10.10.050.050.050.05s s s s s s s s ⎡⎤⎢⎥⎣⎦,码符号为X ={0,1,2},试构造一种三元紧致码。

解:得信源符号 s 1 s 2 s 3 s 4 s 5 s 6 s 7 s 8 三元紧致码 1 00 02 20 21 22 010 0115-10 某气象员报告气象状态,有四种可能的消息:晴、云、雨和雾。

相关文档
最新文档