第8讲——离散无记忆信源不等长编码
3.2_离散无记忆信源及其扩展源解析
![3.2_离散无记忆信源及其扩展源解析](https://img.taocdn.com/s3/m/af08f0f380eb6294dd886c3e.png)
2. 该信源每次只输出一个消息,出现 哪一种消息是随机的。 3. 6个不同的消息构成了互不相容的基 本事件集合,不可能出现这个集合 以外的消息。
【引例-例3.1】
【说明】 1. 利用离散型随机变量X来描述这个信 源输出的消息X= (x1,x2, …,x6),其样 本空间即为符号集A。 2. 根据大量试验结果可得:各个消息 是等概率出现的,均为1/6。 因此, X的概率分布就是信源发出各种不同 符号的先验概率,即p(x1)=1/6, p(x2)=1/6,…,p(x6)=1/6。
X 1 P( X ) p( 1)
2 3 4 p( 2 ) p( 3 ) p( 4 )
N 2
且
p( i ) p(ai 1 ai 2 ) p(aik ) p(aik )
k 1 k 1
序列长度 N=2
例如:投硬币、书信、电报符号等
② 用离散随机变量的概率分布,表示 信源发出不同符号可能性的大小
三、数学模型
若单符号离散无记忆信源可能发出q种不 同的符号{a1,a2,…,aq},相应的先验概率分别 为p(a1),p(a2),…,p(aq),用随机变量X表 示这个信源,其信源的数学模型就是离散型 的概率空间: X a1 a2 aq
P( X ) P(a1a2 aq ) p(ai )
q
p(a ) 1,
i 1 i
q
0 p(ai ) 1 (i 1,2,, q)
i 1
则称该信源X为离散无记忆信源。
3.2.1 离散无记忆信源
3. 【数学模型】离散无记忆信源可用 信源空间[X,P(X)]来描述:
第8讲——离散无记忆信源不等长编码
![第8讲——离散无记忆信源不等长编码](https://img.taocdn.com/s3/m/5b3755d9a1c7aa00b52acb5b.png)
码字集
n
x1, x2 , , xr
k1
, nk2 , , nkr
xi B
nki n
总共 K r个序列,对其进行重新组合
Ai 表示含有i个码元的序列总数
则 i [rnmin , rnmax ]
nmax max n1 , n2 , , nK
nmin min n1, n2 , , nK
k1 1
K
D
k2 1 kr 1
K
K
( nk1 nk2 nkr )
rnmax
i rnmin
i A D i
rnmax K nK D Ai D i k 1 i rnmin
r
由码的唯一可译性,可知长度为i含r个码字的序列 必不相同,于是 Ai D i ,则
存在唯一可译的D元不等长 码满足
H (U L ) nL 1 log D H (U L ) 1 n L log D L H (U ) 1 n log D L
Shannon第一编码定理
——离散无记忆信源
任一唯一可译的D元不等长 码总满足
n H (U ) log D
存在唯一可译的D元不等长 码满足
k 1 K nk
pk 1 ,所以必存在码字长度为n1、n2、…、
k 1
K
nK的唯一可译D元不等长码。 另外,对红式右边求倒数取对数并进行概率加权得
K 1 H (U ) pk log pk log D nk 1 pk k 1 k 1 K
pk (nk 1) log D (n 1) log D
n H (U ) 1 log D L
离散无记忆源的不等长编码PPT25页
![离散无记忆源的不等长编码PPT25页](https://img.taocdn.com/s3/m/b7d1c8708f9951e79b89680203d8ce2f006665f8.png)
•
29、在一切能够接受法律支配的人类 的状态 中,哪 里没有 法律, 那里就 没有自 由。— —洛克
•
30、风俗可以造就法律,也可以废除 法律。 ——塞·约翰逊
46、我们若已接受最坏的,就再没有什么损失。——卡耐基 47、书到用时方恨少、事非经过不知难。——陆游 48、书籍把我们引入最美好的社会,使我们认识各个时代的伟大智者。——史美尔斯 49、熟读唐诗三百首,不会作诗也会吟。——孙洙 50、谁和我一样用功,谁就会和我一样成功。——莫扎特
离散无记忆源的不等长编码
•
26、我们像鹰一样,生来就是自由的 ,但是 为了生 存,我 们不得 不为自 己编织 一个笼 子,然 后把自 己关在 里面。 ——博 莱索
•
27、法律如果不讲道理,即使延续时 间再长 ,也还 是没有 制约力 的。— —爱·科 克
•
28、好法律是由坏风俗创造出来的。 ——马 克罗维 乌斯
第7讲――离散无记忆信源不等长编码PPT课件
![第7讲――离散无记忆信源不等长编码PPT课件](https://img.taocdn.com/s3/m/5b679d7789eb172ded63b7fb.png)
1
0
分成D个树枝—码的进制 1 数中间节点—码字的一部分
0
01
01
0 1 0 10 1 0 1 0 0 1 0 1 0 1
端节点—码字1101
二进制码树
节数—码长
满树:端节点均为N节节点——等长码,码长为N
端节点数目 D N
非满树: ?
11
码树
0
2
1
01 2
0 1
2
01 2
01 2
01 2
三进制码树
第7讲 离散无记忆信源
不等长编码
1
Review
等长编码
消息集
码字集
uL
vN
编 码 速 率 : Rlo g M N lo g D , M D N
LL
无失真
DN KL
NlogDLlogK RlogK
几乎无失真 NloD gLH (U)
RH(U)
对典型序列无误编码
2
Review
例题
掷硬币:正面出现p=0.25,这时信源熵H(U)=0.811比特。
全树:每个节点上都有D个分枝的树
D元全树的端节点数目为D+m(D-1),m为非
负整数。
12
异字头码(译码)
异字头码是唯一可译的。 异字头码具有即时性 异字头码的树图表示。
事件 概率 码C
a1
0.5
0
a2
0.25
10
a3 0.125 110
a4 0.125 111
13
异字头码(译码)
异字头码是唯一可译的。 异字头码具有即时性。 异字头码的树图表示。
码C的平均码长为
n C 1×0.5+2×0.25+3×0.125+3×0.125=1.75
离散无失真信源编码
![离散无失真信源编码](https://img.taocdn.com/s3/m/c907996625c52cc58bd6be8c.png)
离散无失真信源编码
5.1 离散信源编码 5.2 离散无失真信源编码定理 5.3 香农编码 5.4 费诺编码 5.5 哈夫曼编码
5.1
2.1.1 2.1.2离来自信源编码信源编码概述 码字唯一可译的条件
2
信源编码概述(续)
两类信源编码 无失真信源编码:编码运算能够完全恢复原来的数据 信息,保证信源产生的全部信息无失真地传送给信 宿,适用于离散信源 限失真信源编码:编码运算允许有一定的误差,在允 许误差的条件下,寻找信源的最小“消息体积”;适 用于连续信源 无失真信源编码只对信源的冗余度进行压缩,不改变信 源熵;而限失真信源编码是通过压缩信源熵来减小消息 的“体积” 无失真信源编码由于信源符号与码字一一对应,编码器 的输出概率分布与输入概率分布完全相同,因此编码前 后的熵保持不变
信源编码概述(续)
用树图法可以方便地构造即时码。从树根开始,树中每个中间 节点都伸出 1 至 r 个树枝,不同的树枝标记不同的码元。 将所有的码字都安排在终端节点上就可以得到即时码 每个中间节点都正好有 r 个分枝的树称为整树(满树) 所有终端节点的阶数都相等的树为完全树,对应于定长码
r=2
8
信源编码概述(续)
码1 00 01 10 11
码2 0 10 110 111
平均码长越小,则平 均一个码元所携带的 信息量越大,信息的 冗余度越小。使平均 码长最小的编码称为 最佳编码 采用变长编码能使平 均码长缩短
4
l1 = 2 × (0.5 + 0.25 + 0.125 + 0.125) = 2 码元/单信源符号 l2 = 1 × 0.5 + 2 × 0.25 + 3 × 0.125 + 3 × 0.125 = 1.375 码元/单信源符号
ch3离散无记忆信源的无损编码
![ch3离散无记忆信源的无损编码](https://img.taocdn.com/s3/m/7cb02a0f16fc700abb68fc9d.png)
算术编码(AC)
初始时设S=Φ ,F(Φ)=0,p(Φ)=1。 计算序列的积累概率和序列的概率。
F ( Sur ) F ( S ) p( S ) F (ur ) p( Sur ) p( S ) p(ur )
1 计算码长 L log p ( S )
序列
Φ
1 11 111 1110 11101 111010 1110101 11101011
F(S) 0 0.01 0.0111 0.100101 0.100101 0.1001101011 0.1001101011 0.10011100000001 0.1001110011110111
P(S) 1 0.11 0.1001 0.011011 0.00011011 0.0001010001 0.000001010001 0.00000011110011 0.0000001011011001
离散无记忆信源的等长编码
Shannon等长信源编码定理 熵为H(U)的离散无记忆信源,对信源输 出长度为L的输出序列进行编码,假设编码字 符表有D个符号,则当
N L[ H (U ) L ] / log D
时,信源可以实现无损编码。反之若
N L[ H (U ) L ] / log D
将信源的K个符号按概率递减次序排列。 将两个概率最小的信源符号合并成一个新符号,
新符号的概率值为两个信源符号概率值的和。 依次类推,直至信源最后只剩下一个符号。 将每次合并的两个信源符号分别用0和1表示。 由后向前返回,就得到各信源符号对应的码字。
D元Huffman编码步骤:
增补D-M个概率为0的虚拟符号,其中M由下式给出:
离散信源无失真编码
![离散信源无失真编码](https://img.taocdn.com/s3/m/b9c334a2710abb68a98271fe910ef12d2bf9a971.png)
,则L →∞时,
pe <δ(ε、δ为无穷小量);反之,当 现无差错编码。
n L
HX
理3.1要求
n HX
,即 1 L[H ( X ) ]
,可看出比值
LH ( X ) L log D
n log D
n log D 是一种不大于1旳无量纲纯数,定义它为等长编码旳编
2.等长码
在一组码字集合C中旳全部码字cm (m = 1,2, …,M),其码长都相 同,则称这组码C为等长码,表3-1中列出旳码1、码2 就码长n = 2 等长码。
3.变长码
若码字集合C中旳全部码字cm (m = 1,2, …,M),其码长不都相 同,称码C为变长码,表3-1中列出旳码3、码4 就是变长码。
3.1.3 信息传播速率
19
信道旳信息传播速率为信道单位时间内所传播旳实际信
息量。若信息量以比特为单位,时间以秒为单位,则信息传播
率定义为:
Rt
H X
tn
(比特/秒) (3-3)
H(X)为信源熵;
式中: n 为编码后旳平均码长;
t为传播一种码符号旳时间。
若信息量以比特为单位,时间以码元时间(传播一种码符号旳
(比特/符号)
n 2 2 1 2 3 1 4 4 1 2.75
4
8
16
(码元/符号)
RD
HX
n
2.75 2.75
1
(比特/码元时间)
3.2 等长码及等长编码定理
21
考虑对一简朴信源S进行等长编码,信源符号集有K个符
号,码符号集含D个符号,码字长度记为n。要得到惟一可译
码,必须满足下式
对于变长码,要求整个码集旳平均码长力求最小,此时编码效率 最高。对于给定信源,使平均码长到达最小旳编码措施,称为最佳 编码,得到旳码集称为最佳码。
第三章 信源编码-离散无记忆源等长编码
![第三章 信源编码-离散无记忆源等长编码](https://img.taocdn.com/s3/m/9b09d37801f69e3143329412.png)
第三章 信源编码——离散信源无失真编码本章分析问题:在信宿要求无失真接收时,或所有信源信息无损的条件下,离散信源输出的表示——即信源编码问题。
内容:信源分类,信息速率的计算,编码定理,有效编码方法等。
一、信源及其分类 1. 离散信源和连续信源离散信源表示:…U-2U-1U0U1U2…其中UL随机变量,取值范围:A={a1,a2,…ak} 2.无记忆源和有记忆源无记忆源:各UL彼此统计独立简单信源:各UL彼此统计独立且服从同一概率分布 P(UL=ak)=Pk,k=1,2,…,K∑=Kk 1Pk=1有记忆源:各UL取值相关。
UL=(U1,U2,…,UL)∈UL,其概率分布由L维随机矢量表示,P(UL=a)=P(U1=ak1,…,UL=akL) 3.平稳信源:概率分布与起始下标无关P(U1=ak1,…,UL=akL)=P(Ut+1=ak1,…,UL=akL)4.各态历经源:信源输出的随机序列具有各态历经性。
5.有限记忆源:用条件概率P(UL,UL-1,UL-2,UL-m)表述。
m为记忆阶数。
6.马尔可夫源:有限记忆源可用有限状态马尔可夫链描述,当m=1时为简单马尔可夫链。
7.时间离散的连续源:各随机变量UL取值连续。
8.随机波形源:时间和取值上均连续的信源;由随机过程u(t)描述,时间或频率上有限的随机过程可展开成分量取值连续的随机矢量表示,即时间上离散,取值连续的信源。
9.混合信源二、离散无记忆源的等长编码离散无记忆源:DMSL长信源输出序列:UL=(U1,U2,…,UL),Ul取值{a1,a2,…ak},共KL种不同序列。
对每个输出序列用D元码进行等长编码,码长为N,则可选码共有DN个。
1.单义可译码或唯一可译码:条件:DN≥KL=M,即N≥LlogK/logDN/L:每个信源符号所需的平均码元数;N/L→3.322;2.信息无损编码要求:设每个信源符号的信息量为H(U),则L长信源序列的最大熵值为LH(U),编码时由于D个码元独立等概时携带信息量最大,使码长最短。
离散无记忆源的不等长编码
![离散无记忆源的不等长编码](https://img.taocdn.com/s3/m/6fa9f3e850e2524de5187eec.png)
码A4:唯一可译、无译码延时,为即时码。
唯一可译码可能会出现译码延时
两个码字序列
只有当第15个比特出现后才能分开这两个序列 译码延时为15个比特
对于无限码字序列,译码延时可能无限
关于不等长编码(唯一可译性)的几个定
义
判别不等长编码唯一可译的方法
-后缀分解集系列判别
两个等式中后缀都是si , 而前缀和结果互换
3.2 离散无记忆源的不等长编码
3.2.1
不等长编码的唯一可译性和译码延
时
•不等长编码往往比等长编码更有效。 •设第k个消息用长度nk的D进制符号表示, 则平均每个消息码长为
不等长编码的复杂性
1.译码歧义 (要求编码唯一可译) 2.译码延时 (尽量降低译码延时)
码A3:唯一可译,但要收到下一个码字第一个符号“0”时才能判定 码字结束,故有译码延时。
例
编码唯一可译的充要条件
(但可能存在无限或有限的译码延时)
构造模糊序列
模糊序列:序列存在两种及两种以上不同的 译码形式
唯一可译且具有有限译码延时 后缀分解集无码字 且存在 某个n
唯一可译且无译码延时 后缀分能存在无限译码延时 后缀分解集无码字 并且 所有后缀分解集都非空
3.2.2 Kraft不等式
3.2.3 不等长编码定理
L:消息序列长度 N:编码序列长度
平均表示一个消息码元的编码码元数
定理3.2.4
离散无记忆源=>信源输出长度为L的熵为 每个信源输出符号熵的和
不等式两边同除以L
等长编码定理、不等长编码定理两者统一!
例
第七位
以0开头的码字可能为01, 也可能为011
信息论第8讲最佳不等长编码讲解
![信息论第8讲最佳不等长编码讲解](https://img.taocdn.com/s3/m/a180c2dcf8c75fbfc77db2ca.png)
1
s2
1
0
1
1
0 1
0 ss34 1 s5
10
s6
1
s17
s7
Huffman编码最佳性证明
【定理1】
对于给定的信源,存在最佳唯一可译二元码,其最 小概率的两个码字的长度最长且相等,它们之间仅最后
一位码元取值不同(一个为0,另一个为1)。
lK最大 存在另外一个码字其长度也为lK,
并且与cK仅最后一位码元取值不 同(一个为0,另一个为1)
信源符号 概率pk s1 0.40
s2 0.18 s3 0.10 s4 0.10
s5 0.07
s6 0.06
s7 0.05 0
s8 s9
0.04 1 02
0.09 0 1 2
码字
0.22
0
0.38
1 2
0 1.00
0
10
1
11
2 12
21
22
200 201
思考: r元Huffman编码?
?q (r 1) r Y 进行编码
S(1):
s(1) 1
s(1) K 2
s(1) K 1
p p p (1)
(1) (1)
1
K 2 K 1
ps ps ps S(K-3):
(K 3) 1
(K 3) 1
(K 3) 2
(K 3) 2
(K 3) 3
(K 3) 3
S(K-2):
s( K 2) 1
p( K 2) 1
, ,
N 增加0概率 符号
进行编码
例: 设离散无记忆信源
S P(S
)
信源编码的基本方法
![信源编码的基本方法](https://img.taocdn.com/s3/m/7ec7eb7a04a1b0717fd5ddb5.png)
X
m
k
S : Si ,i
1,2,...L
编码输出
YNmJ
C
X
m
J
其中 YNmJ Y1mY2m...YNmJ Ykm C : Ci ,i 1,2,..., D
C : Ci ,i 1,2,...D 为输出的码元集。
接收端的译码输出
X 'Jm C1 YnJm
XJ
YnJ
4.6 率失真理论
一.实际系统中的权衡问题
实际系统中通常需要考虑性能与经济性之间的权衡问题;
可采用以某些不可察觉或可察觉但不影响应用的信号失真代 价,来换取所需的传输速率、存储空间、运算复杂度和系统实 现成本的降低;
电话系统采样8kHz采样,8比特量化;
数字音响系统采样44kHz采样,16或24比特量化;
R
nJ J
log2
D
其中 nJ 为不等长编码的平均码长。
定义4.5.3 信源的熵 H S 与编码速率R 的比值定义为编码效率
C
H S
R
要保证编码没有信息丢失,要求
R H S C 1
3. 霍夫曼(Huffman)编码 霍夫曼编码是一种异字头不等长编码,其基本思想是: 对出现概率大的符号或符号组用位数较少的码字表示; 对出现概率小的符号或符号组用位数较多的码字表示。 由此可提高编码效率。 霍夫曼编码: 定理4.5.17 霍夫曼编码一种最佳的不等长编码。 霍夫曼编码的应用条件: 信源的分布(统计)特性已知。
P
Si
ni
n
2
其中 n
LP
i 1
Si
ni
编码过程的排序过程不同会影响码长的方差。
码字长度的均匀性和方差 示例:信源的符号空间为
不等长编码定理
![不等长编码定理](https://img.taocdn.com/s3/m/8ded2d551ed9ad51f11df20a.png)
4.1 信道、信道模型和分类
信道典型的例子
电缆、光纤(有形信道)
分布在空间的电波和声波(无形信道)
磁带、光盘
时间媒介信道
空间媒介 信道
简单的信道:低通滤波器 复杂的信道:国际通信链路
国际通信链路
终端设备:手机、移动台
线路设备:中继站、基站、汇接中心
微波(无线链路)
电缆、光纤(有线链路)
等长编码定理 不等长编码定理
两者统一!
编码速率 R>H(U)
第四章 信道、信道容量及信道编码 定理
信息论所研究的通信系统的基本模型
消息发送端
消息接收端
信源编译码
信道编译码
(第三章 信源编码定理) (第四章 信道编码定理)
第二章:熵和互信息 (基础知识)
信道的定义
传输信息的媒介或通道 功能:把输入信号变为输出信号 由于存在干扰和噪声,所以变换是随机或
概率的,所以用条件转移概率来描述信道 特性 p(y|x)
本章主要内容
1.信道分类和建模(4.1):离散无记忆信道 (重点)、连续加性高斯信道
2.信道容量的定义及计算方法(4.2 4.3): 刻画信道最重要的参数
3.信道编码定理(4.4):(针对离散无记忆 信道) 刻画了信道可靠传输信息的极限性能—— 香农对信息论的最重要贡献!
时间
输入、输出信号之间 有记忆性or无记忆性
有记忆信道:输出不仅和当前信道输入有关,而且和以前
时刻信道输入也有关 累加器
无记忆信道:输出只与当前信道的输入有关,而与以前时
刻信道输入无关 乘法器
输入、输出信号关系是 确定的or不确定的
确定信道:理想情况(是随机信道的研究基础)
离散无记忆信源的不等长编码定理(“编码”相关文档)共9张
![离散无记忆信源的不等长编码定理(“编码”相关文档)共9张](https://img.taocdn.com/s3/m/6cdc2503e97101f69e3143323968011ca300f7cf.png)
证 明 1、 H ( X ) n lo g r
q
q
p ( x i ) lo g p ( x i ) p ( x i ) k i lo g r
i1
i1
q
r ki
q
r ki
i1 p ( xi ) log p ( xi ) log i1 p ( xi ) p ( xi )
q
lo g r ki lo g 1 0
i1
q
存 在 唯 一 可 译 码 r ki 1 i1
所 以 存 在 唯 一 可 译 码 的 平 均 码 长 n H (X ). log r
1 1 log p ki
i
2、r p k log ,记 log 每个码字wi有其不同的码字长i度,记为ni.i
第四节 变长编码定理
1、变长编码定理 2、变长编码的编码速率、编码效率
非分组码
码
奇异码
非唯一可译码
分组码 非奇异码 唯一可译码
非即时码
即时码(非延长码)
唯一可译码存在的充分和必要条件
各码字的长度k 应符合克劳夫特不等式: 则称
为该编码的平均码长。
2、变长编码的编码速率、编码效率
i
定理1 若一个离散无记忆信源X具有熵为H(X),对
r 设符号xi对应的概率为pi,编码后的码字为wi,码长为ni
定理1 若一个离散无记忆信源X具有熵为H(X),对
各码字的长度ki 应符合克劳夫特不等式:
展信源
,其熵为
,
定理2(申农第一定理) :离散无记忆信源X的N次扩
并有码符号集 A={a1,…,ar} 。
n- ki 1
2、变长编码的编码速率、编码效率
第三章 离散信源
![第三章 离散信源](https://img.taocdn.com/s3/m/9da19817ff00bed5b9f31d8d.png)
Wuhan University
3.1 信源及其分类 3.2 离散无记忆信源的等长编码
1
信源的描述及分类
Wuhan University
信源的统计特性 信源是信息的来源,是产生消息(符号)或消 息序列的来源。 由于消息的不确定性,因此,信源是产生随 机变量、随机序列和随机过程的源。 客观信源的基本特性是具有随机不确定性。
Wuhan University
二进制无记忆信源的N次扩展:把每
N个二进制数字组成一组,则信源等 效成一个具有2N个符号的新信源,把 它称为单符号二进制无记忆信源的N 次扩展信源。
7
单符号信源的扩展
Wuhan University
例1:电报系统中,可以认为每二个二进制数
字组成一组。这样信源输出的是由二个二进 制数字组成的一组组符号。这时可以将它们 等效看成一个新的信源,它由四个符号00, 01,10,11组成,把该信源称为二进制无记 忆信源的二次扩展。
≥LlogK 没有考虑信源统计特性,认为每个 信源符号独立等概。 考虑信源统计特性时,无错编码的 条件: NlogD ≥LH(U) R≥H(U)
统计平均,仅当L 为无限时
22
离散无记忆信源的等长编码
Wuhan University
R ≥H(U) 在无错编码的前提下,编码的最低代价 当R≥logK时,能够实现无错编码。 当R<H(U)时,无论怎样编码都是有错 编码。 当logK>R>H(U)时,可以适当地编码 和译码使译码错误的概率pe任意小。 这就是所谓“渐进无错编码”。
K k 1 k
15
离散无记忆信源的等长编码
Wuhan University
离散无记忆信源的无损编码
![离散无记忆信源的无损编码](https://img.taocdn.com/s3/m/d70e45e033d4b14e852468bd.png)
结论:一个典型列的概率 2-LH(U)
结论:总典型列数量 2LH(U)
结论
无差错编码
DN≥2LH(U)
差错编码
差错概率Pe→0 编码速率R ≥ H(U) 可达
2LH(U)
差错概率Pe→1 编码速率R<H(U) 不可达
随着消息序列长度L增加,平均表示一位十进制数 的二进制数N/L减少,编码效率提高。 但消息序列L增加会导致 (1)编码复杂性增大 (2)译码延时越长
3.1.2 Shannon编码定理和典型列解 释
对等长编码长度的要求(与L,H(U),D有关)
信源编译码方框图
定理的严格证明留到3.1.3节给出,先给出
序列自信息的方差
平均每个信源输出符号的自信息
渐近等分性质(AEP)结论
(3.1.19)
典型列集合
平均每个信源输出符号的自信息
当L->∞时,
L→∞时,典型列出现概率为1, 非典型列出现概率为0
典型列:高概率集
非典型列:低概率集
注意: (1)个别非典型列出现的概率不一定比典型列 概率小 (2)非典型列总概率小,但总数不一定少
第三章 离散无记忆信源(DMS)的无损编 码
离散无记忆信源
离散:信源输出在时间、取值上均为离散 无记忆:信源前后输出消息是独立、不相
关的
(离散无记忆)信源
信源模型的构成:在有限字符集上取值的
独立随机变量序列 计算信源输出的信息量(熵):易计算 有效描述信源的输出
信源无损压缩编码
证明的思路。 信源编码、译码方框图
错误概率
N:编码长度 数
L:消息长度
D:编码字符
信源编码速率
第8讲——离散无记忆信源等长编码
![第8讲——离散无记忆信源等长编码](https://img.taocdn.com/s3/m/638ce501763231126edb114e.png)
ˆ 译码 : x < 2 LR 则 u L = u L 若
ˆ 若 x = 2 LR 则 u L = (00 0)
ˆ pe = Pr {u L ≠ u L } = Pr u L ∈ T ( L, ε ) ≤ ε
{
}
Байду номын сангаас
因此,R为可达速率。
即当L足够大时,I L将以概率1取值为H(U)。
N log D > LH (U )
典型序列
∀ 令H(U)是集 {U , p(ak )} 的熵,ε > 0
TU ( L, ε ) = {u L : H (U ) − ε ≤ I L ≤ H (U ) + ε }
定义为给定信源U输出长为L的典型序列集,又可称作 弱ε典型序列集;相应 TU ( L, ε ) 的补集为非典型序列集。 令H(U)是集 {U , p(ak )} 的熵, ε > 0 ∀
∑ E[I (u )]
l l
L
= H (U )
方差为
E[
1 I (u L ) − H (U )]2 = 2 E[ I (u L ) − LH (U )]2 L L 1 = 2 E[∑ I (u l ) − LH (U )] 2 L l
=
1 * Lσ I2 = σ I2 / L L2
由契比雪夫大数定理,对于 ∀ε > 0
⎡ I (u L ) ⎤ σ I2 Pr ⎢ − H (U ) > ε ⎥ < 2 = pe ⎣ L ⎦ Lε
例 题
掷硬币:正面出现p=0.25,这时信源熵H(U)=0.81。 (1)若采用等长二元无错编码时,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可得Biblioteka σ I2 = 2.58 × 10 7 L≥ 2 ε pe
1 1 0.81]2 + 0.75[log 0.81]2 = 0.471 0.25 0.75
0.05 H (U ) = 0.0427 0.95
也就是长度要达到2580万以上。
Morse电码
A B C D E F G H I – – –– – – –– J K L M N O P Q R ––– –– – –– – ––– – – ––– – S T U V W X Y Z – – – –– –– ––– – –
码 树
0 1 0 01 2 0 1 2 1 2 0 1 2 0 1 2 2
三进制码树
异字头码(译码)
异字头码是唯一可译的。 异字头码具有即时性 异字头码的树图表示。 事件 a1 a2 a3 a4 概率 0.5 0.25 0.125 0.125 码C 0 10 110 111
异字头码(译码)
异字头码是唯一可译的。 异字头码具有即时性。 异字头码的树图表示。 事件 a1 a2 a3 a4 概率 0.5 0.25 0.125 0.125 码C 0 10 110 111 a1 a2 a3 0 0 1 1 a4 0 1 111100 a4 a2 a1
H (U L ) nL < +1 log D H (U L ) 1 n < + L log D L H (U ) 1 n < + log D L
n ≥
H (U ) log D
Shannon第一编码定理
——离散无记忆信源
任一唯一可译的D元不等长 码总满足 H (U ) n ≥ log D 存在唯一可译的D元不等长 码满足 H (U ) 1 n < + log D L
证明
K nk = log e ∑ D 1 ≤ 0 k =1 H (U ) n ≥ 于是有 log D
Kraft不等式
(若pk = D
nk
H (U ) , k = 1 ~ K,则 n = ) log D
不等长编码定理证明
选n1、n2、…、nK,使 Dnk ≤ pk < D(nk 1) , k =1 ~ K 则有 ∑ D
由此得
D nk ≤ 1 ∑
k =1
K
任一满足Kraft不等式的非异字头码都可以找到 一个码字长度不变的异字头码。
不等长编码定理
任一唯一可译的D元不等 长码总满足 存在唯一可译的D元不等 长码满足
H (U ) n ≥ log D
H (U ) n < +1 log D
H (U ) n≥ log D
不等长编码定理证明
D nk ≤ 1 ∑
k =1
K
唯一可译码必要条件
定理 唯一可译码必满足Kraft不等式 证明 对任意的正整数r,有
K nk1 K nk2 nk ∑ D = ∑ D ∑ D k =1 k =1 k1 =1 2
K r
K nkr ∑ D k =1 r
=∑
K
编码速率与编码效率 R = n log D H (U ) η= R
Shannon第一编码定理
——离散无记忆信源
任一唯一可译的D元不等长 码总满足 H (U ) n ≥ log D 任一唯一可译的D元不等 长码总满足 存在唯一可译的D元不等长 码满足 H (U ) 1 n < + log D L 存在唯一可译的D元不等 长码满足 log D R < H (U ) + L
Kraft不等式
长度分别为n1、n2、…、nK的D元异字头码存在的 充分必要条件是 必须注意:
∑
K
D nk ≤ 1
k =1
– Kraft不等式只是用来说明唯一可译码是否存在,并 不能作为唯一可译码的判据; 如码字{0,10,010,111}虽然满足Kraft不等式,但 它不是唯一可译码。
2 n k = 2 1 + 2 2 + 2 3 + 2 3 = 1 ∑
R ≥ H (U )
R = n log D
H (U ) η= R
U a1 a2 U2 a1a1 a1a2 a2a1 a2a2
例 题
概率 3/4 1/4 概率 9/16 3/16 3/16 1/16 码字 0 1 码字 0 10 110 111 平均码长 1×3/4+ 1×1/4=1 平均码长 1×9/16+ 2×3/16+ 3×3/16+ 3×1/16 =27/16 R 1 R η 0.811 η
异字头码
异字头码是唯一可译的。 异字头码具有即时性。 异字头码的树图表示。
码 树
树根—码字的起点
0 0 0 0 1 0 1 0 1 0 1 0 1 0
A
1 0 1 0 1 0 0 1 0 1 1
分成r个树枝—码的进制数 中间节点—码字的一部分 端节点—码字1101
1
节数—码长 二进制码树 满树:每个节点上都有2个分枝的树——等长码 非满树:不等长码
若事件ak对应的码字长度为nk,则平均码字长度为
n =
希望 n 小。
∑n
k =1
K
k
p (ak )
解决方案:概率大的事件用短码字。
不等长编码的唯一可译性
1)每个消息都至少有一个码字与之对应,且不同的消 息对应不同的码字 ; 2) 对于一个码,如果存在一种译码方法,使任意若干 个码字所组成的字母串只能唯一地被翻译成这几个 码字所对应的事件序列,即码字的分点唯一确定。 解决方案:适当地编码,使得每个码字都具有识别标记。
第八讲 离散无记忆信源 不等长编码
Review
等长编码
消息集
{u L }
码字集 {v N }
N log D ≥ L log K
无失真 几乎无失真
DN ≥ K L
N log D > LH (U )
R > H (U )
N log D 典型序列R = L
例题
掷硬币:正面出现p=0.25,这时信源熵H(U)=0.81。 (1)若采用等长二元无错编码时,
k =1 4
Kraft不等式充分性证明
证明: 不妨设n1≤n2≤…≤nK,则n1级节点中的任何一个 作端点即占去了满树中所有可能nK级节点的
D nK n1 / D nK = D n1
依次进行下去,当为第K个消息选择码字时,若有
D
nK
≤ 1 ∑ D nk
k =1
K 1
就能保证为第K个消息能够选择一个nK级端点作为 码字,从而构造了异字头码。
k =1 K nk
≤ ∑ pk = 1,所以必存在码字长度为n1、n2、…、
k =1
K
nK的唯一可译D元不等长码。 另外,对红式右边求倒数取对数并进行概率加权得
K 1 H (U ) = ∑ pk log > ∑ pk log D nk 1 pk k =1 k =1 K
= ∑ pk ( nk 1) log D = ( n 1) log D
Ai D i ∑
rnmax nK ∑ D = ∑ Ai D i k =1 i =rnmin K
r
由码的唯一可译性,可知长度为i含r个码字的序列 必不相同,于是 Ai ≤ D i ,则
1 1 log 2 r ( nmax nmin ) rnmax nk r r ∑ D ≤ k =∑1 ≤ (rnmax rnmin ) = 2 rn k =1 min 当 r → ∞ 时,上式右边指数项趋于0,因而右边趋于1。 K 1 r
pe ≤ 10 5 (2)若采用只对典型序列编码,要求译码错误概率
η = H (U ) / R = 0.95,求L
N R = log D = 1 L
η = H (U ) / R = 0.81
由 η = H (U ) /[ H (U ) + ε ] = 0.95 可得 ε = 又
σ I2 = 0.25[log
K nk1 K nk2 nk ∑ D = ∑ D ∑ D k =1 k =1 k1 =1 2
K r
K nkr ∑ D k =1 r
=∑
=
K
k1 =1
rnmax
∑ ∑D
k2 =1 kr =1
K
K
( nk1 + nk 2 + + nk r )
i = rnmin
不等长码实例
事件 a1 a2 a3 a4 概率 0.5 0.25 0.125 0.125 码A 0 0 1 10 码B 0 1 00 11 码C 0 10 110 111 码D 0 01 011 0111
码C的平均码长为 n C = 1×0.5+2×0.25+3×0.125+3×0.125=1.75 码D的平均码长为 n D = 1×0.5+2×0.25+3×0.125+4×0.125=1.875
K 1 ∑ pk nk log D H (U ) n log D = ∑ pk log pk k =1 k =1 K 1 = ∑ pk log + ∑ pk log D nk pk k =1 k =1 K K D nk D nk D nk = ∑ pk log = log e∑ pk ln ≤ log e∑ pk ( 1) pk pk pk k =1 k =1 k =1 K K K
Kraft不等式必要性证明
设有一个异字头码存在,它的各码字长度为 证明: n1≤n2≤…≤nK,则可作一个nK级满树,根据异字头 条件,我们可以将K个码字和树中的某一级节点相对 应,即将码字嵌入树中。每个码字对应的节点占去 码树的 D nk ,由异字头条件知,这K个码字至多覆 盖整个码树,因而有