第6讲——离散无记忆信源等长编码2014
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
I (u L ) Pr H (U ) 1 L
即当L足够大时, I L 将以概率1取值为H(U)。
推论1(特定序列出现的概率)
若 u L TU (L, ) ,则 2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ] 即
P r uL T U ( L, ) 1
无扰编码定理
N R log D, 编码速率 L
若R>H(U),则R是可达的;若R<H(U) ,则R是 不可达的。 对于给定的离散无记忆信源,若D元码的速率R超过 信源的熵,即 N / L log D [ H (U ) ],则存在有编码 方法,当L足够大时就能使译码错误概率任意小。
信源及其分类
【分类方法】 按照某时刻信源输出消息的取值集合的离散性和连续性, 信源可分为离散信源和连续信源; 按照信源输出消息的所对应的随机序列的平稳性,信源可 分为平稳信源和非平稳信源; 按照信源输出消息的所对应的随机序列中随机变量前后之 间有无依赖关系,信源可分为无记忆信源和有记忆信源。
离散无记忆信源的等长编码
2
L ( H (U ) )
TU (L, ) 2 L[ H (U ) ]
TU (L, ) 2L[ H (U ) ]
2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ]
uL TU ( L. )
有 1
p(uL )
I (u L ) log p(u L ) log p(ul ) [ log p(ul )] I (ul )
其中, I (ul ) 是信源从字母集A中独立选出某个字母所获得的 信息量。
l
l
l
这时,可以计算平均每个符号的信息量为 I L I (u L ) / L 令 I (a k ) 对于均值 H (U ) 的方差为 I2 ,即
虽然非典型序列集中序列的总概率很小,但是元素数目 不一定小。 TU ( L, ) 2 L[ H (U ) ] 2 L[ H (U ) ] L[log K H (U ) ] 2 KL UL 2 L log K
由契比雪夫定理,有
0
I (u L ) I2 Pr H (U ) 2 L L
I (u L ) I2 Pr H (U ) 1 1 2 L L
即当L足够大时,IL将以概率1取值为H(U)。
第 6讲 离散无记忆信源 等长编码
信源编码
通信的根本问题: 将信源输出消息中信息在接收端精确或近似地重现 出来。 为此需要解决两大问题: 信源的输出如何描述?——信源熵与互信息量(第2章) 信源的输出如何表示?——信源编码
这两个问题与信宿对于通信质量的要求有关。 要求精确的重现信源输出。无失真编码 不要求精确的复制出信源输出,而且在有干扰下传输时,要精确复制 信源的输出也是不可能的。限失真信源编码 信源编码分类: 无失真编码(第3章) 限失真信源编码(第9章)
由契比雪夫大数定理,对于
0
I (u L ) I2 Pr H (U ) 2 L L
I (u L ) I2 Pr H (U ) 1 2 1 L L
可选 ,这可以通过适当选择L来实现,上式可以写成
我们对信源输出的所有可能的KL 个序列进行如下分类:
【典型序列集的定义】 令H(U)是集 U , p(ak ) 的熵, 0 TU(L,ε)={uL:H(U)-ε≤IL≤H(U)+ε} 定义为给定信源U输出长为L的 典型序列集,其中 IL=I(uL)/L,uL∈U L。
TU ( L, ) 的补集 T U ( L, )为给定信源U输 相应地, 出长为L的非 典型序列集。
等长编码:映射1-1 不等长编码:映射1-1是不够的!
无失真等长编码
X Y
信源
L长序列
K
L
信源编码器 码表
信道
N长码字
DN
等长的唯一可译码存在的充要条件:
DN K L
即: N L log K / log D L logD K
其中,D为码元数,N为码长。
DN K L
实 例
英文电报27个符号, K=27, L=1, D=2(二元编码)
log2 K NL log2 27 5 log2 D
每个英文电报符号 至少要用5位二元符 号编码
实际英文电报符号信源,在考虑了符号出现的概率以 及符号之间的依赖性后,平均每个英文电报符号所提 供的信息量约等于1.4比特,即编码后5个二元符号只 携带约1.4比特的信息量,远小于5比特( 最大熵),可 见单字母编码的信息传输效率极低。
等式两边各项取指数,即得
2 L[ H (U ) ] p(u L ) 2 L[ H (U ) ]
2 L[ H (U ) ] p(u L ) 2 L[ H (U ) ]
P r uL T U ( L, ) 1
推论2(典型序列数目)
U , p(ak )和 0 ,典型序列 当L足够大时,对于给定的信源
不等长D元码,最大长度为N,至多有 D+D2+…+DN=D(1- DN)/(1-D)个码字。
信源编码基本概念
信源符号 信源符号 出现概率
a1 a2 a3 a4
p(a1)=1/2 p(a2)=1/4 p(a3)=1/8 p(a4)=1/8
码0 00 01 10 11
码1 0 11 00 11
码 表 码2 0 10 00 01
码字序列 v N (v1, v2 , , vN ), vi B, i 1, 2, , N 集合B b1, b2 , , bD, 或 B=0,1, , D 1 D元码 等长码 不等长码 唯一可译码
基本概念
若B={0,1},则 {01,011,0111,01111}可以表示四 个不同的信源序列,同样{000,011,110,101}也可表 示信源输出的四个不同序列。 这两个码字集合都称作2-元码,前者为不等长码,后者 为等长码。 一般地, B={0,1,…,D-1},称为D-元码 。 等长码与不等长码的最大码字数: 等长D元码,长度为N,至多有DN个码字;
uL TU ( L. )
2 L( H (U ) ) TU ( L, ) 2 L[ H (U ) ]
即 TU (L, ) (1 )2L[ H (U ) ]
理解典型序列
一个离散无记忆信源输出的消息序列可以分为两组,
T ( L, )
LH (U ) p ( u ) 2 L 各序列出现的概率近于相等; 每个序列平均符号的信息量接近于信源熵H(U); 所有典型序列的概率和趋近于1。 Pr uL TU (L, ) 1
码3 1 10 100 1000
码4 1 01 001 0001
唯一可译码 ?
码1,码2不是唯一可译码。 码0,码3,码4是唯一可译码。 码0是等长码,码3,码4是不等长码。
唯一可译码?
• 若对每个消息序列都至少有一个码字序列与之对 应,且不同的消息序列对应不同的码字序列,则 称这样的码为唯一可译码,否则就称为非唯一可 译码。 • 显然在无扰传输时,唯一可译码的译码错误概率 为零。 • 注意:等长码与不等长码对唯一可译码要求!
典型序列集
信源划分定理 给定信源 U , p(ak ) 和 0 ,当 L 时,有
TU(L,ε)={uL:H(U)-ε≤IL≤H(U)+ε}
P r T U ( L, ) 1
给定信源 U , p(ak ) ,对于所有 0 ,存 在有正整数 L0 , 使得当 L L0 时,有
的个数 TU ( L, ) 满足 (1 )2L[ H (U ) ] TU (L, ) 2L[ H (U ) ]
即
UL
TU (L, ) 2LH (U )
u L TU ( L. )
证明:1 p(uL ) 即 由
p(uL )
u L TU ( L. )
p(uL ) 2 LH (U )
TU ( L, ) uL : H (U ) I L H (U )
证明:从典型序列定义式 有 即
1 H (U ) log p(u L ) H (U ) L
L[ H (U ) ] log p(u L ) L[ H (U ) ]
T ( L, )
个别非典型序列的概率不一定比个别典型序列的概率低。 虽然非典型序列集中序列的总概率很小,但是元素数目 不一定小。
H (U ) log K
理解典型序列
个别非典型序列的概率不一定比个别典型序列的概率低。 掷硬币试验:正面出现概率p,反面出现概率1-p,p<0.5
p pL (1 p) L pL 典型序列的概率 非典型序列(全反) (1 p)L
E [ I (ak ) H (U )] p(ak ) I 2 (ak ) H 2 (U )
2 I 2 k 1
K
则 I L 对于均值 H (U ) 的方差为
I (u L ) 1 2 E[ H (U )] 2 E [ I (u L ) LH (U )]2 L L 1 2 E [ I (ul ) LH (U )]2 L l I2
设有一离散无记忆源,以DMS表示,
a1 , a2 , U= p1 , p2 ,
其中
, aK , pK
0 pk 1,
p
k 1
K
k
1
则长为L的信源输出序列
u L (u1 , u 2 ,, u L ) 有 K L 种不同的排列。
设有一个含D个字母的集合B b1, b2 , , bD ,称B为码的字母(或符 号)表。 从B中选出不同的符号序列表示信源的输出,每个符号序列就称为码 字。
信源划分定理 给定信源 U , p(ak ) 和 0 ,当 L 时,有
P r T U ( L, ) 1
给定信源 U , p(ak ) ,对于所有 0 ,存 在有正整数 L0 , 使得当 L L0 时,有
P r uL T U ( L, ) 1
信源编码就是从消息集到码字集上的一种映射。
信源编码基本概念
映射 消息集 码字集
u 2, ,L
信源输出序列 uL (u1, u2 , , uL ), 字母表
a1 , a2 ,, a K A p , p , , p K 1 2
信源划分定理
把所有可能的消息序列分成两个子集: 子集1是最常出现的部分:每个消息给以不同的码字,保证 单义可译; 子集2是消息概率足够小,不保证单义可译。 典型序列集的概念 设信源输出的L长的序列为 u L (u1 , u2 ,, uL ) ,所以 u L 的概率 为 p(u L ) p(ul ) (因为是无记忆源) l 消息序列的自信息量为
怎样提高编码效率? 若我们注意到每个信源符号包含的平均信息量为H(U),长为L 的信源输出序列集的平均熵值为LH(U)。编码时若D个符号为 独立等概,则每个码元符号能携带的信息量最大,为log D, 码长为最短。 理论上,最小码长N只要满足:N log D ≥L[H(U)+εL] , 其中εL为与L有关的正数,且当L→∞时有εL→0,能够无信 息损失。 然而,这样编码不保证在任何情况下单义可译,但保证非单 义可译所引起的误差可渐近地为任意小。 反之,若 N log D < L[H(U)-εL] ,编码的误差变得任意 大,其中εL为与L有关的正数。 这一结论是本节课的中心内容,我们主要通过两个定理来得 到这一结论。 信源划分定理,无扰编码定理
即当L足够大时, I L 将以概率1取值为H(U)。
推论1(特定序列出现的概率)
若 u L TU (L, ) ,则 2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ] 即
P r uL T U ( L, ) 1
无扰编码定理
N R log D, 编码速率 L
若R>H(U),则R是可达的;若R<H(U) ,则R是 不可达的。 对于给定的离散无记忆信源,若D元码的速率R超过 信源的熵,即 N / L log D [ H (U ) ],则存在有编码 方法,当L足够大时就能使译码错误概率任意小。
信源及其分类
【分类方法】 按照某时刻信源输出消息的取值集合的离散性和连续性, 信源可分为离散信源和连续信源; 按照信源输出消息的所对应的随机序列的平稳性,信源可 分为平稳信源和非平稳信源; 按照信源输出消息的所对应的随机序列中随机变量前后之 间有无依赖关系,信源可分为无记忆信源和有记忆信源。
离散无记忆信源的等长编码
2
L ( H (U ) )
TU (L, ) 2 L[ H (U ) ]
TU (L, ) 2L[ H (U ) ]
2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ]
uL TU ( L. )
有 1
p(uL )
I (u L ) log p(u L ) log p(ul ) [ log p(ul )] I (ul )
其中, I (ul ) 是信源从字母集A中独立选出某个字母所获得的 信息量。
l
l
l
这时,可以计算平均每个符号的信息量为 I L I (u L ) / L 令 I (a k ) 对于均值 H (U ) 的方差为 I2 ,即
虽然非典型序列集中序列的总概率很小,但是元素数目 不一定小。 TU ( L, ) 2 L[ H (U ) ] 2 L[ H (U ) ] L[log K H (U ) ] 2 KL UL 2 L log K
由契比雪夫定理,有
0
I (u L ) I2 Pr H (U ) 2 L L
I (u L ) I2 Pr H (U ) 1 1 2 L L
即当L足够大时,IL将以概率1取值为H(U)。
第 6讲 离散无记忆信源 等长编码
信源编码
通信的根本问题: 将信源输出消息中信息在接收端精确或近似地重现 出来。 为此需要解决两大问题: 信源的输出如何描述?——信源熵与互信息量(第2章) 信源的输出如何表示?——信源编码
这两个问题与信宿对于通信质量的要求有关。 要求精确的重现信源输出。无失真编码 不要求精确的复制出信源输出,而且在有干扰下传输时,要精确复制 信源的输出也是不可能的。限失真信源编码 信源编码分类: 无失真编码(第3章) 限失真信源编码(第9章)
由契比雪夫大数定理,对于
0
I (u L ) I2 Pr H (U ) 2 L L
I (u L ) I2 Pr H (U ) 1 2 1 L L
可选 ,这可以通过适当选择L来实现,上式可以写成
我们对信源输出的所有可能的KL 个序列进行如下分类:
【典型序列集的定义】 令H(U)是集 U , p(ak ) 的熵, 0 TU(L,ε)={uL:H(U)-ε≤IL≤H(U)+ε} 定义为给定信源U输出长为L的 典型序列集,其中 IL=I(uL)/L,uL∈U L。
TU ( L, ) 的补集 T U ( L, )为给定信源U输 相应地, 出长为L的非 典型序列集。
等长编码:映射1-1 不等长编码:映射1-1是不够的!
无失真等长编码
X Y
信源
L长序列
K
L
信源编码器 码表
信道
N长码字
DN
等长的唯一可译码存在的充要条件:
DN K L
即: N L log K / log D L logD K
其中,D为码元数,N为码长。
DN K L
实 例
英文电报27个符号, K=27, L=1, D=2(二元编码)
log2 K NL log2 27 5 log2 D
每个英文电报符号 至少要用5位二元符 号编码
实际英文电报符号信源,在考虑了符号出现的概率以 及符号之间的依赖性后,平均每个英文电报符号所提 供的信息量约等于1.4比特,即编码后5个二元符号只 携带约1.4比特的信息量,远小于5比特( 最大熵),可 见单字母编码的信息传输效率极低。
等式两边各项取指数,即得
2 L[ H (U ) ] p(u L ) 2 L[ H (U ) ]
2 L[ H (U ) ] p(u L ) 2 L[ H (U ) ]
P r uL T U ( L, ) 1
推论2(典型序列数目)
U , p(ak )和 0 ,典型序列 当L足够大时,对于给定的信源
不等长D元码,最大长度为N,至多有 D+D2+…+DN=D(1- DN)/(1-D)个码字。
信源编码基本概念
信源符号 信源符号 出现概率
a1 a2 a3 a4
p(a1)=1/2 p(a2)=1/4 p(a3)=1/8 p(a4)=1/8
码0 00 01 10 11
码1 0 11 00 11
码 表 码2 0 10 00 01
码字序列 v N (v1, v2 , , vN ), vi B, i 1, 2, , N 集合B b1, b2 , , bD, 或 B=0,1, , D 1 D元码 等长码 不等长码 唯一可译码
基本概念
若B={0,1},则 {01,011,0111,01111}可以表示四 个不同的信源序列,同样{000,011,110,101}也可表 示信源输出的四个不同序列。 这两个码字集合都称作2-元码,前者为不等长码,后者 为等长码。 一般地, B={0,1,…,D-1},称为D-元码 。 等长码与不等长码的最大码字数: 等长D元码,长度为N,至多有DN个码字;
uL TU ( L. )
2 L( H (U ) ) TU ( L, ) 2 L[ H (U ) ]
即 TU (L, ) (1 )2L[ H (U ) ]
理解典型序列
一个离散无记忆信源输出的消息序列可以分为两组,
T ( L, )
LH (U ) p ( u ) 2 L 各序列出现的概率近于相等; 每个序列平均符号的信息量接近于信源熵H(U); 所有典型序列的概率和趋近于1。 Pr uL TU (L, ) 1
码3 1 10 100 1000
码4 1 01 001 0001
唯一可译码 ?
码1,码2不是唯一可译码。 码0,码3,码4是唯一可译码。 码0是等长码,码3,码4是不等长码。
唯一可译码?
• 若对每个消息序列都至少有一个码字序列与之对 应,且不同的消息序列对应不同的码字序列,则 称这样的码为唯一可译码,否则就称为非唯一可 译码。 • 显然在无扰传输时,唯一可译码的译码错误概率 为零。 • 注意:等长码与不等长码对唯一可译码要求!
典型序列集
信源划分定理 给定信源 U , p(ak ) 和 0 ,当 L 时,有
TU(L,ε)={uL:H(U)-ε≤IL≤H(U)+ε}
P r T U ( L, ) 1
给定信源 U , p(ak ) ,对于所有 0 ,存 在有正整数 L0 , 使得当 L L0 时,有
的个数 TU ( L, ) 满足 (1 )2L[ H (U ) ] TU (L, ) 2L[ H (U ) ]
即
UL
TU (L, ) 2LH (U )
u L TU ( L. )
证明:1 p(uL ) 即 由
p(uL )
u L TU ( L. )
p(uL ) 2 LH (U )
TU ( L, ) uL : H (U ) I L H (U )
证明:从典型序列定义式 有 即
1 H (U ) log p(u L ) H (U ) L
L[ H (U ) ] log p(u L ) L[ H (U ) ]
T ( L, )
个别非典型序列的概率不一定比个别典型序列的概率低。 虽然非典型序列集中序列的总概率很小,但是元素数目 不一定小。
H (U ) log K
理解典型序列
个别非典型序列的概率不一定比个别典型序列的概率低。 掷硬币试验:正面出现概率p,反面出现概率1-p,p<0.5
p pL (1 p) L pL 典型序列的概率 非典型序列(全反) (1 p)L
E [ I (ak ) H (U )] p(ak ) I 2 (ak ) H 2 (U )
2 I 2 k 1
K
则 I L 对于均值 H (U ) 的方差为
I (u L ) 1 2 E[ H (U )] 2 E [ I (u L ) LH (U )]2 L L 1 2 E [ I (ul ) LH (U )]2 L l I2
设有一离散无记忆源,以DMS表示,
a1 , a2 , U= p1 , p2 ,
其中
, aK , pK
0 pk 1,
p
k 1
K
k
1
则长为L的信源输出序列
u L (u1 , u 2 ,, u L ) 有 K L 种不同的排列。
设有一个含D个字母的集合B b1, b2 , , bD ,称B为码的字母(或符 号)表。 从B中选出不同的符号序列表示信源的输出,每个符号序列就称为码 字。
信源划分定理 给定信源 U , p(ak ) 和 0 ,当 L 时,有
P r T U ( L, ) 1
给定信源 U , p(ak ) ,对于所有 0 ,存 在有正整数 L0 , 使得当 L L0 时,有
P r uL T U ( L, ) 1
信源编码就是从消息集到码字集上的一种映射。
信源编码基本概念
映射 消息集 码字集
u 2, ,L
信源输出序列 uL (u1, u2 , , uL ), 字母表
a1 , a2 ,, a K A p , p , , p K 1 2
信源划分定理
把所有可能的消息序列分成两个子集: 子集1是最常出现的部分:每个消息给以不同的码字,保证 单义可译; 子集2是消息概率足够小,不保证单义可译。 典型序列集的概念 设信源输出的L长的序列为 u L (u1 , u2 ,, uL ) ,所以 u L 的概率 为 p(u L ) p(ul ) (因为是无记忆源) l 消息序列的自信息量为
怎样提高编码效率? 若我们注意到每个信源符号包含的平均信息量为H(U),长为L 的信源输出序列集的平均熵值为LH(U)。编码时若D个符号为 独立等概,则每个码元符号能携带的信息量最大,为log D, 码长为最短。 理论上,最小码长N只要满足:N log D ≥L[H(U)+εL] , 其中εL为与L有关的正数,且当L→∞时有εL→0,能够无信 息损失。 然而,这样编码不保证在任何情况下单义可译,但保证非单 义可译所引起的误差可渐近地为任意小。 反之,若 N log D < L[H(U)-εL] ,编码的误差变得任意 大,其中εL为与L有关的正数。 这一结论是本节课的中心内容,我们主要通过两个定理来得 到这一结论。 信源划分定理,无扰编码定理