无失真信源编码
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 无失真信源编码
6.1编码的基本概念 6.1编码的基本概念 6.2“无失真”的本质 6.2“无失真” 6.3定长码 6.3定长码 6.4变长码 6.4变长码 6.5霍夫曼码 6.5霍夫曼码 6.6算术编码 6.6算术编码
6.1编码的基本概念 6.1编码的基本概念
6.1.1编码器和译码器: 6.1.1编码器和译码器: 编码:S s1,s2,…sL)编码为C(c1,c2,… 编码:S(s1,s2,…sL)编码为C(c1,c2,…cL) Si来自于集合U(u1,u2,…un),ci来自于集合 Si来自于集合U u1,u2,…un),ci来自于集合 W(w1,w2,…wm),W称为码字结集合,wi称为码 W(w1,w2,…wm),W称为码字结集合,wi称为码 字。 例6-1编码器“汉译英” 编码器“汉译英” 例6-2几种二进制编码
一般称 第一极限定理: 第一极限定理:无失真信源编码定理 第二极限定理: 第二极限定理:信道编码定理 第三极限定理: 第三极限定理:限失真信源编码定理
信源存在冗余度 信源存在冗余度 原因是信源符号之间存在概率分布不均匀 原因是信源符号之间存在概率分布不均匀和相 概率分布不均匀和 关性 信源编码的主要任务就是减少冗余,提高编码 信源编码的主要任务就是减少冗余,提高编码 效率。 效率。
无失真的本质是信源编码过程中没有信息 量的损失,信源符号集的元素个数n 量的损失,信源符号集的元素个数n和码字 集合中的元素个数m要相等,n=m,且在两 集合中的元素个数m要相等,n=m,且在两 个集合之间存在一一对应关系。
6.3定长码 6.3定长码
定长码的码长
log n L= log r
18
当信源序列长度L 当信源序列长度L满足
σ (X)时, L≥ 2 ε δ
2
能达到差错率要求
σ (X) P ≤ e 2 Lε
2
19
例
设离散无记忆信源概率空间为
a2 a3 a4 a5 a6 a7 a8 X a1 P = 0.4 0.18 0.1 0.1 0.07 0.06 0.05 0.04
∆
∆
无失真编码可精确复制信源输出的消息, 无失真编码可精确复制信源输出的消息, 可精确复制信源输出的消息 只适用于离散信源 对于连续信源, 对于连续信源,只能在失真受限制的情况 下进行限失真编码 下进行限失真编码 无失真信源编码定理是可逆编码的基础。 无失真信源编码定理是可逆编码的基础。 可逆是指当信源符号转换成代码后, 可逆是指当信源符号转换成代码后,可从 代码无失真地恢复原信源符号。 代码无失真地恢复原信源符号。 无失真编码只适用于离散信源。 无失真编码只适用于离散信源。对于 连续信源, 连续信源,编成代码后就无法无失真地恢 复原来的连续值。 复原来的连续值。只能根据率失真编码定 理在失真受限的情况下进行限失真编码。 理在失真受限的情况下进行限失真编码。
码的分类
非分组码 码 奇异码 非唯一可译码 分组码 非奇异码 唯一可译码 即时码(非延长码 即时码 非延长码) 非延长码 非即时码
6.1.3N次扩展码 6.1.3N次扩展码 集合U 集合U的N次扩展为UN={ui1,ui2,…,uiN},相应的码 次扩展为U ={u 字集合的N次扩展为W =(w 字集合的N次扩展为WN=(wi1,wi2,…,wiN)。 例6-3符号集={A,B,C}的编码为00,01,10,写出2次 符号集={A }的编码为00,01,10,写出2 扩展码。
5.按译码时是否需要知道下一个码字的符号分 5.按译码时是否需要知道下一个码字的符号分 唯一可译码中又分为非即时码和即时码:如果接 收端收到一个完整的码字后, 不能立即译码 , 收端收到一个完整的码字后 , 不能立即译码, 还 需等下一个码字开始接收后才能判断是否可以译 码,这样的码叫做非即时码。 这样的码叫做非即时码。 即时码:只要收到符号就表示该码字已完整, 即时码:只要收到符号就表示该码字已完整 , 可以 立即译码。 立即译码。 即时码又称为非延长码, 即时码又称为非延长码 , 任意一个码字都不是其它 码字的前缀部分,有时叫做异前缀码。 码字的前缀部分,有时叫做异前缀码。
6.4变长码 6.4变长码
唯一可译码存在的充分和必要条件 应符合克劳夫特不等式 克劳夫特不等式: 各码字的长度li 应符合克劳夫特不等式:
例6-8
设S0为原始码字的集合,再构造一系列集合 S1、S2,… 为得到S1,首先考察S0中所有的 为得到S ,首先考察S 码字。若码字wj是码字wi的前缀,即wi=wjA, 码字。若码字wj是码字wi的前缀,即wi=wjA, 则将后缀A列入S 则将后缀A列入S1中的元素。 命题6 命题6-1一种码是唯一可译码的充要条件是 S1、S2,… 中没有一个含有S0中的码字。 中没有一个含有S 例6-9
6.按符号si和ci之间的映射关系分 6.按符号si和ci之间的映射关系分 分组码和卷积码 无论si之前的符号是什么,编码始终为ci, 无论si之前的符号是什么,编码始终为ci, 即已经出现的符号对当前的符号的编码没 有影响,称为分组码。否则,称为卷积码。
将信源消息分成若干组,即符号序列x 将信源消息分成若干组,即符号序列xi, xi=(xi1xi2…xil…xiL), xil∈A={a1,a2,…,ai,…,an} A={ 每个符号序列x 依照固定码表映射成一个码字y 每个符号序列xi依照固定码表映射成一个码字yi, yi=(yi1yi2…yil…yiL), yil∈B={b1,b2,…,bi,…,bm} B={ 这样的码称为分组码,有时也叫块码。 这样的码称为分组码,有时也叫块码。只有分组码才有对 应的码表,而非分组码中则不存在码表。 应的码表,而非分组码中则不存在码表。
H(U) H (U ) ≤L< +1 log r log r
31
无失真信源编码定理研究的内容 无失真信源编码定理研究的内容: 定理研究的内容: 最小信息率为多少时, 最小信息率为多少时,才能得到无失真的 译码? 译码? 若小于这个信息率是否还能无失真地译码? 若小于这个信息率是否还能无失真地译码?
23
6.4变长码 6.4变长码
衡量指标 平均码长: 平均码长:
L=
∑ p(ui)li
i=1
n
紧致码:平均码长最小。 紧致码:平均码长最小。 信息传输率: 信息传输率:
R=
H(U) L
编码效率: = H(U) η L log r 6.4.2变长码的特点: 6.4.2变长码的特点: 1.能够提高压缩效果 例6-6 1.能够提高压缩效果 2.使信道复杂化:必须增加缓冲设备 2.使信道复杂化:必须增加缓冲设备 例6-7
AA
AB
AC
BA
BB
BC
CA
CB
CC
0000 0001 0010 0100 0101 0110 1000 1001 1010
对任意Leabharlann Baidu正整数N,如果一种编码方法的N 对任意的正整数N,如果一种编码方法的N次扩展码都是 非奇异的,则这种编码方法就是唯一可译码。
6.2 “无失真”的本质 无失真”
编码分为信源编码和信道编码,其中信 编码分为信源编码和信道编码, 源编码又分为无失真和限失真 源编码又分为无失真和限失真。 无失真和限失真。
比特/ 比特/符号
H ( X ) = −∑ pi log pi = 2.55
i =1 8
20
对信源符号采用定长 二元编码, 对信源符号采用 定长 二元编码 , 要求编码效 定长二元编码 90% 若取L 率为η=90%,若取L=1,则可算出 90% 比特/ K =2.55 ÷90%=2.8比特/符号
命题6 命题6-2一个唯一可译码成为即时码的充要 条件是其中任何一个码字都不是其他码的 前缀。 例6-10
例:设二进制码树中X (a1, a2 , a3 , a4 ), 设二进制码树中X ∈ 应用上述 K1=1,K2=2,K3=2,K4=3, 判断定理: 判断定理:
∑2
i =1
4
−Ki
9 = 2 + 2 + 2 + 2 = >1 8
例6-4
编码信息率又称编码速率:
l R'= log r 比特/符号 N
编码效率
H(U) η= R'
例6-5
信源输出8 例:信源输出8种符号,
L=1,等概率时,H L=1,等概率时,H1(X)=log2 8=3比特/符号,可 比特/ 用3比特的信息率进行无失真的编码。 p(ai)={0.4,0.18,0.1,0.1,0.07,0.06,0.05, {0.4,0.18,0.1,0.1,0.07,0.06,0.05, 0.04},则此时H 0.04},则此时H1(X)=2.55比特/符号,22.55=5.856 2.55比特/符号,2 当L足够大,没有对应码字的符号序列发生的概 率变得很小,使得差错概率达到足够小。
1 1 1 0 0 0
{0,10,010,111} 不是惟一可译码; 不是惟一可译码; 均满足克劳夫特不等式
4
a1=0
a2=10
a4=111
a3=110
∑
i =1
2−Ki = 2−1 + 2−2 + 2−3 + 2−3 = 1
30
定理6 定理 6-3 : 若离散无记忆信源的符号熵为 H(U),每个信源符号用r进制码元进行变长 每个信源符号用r 编码,一定存在一种无失真编码方法, 编码 , 一定存在一种无失真编码方法 , 其 码字平均长度满足下列不等式
ii=1 =1
≤ 10 若要求译码错误概率 δ ≤ 10
-6 -6 -
2 σ 2 (X ) 7 82 σ X 7 .82 L≥ 2 = = 9 8 ×107 ≈ 108 L≥ = = 9..8 × 10 7 ≈ 108 ε 2δ 0.282 × 10 −6 δ 0 282 ×10−6
22
由此可见,在对编码效率和译码错误率要 求并不十分苛刻的情况下,就需要对L=10 求并不十分苛刻的情况下,就需要对L=108 个信源符号一起进行编码,这对存储和处 理技术要求太高,目前还无法实现。
3.按码字的奇异性分 3.按码字的奇异性分 若信源符号和码字是一一对应的,则该码 为非奇异码。反之为奇异码。
4.按译码时是否会产生歧义分 4.按译码时是否会产生歧义分 唯一可译码 ,任意有限长的码元序列,只 能被唯一地分割成一个个的码字,便称为 唯一可译码。 奇异码不是唯一可译码,而非奇异码中有非 唯一可译码和唯一可译码。 定长码& 定长码&非奇异码是唯一可译码。
信源编码的基本途径有两个: 使序列中的各个符号尽可能地互相独立, 即解除相关性; 使编码中各个符号出现的概率尽可能地相 等,即概率均匀化。 信源编码的作用可归纳为: (1) 符号变换:使信源的输出符号与信道的输 入符号相匹配; (2) 冗余度压缩:使编码效率等于或接近100%。 冗余度压缩:使编码效率等于或接近100%。
−1 −2 −2 −3
29
因此不存在满足这种Ki的唯一可译码 因此不存在满足这种 的唯一可译码。
克劳夫特不等式只是用来说明唯一可译码是否存在 克劳夫特不等式只是用来说明唯一可译码是否存在 , 只是用来说明唯一可译码是否存在, 并不能作为唯一可译码的判据。 并不能作为唯一可译码的判据。 K1=1,K2=2,K3=3,K4=3 , , , {0,10,110,111} 惟一可译码; 惟一可译码;
2 =7
2.8
Pe=0.04 太大
21
H X) H (X ) η= = 0 90 η= = 0..90,, H (X ) + ε H X +ε
8 8 2 2
⇒ ε = 0 28 ⇒ ε = 0..28
σ ( X ) = D[ I ( xii )] = ∑ pii (log pii ) 2 − [ H ( X )] 2 = 7.82(bit ) 2 X =D = ∑p p 2 − H X 2 = 7 82( ) 2
6.1.2码的分类 6.1.2码的分类 1.按编码目的分: 1.按编码目的分: 信源编码,保密编码,信道编码,调制编码 2.按码字的长度分 2.按码字的长度分 固定长度的码, 固定长度的码 , 码中所有码字的长度都相同 定长码, 码中的码字长短不一就是变长码 。 定长码 , 码中的码字长短不一就是变长码。
6.1编码的基本概念 6.1编码的基本概念 6.2“无失真”的本质 6.2“无失真” 6.3定长码 6.3定长码 6.4变长码 6.4变长码 6.5霍夫曼码 6.5霍夫曼码 6.6算术编码 6.6算术编码
6.1编码的基本概念 6.1编码的基本概念
6.1.1编码器和译码器: 6.1.1编码器和译码器: 编码:S s1,s2,…sL)编码为C(c1,c2,… 编码:S(s1,s2,…sL)编码为C(c1,c2,…cL) Si来自于集合U(u1,u2,…un),ci来自于集合 Si来自于集合U u1,u2,…un),ci来自于集合 W(w1,w2,…wm),W称为码字结集合,wi称为码 W(w1,w2,…wm),W称为码字结集合,wi称为码 字。 例6-1编码器“汉译英” 编码器“汉译英” 例6-2几种二进制编码
一般称 第一极限定理: 第一极限定理:无失真信源编码定理 第二极限定理: 第二极限定理:信道编码定理 第三极限定理: 第三极限定理:限失真信源编码定理
信源存在冗余度 信源存在冗余度 原因是信源符号之间存在概率分布不均匀 原因是信源符号之间存在概率分布不均匀和相 概率分布不均匀和 关性 信源编码的主要任务就是减少冗余,提高编码 信源编码的主要任务就是减少冗余,提高编码 效率。 效率。
无失真的本质是信源编码过程中没有信息 量的损失,信源符号集的元素个数n 量的损失,信源符号集的元素个数n和码字 集合中的元素个数m要相等,n=m,且在两 集合中的元素个数m要相等,n=m,且在两 个集合之间存在一一对应关系。
6.3定长码 6.3定长码
定长码的码长
log n L= log r
18
当信源序列长度L 当信源序列长度L满足
σ (X)时, L≥ 2 ε δ
2
能达到差错率要求
σ (X) P ≤ e 2 Lε
2
19
例
设离散无记忆信源概率空间为
a2 a3 a4 a5 a6 a7 a8 X a1 P = 0.4 0.18 0.1 0.1 0.07 0.06 0.05 0.04
∆
∆
无失真编码可精确复制信源输出的消息, 无失真编码可精确复制信源输出的消息, 可精确复制信源输出的消息 只适用于离散信源 对于连续信源, 对于连续信源,只能在失真受限制的情况 下进行限失真编码 下进行限失真编码 无失真信源编码定理是可逆编码的基础。 无失真信源编码定理是可逆编码的基础。 可逆是指当信源符号转换成代码后, 可逆是指当信源符号转换成代码后,可从 代码无失真地恢复原信源符号。 代码无失真地恢复原信源符号。 无失真编码只适用于离散信源。 无失真编码只适用于离散信源。对于 连续信源, 连续信源,编成代码后就无法无失真地恢 复原来的连续值。 复原来的连续值。只能根据率失真编码定 理在失真受限的情况下进行限失真编码。 理在失真受限的情况下进行限失真编码。
码的分类
非分组码 码 奇异码 非唯一可译码 分组码 非奇异码 唯一可译码 即时码(非延长码 即时码 非延长码) 非延长码 非即时码
6.1.3N次扩展码 6.1.3N次扩展码 集合U 集合U的N次扩展为UN={ui1,ui2,…,uiN},相应的码 次扩展为U ={u 字集合的N次扩展为W =(w 字集合的N次扩展为WN=(wi1,wi2,…,wiN)。 例6-3符号集={A,B,C}的编码为00,01,10,写出2次 符号集={A }的编码为00,01,10,写出2 扩展码。
5.按译码时是否需要知道下一个码字的符号分 5.按译码时是否需要知道下一个码字的符号分 唯一可译码中又分为非即时码和即时码:如果接 收端收到一个完整的码字后, 不能立即译码 , 收端收到一个完整的码字后 , 不能立即译码, 还 需等下一个码字开始接收后才能判断是否可以译 码,这样的码叫做非即时码。 这样的码叫做非即时码。 即时码:只要收到符号就表示该码字已完整, 即时码:只要收到符号就表示该码字已完整 , 可以 立即译码。 立即译码。 即时码又称为非延长码, 即时码又称为非延长码 , 任意一个码字都不是其它 码字的前缀部分,有时叫做异前缀码。 码字的前缀部分,有时叫做异前缀码。
6.4变长码 6.4变长码
唯一可译码存在的充分和必要条件 应符合克劳夫特不等式 克劳夫特不等式: 各码字的长度li 应符合克劳夫特不等式:
例6-8
设S0为原始码字的集合,再构造一系列集合 S1、S2,… 为得到S1,首先考察S0中所有的 为得到S ,首先考察S 码字。若码字wj是码字wi的前缀,即wi=wjA, 码字。若码字wj是码字wi的前缀,即wi=wjA, 则将后缀A列入S 则将后缀A列入S1中的元素。 命题6 命题6-1一种码是唯一可译码的充要条件是 S1、S2,… 中没有一个含有S0中的码字。 中没有一个含有S 例6-9
6.按符号si和ci之间的映射关系分 6.按符号si和ci之间的映射关系分 分组码和卷积码 无论si之前的符号是什么,编码始终为ci, 无论si之前的符号是什么,编码始终为ci, 即已经出现的符号对当前的符号的编码没 有影响,称为分组码。否则,称为卷积码。
将信源消息分成若干组,即符号序列x 将信源消息分成若干组,即符号序列xi, xi=(xi1xi2…xil…xiL), xil∈A={a1,a2,…,ai,…,an} A={ 每个符号序列x 依照固定码表映射成一个码字y 每个符号序列xi依照固定码表映射成一个码字yi, yi=(yi1yi2…yil…yiL), yil∈B={b1,b2,…,bi,…,bm} B={ 这样的码称为分组码,有时也叫块码。 这样的码称为分组码,有时也叫块码。只有分组码才有对 应的码表,而非分组码中则不存在码表。 应的码表,而非分组码中则不存在码表。
H(U) H (U ) ≤L< +1 log r log r
31
无失真信源编码定理研究的内容 无失真信源编码定理研究的内容: 定理研究的内容: 最小信息率为多少时, 最小信息率为多少时,才能得到无失真的 译码? 译码? 若小于这个信息率是否还能无失真地译码? 若小于这个信息率是否还能无失真地译码?
23
6.4变长码 6.4变长码
衡量指标 平均码长: 平均码长:
L=
∑ p(ui)li
i=1
n
紧致码:平均码长最小。 紧致码:平均码长最小。 信息传输率: 信息传输率:
R=
H(U) L
编码效率: = H(U) η L log r 6.4.2变长码的特点: 6.4.2变长码的特点: 1.能够提高压缩效果 例6-6 1.能够提高压缩效果 2.使信道复杂化:必须增加缓冲设备 2.使信道复杂化:必须增加缓冲设备 例6-7
AA
AB
AC
BA
BB
BC
CA
CB
CC
0000 0001 0010 0100 0101 0110 1000 1001 1010
对任意Leabharlann Baidu正整数N,如果一种编码方法的N 对任意的正整数N,如果一种编码方法的N次扩展码都是 非奇异的,则这种编码方法就是唯一可译码。
6.2 “无失真”的本质 无失真”
编码分为信源编码和信道编码,其中信 编码分为信源编码和信道编码, 源编码又分为无失真和限失真 源编码又分为无失真和限失真。 无失真和限失真。
比特/ 比特/符号
H ( X ) = −∑ pi log pi = 2.55
i =1 8
20
对信源符号采用定长 二元编码, 对信源符号采用 定长 二元编码 , 要求编码效 定长二元编码 90% 若取L 率为η=90%,若取L=1,则可算出 90% 比特/ K =2.55 ÷90%=2.8比特/符号
命题6 命题6-2一个唯一可译码成为即时码的充要 条件是其中任何一个码字都不是其他码的 前缀。 例6-10
例:设二进制码树中X (a1, a2 , a3 , a4 ), 设二进制码树中X ∈ 应用上述 K1=1,K2=2,K3=2,K4=3, 判断定理: 判断定理:
∑2
i =1
4
−Ki
9 = 2 + 2 + 2 + 2 = >1 8
例6-4
编码信息率又称编码速率:
l R'= log r 比特/符号 N
编码效率
H(U) η= R'
例6-5
信源输出8 例:信源输出8种符号,
L=1,等概率时,H L=1,等概率时,H1(X)=log2 8=3比特/符号,可 比特/ 用3比特的信息率进行无失真的编码。 p(ai)={0.4,0.18,0.1,0.1,0.07,0.06,0.05, {0.4,0.18,0.1,0.1,0.07,0.06,0.05, 0.04},则此时H 0.04},则此时H1(X)=2.55比特/符号,22.55=5.856 2.55比特/符号,2 当L足够大,没有对应码字的符号序列发生的概 率变得很小,使得差错概率达到足够小。
1 1 1 0 0 0
{0,10,010,111} 不是惟一可译码; 不是惟一可译码; 均满足克劳夫特不等式
4
a1=0
a2=10
a4=111
a3=110
∑
i =1
2−Ki = 2−1 + 2−2 + 2−3 + 2−3 = 1
30
定理6 定理 6-3 : 若离散无记忆信源的符号熵为 H(U),每个信源符号用r进制码元进行变长 每个信源符号用r 编码,一定存在一种无失真编码方法, 编码 , 一定存在一种无失真编码方法 , 其 码字平均长度满足下列不等式
ii=1 =1
≤ 10 若要求译码错误概率 δ ≤ 10
-6 -6 -
2 σ 2 (X ) 7 82 σ X 7 .82 L≥ 2 = = 9 8 ×107 ≈ 108 L≥ = = 9..8 × 10 7 ≈ 108 ε 2δ 0.282 × 10 −6 δ 0 282 ×10−6
22
由此可见,在对编码效率和译码错误率要 求并不十分苛刻的情况下,就需要对L=10 求并不十分苛刻的情况下,就需要对L=108 个信源符号一起进行编码,这对存储和处 理技术要求太高,目前还无法实现。
3.按码字的奇异性分 3.按码字的奇异性分 若信源符号和码字是一一对应的,则该码 为非奇异码。反之为奇异码。
4.按译码时是否会产生歧义分 4.按译码时是否会产生歧义分 唯一可译码 ,任意有限长的码元序列,只 能被唯一地分割成一个个的码字,便称为 唯一可译码。 奇异码不是唯一可译码,而非奇异码中有非 唯一可译码和唯一可译码。 定长码& 定长码&非奇异码是唯一可译码。
信源编码的基本途径有两个: 使序列中的各个符号尽可能地互相独立, 即解除相关性; 使编码中各个符号出现的概率尽可能地相 等,即概率均匀化。 信源编码的作用可归纳为: (1) 符号变换:使信源的输出符号与信道的输 入符号相匹配; (2) 冗余度压缩:使编码效率等于或接近100%。 冗余度压缩:使编码效率等于或接近100%。
−1 −2 −2 −3
29
因此不存在满足这种Ki的唯一可译码 因此不存在满足这种 的唯一可译码。
克劳夫特不等式只是用来说明唯一可译码是否存在 克劳夫特不等式只是用来说明唯一可译码是否存在 , 只是用来说明唯一可译码是否存在, 并不能作为唯一可译码的判据。 并不能作为唯一可译码的判据。 K1=1,K2=2,K3=3,K4=3 , , , {0,10,110,111} 惟一可译码; 惟一可译码;
2 =7
2.8
Pe=0.04 太大
21
H X) H (X ) η= = 0 90 η= = 0..90,, H (X ) + ε H X +ε
8 8 2 2
⇒ ε = 0 28 ⇒ ε = 0..28
σ ( X ) = D[ I ( xii )] = ∑ pii (log pii ) 2 − [ H ( X )] 2 = 7.82(bit ) 2 X =D = ∑p p 2 − H X 2 = 7 82( ) 2
6.1.2码的分类 6.1.2码的分类 1.按编码目的分: 1.按编码目的分: 信源编码,保密编码,信道编码,调制编码 2.按码字的长度分 2.按码字的长度分 固定长度的码, 固定长度的码 , 码中所有码字的长度都相同 定长码, 码中的码字长短不一就是变长码 。 定长码 , 码中的码字长短不一就是变长码。