第三章-无失真信源编码(1-1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H (X ) E 冗余度 1 1 H max ( X )
具体说,就是针对信源输出符号序列的统计特性,
寻找一定的方法把信源输出符号序列变换为最短的码字序列。
信源编码的基本途径 是什么? 信源编码的基本途径有两个,一是使序列中的各个符 号尽可能地互相独立,即解除相关性;二是使编码中
各个符号出现的概率尽可能地相等,即概率均匀化。
信源编码的基础是什么?
信源编码的基础是:两个编码定理,即无失真编码定理和限失真 编码定理。
r进制码树:有r个分支 树根 一级节点:经过一个分支到达的节点,有r个 n级节点:rn个 码字:从树根到节点的分枝标号序列
码树图
0 0 0 1
A
1 0 1 0 1
1
0
1
0
1
二进制码树
1
0
1 0 10 1 0 1 0
0 1 0 1
0
(二元编码)
0 0 01 2 1 2 0
1 1 2
2 0 1 2
三进制码树
-Ki -1 -2 -3 -3 2 =2 +2 +2 +2 =1 i=1 4
存在这种Ki的唯一可译码。
0 0 1 1
a1 a2
0
1
a1: 1 a2: 01 a3: 000 a4: 001
a3
a4
注意:克劳夫特(Kraft)不等式只是用来说明唯一可译码是否 存在,并不能作为判断哪些码是唯一可译码的依据。 如码字(0,10,010,111)满足克劳夫特不等式,但它不是 唯一可译码
(三元编码)
1
2
0
4 唯一可译码存在的充要条件:
对含有n个信源符号的信源用含有m个码元的码符号集进行 编码,各码字的长为k1,k2…..,其唯一可译码存在的充要 条件是,满足克劳夫特(Kraft)不等式
-K i m 1 i=1 n
其中n表示信源符号数,m表示进制数,Ki表示各码字长度。
例:设二进制码树中U=(a1,a2,a3,a4),K1=1,K2=2,K3=2,K4=3, 请判断是否存在唯一可译码?
• 由于存在着信源冗余,使得压缩编码成为可能。 • 信源冗余度是信源压缩编码的理论基础。
例题:英文字母和空格键在英语中出现的概率 统计如下,计算信源效率与信源冗余度。
Space 0.2 I 0.055 C 0.023 W 0.012 J 0.001 E 0.105 R 0.054 F 0.0225 G 0.011 Q 0.001 T 0.072 O 0.554 S 0.052 H 0.047 U 0.0225 M 0.021 B 0.0105 V 0.008 Z 0.001 A 0.063 N 0.059 D 0.035 L 0.029 P 0.0175 Y 0.012 K 0.003 X 0.002
其中: H0(X) 是具有N种取值可能的单消息信源的最大信息熵 (等概率时) 由于符号所含的信息熵依次递减,所以平均符号信息熵自然 越来越小
(4) 信源效率(相对熵):
信源冗余度:
H ( X ) H0 ( X )
1
关于冗余度的理解:
• H∞是考虑全部信源统计特性后的最小信息熵, 是信道传送理论上的最佳值,只要在信道上传 送H∞,在接收端利用信源统计关联的记忆特 性,可恢复出全部信息。
2.5 非即时码和即时码 唯一可译码中,如果接收端收到一个完整的码字后,不能立
即译码Байду номын сангаас还需等下一个码字开始接收后才能判断是否可以译
码,这样的码叫做非即时码。 没有任何完整的码字是其他码字的前缀,可立即译码的叫做 即时码(非延长码)。
例如:W:{1,10,100,111} 不是即时码, 1是 10的前缀, 10 为100的前缀。
相对熵 H ( X ) = H ( X )
H max ( X ) H 0 ( X )
或
H ( X ) H ( X ) = H max ( X ) H 0 ( X )
信源最大可能熵与实际熵的差定义为内熵:
内熵
或
H max ( X ) H ( X )
H max ( X ) H ( X )
说明:
1)无失真编码是可逆编码,即信源符号转换成代码后,可从代码 无失真的恢复原信源符号。只适用于离散信源。 2)对于连续信源,编成代码后就无法无失真地恢复原来的连续值, 因为后者的取值可有无限多个。此时只能根据率失真编码定理在 失真受限制的情况下进行限失真编码
编码定理表明:
(1)必存在一种编码方法,使代码的平均长度可任意 接近但不能低于极限熵
• H0=log227=4.76bit/符号 • H1=-∑p(xi)log2p(xi)=4.03bit/符号
• H2=3.32bit/符号
• H3=3.1bit/符号 • H∞ =1.4bit/符号(Shannon求得的推算值)
H ( X ) =03 . H0 ( X )
结论:冗余度0.7,说明压缩编码的必要性。
第三章 无失真信源编码
信源编码的分类?
适用于离散信源或数字信号 无失真信源编码, — 文字、文件信源;
分类
适用于连续信源或模拟信号 限失真信源编码, — 语音、图像信源;
为什么要对信源进行编码?
由于信源符号之间存在相关性和分布不均匀,使得信源存 在冗余度。 (1)信源输出符号间的依赖关系使得信源熵减小,这就 是信源的相关性。相关程度越大,信源的实际熵越小,越趋
(2)达到这一目标的途径,就是使概率与码长匹配。
3.1编码定义
3.2信源冗余度 3.3无失真信源编码
定长编码定理
变长编码定理
最佳编码
3.1 编码定义
编码器可以看作这样一个系统,它的输入端为原始信源U,其符 号集为U:{u1,u2,…,uq};而信道所能传输的码元符号集为 X:{x1,x2,…,xr};编码器的功能是用码元符号集X中的元素,将原 始信源的符号ui变换为相应的码字符号Wi,(i=1,2,…,q),所以编 码器输出端的符号集为W:{W1,W2,…,Wq}。
近于极限熵 H ( X );反之,相关程度减小,信源实际熵增大。
(2)实际信源的符号分布概率不是均匀的,这使得实际的 信源熵总是小于最大熵 H0 ( X ) H max ( X ) 。
也就是说,实际发送的消息总是包含有无用的信息。信源
包含有冗余。
信源无失真编码的主要任务就是减少冗余,提高编码效率。
如果每次只传送一个符号,即序列长度L=1 ui=ui1∈(a1,a2,…,an) 要将这样 的符号进行传输,常采用二元信道,码符号集X为
{0,1}。若将信源在该信道上传输,需把信源符号变换成0,1
符号组成的码字序列。 例: 信源符号
信源符号出 现概率 a1 p(a1) 码1 00 码表 码2 0
a2
1 信源编码: 信源消息U=(u1,u2,…, uq) 码符号集X=(x1,x2,…, xr)
将 ui
Wi =( w1,w2,…,wq)其中某一码字 wi∈{x1,x2,…xr}
这种一一对应变换称为信源编码。
若Li为码字Wi中的码元个数,则 Li称为码字Wi的长度, 简称码长。
分组码定义:
将信源消息分成若干组,即符号序列ui, ui=(ui1,ui2,…,uil,…,uiL) 序列中的每个符号取自于同一个符号集A, uil∈(a1,a2,…,an)。 而每个符号序列ui依照固定的码表映射成一个码字Wi,这 样的码称为分组码。只有分组码有对应的码表。
3.2 信源冗余度
对平稳信源
H lim H L ( X ) lim H ( X L / X 1 X 2
L L
X L 1 )bit/符号
理论上需要传输的最小信息
(3)容易看出: 0 H ( X )
H2 ( X ) H1 ( X ) H0 ( X ) log2 N
2
i=1
4
-Ki
9 =2 +2 +2 +2 = 1 8
-1 -2 -2 -3
不存在这种Ki的唯一可译码。
0 1
a3
0
0 1
1
a1 a2
a1: 1 a2: 01 a3: 00 a4: 000 如果传送0001
a4
00,01 000,1
a3,a2 a4,a1
如果改成K1=1,K2=2,K3=3,K4=3,请判断这是否存在唯一可译码?
3 即时码及其树图构造法 --码树
码树:用码树表示码字的组成 码树构造要点: 1)最上(下)端为树根,从树根向下(上)延伸出树枝, 树枝总数等于r,树枝的尽头为节点。 2)从每个节点再伸出r个树枝,当某节点被安排为码字
后,就不再伸枝。
3)每个节点伸出的树枝标上码符号,从根出发到终端节 点所走路径对应的码符号序列则为终端节点的码字。
a1 a2 a3 a4
1/2 1/4 1/8 1/8
0 11 00 11
0 10 00 01
1 10 100 1000
1 01 001 0001
码1是奇异码,码2,码3和码4是非奇异码
2.4 唯一可译码 非奇异码中,任意有限长的码元序列,只能被唯一的译成所对 应的信源符号序列,称为唯一可译码。 例如:U: {u1,u2,u3}; X:{0,1}; W: {w1=0, w2=10, w3=11}, 为唯一可译码。 当接收码字序列为:10011001111 时,可以唯一地译为: w2,w1,w3,w1,w1,w3,w3; 如果码字集合为:W:{w1=0,w2=01,w3=001} 则为非唯一可译码。 当接收码字序列为:00101 时,可以译为:w1,w2,w2; 也可译为: w3,w2
a3 a4
p(a2)
p(a3) p(a4)
01
10 11
01
001 111
2 码的类型
码
{
非分组码
分组码
{
奇异码 非奇异码
{
非唯一可译码 非即时码 唯一可译码 即时码(非延长码)
{
2.1 码符号集中符号数r=2称为二元码,r=3称为三元码 2.2 若分组码中的码长都相同则称为等长码,否则称为变长码
信源符号 信源符号出 现概率 a1 p(a1) 码表
码1
00
码2 0
a2
a3 a4
p(a2)
p(a3) p(a4)
01
10 11
01
001 111
码1是等长码,码2是变长码
2.3 奇异码和非奇异码
若信源符号和码字是一一对应的,即所有码字都不相同,
则该码为非奇异码;反之为奇异码。
信源符号 符号出现概率 码1 码2 码3 码4