信源编码
第5章无失真信源编码定理
如果我们要对信源的N次扩展信源进行编码,也必须满足
qN rl , 两边取对数得: l log q
l
N log r
N 表示平均每个信源符号所需的码符号个数。
5.2 等长码
例:对英文电报得32个符号进行二元编码,根据上述关系:
l log 32 5 log 2
我们继续讨论上面得例子,我们已经知道英文的极限 熵是1.4bit,远小于5bit,也就是说,5个二元码符号只携带 1.4bit的信息量,实际上,5个二元符号最多可以携带5bit 信息量。我们可以做到让平均码长缩短,提高信息传输率
0.8112
0.4715
若采用等长二元编码,要求编码效率 0.96 ,允许错误率
105 ,则: N 4.13107
也就是长度要达到4130万以上。
5.5 变长码
1、唯一可译变长码与及时码
信源符号 出现概率 码1
码2
码3
码4
s1
1/2
0
0
1
1
s2
1/4
11
10
10
01
s3
1/8
00
00
密码:是以提高通信系统的安全性为目的的编码。通常通过加 密和解密来实现。从信息论的观点出发,“加密”可视为增熵 的过程,“解密”可视为减熵的过程。
5.1 编码器
信源编码理论是信息论的一个重要分支,其理论基础是信源编 码的两个定理。 无失真信源编码定理:是离散信源/数字信号编码的基础; 限失真信源编码定理:是连续信源/模拟信号编码的基础。
5.1 编码器
信源编码:以提高通信有效性为目的的编码。通常通过压缩信 源的冗余度来实现。采用的一般方法是压缩每个信源符号的平 均比特数或信源的码率。即同样多的信息用较少的码率传送, 使单位时间内传送的平均信息量增加,从而提高通信的有效性。
信息论与编码原理信源编码
信息论与编码原理信源编码
信息论是一门涉及了信息处理的学科,它研究信息生成、传输、接收、存储、利用等过程的一般性理论。
它探讨涉及信息的一切问题,强调掌握
信息所必需的体系性的体系知识,其主要内容有:信息的定义、信息测度,信息的熵,信息编码,信息的可计量性,信息传输,信息和随机性,信息
编译,信息安全,信息认证,解码准确性,信息的保密,校验,系统复杂性,信息的加密等。
信源编码是一种在信息论中常用的编码技术,其目的是用最少的信息
量表示最多的信息内容,以提高信息发送效率。
它主要包括概率信息源编
码和确定性信息源编码两种。
概率信息源编码是根据一个信息源的发生概率来编码,是根据发出信
息的概率来决定编码方式的。
它根据一个消息源中发出的不同信息的概率
来决定信息的编码,并确定每种信息的编码长度。
在这种情况下,越高概
率的信息,编码长度越短。
确定性信息息源编码,是根据一个消息源中出现特定信息的概率确定
编码方式的。
在这种情况下,编码长度取决于消息源的熵,也就是期望的
信息量。
信源编码的基本思想是以最小的编码来传输最多的信息量。
第五章信源编码(编码定义及定长编码)
所以送一个信源符号x需要的平均信息率为:
K KL logm L
信息率最小就是找到一种编码方式使
KL logm L
最小。
5.2.1定长编码定理
定义:各个码字码长都相等的码 定长码中每个码字长度相等,所以只要定长码是非奇异
码,则必为唯一可译码
非奇异码 唯一可译码
即时码
非奇异码 唯一可译码
即时码
变长码
等长码
消息
概率
C1
C2
C3
C4
C5
C6
u1
1/2
000
0
0
0
1
01
u2
1/4
001
01
10
10
000
001
u3
1/16
010
011
110
1101 001
100
u4
1/16
011
0111 1110 1100 010
101
u5
1/16
100
01111 11110 1001 110
110
u6
1/16
101
解码:按照码符号的顺序,从根节点依次查询到终端节点,就得到对应的 信源符号。再从根节点对剩下的码符号序列做相同的处理,直到处理完码 符号序列中所有的码符号
对应表中的码4分析
A01Fra bibliotek01
1
0
0
1
0
10 1
0
1
000
001 010
011 100 101 110
111
一阶节点 二阶节点 三阶节点
唯一可译码存在的充要条件
我们之后介绍的是二元信道中的编码。
第11讲信源编码三个基本编码
5.1.5 游程编码 5.1.6 冗余位编码
赫夫曼(Huffman) 编码是一种效率比较高的变长无失 真信源编码方法。
5.3.1 二进制哈夫曼编码 5.3.2 m 进制哈夫曼编码(自学)
5.3.1 二进制哈夫曼编码
例:设单符号离散无记忆信源如下,要求对信源 编二进制哈夫曼码。
编法一的平均码长为
5
K 1 p ( x i) k i 0 .4 1 0 .2 2 0 .2 3 ( 0 .1 0 .1 ) 4 2 .2 ( 码 /符 元 ) 号 i 1
编法二的平均码长为
5
K 2p (x i)k i (0 .4 0 .2 0 .2 ) 2 (0 .1 0 .1 ) 3 2 .2 (码 /符 元 ) 号 i 1
6 0 x .0 5 , 8 0 x .0 6 4
对该信源编二进制费诺码。
(1)将概率按从大到小的顺序排列
p(x1)≥ p(x2)≥…≥ p(xn)
(2)按编码进制数将概率分组,使每组概率尽可能接近
或相等。如编二进制码就分成两组,编 m 进制码就分
成 m 组。
信源符号 概率
编码
码字 码长
x1
0.18
x4
0.16 1
x5
0.08
x6
0.04
编码 0 1 0
0 1
1
码字 码长
00
2
01
2
10
2
110
3
0 1110 4
1 1111 4
6
该信源的熵为 H (X) p(xi)lo2p g (xi)2.3(比 5 /符 特 )号 i 1
平均码长为
2.10常用信源编码
0.40.40.601
1.0
0.20.40 0.4101
0.6
0.200.21000
0.4
0.100010
0.2 1
0.110011
编码
0.4 0.40.4 0.600
1.0
0.20.20.4 0.4 10
0.6
0.20.200.211
0.4
0.10 0.2 1010
0.2
0.11011
可见,编成的码C和C’不一样,这说明哈夫曼编码并不唯一,这是由于哈夫曼编码是与信源统计特性相匹配的编码,而不是某个信源固定特性相匹配,不唯一性是明显的,但是只要在编码和译码过程中遵守同一规则,译码是唯一的。虽然C和C’不一样,但是两者都是哈夫曼编码,并且码长相等。
Kc’=0.4×1+0.2×2+0.2×3+2×0.1×4=2.2
Kc=0.4×2+0.2×2×2+0.1×3×2=2.2
但是,若从二阶矩来看,即方差来看,C’的方差大,C的方差小,所以C优于C’
下面讨论哈夫曼编码应用中的一些问题:
1)首先讨论误差扩散:哈夫曼编码是一种无失真信源最佳编码,但是在实际信道中是有失真的。噪声的引入必然要破坏长码结构,而且是变长码,错误不但影响受干扰位,还要进一步扩散。目前对扩散还没有很有效的方法,工程上克服方法有两种:一是限制哈夫曼码仅能应用于优质信道(<=10-6)以限制扩散的可能性;二是采用定期清洗,防止扩散区域增大。但是它是靠牺牲有效性换取的。
解:先计算一个符号所含的平均自信息量,即信源熵H
H= =1.9056bit
无记忆信源由6000个符号构成的符号序列消息
[例6]发出二重符号序列消息的信源熵为 而一阶马尔可夫信源的信源熵为 试比较这两者的大小,并说明原因。
第五章信源编码
(每个符号有m种可能值)进行定长编码。对任意的 0,0
只要
KLHL(X)ε L logm
,则:当L足够大时,必可使译码差
错小于 (几乎无失真编码);反之,当 KLHL(X)2ε L logm
时,译码差错一定是有限值,而当L足够大时,译码几乎必定 出错(译码错误概率接近于1)。
1、解释: KL/L-----编码时,每个信源符号输出的 码长。即每个信源符
其中:左边--KL长码字所能携带的最大信息量, 右边--L长信源序列携带的信息量。
定理表明,只要码字所能携带的信息量大于信源序列输出的信 息量,则可以实现几乎无失真编码,当然条件是L足够大。 反之,不可能实现无失真的编码,也就是不可能做一种编码 器,能使收端译码时差错概率趋于零。
2、举例: (1 单 ) 符号 X A 信 {a1,a源 2...8} ., .n,a 8 ,等,L 概 1 。 分 H 1(X )H (X )lb3 8b /信 it 源符号。 若进行二进B制 {0编 ,1}m ,码 2,据定理,只要 K LLKLH lo(X g)m 3码元 /信源符号,就 无可 失以 真实 编现 码 事实上 3位,二进制码确实示 可8种 以信 表源符号。
或映射规则 元 b 转 j,j换 1,2..m 成 .构由 成码 的码 (也元 称序 为列
y i,i1,2..n.L。
f:xiyi
码K 长 L, i i1,2..n.L .; 平 均_KL 码 nL长 KLPi(: yi)码/元 符 号 序
i1 _
定长编 KL1 码 KL: 2...K .L .L n.KL, KLKL
注:奇异码一定非惟一可译。(非奇异码则不一定)
4、即时码和非即时码:
收到一个完整的码字后能立即译码,或曰及时可译---即时码
第五章 信源编码LVRH1010
解:将信源通过一个二元信道传输,就必须把信源符号si变换 成由0,1符号组成的码符号序列,即进行编码。可以用不同 的二元码符号序列与信源符号 一一对应,就得到不同的码。
信源符号 P(si) s1 s2 s3 s4 P(s1) P(s2) P(s3) P(s4) 码1 00 01 10 11 码2 0 01 001 111 5.1 编码的定义 定长码 变长码 二次扩展信源符号 二次扩展码字 S1=S1S1 s2=S1S2 …… s4=S4S4 00 001 …… 111111
l ≥ log r q = 5
分析:考虑到符号出现的概率以及符号之间的相关性后,实际平均每 分析 个英文电报符号所提供的信息量约1.4bit,远小于5bit,因此定长编码 后,每个码字只载1.5bit信息,5个二进制符号最大能载5bit信息 ,因 此,定长编码的信息传输效率低。 解决方案: 解决方案 (1)对于不会出现的符号序列不予编码,这样不会造成误差; (2)对于概率非常小的信源符号序列不予编码,这样可能会造成一 定误差,但当信源符号序列N足够大,误差概率非常小
第五章 信源编码 五
问题
• 对信源有两个重要问题 1. 信源输出的信息量的度量问题 度量问题; 度量问题 2. 如何更有效地 有效地表示信源输出的问题 输出的问题; 有效地 输出的问题
信源输出的符号序列,经过信源编码,变换成 适合信道传输的符号序列,同时,在不失真或允许 一定失真的条件下,用尽可能少的码符号来传递信 源消息,提高信息传输的效率。
i =1 8
a7 0.05
a8 , 0.04
HL (X ) 2 .55 得K = = 2.83bit / 符号 90 % K 即每个符号用 2.83bit 进行定长二元编码,共 有 2 2.83 = 7.11种可能性 若取 L = 1,据 η = 根据 η = H( X ) = 0.9 ⇒ ε = 0 .28 H (X ) + ε
信源编码
a4
1000 0001
异前缀码(即时码):码集中任何一个码不是其他码的前缀。 即时码必定是唯一可译码, 唯一可译码不一定是即时码。 5°有实用价值的分组码 分组码:将信源符号集中的每个信源符号固定地映射成一个码字。
是非奇异码、唯一可译码、即时码 。
六、码树图 1°码树图: 用码树来描述给定码集中各码字的方法。
码字Y i 的码元个数 Ki 称为Y i的码长。 所有码字Y i 的码长 Ki 均相等称为码长为 K 定长码。 码字Y i 的码长 Ki 不全相等称为变长码。
西南石油大学理学院
三、 编码与译码
1°信源编码:将信源符号xi 或符号序列XLi 按一种规则映像成码字 Yi的过程。 2°无失真编码:信源符号到码字的映射必须一一对应。 3°译码:从码符号到信源符号的映射。
x2 x1 x3 x2 x1 x1
x1→1 x2→10 x3→11 则无法唯一分割。
4°按译码的即时性分类
非即时码:接收端收到一个完整的码字后,不能立即译码,还需 要等到下一个码字开始接收后才能判断是否可以译码。
即时码:接收端收到一个完整的码字后,就能立即译码,即时码 又称为非延长码或异前缀码。 即时码与唯一可译码
信源符号 xi 对应的码字为Yi (i = 1, 2, … , n),码字Yi 对应 的码长为 K i(i = 1, 2, …, n ) 。 所有的 K i 相等为定长码,记为 K, 不相等时为变长码。
3°按译码唯一性分类
唯一可译码:对于多个码字组成的有限长码流,只能唯一
地分割成一个个的码字。唯一可译码又称为单义码。
非唯一可译码:对有限长码流,不能唯一地分割成一个个
的码字。
西南石油大学理学院
【例】 码流 100111000 … 码1 码2
简述信源编码的功能
简述信源编码的功能摘要:1.信源编码的定义与作用2.信源编码的分类及方法3.信源编码技术的应用领域4.信源编码的发展趋势与挑战5.总结与展望正文:一、信源编码的定义与作用信源编码,是指在信息传输过程中,对原始信息进行编码处理,将其转换为适合于信道传输的编码形式。
其作用主要体现在以下几点:1.提高信息传输的效率:通过对信源进行编码,可以减少信息传输的冗余度,从而提高传输速率。
2.实现信息加密:信源编码可以实现信息加密,保障信息安全。
3.便于信号处理与分析:编码后的信号更容易进行信号处理、分析和识别。
二、信源编码的分类及方法根据编码方式的不同,信源编码可分为以下几类:1.基于概率的编码:如哈夫曼编码、算术编码等,主要用于熵编码。
2.基于结构的编码:如分组编码、卷积编码等,主要用于信道编码。
3.基于语义的编码:如图像编码、音频编码、视频编码等,主要用于特定领域信息的压缩与传输。
常见信源编码方法有:1.预测编码:通过对相邻帧或帧内的像素进行预测,减少冗余信息。
2.变换编码:将原始信号变换为频域或小波域,再进行编码。
3.熵编码:基于信息熵原理,对编码后的符号进行码字优化。
三、信源编码技术的应用领域1.图像处理:如JPEG、JPEG2000等图像压缩标准。
2.音频处理:如MP3、AAC等音频压缩标准。
3.视频处理:如MPEG、H.264等视频压缩标准。
4.通信系统:如3G、4G、5G等无线通信系统的信道编码。
四、信源编码的发展趋势与挑战1.趋势:随着大数据、云计算、物联网等技术的发展,信源编码将向更高效率、更低成本、更智能化的方向发展。
2.挑战:如何在低功耗、低带宽、高噪声等环境下,实现高效、可靠的信源编码成为当前研究的关键。
五、总结与展望信源编码作为信息传输过程中的关键技术,对于提高传输效率、保障信息安全、实现信号处理具有重要意义。
信息论导论第六章信源编码
第6章 信源编码
从数学意义上,信源编码就是信源符号序列到码 字之间的映射。 无失真信源编码 选择适合信道传输的码集,现在一般选二进 制数 寻求一种将信源符号序列变换为码字的系统 方法,这种方法要保证符号序列与码字之间的 一一对应关系
信源编码
衡量编码方法优劣的主要指标中,码长和易实现 性最受重视。
i 1 i 1 i 1
nN
nN
nN
H(X N ) NH(X) K H(X N ) 1 NH(X) 1
K 1 H(X) H(X) N N 1 任意给定 ,只要NN
信源编码
三、无失真信源编码 1、香农码
香农码直接基于最优码码长的界,是一种采用异 前置码实现的无失真不等长编码。
信源编码
例2
X x1 x 2 x 3 P(X) 0.5 0.3 0.2
分别对该信源和其二次扩展信源编香农码,并计 算编码效率。 (1)对信源编码
log P(x1 ) log 2 1 k1 1 log P(x 2 ) log 0.3 1.74 取k 2 2
码B 码C 0 01 0 10
x 3 0.15 x 4 0.05
011 110 0111 111
码A不是单义可译码,它有二义性;码B和码C是 单义可译码;码B是延时码,它需等到对应与下一 个符号的码字开头0才能确定本码字的结束,存在 译码延时;码C是即时码。
信源编码
码C的特点——任何一个码字都不是其它码字的前 缀,因此将该码称为异前置码。 异前置码可以用树图来构造。 一个三元码树图 从树根开始到每一个终节 点的联枝代表一个码字, 相应的异前置码
x1
x2
0.5
信源编码
应用
表1信源编码实例表以简单的数据压缩为例即可说明信源编码的应用。若有一离散、无失真、无记忆信源,它 含有五种符号U0~U4及其对应概率Pi,对它进行两种编码:等长码和最佳哈夫曼码(见表1)。
其中,等长码的平均码长:=3,即三位码。若采用哈夫曼编码,平均码长,即不足两位码。这就是说,数据 压缩了以上。
另外,在数字电视领域,信源编码包括通用的MPEG—2编码和H.264(MPEG—Part10 AVC)编码等。
相应地,信道编码是为了对抗信道中的噪音和衰减,通过增加冗余,如校验码等,来提高抗干扰能力以及纠 错能力。
定理
不同类型的信源,是否存在有每种信源的最佳的信源编码,这通常是用信源编码定理来表示。最简单、最有 实用指导意义的信源编码定理是离散、无记忆型信源的二进制变长编码的编码定理。它证明,一定存在一种无失 真编码,当把N个符号进行编码时,平均每个符号所需二进码的码长满足。
信源编码
以提高通信有效性为目的而对信源符号 进行的变换,或者说为了减少或消除信
源冗余度而进行的信源符号变换
01 编码结果
03 方式
目录
02 作用 04 定理
目录
05 分类
07 通信系统模型
06 应用 08 专业表述
信源编码是一Βιβλιοθήκη 以提高通信有效性为目的而对信源符号进行的变换,或者说为了减少或消除信源冗余度而进 行的信源符号变换。具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换 为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。
通信系统模型
[信源]->[信源编码]->[信道编码]->[信道传输+噪声]->[信道解码]->[信源解码]->[信宿] 一般信息论的书上都会有信源编码和信道编码的具体讲解,包括具体的编码方法。
信源编码-北邮信息论课件
信源编码贺志强信源编码:将信源符号序列按一定的数学规律映射成由码符号组成的码序列的过程。
成由码符号组成的码序列的过程信源译码:根据码序列恢复信源序列的过程。
信源译码根据码序列恢复信源序列的过程无失真信源编码:即信源符号可以通过编码序列无差错地恢复。
无差错地恢复(适用于离散信源的编码)限失真信源编码:信源符号不能通过编码序列无差错地恢复。
差错地恢复(可以把差错限制在某一个限度内)信源编码的目的:提高传输有效性,即用尽可能短的码符号序列来代表信源符号。
号序列来代表信源符号无失真信源编码定理证明,如果对信源序列进行编码,当序列长度足够长时,存在无失真编码使得传送每信源符号存在无失真编码使得传送每信源符号所需的比特数接近信源的熵。
因此,采用有效的信源编码会使信息传输效率得到提高。
会使信息传输效率得到提高概述一、信源编码器二、信源编码的分类三分组码三、分组码分组码单符号信源编码器符号集符号集AA 1{,,}q a a ii c a 编为1{,,}q c c 编码器码字集合信源序列码符号集1{,}r b b分组码单符号译码器1{,,}q c c 信源序列码字集合1{,,}q a a 译码器1{,}r b b 码符号集简单信源编码器摩尔斯信源编码器将英文字母变成摩尔斯电码将摩尔斯电码变成二进码信源编码器信源编码器(1)信源符号{英文字母英文字母}}(2)二进信道码符号集点、划、字母间隔、单词间隔信道基本符号{0,1}符号点划字母间隔单词间隔电平+ -+++ ---------二进代码 1 0111000000000摩尔斯信源编码器原信源的次扩展码原信源的N N将N个信源符号编成一个码字。
相当于对原信源的N次扩展源的信源符号进行编码。
例信源X={0,1}的二次扩展源的二次扩展源X X 2的符号集为:信源X={0,1}。
对X X2编码,即为原信源编码,即为原信源X X的二{00,01,10,11}。
对{00,01,10,11}编码即为原信源X {00011011}对即为原信源次扩展码。
信源编码
信源编码的原理、方法、优缺点及应用信源编码就是从信源产生的信号到码符号的一种映射,它把信源输出的符号变换成码元序列。
信源编码主要是利用信源的统计特性,解决信源的相关性,去掉信源冗余信息,从而达到压缩信源输出的信息率,提高系统有效性的目的。
冗余信息是指信源产生信息所用数据位数与消息中包含的实际信息数据位的数目差值。
解决信源的相关性本质就是降低信源中的冗余,常用消除信源相关性的方法:“合并法”和“预测法”。
如果信源的符号序列中,只在相邻的少数几个符号之间有相关性,而相距较远的符号之间的相关性可以忽略不计,那么,这种信源称为弱记忆信源。
在这种情况下,可以把具有较强相关性的邻近几个符号看成一个大符号。
于是,这些大符号之间的相关性就变得很小了。
实际上就是把原来的基本信源空间变换成了多重空间。
多重空间的重数越高,这种大符号之间的相关性越小,最终可以获得相互独立的情况。
这种方法称为合并法。
如果信源的符号序列之间存在较强的相关性联系,以至根据其中一部分符号能够以一定的准确性推测出其余的符号,这种信源就称为强记忆信源。
在传递这样的信息时,那些可以被精确推断出来的符号就不必传送,从而可以节省时间,提高传输的效率。
但是,大多数情况下,完全可以精确推断出来的情况是极少的,只能根据信源的统计相关性作近似的预测,这就是预测法。
信源编码的作用之一是设法减少码元数目和降低码元速率,即通常所说的数据压缩:作用之二是将信源的模拟信号转化成数字信号,以实现模拟信号的数字化传输。
最原始的信源编码就是莫尔斯电码,另外还有电报码都是信源编码,它们主要用于传输电报信息。
但现代通信应用中常见的信源编码方式有:香农编码、费诺编码、Huffman 编码、算术编码、L-Z编码等,另外还有一些有损的编码方式。
信源编码的目标就是使信源减少冗余,更加有效、经济地传输,最常见的应用形式就是压缩。
另外,在数字电视领域,信源编码包括通用的MPEG—2编码和H.264(MPEG—Part10 AVC)编码等。
二章节信源编码
1.68
(4) H(x) 1.631 0.971 N 1.68
第2章 模拟信号的数字传输
22
2.2 模拟信号数字化的方法
1、利用数字通信系统传输模拟信号的步骤:
❖ 把模拟信号数字化,即模数转换(A/D); ❖ 进行数字方式传输; ❖ 把数字信号还原为模拟信号,即数模转换(D/A)。
把发端的A/D变换称为信源编码,而收端的 D/A变换称为信源译码,如语音信号的数字 化叫做语音编码。
第2章 模拟信号的数字传输
23
2.2 模拟信号数字化的方法
模拟 信息源
抽样、量化 和编码
数字 通信系统
译码和低通 滤波
m(t) 模拟随机信号
{s }
k
数字随机序列
{s }
k
数字随机序列
m(t) 模拟随机信号
2.2.1 抽样
带通均匀抽样定理
一个带通信号m(t),其频率限制在fL与fH之间, 带宽为B=fH-fL,如果最小抽样速率fs=2fH/n, 那么m(t)可完全由其抽样值确定。
n
fH B
第2章 模拟信号的数字传输
32
2.2.1 抽样
例如:信号 312KHz~552KHz,求fs
B 552 312 240kHz
第2章 模拟信号的数字传输
3
2.1 离散无记忆信源(DMS)编码
2、DMS编码分类
(1)等长编码 (2)不等长编码
第2章 模拟信号的数字传输
4
2.1.1 等 长 编 码
1、等长编码的编码长度
又称均匀编码。即不论符号出现的概率如何,对 每个符号都用N位二进制码表示。
设信源共有 L种符号,每个符号用N位二 进制表示,则有(2.1-2)
第5章信源编码
变换成由码 组成的长度为 Ki 的一
码字集合叫做代码组Y;码字 所含码元的个数称 为该码字的码长,记为 Ki 。
分组码 将信源消息分成若干组,即符号序列,每个符号 序列依照固定码表映射成一个码字,这样的码称 为分组码,有时也叫块码。只有分组码才有对应 的码表,而非分组码中则不存在码表。 例:
若将信源 X 通过二元信道传输,就必须把信源符 号ai 变换成由0 、 1符号组成的码符号序列,这个 过程就是信源编码。
• 信源熵: H ( X ) = 2 . 55 bit / 符号
要求编码效率η为 90 % 用二进制变长编码, m = 2
例: 设离散无记忆信源概率空间为
• 信源熵: H ( X ) = 1/4 log4 +3/4 log3/4 = 0. 811 bit / 信源符号
若用二元定长编码 (0,1) 来构造一个即时码:
第 5 章 信源编码
5.1 编码的定义 5.2 无失真信源编码 5.3 限失真信源编码定理 5.4 常用信源编码方法简介
编码
通信的实质是传输信息,通信系统的性能指标主 要有有效性、可靠性、安全性等,这些指标正是信息 论研究的对象。编码的目的是为了优化通信系统,就 是使这些指标达到最佳。
按不同的编码目的,编码分为三类: 信源编码 信道编码 安全编码/密码
例: 英文电报符号, n =27 , L =1 , m =2( 二元编码 )
log 2 n = log 2 27 ≈ 5 log 2 m
每个英文电报符号至少 要用5位二元符号编码
• 实际英文电报符号信源,平均每个英文电报符号所 提供的信息量约等于 1.4 比特,大大小于 5 比特。
• 定长编码后每个码字 (5个二元符号)只携带约1.4比特 信息量。定长编码的信息传输效率极低
信源编码详解
应能能合成语音!
注:参见数字语音处理
4.5 语音的参量编码
4.5.1 参量编码原理
三、 语音参量编码的可能速率 # 语音参数一般有128~256个,假设为256个,用8bit/参数 表示; 假设发音速率是10参数/秒,
Rb = 8bit/参数•10参数/秒= 80 bit/s
# 当前语音参量编码(混合)达到的速率: CDMA移动通信系统(IS-95) :1.2Kb/s 实验室达到的速率:低于800 bit/s
4.5 语音的参量编码
4.5.2 语音参量编码的实现
一、参量空间
分析一段语音,提取一组参量:
A a1,a2,....ai....an 这组参量代表了这段语音,是一个整体,因而对参 量的处理必须是对这一整体进行处理,并把这组参 量视为n维空间的一点。
由某类消息参量组成的多维空间,称之为参量空间。
DPCM思想
4.4.2 脉冲差分编码调制(DPCM)
二、DPCM原理
xn 1
xni
xn2
xn
t
tn1 tn
t tn1
n2
假设 xn 与 xn 之前k 次采样有关,有:
k
x n
ai xni
ai 为一组系数
i 1
xn与真值 xn 之差为 en ,有:
k
k
x e x x x e n = n -
n=
预测值
加入平滑 量化值
xn xn en
实际参数:k=12,4比特 (16电平)量化差值,码速 率32Kb/s 。
图 4.4.4 DPCM 原理图
4.4.2 脉冲差分编码调制(DPCM)
四、ADPCM 编码-------DPCM的改进
第四章 信源编码技术
越大,说明编码效率越高。
根据定理4.1可以得出最佳等长编码效率,表示
为
H (X ) R' H (X ) H (X )
则
1
H (X )
假设允许错误概率小于δ,那么信源序列的长度N为
N D [ I ( a i )]
2
将编码效率η与ε之间的关系代入,可得
N H D [ I ( a i )]
分组码需要一个对应的码表,将编码器的输入
序列xi按照事先确定的规则进行编码,产生输出序
列yi,输出序列也称为码字,是由码表产生的。 码
字取值于一个码字集合,称为码集,记作C={C1, C2,…,Cq}。 而码表中的每个码字Ci是由若干个
来自于同一个码符号集合的符号构成,如果码符号
集合为D={0,1,…,d-1},则称这样构成的码为 d元码。 码字Ci的符号数量称为码字长度,记作li, i=1,2,…,q。
显然,当序列长度N增加时,平均码长减小,编码效率 增加,所以通过增加序列长度可以提高编码效率。 不过序列 长度的增加,意味着编码复杂度的相应增加,编码付出的代 价就越大,可见通过无限制增加码长提高编码效率并不总是 一种有效的方法。
例4.4 设离散无记忆信源为
X a1 p ( x ) 0 .8 a2 0 .2
N H D [ I ( a i ) ]
2 2 2
( X ) (1 )
得到
N≥1.62×107 只有当序列的长度达到1.62×107以上时,才能够满足给定 要求。 从指标来看,编码效率和允许错误概率的要求并不 高,但是序列的长度却很大。 这是因为等长码的编码没有 充分利用信源统计特性的结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 信源编码:又称数据(语音、图象、文本)压缩,目的在于 减少数字信息中的冗余度,提高通信或存储的有效性
连续信源编码: (A)A/D转换(不讨论); (B)去冗余度。 离散信源的统计特性: 离散消息-在有限符号集中选取若干个符号组成的随机序列; 形成消息时,各符号出现的概率不同;
5
0.96875 1
存在即时码
例 设wi表示码长为i的码字数目, 且w1=0, w2=3, w3=0, w4=5, 求:能编成即时码的D的最小值。 解: 3 D 2 5 D 4 1
令x D 2 , 得 3
5 x 2 3x 1 0,
9 20 即 x , D 2 4.192872 10 即 D 2.05, 故取D 3时可编成即时码 .
n
H(X )
(2) 对于L次扩展信源, 则有以下关系
n
H(X ) log 2 D
L
可见, 当L 时, lim
n
H(X ) log 2 D
[注]:(1) 该定理只是一个极限定理,必须在L为无穷时才能达 到理论情况; (2)某些信源(如语音、图象等)在实际应用中往往允许 一定的失真(不研究)。
W4=111
用码树图编码的步骤: • 从顶点(树根)出发,画出两条(D=2)分枝,一条代表 “0”,另一条代表“1”。选取其中的一个终点作为码字,如 w1=0; • 从未被选用的终点再画出两枝,选其中的一个终点作为码字 w2; • 继续下去,直至W中所有的码字都有一个终点来表示为止; • 从树根出发到各个终点,依次读出各枝代表的符号(0,1), 便得到相应的码字。
第3篇(戴书第8章,p.114)
信源编码
Source Coding
Efficiency vs. Reliability
Coding Information source Source coding Channel coding Information channel Destination Source decoding Channel decoding Decoding
(2)即时码的译码 例 在上例中,若收到一串码字100110010,试用码树进行译 码。 解: 译码方法:顺着码树走, 遇到一个终点便得到一个 码字,然后再回到树根, 从头开始走,直至全部码 序列都译完为止。 译码结果: W2 W1 W3 W1 W2,即
10,0,110,0,10
4 紧致即时码:平均码长刚好等于信源熵的即时码,其编
• H(X)最大化包含两个步骤:
(1)符号独立化,除符号之间的相关性;
(2)各符号概率均匀化。
本章只考虑无记忆离散信源的编码,不考虑步骤 (1)。
§ 3 编码效率及变长编码定理
1 最小平均码长与编码效率 平均码长:
n pi ( xi ) ni
i 1
m
可以证明,码字的平均长度
H(X ) n log 2 D
(3)即时码与唯一可译码(单义码)之间的关系: 即时码一定是唯一可译码(单义码),但唯一可译码(单 义码)不一定是即时码。
2 即时码存在的充要条件
(1)即时码存在的充要条件(从结构上):即时码中任何一 个码字都不能是另一个码字的开头(前缀),或者说任何 一个码字都不能是另一个码字的延续(延长),因而这种 码又称为非续长码。 (2)即时码存在的充要条件(从码长上):存在N个码长为ni (i=1,2,…,n)的即时码的充要条件是
=R/C
对于无干扰(无噪声)信道,
=实际信源熵/最大信源熵= H (X)/max H(X)
0
问: 能达到多大?
2 [仙农第一定理]:设离散无记忆信源熵为H(X),经容量为 C(bit/符号)的无干扰信道传输,则总可以找到某种编码方 法对信源的输出进行编码,使其在信道中的传信率任意地接 近于信道容量C(正定理)。(证明略)
码(2):等长码,唯一可译,效率较低;
码(3):每码字均以0结尾,称为逗点码,唯一可 译,且可随收随译;
码(4):以0开头,须等待下一个0到来时才能开始 译; 码(5):立即可译。
编码的一般原则: (1) 须唯一可译; (2) 概率大的用短码, 概率小的用长码;
(3) 码字之间不用空格符就能区分;
编码-等长码,变长码 等长码:效率低,简单、方便 变长码:效率高,但码字区分困难
要求:• 唯一可译;
• 即时性-可边收边译,不必等待。 (1)唯一可译码(单义码):只能译出一种结果 例 C1={1,01,00}
接收序列10001101(唯一译成)1,00,01,10,1
(唯一可译码,单义码)
C2={0,10,01} 接收序列01001(既可译成)01,0,01 (也可译成)0,10,01 (不唯一可译,非单义码)
(2)即时码(非续长码):收到一个码字就能译出,不必等 待与观察后面接收的是什么符号。
例 (1)C1={S1,S2,S3,S4}={0,01,011,111}
接收序列:0111101101
• 若边收边译:0,111,1 译不下去了 • 若收完后再译(从后往前):01,111,011,01 唯一可译,但需要等待 (2)C2={S1,S2,S3, S4,S5}={00,01,10,110,111} 接收序列:110101110100 110,10,111,01,00 (唯一可译 码)
( )
27 1 n2 nipi n n 2 0.842 16 2 H(S) 0.811 96.1% n log D 0.842 (3)三次扩展( L 3) :
98.5%
(过程略)
§ 4 即时码(非续长码、非延长码)
1 唯一可译码(单义码)与即时码
码效率为100%。
1963年Abramson 发现,若符号出现的概率为 ,取码字长度为ni, 便能编出紧致即时码。
1 pi 2
( )
ni
例 设信源四个符号出现的概率分别为1/2,1/4,1/8,1/8
,试编成紧致即时码,并将其平均码长与信源熵进行比较。 解:由
• Efficiency
– Average code length as small as possible
• Reliability
– The ability to recover from errors in the transmission
提要
1 基本概念 2 基本定理:变长编码定理 3 即时码(非续长码) 4 仙农-费诺(Shannon-Fano)法
Ry 1 0.125
• 信源编码的必要性:
实际信源往往含有大量冗余, 比如,英文字母表(含空格 符)共27个符号, 若等概出现,则每个符号的信息量为4.76bit, 而在无记忆情况下实际信源熵只有4.076bit/符号, 若考虑两 个字母之间的相关性,则实际熵只有3.32bit/符号;若考虑 100个字母之间的相关性,则实际信源熵只有1bit/符号,此时 编码剩余度为79%!
Morse 码 ----- -
3 编码方法
例 一个离散信源由4个符号S1, S2, S3, S4组成,其出现的概率分 别为0.6, 0.2, 0.2, 0.1和0.1, 试用不同的方法编码,并加以比较.
码(1):若发S4S1=(110),接收时既可译成11, 0=S4S1,
也可译成110=S3, 不唯一可译;
5 霍夫曼(Huffman)法
*6 数据压缩的分类与国际标准简介
§1
1
基本概念
编码:利用编码符号集对消息符号集进行的某种变换。
例 汉字电报 汉字符号标准电码五单元电码, 即 {汉字} {0,1,2,…,9} {0,1}(5位0、1表示一个数字)
0 01101,1 01011,2 11001,…,4 11010,…,
D
i 1
N
1
ni
1
(D是编码符号集中符号的数 目,即编码采用的进制)
例 已知:信源X={x1,x2,…,x7},采用2进制编码,编出的码长 分 别为, ni={2,2,3,3,3,4,5}, 试判断是否存在这样的即时码。 解:
2
i 1
7
1
ni
2 2
2
3 2
3
1 2
4
1 2
组成消息的符号之间有一定的相关性。
3 信源的最佳编码:在保证信息量不变(或在允许一定的失真 度)条件下,使各码字的平均长度最短,即每个码元所含的 平均信息量最大。
§ 2 无干扰离散信道的信源编码定理
(仙农第一定理,仙农无失真信源编码定理)
1 传输效率:实际传信率(R)与信道Hale Waihona Puke 量之比,即信道容量 的利用率。
逆定理:不存在任何编码方法,使传信率R大于等于C。
使 1, 1的过程就是使信源最佳化的过程。 3 信源编码器的作用:改造信源,使H(X)最大化,从而 信源编码又称为使信源与信道匹配的最佳编码。 类比:
信源又分为有记忆信源与无记忆信源: 有记忆信源-信源发出的符号前后有关连,一个符号 的出现会影响另一个符号的出现。 无记忆信源-符号之间是独立的,一个符号出现的概 率与前面出现的符号有关。
3 即时码的编译码
编码器的描述
(1)即时码的编码(码树法) 例 设A={0,1},将X={x1,x2,x3,x4}编成码长分别为1,2,3,3 的即时码。 解:D=2
1 1 2 2 3 1 2 2 2
存在这样的即时码
原则:任何一个码字不能作为另一个码字的开头
w1=0 W2=10 W3=110