第三章-无失真信源编码
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0 11 00 11
0 10 00 01
1 10 100 1000
1 01 001 0001
码1是奇异码,码2,码3和码4是非奇异码
唯一可译码 非奇异码中,任意有限长的码元序列,只能被唯一的译成所对 应的信源符号序列,称为唯一可译码。
例如:U: {u1,u2,u3}; X:{0,1}; W: {w1=0, w2=10, w3=11}, 为唯一可译码。 当接收码字序列为:10011001111 时,可以唯一地译为: w2,w1,w3,w1,w1,w3,w3; 如果码字集合为:W:{w1=0,w2=1,w3=01} 则为非唯一可译码。 当接收码字序列为:00111101 时,可以译为:w1,w1(w3)……
信源最大可能熵与实际熵的差定义为内熵:
内熵 H max ( X ) H ( X )
或
H0 ( X ) H ( X )
英语的熵率
• 英语是稳恒的各态历经信源吗?
这个很难无法回答,但是我们仍可以从统计角度上对英语语言进行分析 假定源消息含有26个字母和1个空格,忽略标点符号和大小写字母出现 的概率是不同的,E最大(13%),Q和Z最小(大约0.1%) 两个字母的组合也是非等概的,TH出现最频繁(3.7%) 由此,我们可以构建高阶的概率转移模型,但是实际上这是不可行的。
a3 a4
p(a2)
p(a3) p(a4)
01
10 11
01
001 111
3.1.2 码的类型
码
{
非分组码
分组码
{
奇异码 非奇异码
{
非唯一可译码 非即时码 唯一可译码 即时码(非延长码)
{
码符号集中符号数r=2称为二元码,r=3称为三元码 若分组码中的码长都相同则称为等长码,否则称为变长码
信源符号 信源符号出 现概率 a1 p(a1) 码表
具体说,就是针对信源输出符号序列的统计特性,
寻找一定的方法把信源输出符号序列变换为最短的码字序列。
信源编码的基本途径 是什么? 信源编码的基本途径有两个,一是使序列中的各个符 号尽可能地互相独立,即解除相关性;二是使编码中
各个符号出现的概率尽可能地相等,即概率均匀化。
信源编码的机理:AEP
是什么导致我们研究渐进等同分割性质?
第三章 无失真信源编码
信源编码的分类?
适用于离散信源或数字信号 无失真信源编码, — 文字、文件信源;
分类
适用于连续信源或模拟信号 限失真信源编码, — 语音、图像信源;
为什么要对信源进行编码?
由于信源符号之间存在分布不均匀和相关性,使得信源存 在冗余度。 (1)信源输出符号间的依赖关系使得信源熵减小,这就 是信源的相关性。相关程度越大,信源的实际熵越小,越趋
最优码
下面考虑求解前缀码的最小平均码长问题。该问题等价于 求解满足Kraft不等式的长度集合k1,…,kn,便得它的平均 码长L,不超过其他枉何前缀码的期望长度这是一个标准 的最优化问题 L pi ki
i
其约束条件为
-Ki r 1 i=1
n
利用拉格朗日乘子法,将带约束的最小化问题转化为求
所有有记忆信源、非等概率离散无记忆信源熵< Hmax
对平稳信源
H lim H L ( X ) lim H ( X L / X 1 X 2
L L
X L 1 )bit/符号
理论上需要传输的最小信息率
有
0 H ( X ) H2 ( X ) H1 ( X ) H0 ( X ) log2 N 其中:H 0 ( X ) 是具有N种取值可能的单消息信源的最大信息熵 (等概时) (符号所含的信息熵依次递减,平均符号信息熵自 然越来越小)
量。 对于一个具体信源,它所具有的总信息量是一定的 信息熵越大(每个信源符号所承载的信息量越大)
输出全部信源信息所需传送的符号就越少 通信效率越高 这是我们研究信息熵的目的
离散无记忆信源:
信源符号间彼此无依赖、等概率分布,信源熵最大
(最大熵定理) Hmax ,携带信息的效率最高。
离散有记忆信源:
信源输出符号间彼此依赖、相关,信源熵减小(条 件熵<无条件熵),输出符号间相关长度越长,信源 熵越小。
00111101 00111101 w1,w1,w2,w2,w2,w2,w3 w1,w3,w2,w2,w2,w3
非即时码和即时码
唯一可译码中,如果接收端收到一个完整的码字后,不能立
即译码,还需等下一个码字开始接收后才能判断是否可以译 码,这样的码叫做非即时码。 例如:W:{1,10,100,111} 不是即时码, 1是 10的前缀, 10 为100的前缀。 没有任何完整的码字是其他码字的前缀,可立即译码的叫 做即时码(非延长码)。 则是某一码组的前面向后面看:比如 u1=0,被采用后,则从 0以后的任何延长出去组合,比如00、01、001等均不能再用。 即时码一定是唯一的,唯一可译码却不一定是即时码。 例如:W:{0,01}是唯一的,但不是即时码。
码1
00
码2 0
a2
a3 a4
p(a2)
p(a3) p(a4)
01
10 11
01
001 111
码1是等长码,码2是变长码
奇异码和非奇异码
若信源符号和码字是一一对应的,即所有码字都不相同,
则该码为非奇异码;反之为奇异码。
信源符号 符号出现概率 码1 码2 码3 码4
a1 a2 a3 a4
1/2 1/4 1/8 1/8
输过程中出现错误时,可从它的上下关联中纠正错误,因此 从提高信息传输可靠性观点出发,总是希望增加信源冗余度。 信源编码就是通过减少或消除信源冗余度来提高通信的传输 效率,即提高通信的有效性。 信道编码则是通过增加信源的
冗余度来提高通信的抗干扰能力,即提高通信的可靠性。
如果每次只传送一个符号,即序列长度L=1 ui=ui1∈(a1,a2,…,an) 要将这样 的符号进行传输,常采用二元信道,码符号集X为
{0,1}。若将信源在该信道上传输,需把信源符号变换成0,1
符号组成的码字序列。 例: 信源符号
信源符号出 现概率 a1 p(a1) 码1 00 码表 码2 0
a2
-ki J pi ki r i i
关于ki的微分等于0,可求得最优码长等于
ki* logr pi
最优平均码长等于
L pi ki* pi log r pi H r X
*
Leabharlann Baidu
由于码长为整数
L Hr X
*
3.2 消息的冗余度 信源熵 —— 表示信源输出每一个符号所携带的信息
(三元编码)
1
2
0
4 唯一可译码存在的充要条件:
对含有n个信源符号的信源用含有r个码元的码符号集进行 编码,各码字的长为k1,k2…..,其唯一可译码存在的充要 条件是,满足克劳夫特(Kraft)不等式
-Ki r 1 i=1 n
其中n表示信源符号数,r表示进制数,Ki表示各码字长度。
例:设二进制码树中U∈(a1,a2,a3,a4),K1=1,K2=2,K3=2,K4=3, 请判断这是否存在唯一可译码?
编码定理证明:
(1)必存在一种编码方法,使代码的平均长度可任意 接近但不能低于极限熵
(2)达到这目标的途径,就是使概率与码长匹配。
3.1信源编码概述
3.2消息的冗余度 3.3定长编码定理和定长编码方法 3.4 变长编码定理 3.5 变长编码方法 3.6游程编码
3.1 信源编码概述
编码器可以看作这样一个系统,它的输入端为原始信源U,其符号集 为U:{u1,u2,…,uq};而信道所能传输的码符号集为X:{x1,x2,…,xr};编 码器的功能是用符号集X中的元素,将原始信源的符号ui变换为相应 的码字符号Wi,(i=1,2,…,q),所以编码器输出端的符号集为 W:{W1,W2,…,Wq}。
3.1.1 信源编码: 信源消息U=(u1,u2,…, uq) 码符号集X=(x1,x2,…, xr)
将 ui
Wi =( w1,w2,…wLi ) wi∈{x1,x2,…xr}
这种一一对应变换称为信源编码。 Li为码字Wi的码元个数,称为码字Wi的长度,简称码长。
分组码定义:
将信源消息分成若干组,即符号序列ui, ui=(ui1,ui2,…,uil,…,uiL) 序列中的每个符号取自于同一个符号集A, uil∈(a1,a2,…,an)。 而每个符号序列ui依照固定的码表映射成一个码字Wi,这 样的码称为分组码。只有分组码有对应的码表。
相对熵 —— 信源的实际信息熵与具有同样符 号集的最大熵的比值。
H(X ) H ( X ) = H max ( X ) H 0 ( X )
信源的冗余度E —— 1减去相对熵。
H ( X ) H (X ) E 冗余度 1 1 1 H max ( X ) H0 ( X )
回想:最大离散熵原理
定理:等概分布时,离散熵最大化
但是:信源输出的一般不是等概分布的 问题:如何将非等概输出的信源变成等概?渐进等同分割性质 信源输出序列 将序列进行分割
信源编码的基础是什么?
信源编码的基础是:两个编码定理,即无失真编码定理和限失真 编码定理。
说明:
1)无失真编码是可逆编码,即信源符号转换成代码后,可从代码 无失真的恢复原信源符号。只适用于离散信源。 2)对于连续信源,编成代码后就无法无失真地恢复原来的连续值, 因为后者的取值可有无限多个。此时只能根据率失真编码定理在 失真受限制的情况下进行限失真编码
英语的熵率
H ( X ) =03 . 冗余度0.7,说明压缩编码的必要。 H0 ( X )
几种语言的熵率
总结
信源符号间依赖关系越大,信源冗余度越大, 信息论研究目
的提高信息传输的有效性、可靠性、保密性。
从提高信源输出有效性的观点出发,希望减少或去掉冗余度。
冗余度大的信源具有较强的抗干扰能力,当干扰使信息在传
即时码及其树图构造法 --码树
码树:用码树表示码字的组成 码树构造要点: 1)最上(下)端为树根,从树根向下(上)延伸出树枝, 树枝总数等于r,树枝的尽头为节点。 2)从每个节点再伸出r个树枝,当某节点被安排为码字
后,就不再伸枝。
3)每个节点伸出的树枝标上码符号,从根出发到终端节 点所走路径对应的码符号序列则为终端节点的码字。
-Ki -1 -2 -3 -3 2 =2 +2 +2 +2 =1 i=1 4
存在这种Ki的唯一可译码。
0 0 1 1
a1 a2
0
1
a1: 1 a2: 01 a3: 000 a4: 001
a3
a4
注意:克劳夫特(Kraft)不等式只是用来说明唯一可译码是否 存在,并不能作为判断哪些码是唯一可译码的依据 如码字(0,10,010,111)满足克劳夫特不等式,但它不是 唯一可译码。其实只有前缀码才满足。
• 编码时如果有以下假设:消息序列的各符号统计独立;各取值 等概出现,则实际是没有对信源仔细的研究,没有利用其统计特 性,认为其平均符号信息熵为 H 0 ( X ) ,这必然会产生大量的冗余,这
正是进行压缩编码的前提。
• H∞是考虑全部信源统计特性后的最小信息熵,是信道传送理 论上的最佳值,只要在信道传送H∞,在接收端利用信源统计 关联的记忆特性,可恢复出全部信息
r进制码树:有r个分支 树根 一级节点:经过一个分支到达的节点,有r个 n级节点:rn个 码字:从树根到节点的分枝标号序列
码树图
0 0 0 1
A
1 0 1 0 1
1
0
1
0
1
二进制码树
1
0
1 0 10 1 0 1 0
0 1 0 1
0
(二元编码)
0 0 01 2 1 2 0
1 1 2
2 0 1 2
三进制码树
2
i=1
4
-Ki
9 =2 +2 +2 +2 = 1 8
-1 -2 -2 -3
不存在这种Ki的唯一可译码。
0 1
a3
0
0 1
1
a1 a2
a1: 1 a2: 01 a3: 00 a4: 000 如果传送0001
a4
00,01 000,1
a3,a2 a4,a1
如果改成K1=1,K2=2,K3=3,K4=3,请判断这是否存在唯一可译码?
近于极限熵 H ( X );反之,相关程度减小,信源实际熵增大。
(2)实际信源的符号分布概率不是均匀的,这使得实际的 信源熵总是小于最大熵 H0 ( X ) H max ( X ) 。
也就是说,实际发送的消息总是包含有无用的信息。信源
包含有冗余。
信源编码的主要任务就是减少冗余,提高编码效率。