数据压缩与信源编码定理

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

12.5%
10%
2.5%
解：符号
A B C D F 合计：
概率p
0.25 0.5 0.125 0.1 0.025 1
自信息 log(1/p)
2 比特 1 比特 3 比特 3.32 比特 5.32 比特
该符号对总的信息量的贡献 plog(1/p) 0.5 比特 0.5 比特 0.375 比特 0.332 比特 0.133 比特 1.84 比特
LN log r
例题
对于给定信源，分别对它发送的单符号序列和2符号序列进行编码，并计算其编码效率。
L H(X) 1 log r
定理3 变长无失真信源编码定理（香农第一定理）设离散无记忆信源的符号集合为{w1, w2, ......, wq}，信源发出N重符号序列，则此信源
l 可以发出 q N 个不同的符号序列，其中各符号序列的码长为 i ，发生概率为 pi ，其
中 0 i q N 。N重符号序列的熵为H(X)。N重符号序列的平均码长为
13
在书面英语中每1000个字母中各个字母的出现次数：
14
If the duration of a dot is taken to be one unit then that of a dash is three units. The space between the dots and dashes within one character is one unit, that between characters is three units, and that between words seven units. Space is not considered a character, as it is in ASCII.
信源编码
无失真信源编码
限失真信源编码
信源编码
也就是压缩编码，是利用减少冗余的方法来实现对消息序列的压缩，从而在信宿端可接受的情况下，减少需要传输的信息量，从而提高传输效率。
例题某门课程的学生成绩分布如下，求每个成绩等级代表符号A, B, C, D, F所包含的信息量。
A
B
C
D
F
25%
50%

平均码长
M 1
L pm Lm
m0
编码效率
H ( A)
L
6
n
where pi 1 i 1
定长码变长码
例题
symbol
a0
a1
Probability
ห้องสมุดไป่ตู้
0.5
0.3
Code word
0
10
a2
a3
0.15
0.05
110
111
8
例题
<ai,aj> a0,a0 a0,a1 a0,a2 a0,a3 a1,a0 a1,a1 a1,a2 a1,a3
H(X) R H(X)1
20
例题对信源符号集合{x1, x2, x3, x4}进行二进制编码，对应的l1=1, l2=2, l3=2, l4=3。这种码是前缀码吗？
解：根据Kraft不等式，可以得到
4 2li 21 22 22 23 9 1
i 1
8
可见不满足Kraft不等式的条件，因此这种码不是前缀码，不是唯一可译的。
定理平均码长界定定理（r进制编码，单符号序列）对一个存在有限熵H(X)的离散信源进行r进制变长编码。
1. 任意一种唯一可译码的平均码长 L 都满足
L H(X) log r
2. 一定存在唯一可译码，其平均码长 L
满足：
18
定理 Kraft 不等式
对于码字符号集合 {w1, w2 ,, wq} ，其中各符号的码长
为 li ， 0 i q 。则存在一种码长为 l1 l2 lq
而且满足前缀条件的r进制编码的充分必要条件是
q
rli 1
i1
19
信源编码定理
Let X be the set of letters from a DMS with finite entropy H(X) and xk, k=1,2,…,L. the output symbols occurring with probabilities P(xk). Given these parameters, it is possible to construct a code that satisfies the prefix condition and has an average length R that satisfies the inequality
也就是熵
信源符号 a1 a2 a3 a4
二进制表示 00 01 10 11
信源符号 a1 a2 a3 a4 a5 a6 a7 a8
二进制表示 000 001 010 011 100 101 110 111
对于离散信源空间
A P( A)

a1, p1,
a2,, an p2,, pn
11
ASCII码 (The American Code for Information Interchange)
12
Morse 电码
hello
SOS
The Morse telegraph. (Image courtesy of the U.S. National Library of Medicine.)
Pr<ai,aj> bm
.25
00
.15
100
.075
1100
.025
11100
.15
101
.09
010
.045
0110
.015
111100
<ai,aj> a2,a0 a2,a1 a2,a2 a2,a3 a3,a0 a3,a1 a3,a2 a3,a3
Pr<ai,aj> bm
.075
1101
.045
0111
16
用变长码编码符号序列：“ABADCAB”。
编码1：
letter A B C D
codeword 00 010 011 100
letter E F G H
Codeword 101 110 1110 1111
编码1的编码结果: 00 010 00 100 011 00 010 , 总长度 = 18比特
.0225
111110
.0075
1111110
.025
11101
.015
111101
.0075
11111110
.0025
11111111
9
例题
A 25% 01
B 50% 1
C 12.5% 001
D 10% 0001
F 2.5% 0000
10
BCD码（Binary coded decimal）
Digit 0 1 2 3 4 5 6 7 8 9 code 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001
qN
LN p jl j j 1
对此信源进行r进制编码，总可以找到一种无失真信源编码方法，构成唯一可译码，满足：
H ( X ) LN H ( X ) 1 log r N log r N
当N趋于无限大时，有：
lim LN H (X )
N N
这种编码的编码效率为：
H(X)
15
例题 Code the series of letters: “ABADCAB”.
FLC:
letter A B C D
codeword 000 001 010 011
letter E F G H
Codeword 100 101 110 111
FLC result: 000 001 000 011 010 000 001 , total bits = 21
编码2：
Letter A B C D
codeword 0 1 00 01
letter E F G H
Codeword 10 11 000 111
17 编码2的编码结果: 0 1 0 01 00 0 1 , 总长度 = 9比特
前缀码：如果在一个码字集合中，没有任何一个码字是其他码字的前缀，这样的码字集合就称为前缀码。前缀码也被称为唯一可译码，或即时码。