游程编码(蛮详细的)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要
为了减少信源输出符号序列中的剩余度、提高符号的平均信息量,对信源输出的符号序列所施行的变换。
具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。
最原始的信源编码就是莫尔斯电码,另外还有ASCII码和电报码都是信源编码。
但现代通信应用中常见的信源编码方式有:Huffman编码、算术编码、L-Z编码,这三种都是无损编码,另外还有一些有损的编码方式。
信源编码的目标就是使信源减少冗余,更加有效、经济地传输,最常见的应用形式就是压缩。
相应地,信道编码是为了对抗信道中的噪音和衰减,通过增加冗余,如校验码等,来提高抗干扰能力以及纠错能力。
关键词:信源;信道;编码;游程编码
1课题描述
游程编码又称“运行长度编码”或“行程编码”,是一种统计编码,该编码属于无损压缩编码,是栅格数据压缩的重要编码方法。
对于二值图有效。
在对图像数据进行编码时,沿一定方向排列的具有相同灰度值的像素可看成是连续符号,用字串代替这些连续符号,可大幅度减少数据量。
相应地,信道编码是为了对抗信道中的噪音和衰减,通过增加冗余,如校验码等,来提高抗干扰能力以及纠错能力。
2 信源编码
2.1概念
一种以提高通信有效性为目的而对信源符号进行的变换;为了减少或消除信源剩余度而进行的信源符号变换,对输入信息进行编码,优化信息和压缩信息并且打成符合标准的数据包
2.2信源编码作用
信源编码的作用之一是设法减少码元数目和降低码元速率,即通常所说的数据压缩:作用之二是将信源的模拟信号转化成数字信号,以实现模拟信号的数字化传输。
2.3编码方式
最原始的信源编码就是莫尔斯电码,另外还有ASCII码和电报码都是信源编码。
但现代通信应用中常见的信源编码方式有:Huffman编码、算术编码、L-Z编码,这三种都是无损编码,另外还有一些有损的编码方式。
信源编码的目标就是使信源减少冗余,更加有效、经济地传输,最常见的应用形式就是压缩。
另外,在数字电视领域,信源编码包括通用的MPEG—2编码和H.264(MPEG—Part10 A VC)编码等。
相应地,信道编码是为了对抗信道中的噪音和衰减,通过增加冗余,如校验码等,来提高抗干扰能力以及纠错能力。
2.4通信系统模型
[信源]->[信源编码]->[信道编码]->[信道传输+噪声]->[信道解码]->[信源解码]->[信宿]
一般信息论的书上都会有信源编码和信道编码的具体讲解,包括具体的编码方法。
2.5描述
为了减少信源输出符号序列中的剩余度、提高符号的平均信息量,对信源输出的符号序列所施行的变换。
具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。
既然信源编码的基本目的是提高码字序列中码元的平均信息量,那么,一切旨在减少剩余度而对信源输出符号序列所施行的变换或处理,都可以在这种意义下归入信源编码的范畴,例如过滤、预测、域变换和数据压缩等。
当然,这些都是广义的信源编码。
一般来说,减少信源输出符号序列中的剩余度、提高符号平均信息量的基本途径有两个:①使序列中的各个符号尽可能地互相独立;②使序列中各个符号的出现概率尽可能地相等。
前者称为解除相关性,后者称为概率均匀化。
信源编码的一般问题可以表述如下:若某信源的输出为长度等于M的符号序列集合式中符号A为信源符号表,它包含着K个不同的符号,A={ɑk|k=1,…,K},这个信源至多可以输出KM个不同的符号序列。
记‖U‖=KM。
所谓对这个信源的输出进行编码,就是用一个新的符号表B的符号序列集合V来表示信源输出的符号序列集合U。
若V的各个序列的长度等于N,即式中新的符号表B共含L个符号,B={bl|l=1,…,L}。
它总共可以编出LN个不同的码字。
类似地,记‖V‖=LN。
为了使信源的每个输出符号序列都能分配到一个独特的码字与之对应,至少应满足关系‖V‖=LN≥‖U‖=KM 或者N/M≥logK/logL。
假若编码符号表B的符号数L与信源符号表A的符号数K相等,则编码后的码字序列的长度N必须大于或等于信源输出符号序列的长度M;反之,若有N=M,则必须有L≥K。
只有满足这些条件,才能保证无差错地还原出原来的信源输出符号序列
(称为码字的唯一可译性)。
可是,在这些条件下,码字序列的每个码元所载荷的平均信息量不但不能高于,反而会低于信源输出序列的每个符号所载荷的平均信息量。
这与编码的基本目标是直接相矛盾的。
下面的几个编码定理,提供了解决这个矛盾的方法。
它们既能改善信息载荷效率,又能保证码字唯一可译。
离散无记忆信源的定长编码定理:
对于任意给定的ε>0,只要满足条件N/M≥(H(U)+ε)/logL。
那么,当M足够大时,上述编码几乎没有失真;反之,若这个条件不满足,就不可能实现无失真的编码。
式中H(U)是信源输出序列的符号熵。
通常,信源的符号熵H(U)<logK,因此,上述条件还可以表示为【H(U)+ε】/logL≤N/M≤logK/logL。
特别,若有K=L,那么,只要H(U)<logK,就可能有N<M,从而提高信息载荷的效率。
由上面这个条件可以看出,H(U)离logK越远,通过编码所能获得的效率改善就越显著。
实质上,定长编码方法提高信息载荷能力的关键是利用了渐近等分性,通过选择足够大的M,把本来各个符号概率不等[因而H(U)<logK]的信源输出符号序列变换为概率均匀的典型序列,而码字的唯一可译性则由码字的定长性来解决。
离散无记忆信源的变长编码定理变长编码是指V的各个码字的长度不相等。
只要V中各个码字的长度Ni(i=1,…,‖V‖)满足克拉夫特不等式这‖V‖个码字就能唯一地正确划分和译码。
离散无记忆信源的变长编码定理指出:若离散无记忆信源的输出符号序列为,式中A={ɑk|k=1,…,K},符号熵为H(U),对U进行唯一可译的变长编码,编码字母表B的符号数为L,即B={bl|l=1,…,L},那么必定存在一种编码方法,使编出的码字Vi=(vi1,…,viNi),(i=1,…,‖V‖),具有平均长度嚻:MH(U)/logL≤嚻<MH(U)/logL+1
若L=K,则当H(U)<logK=logL时,必有嚻<M;H(U)离logK越远,则嚻越小于M。
具体实现唯一可译变长编码的方法很多,但比较经典的方法还是仙农编码法、费诺编码法和霍夫曼编码法。
其他方法都是这些经典方法的变形和发展。
所有这些经典编码方法,都是通过以短码来表示常出现的符号这个原则来实现概率的均匀化,从而得到高的信息载荷效率;同时,通过遵守克拉夫特不等式关系来实现码字的唯一可译。
霍夫曼编码方法的具体过程是:首先把信源的各个输出符号序列按概率递降的顺序排列起来,求其中概率最小的两个序列的概率之和,并把这个概率之和看作是一个符号序列的概率,再与其他序列依概率递降顺序排列(参与求概率之和的这两个序列不再出现在新的排列之中),然后,对参与概率求和的两个符号序列分别赋予二进制数字0和1。
继续这样的操作,直到剩下一个以1为概率的符号序列。
最后,按照与编码过程相反的顺序读出各个符号序列所对应的二进制数字组,就可分别得到各该符号序列的码字。
例如,某个离散无记忆信源的输出符号序列及其对应的概率分布为对这些输出符号序列进行霍夫曼编码的具体步骤和结果如表。
由表中可以看出,在码字序列中码元0和1的概率分别为10/21和11/21,二者近乎相等,实现了概率的均匀化。
同时,由于码字序列长度满足克拉夫特不等式2×2-2+3×2-3+2×2-4=1 因而码字是唯一可译的,不会在长的码字序列中出现划错码字的情况。
以上几个编码定理,在有记忆信源或连续信源的情形也有相应的类似结果。
在实际工程应用中,往往并不追求无差错的信源编码和译码,而是事先规定一个译码差错率的容许值,只要实际的译码差错率不超过这个容许值即认为满意(见信息率-失真理论和多用户信源编码)。
游程长度编码的主要思想是将一个相同值的连续申用其值和申长(重复的个数)的数对二元组来替代。
例如,在图像编码中,可以定义沿特定方向上具有相同灰度值的相邻像素为一轮,其延续的长度称之为延续的行程,即游程。
游程终点位置由前一游程终点的相对距离确定,这样就可以由灰度游程串来表示图像数据。
例如,若沿水平方向有一串M 个像素具有相同的灰度N,则按游程长度编码后,只传递两个值(N,M)就可以代替这M 个像素的M个灰度值NJ简单来说,游程长度编码的主要任务是统计连续相同字符的个数,解码时要根据字符及连续相同字符的个数,恢复原来的数据。
3 编码的实现
3.1 游程编码算法
编码的基本原理是:用一个符号值或串长代替具有相同值的连续符号(连续符号构成了一段连续的“行程”。
行程编码因此而得名),使符号长度少于原始数据的长度。
只在各行或者各列数据的代码发生变化时,一次记录该代码及相同代码重复的个数,从而实现数据的压缩。
在m元序列中,可能m种游程,连着出现m种符号ar的游程,其长度L(r)就是‘r’游程长度,这是一个随机变量。
用L(r)也可构成游程序列但是这种变换必须再加一些符号,才能成为一一对应或可逆的。
游程长度编码的主要思想是将一个相同值的连续申用其值和申长(重复的个数)的数对二元组来替代。
例如,在图像编码中,可以定义沿特定方向上具有相同灰度值的相邻像素为一轮,其延续的长度称之为延续的行程,即游程。
游程终点位置由前一游程终点的相对距离确定,这样就可以由灰度游程串来表示图像数据。
例如,若沿水平方向有一串M 个像素具有相同的灰度N,则按游程长度编码后,只传递两个值(N,M)就可以代替这M 个像素的M个灰度值NJ简单来说,游程长度编码的主要任务是统计连续相同字符的个数,解码时要根据字符及连续相同字符的个数,恢复原来的数据。
3.2 游程编码特点
游程编码仍是变长码,有其固有的缺点,及需要大量的缓冲和优质的信道。
此外,编程长度1可以从一直到无限,这在码字的选择和码表的建立方面都有困难,实际应用是尚需采用某些措施来改进。
一般情况下游程长度越长,其概率越小,这在以前的计算中也可以看见,而且将随着长度的增大渐进向零。
对于小概率的码字,其长度为达到概率匹配或较长,损失不会太大,也就是对平均码字长度影响较小。
再按哈夫曼编码或其他方法处理以达到压缩码率的目的。
3.3 Matlab程序设计
实验源程序以及相关结果如下:
>> image1=imread('C:\Program Files\MATLAB71\work\1\girl.jpg'); %读入图像>> imshow(image1); %显示原图像
>> % 以下程序是将原图像转换为二值图像
>> image2=image1(:); %将原始图像写成一维的数据并设为image2
>> image2length=length(image2); % 计算image2的长度
>> for i=1:1:image2length % for 循环,目的在于转换为二值图像
If image2(i)>=127
image2(i)=255;
else image2(i)=0;
end
end
>> image3=reshape(image2,146,122); % 重建二维数组图像,并设为image3 >> figure,imshow(image3);
>> % 以下程序为对原图像进行游程编码,压缩
>> X=image3(:); %令X为新建的二值图像的一维数据组
>> x=1:1:length(X); % 显示游程编码之前的图像数据
>> figure,plot(x,X(x));
>> j=1;
>> image4(1)=1;
>> for z=1:1:(length(X)-1) % 游程编码程序段
if X(z)==X(z+1)
image4(j)=image4(j)+1;
else
data(j)=X(z); % data(j)代表相应的像素数据
j=j+1;
image4(j)=1;
end
end
>> data(j)=X(length(X)); % 最后一个像素数据赋给data
>> image4length=length(image4); % 计算游程编码后的所占字节数,记为image4length >> y=1:1:image4length ; % 显示编码后数据信息
>> figure,plot(y,image4(y));
>> CR=image2length/image4length; % 比较压缩前于压缩后的大小
>> % 下面程序是游程编码解压
>> l=1;
>> for m=1:image4length
for n=1:1:image4(m);
rec_image(l)=data(m);
l=l+1;
end
end
>> u=1:1:length(rec_image); % 查看解压后的图像数据
>> figure,plot(u,rec_image(u));
>> rec2_image=reshape(rec_image,146,122); % 重建二维二维图像数组>> figure,imshow(rec2_image); % 显示解压恢复后的图像
通过matlab可以看出,程序运行过程中各个变量的值如下图:CR=12.084,说明该游程编码,压缩率为12.084
4 参考资料
[1]曹雪虹,张宗橙.信息论与编码.北京:清华大学出版社,2007.
[2]王慧琴.数字图像处理.北京:北京邮电大学出版社,2007.。