信源编码技术 PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息编码的理论基础 信源的相对冗余度是信源编码和数据压缩的 理论基础。 H∞ ( X ) η(信源效率)= H ( X )
0Biblioteka Baidu
R(信源相对冗余度)= 1-η = 1 − H∞ ( X ) = H0( X ) − H∞ ( X )
H0 ( X ) H0 ( X )
信源编码的目的 信源编码的目的就是在分析信源统计特性的 基础上,设法通过信源的压缩编码去掉这些统 计多余成分,以提高通信的有效性。 这一过程称为数据压缩,所得信源编码称为压 缩编码。
i =1
类似于对信息熵H(X)的定义,也可以对信宿熵H(Y)、 条件熵 H(Y/X)和H(X/Y)、 联合熵H(X, Y)作如下定义: m H(Y)=E{I[P(yj)]}=E[-logP(yj)]= − ∑ P ( y ) log P ( y )
j =1 j i
H(Y/X)=E{I[P(yj/xi)]}=E[-logP(yj/xi)] n m = − P ( x , y ) log P( y / x )
根据信源是否允许失真,又可以将信源划分为 无失真信源与限失真信源两类。 对于无失真 消息序列信源,可以采用信源的消息序列的取 值集合XL 及其对应的概率P(x)来共同描述,表 达式为[XL, P(x)],也可写成
L X L X = x1, X = x2,...X = xn = P(x1),P(x2),... (xn ) P L P(x)
信源编码技术
●信源编码的基本概念 ●无失真信源编码 ●限失真信源编码
2.1.1 引言
通信的技术性能主要从通信的数量和质量两个方面 来度量 数量:用有效性度量 质量:用可靠性度量 通信研究的一个重点是信源,它主要研究的问题是 通信的数量,即有效性问题
2.1.2 信源的分类
离散信源与连续信源 离散信源:文字、电报以及各类数据 连续信源:语音、图象等 单个消息信源与消息序列信源 无记忆信源和有记忆信源 简单信源 平稳信源和各态历经信源 有限记忆信源和马尔可夫信源 二进制信源和多进制信源
时,有效的无失真信源编译码存在,可构造; 反之,当 (2-2-6) 时,有效的无失真信源编译码不存在,不可构造。 再讨论变长码,这时仅需将公式(2-2-4)修改为 K H(X ) (2-2-7) ≥
K log m ≥ H ( X ) + ε L
L
log m
式中将等长码的码长K改成相对应变长码的平均码长 码长 由下式计算: N (2-2-8) K = K P( x )
下面,先分析公式(2-3)的含义,并在引入信源统计特性以后对 它作适当的修改。 公式(2-3)的右端,其分子部分表示等概率 信源的熵,而分母部分则表示等概率码元的熵。 当引入信源 统计特性以后,信源不再满足等概率,这时分子可修改为不等 概率实际信源熵H(X),则有 K H(X ) (2-2-4) ≥ L log m 再将上式稍作变化,即可求得典型Shannon第一等长编码定理 形式,当 K log m ≥ H ( X ) + ε (2-2-5) L
倘若不考虑信源的统计特性,为了实现无失真并有效 的编码,应分别满足: 无失真要求:nL≤mK (即每个信源组合必须有对应 的编码) (2-2-1) 有效性要求: nL ≥ mK (即编码组合总数要小于信 源组合总数) (2-2-2) K log n 从式(2-2-1)可推出 L ≥ log m (2-2-3) 显然,上述两个条件是相互矛盾的。 如何解决这一 对矛盾呢?惟一的方法是引入信源的统计特性。 这 时,就无需对信源输出的全部nL种信息组合一一编码, 而仅对其中少数大概率典型组合进行编码。
∑∑
i =1 j =1
i
i
i
i
它们之间有如下关系: (1) 联合熵与条件熵的关系: H(X, Y)=H(X)+H(Y/X) =H(Y)+H(X/Y) (2) 熵与条件熵的关系: H(X)≥H(X/Y) H(Y)≥H(Y/X) 这两式又称为Shannon不等式
熵的基本性质 1.连续性 2.递减性 3.可加性 4. 对称性 5.非负性 6.极值性(最大熵值定理)
2.2.2 哈夫曼(Huffman)编码
哈夫曼编码是一种统计压缩的可变长编码,它将欲编码的字符用另一套不定 长的编码来表示,基本原理是: 按照概率统计结果,出现概率高的字符用较短的编 码来表示,出现概率低的字符用较长的编码来表示。 编码压缩性能是由压缩率 (compression ratio)来衡量的,它等于每个采样值压缩前的平均比特数与压 缩后的平均比特数之比。 由于编码的压缩性能与编码技术无关,而与字符集的大 小有关,因此,通常可以将字符集转化成一种扩展的字符集,这样采用相同的编码技 术就可以获得更好的压缩性能。 哈夫曼编码过程可用于任意两个字符集。 下面分析一个任意输入字符集 到一个二进制输出字符集的转换过程。 哈夫曼编码过程类似于树形生成过程。 首先列出输入字符集及其概率(或相对频率),以降序排列,如图下图所示。 这些 列表项相应于树枝末端,每个分支都标注了等于该分支概率的分支权值。 现在开 始生成包含这些分支的树: 将最低概率的两个分支合并(在分支节点处),形成 一个新分支,并标注上两个概率的相加值; 每次合并后,将新的分支和剩下的分支 重新排序(若需要),以保证减少的列表概率的递降性,将这种排列方法称为冒泡 法。 在每次合并后的重排中,新的分支在列表中不断上升至不能上升为止。因此, 如果形成一个权值为0.2的分支,在冒泡过程中发现其他两个分支的权值也是0.2, 那 么, 新 的分支 将 被冒 泡到权 值为 0.2的分 支组的顶端, 而不 是简单地加入 。 冒泡到同权值组的顶端可以生成码长方差小的编码,以降低缓冲溢出的可能 性。 为了讨论方便、 描述准确,我们定义n元素m字符集为: 字符集中共有n个 元素,每个元素都包含m个字符,即每个元素包含的字符数目相同。
∑∑
i =1 j =1
i
i
i
i
H(Y/X)=E{I[P(xi/yj)]}=E[-logP(xi/yj)] n m = − P( xi , yi ) log P( xi / yi )
∑∑
i =1 j =1
H(Y/X)=E{I [P(xi, yj)]}=E[-logP(xi, yj)] n m = − P ( x , y ) log P ( x , y )
X X = 0 X = 1 0 1 P( x ) = P(0) P(1) 1 1 2 2 i
单个连续变量信源的表达式为
X X ∈ (a , b) P ( x ) = p( x)
消息序列信源
同理,可以分别定义信宿[Y, P(yj)]在Y=yi时的非平均自信 息量、 两个消息有统计关联时的条件非平均自信息量和两个 消息的联合非平均自信息量如下:
1 I [ P ( y i )] = log = − log P ( y i ) P ( yi )
1 I [ P ( y j / xi )] = log = − log P( y j / xi ) P ( y j / xi ) 1 I [ P ( xi / y j )] = log = − log P( xi / y j ) P ( xi / y j ) 1 I [ P ( xi , y j )] = log = − log P ( xi , y j ) P( xi , y j )
,平均
∑
i =1
i
i
再将公式(2-2-7)稍加修改即可求得典型的 Shannon第一变长编码定理形式:
H(X ) 1 K H(X ) + (= ε ) > ≥ log m L L log m
对于二进制(m=2),则有
H(X ) K H(X ) +ε > ≥ log m L log 2
当对数取2为底时,有
通常,对单个消息信源,比如X=xi,它出现的概率P(xi)越小,它的出 现必然使人越感意外,则由它所产生的信息量就越大。 可见,对于单个消息信源,某个消息X=xi所产生的信息I[P(xi)] 应是其对应概率P(xi)的递降函数。另外,由两个不同的消息 (两者间统计独立)所提供的信息应等于它们分别提供信息量 之和,即信息应满足可加性(实际上若两者不满足统计独立,也 , ( , 应满足条件可加性)。 显然,同时满足对概率递降性与可加性 的函数应是下列对数函数: 1 I [ P( xi )] = log = − log P( xi ) P( xi ) 通常称I[P(xi) ]为信源是单个离散消息X= xi时的非平 均自信息量。
上面,我们从直观概念直接推导出当信源为一个单消息、 条 件单消息以及两个消息联合同时出现时的非平均自信息量的 表达式。 然而,一般离散信源,即使是单消息信源,也具有有限 种取值的可能,即i=1, 2, …, n; j=1, 2, …, m,因此,这时信源输 出的信息量就应该是上述具体单个消息产生的非平均自信息 量的概率统计平均值,显然它与信源本身的概率特性有关。因 此,可以定义信源输出的信息量,信息论创始人Shannon将其 定义为 H(X)=H[P(x1), …, P(xn)] =E{I[P(xi)]} =E[-logP(xi) ] n = − ∑ P(xi) logP(xi)
2.1.3 信源的统计特性模型
单个消息信源
首先讨论最简单、最基本的单个消息信源。 X X = x1,...X = xi ,...X = xn 一般可以采用 =
P P P(xi ) P(x1),... (xi ),... (xn )
的形式来描述 例如,对于离散、单消息的二进制等概率信源,可表示为
K H(X ) +ε > ≥ H(X ) L
式中, K/L表示平均每个码元的长度。 可见它要 求平均每个码元的长度应与信源熵相匹配,因此又称 为熵编码。 实现无失真信源编码的基本方法有两大类型: 一类为改造信源方式,即将实际不理想的不等概率信 源变换成理想的具有最大熵值的等概率信源,再采用 等长编码进行匹配; 另一类为适应信源方式,即对 实际的不等概率信源采用与之相匹配的变长编码方 法, 包括最佳变长哈夫曼(Haffman)编码、算术编 码以及适合于有记忆信源的游程编码等。
实际信源是由上述最基本的单个消息信源组合而成的。 实践证明,只要满足限时、限数这类物理上可实现的基本条件, 模拟信源就可以离散化为离散消息序列信源来表达。 因此对 于实际信源的统计描述,这里仅讨论消息序列信源。 对于离散消息序列信源,也可以采用类似于对上述单个消息信 源的描述方法。假设消息序列信源由L个消息(符号)构成,且 消息序列中每个消息(符号)取值集合(范围)是相同的,用X表示, 则消息序列信源的取值集合可以表示为 XL=X×X×…×X (共计L个X)
式中,消息序列长度为l=1, 2, …, L,而每个消 息又有n种可能的取值,即i=1, 2, …, n,因此整 个消息序列总共有nL种取值。
对于离散序列信源,还可以进一步划分为无记 忆与有记忆两类,当序列中的前后消息相互统 计独立时称为无记忆,否则称为有记忆。对于 简单的无记忆离散序列信源 L P(x1, …, xl, …, xL)= ∏ P( xl ) 上式在无记忆信源条件下成立,在等概率无 记忆信源条件下, 上式变为 L = PL P(x1, …, xl, …, xL)= ∏ 实际通信中的脉冲编码调制(PCM)属于这 类信源。
2.2 无失真信源编码
基本原理 首先研究等长码,参见下图,其中, x为输入,它共有 L位(长度),每一位有n种取值可能; s为输出,它共 有K位(长度),每一位有m种取值可能。 K , m
x=(x1…xl…xL) 信信信信信训nL 输输 信信编编 输输 s=(s1…sk…sK) 编编信信信训mK
l =1
l =1
2.1.4 信源的信息度量
信息的基本概念
从物理表达层来看,信息是信号所载荷的内容与含义 从数学表达层来看,信息是消息所描述和度量的对象
信源的信息度量
信源输出的是消息,消息的内涵是信息,信息的最主要特征是具有不确定性。 如何度量信息的 不确定性? 首先从人们容易接受的直观概念出发, 推导出信源的信息度量公式: 信息熵的基本公式 从直观概念推导信息熵的公式,可以分为两步: 第一步首先求出当某一个具体单个消息(符 号)产生(出现)时(比如x=xi时)的信息量, 用I[P(xi)]来表示; 第二步求单个消息(符号) 信源的信息熵(平均信息量),用H(X)来表示,由于单个消息(符号)信源有i=1, 2, …, n种取值 可能,因此要取统计平均, 即H(X)=E{I[P(xi)]}