信源编码1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2章 无失真信源编码
信源编码概述
霍夫曼编码
游程编码
算术编码 通用编码
教学目的与要求
1. 深刻理解信源编码原理,明白为什么通 过编码能压缩代码长度。 2.学习信源编码基本概念,了解Shannon定 长码与变长码编码定理的内容和意义。 3.熟练掌握Huffman编码方法。(重点) 4.掌握游程编码、算术编码(难点)和字 典编码原理。
2.1 信源编码的目的、原理 和方法概述
计划学时:2.5学时 要求掌握的主要内容:
1.深刻理解信源编码原理和意义。 2.熟练掌握编码有关概念:等长码、变长码、唯 一可译性、码树、平均码长等。 3.Shannon编码定理----概率匹配原则。
重点难点:
重点----信源编码原理 难点----Shannon编码定理
( j = 1, 2, ……, r ),称为码元。
(4)码:所有码字的集合称为“码”。
(5)编码:全部 Si←→Wj 的映射关系称之为编码。
3.等长码与变长码 (Fixed-Length
Codes and Variable-length Codes) (1)等长码: 编码中要求所有码字长度都相同,这样 的编码叫等长码。 (2)变长码:
这些理论是信源编码的基础。
2.1.1 编码 (coding)
1. 编码的定义:
广义地说,编码是用符号(或数字)表达信息的一 种方案,是表达信息的符号组合方式。
现代通信与计算机技术中,为了更加高效、可靠、 安全地对信息进行传输、存储与利用,经常需要 把信息符号通过设定的数学关系,用另一套代码 来替换原来的代码,因而出现了各种类型的编码。 所以更确切地说,编码是不同表达形式信息代码 之间的变换。
量相互独立且近似等概出现,就会使单位符号信息 含量更多,代码就比原来更短。
设有一个1000个英文字符的文件
用ASCII码表示,需要8000bit = 8Kb
假设文件只使用32种符号(字母与常用标点), 用5bit自然码即可表达,则总代码长度为5 Kb 考虑到各个字母不等概出现而采用下面的编码, 则总代码长度为4117 bit ≈4Kb 如果能找到一种最佳编码,将原文所蕴涵的 1400bit信息用1400个二元符号表达,则总代码 长度应当只有1.4 Kb
减少了码字的数量,使码字变短。
随着信源分组序列长度N的增大,典型序 列在序列总数中所占比例会越来越小,压 缩效果会越来越好。
牛津辞典第二版收录了615,000 个词条,the,be, to,of,and,a,in,that,have 和I这十个词条在牛津 全集一百万个词汇中出现频率是25%。 类 似 的 , 100 个 最 常 用 词 条 占 出 现 频 率 的 50% 。 1000个常用词条占了75%,而7000个词条却占了牛 津全集的90%,5万个词条则占了95%。 100个最常用词条中: 长度为1的仅2条,占2/26 =0.077; 长度为2的有22条,占22/262=0.033; 长度为3的有28个,占28/263=0.0016; 长度为4的有35个,占N· 0 log H 到最佳要求的:L2· logr≥ N· ∞ H 因为H∞< H0 ,所以码长得到了压缩。 如果真达到了L2· logr = N· ∞ ,代码中便 H 没有冗余。 这时:L2/ L1 =H∞/H0
L2/ L1是码长压缩比,H∞/H0是相对信息 率,二者相等,确实达到了最佳。
少数,香农把它们称为典型序列。
如果只对典型序列进行编码而抛弃非典型序列,所
需要的码字数量就少得多,用较短的码长就能满足码
字在数量上的需求。
A= [父,母,老,师 ]-----m=4的字符集 取序列长为2,可能构成的符号组合有16个: Si ={父母,老师,师父,师母, 老父,老母, 父老,母老,父父,母母,老老,师师,父师, 母师,母父,师老}
外语关键词:
信源编码: Source Coding 码树:Code Tree 变长码编码: Variable Length Coding 唯一可译性: Uniquely Decodable 即时性:Instantaneously Decodable
平均码长: Average code Length
rL ≥ mN = 2710 =2×1014 L ≥ N · m/ log r log L ≥10㏒27≈48; 为了都能找到对应码字, 至 少 L=48 , 才 有 足 够 多 48 14 (2 =2.8×10 )的码字。
满足了起码要求,唯一可译性是没问题了。 但是代码长度得到压缩了吗? N · m 是每个消息分组的最大可载信息 log 量,现在要求L· r 比它还大,这样的码 log 字显然是浪费资源,不可能使代码变短。
举例:以m=27, r=2 为例来讨论:
N=1,起码要求:要 对长度为1的单符号 ( 27 个 ) 信 源 符 号 分组编码,
rL ≥ mN = 27 L ≥ N · m/ log r = log ㏒27 L ≥4.76≈5;
N=10,起码要求:要对 10 长度为10的全部(27 14 =2×10 个)信源符号 分组作编码,
当m和r 给定时, L与N成正比,字符串长, 就得用长码,因此靠增长消息分组长度的 方法并不能赢得缩短码长的好处。
最佳要求:缩短代码长度
定长码压缩代码长度的原理是什么?
当信源符号组合成序列后,大多数序列可能都是杂
乱无章的符号堆积,香农把它们称为非典型序列。
能出现在实际信源消息中有语义的文字序列只占很
2.编码的目的:
用ASCII码表达字符,用GB2312区位码表达汉字, 只是完成了符号文字的数字化,为传输与存储的方 便,还需要做进一步处理。
进行信源编码:将代码变得更简练(压缩掉代码中 的冗余)。 进行信道编码:使代码变得更可靠(具有检错与纠 错功能)。
进行 保密编码:使代码变得更安全(具有保密与认 证功能)。
最佳要求:假设英文中实际可能出现的长度为10的字串 数目不到3万个,只对这些典型序列作编码,则只要取 L=15, 就有215 =32768个码字,足够编码使用。
在各种可能的字符序列中,典型序列的数 目很少,而它们在实际文章中出现的概率
却很大。非典型序列数目庞大,在实际文
章里却很少出现,将其丢弃不编,就大大
(摘自:/oec/mainpage/oec02/?view=uk)
当 N→∞ 时 , 长 为 N 的 符 号 串 平 均 具 有 NH∞的信息量。
最佳的编码应使码元符号独立且等概出 现,这时平均每个码字的信息荷载量可达到 最大值L· r。 log
从信息传承的角度讲 ,应要求L· r≥ log NH∞,即要求平均每信源符号对应编码的最 小长度为:
1.约定:
信源符号集 A= [a1,a2,…… ,am ] 编码符号集 X =[x1,x2,……,xr ] 被编消息的分组 编后符号的分组 编码对应关系: Si ←→ Wj
2.术语:
(1)码字:变换后的各个新符号串Wj 被称为码字。 (2)码长:码字Wj 的长度(符号数)Lj 被称为码长。
(3)码元:组成码字Wj 的各位代码符号 xj
编码并不要求所有码字长度都相同,这 样的编码称为不等长码,或曰变长码。
2.1.3 等长码信源编码
1.等长码信源编码原理:
在固定长度的各种信源符号串与长度不变的各个 码字之间建立一一对应关系。
起码要求:唯一可译性
长度为N的信源符号串共有m N个。
长度为L的码字符号串共有r L个。 只要码长L足够大,使r L ≥ m N ,则每个信源符 号串都可以找到一一对应的码字。 这时, L· r≥ N · m,即: log log
参考文献(见课本182页)
1.周炯磐:信源编码原理 人民邮电出版社(1996年10月第一版) 2. 吴乐南:数据压缩 电子工业出版社(2001年6月第一版) 3.吴伟陵:信息处理与编码 人民邮电出版社(1999年7月第一版) 4.曹雪虹:信息论与编码 北京邮电大学出版社 (2001年8月第一版)
第2章 无失真信源编码
克拉夫特不等式: Kraft Inequality
概率匹配原则: Principle of Matching with Probability
香农定理: Shannon’s Theorems
[温旧引新]
等概信源具有最大熵H0 = log m
不等概信源单符号信息熵H(X)=H1 <H0
有记忆信源信息熵随着序列的增长而变小: H0 ≥ H1 ≥ H2 ≥ H3 ≥ …… ≥H N ≥ H∞ H∞是极限熵,代表实际信源的信息熵。
只要新的代码序列中,信息率比原先高,冗
余比原先小,表达同样数量的信息所用的码元
就会比原先少。
3. 信源编码思路:
任务:实际信源发出的符号序列,一般总含有一
定的冗余。怎样将这些冗余压缩掉?
途径:寻找一种更短的代码序列,替代原来的符
号序列进行通信,收信后再把原消息代换回来。
技术方案:设法让所替代的编码序列各个码元尽
平均码长是:4.117
4. 信源编码的分类
无失真信源编码和限失真信源编码
根据能否无失真地恢复信源消息来区分。
离散信源编码和连续信源编码
根据信源发出消息是否连续来区分。
无记忆信源编码和相关信源编码
根据信源是否有记忆来区分。
分组编码和序列流编码:
根据编码结构是否进行分组来区分。
2.1.3 编码术语
设有一个1000个英文字符的文件用ascii码表示需要8000bit8kb假设文件只使用32种符号字母与常用标点用5bit自然码即可表达则总代码长度为5kb考虑到各个字母不等概出现而采用下面的编码则总代码长度为4117bit4kb如果能找到一种最佳编码将原文所蕴涵的1400bit信息用1400个二元符号表达则总代码长度应当只有14kb仅仅根据英文字母不等概而进行的一个编码例子
符号 c f m w y g p b v k x j q z
概率 0.0179 0.0170 0.0162 0.0143 0.0134 0.0125 0.0125 0.0104 0.0068 0.0040 0.0011 0.0007 0.0007 0.0004
编码 001111 011100 011101 011110 110000 0111111 1100010 1100011 1100100 1100101 1100110 1100111 01111100 01111101
仅仅根据英文字母不等概而进行的一个编码例子:
符号 其它 空格 e t r a o i n s h l d u 概率 0.1639 0.1524 0.0845 0.0652 0.0562 0.0526 0.0518 0.0471 0.0470 0.0421 0.0383 0.0263 0.0260 0.0187 编码 000 010 0010 0110 1000 1001 1011 1101 1110 1111 00110 10100 10101 001110
2. Shannon等长码编码定理:
2.1.2 信源编码
1. 信源编码的目的:
为压缩代码长度而对信源消息进行的编
码叫做信源编码。
必要性 :没有压缩的文件太大,不便于存储
与传输。特别对于图像和视频,若不进行信
源编码,就不能实时通信。传真、电话、电
视、手机、因特网都应用了信源编码。
2. 信源编码原理:(可行性)
实际信源发出的符号序列,一般总含有一定 的冗余,本身存在压缩的可能性。 所谓压缩,就是采用另外一套代码替换原来 的符号序列。
3. 编码的基本要求
信息的可译性:不论代码形式如何变换,接收
端最终应能正确地译出原消息。 信 源 编 码
信道
译 码
信 宿
提问:编码为什么能传承信息?
信息的可传递性: 编码过程虽然改变了“载
体”,但由于新旧两套代码之间存在着对应关系, 原代码的概率特征被继承了下来,新代码就具有 了同样的不确定度,于是信息得以传承。
后面9个是任意排 列成的信源符号 组合,实际文章 中几乎不会出现。 香农把它们称为 非典型序列。
前面7个是能在 实际信源消息中 经常出现的、有 语义的字符组合, 香农把它们称为 典型序列。
全部组合编码需4位二进码,只编典型序列3位即可!
最佳要求:
仅满足唯一可译未必能使码长最短。 如果只对典型序列进行编码,则需要的码字数量就少得 多。r不变的情况下,L就可以取得较小,也就是说代码 可以变得更短。 仍以N=10,m=27, r=2 为例: 起码要求:要对长度为10的全部信源符号分组作编码, 至少L=48,才有足够多(248 =2.8×1014)的码字。
相关文档
最新文档