几种常用无损数据压缩算法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( 中国工程物理研究院 计算机应用研 究所, 四川 绵阳 6 10 ) 290
摘 要: 随着 网络承 载的信 息量 的 飞速增 长, 据压 缩必 然会 备受人 们 重视 。数 据压 缩 可分 成 两种 类 型 , 种 叫做 无损 压 数 一
缩 , 一种 叫做 有损 压缩 。文 中主要 介绍 目前用 得 最多 和技 术 最成 熟 的 无损 数 据 压缩 技 术 , 照无 损 压 缩方 法 采用 的压 另 按 缩技 术 的不 同 , 从基 于统计 的压 缩思 想 和基 于字典 的压 缩思 想两个 方 面对其 中最 具有 代 表性 的无损 数 据压 缩方 法 进行 了
i to u e t e ;ti a ii t e e n e f r p o l o i n e e t i o se s d t o p e so e h o o y. n d c h m I sf clt er f r c o e p e wh si t r s n l sl s aa c m r si n t c n l g r a e
so a e d v d d i t wo t p s,o e i al d l s l s o r s i n,a d t eo e sc l d l s o r s i n I k sl s ls a a t m— i n c l b i i e n o t y e l n sc l o se sc mp e so e n t ri a l o sc mp e so . tt e o se sd t o h h e a
和空问上 日益增长 , 信息存储 特别 是 网络传输 带来 给
诸多的困难 。为 了节省信息的存储空间和提高信息 的 传输效率 , 须对 大 量 的实 际数 据进 行有 效 的压 缩 。 必 数据压缩作为解决海量信息存储和传输 的支持技术受 到人们 的极大重视 。 压缩算法分为无 损压缩和有损压缩 。相对于有损
Re e r h o e e a mm o Lo se s Da a Co pr s i n Al o ih s s a c f S v r lCo n s l s t m e so g rt m
ZHEN G i f ng Cu - a
(ntueo o p tr p l ao , h aA ae f n i eigP yisMi yn 29 0 C ia Ist fC m ue pi t n C i cdmyo gn r h s , a ag6 10 , hn ) it A ci n E e n c n
收 稿 日期 :0 1 O — 7; 回 日期 :0 1 0 — 9 2 1一 12 修 2 1 — 5 0
的图像数据 ( 如指纹 图像 、 医学 图像 等 ) 的压 缩。这类
算法压缩率较低 , 一般为 12~ / 。 / 15
通常压缩对 象是 文 字或 数字 等 要求 精 确 的数 据 时, 无损压缩 是必 然 的选择 。无 损压缩从 压缩 模 型上
详细 的分类 讨论 和优 缺点 比较 , 基 于字典压 缩 算法 的一 些成 熟 的 改 进算 法 进 行 了汇 总 介绍 , 于 对无 损 数 据压 缩 技 并对 便
术感 兴趣 的 同志 学 习参考 。
关键 词 : 据压 缩 ; 损数 据压 缩 ; 计压缩 算法 ; 典压 缩算法 数 无 统 字 中图分 类号 :P 1. T 3 15 文献标 识码 : A 文章编 号 : 7 — 2 X 2 1 )9 07 — 4 1 3 69 (0 10 — 03 0 6
空 间的需求量 不依赖输入串长度 , 是一 个常数 。
5 算术 编码 也 足 一种根 据 字符 出现几 率 的统 )
计结 果重新 编码的压缩 方案 , R s nn在 17 是 i ae s 6年提 9
出的 , 思想 和哈夫曼 算法类似 , 是一种高效清除字 串冗 余 的算 法 , 打破 r哈夫曼 算法 必须用 整数来 表示 符
压缩来 说 , 损压缩 的 占用空 间大 , 缩 比不高 , 无 压 但是
的中文文献信 息。希 望能为对无损压缩算法有兴趣 的
同志学 习 、 询提供 方便。 查
1 无 损 数 据 压 缩 的 分 类
无损压缩技术 即通 常所说 的通用压缩技术也称 为
信息保持编码 、 熵编 码 、 无失 真 编码等 , 也就是 根据一 定方法对大量数据进行 编码 处理 以达到信息压缩存储 过程 , 在数据 的压缩过程 中不 允许精度 的损失 , 被压缩 的数据应该能够通过 解码恢 复到 压缩 以前 的原 状态 。
Ke r s: a a c mp s i n;o se sd t o r s i n; tts c c m p e so g rt m ; i t n r o r si n ag rt m y wo d d t o r so l s l s a a c mp so sa it o r s i n a o i e e i l h d c o ay c mp e so l o h i i
Ab t a t W ih t e q i k i ce s fn t r si f r ai n。 a a c mp e so sp i r n r t n on b e p e sr c : t h u c n r a e o ewo k’ n o m t o d t o r si n i a d mo e a d mo e at t y p o l .Daa c mp e — ei t o r s
大体 可以分 为基 于统计的压缩算 法和基 于字典 的压缩 算法 。具体 的分类 图如 图 1 所示 。
基金项 目: 中国工程物理研究 院预先研究基金 (9 0 4 ) 0 — 6 2 作者简介 : 郑翠芳 ( 9 7 ), 硕士研究生 , 17 一 女, 研究方 向为软件开发 。
・
7 4・
表 1 优 缺 点 比 较 列 表
算 法名称 游 优点 缺点 迂用范围 复 杂 度 {商 的 原 始 点 阵 图像
S ann 14 h no 在 9 8年 给 出 了 一 种 简 单 的 编 码 方 法一
S ann编 码 , 后 F / 在 15 hno 随 a0 1 9 2年 又 进 一 步 提 H 了 ; F n 码 。 San n Fn 编 码 的 核 心 是 构 造 树 , ao编 h n o— a o 二义
编码 原速度快 均压缩率低
冗余字符或字 中的冗余 位 , 而达 到减 少数 据文件 从 所 占的存储空 间的 目的。R C的压缩效 能取 决于整个 L
数据流 的重 复字符 出现 次数 、 均游 程长度 及 所采用 平 的编码结构 。由于该算法是 针对 文件的某 特点所 没 计的, 所以应用起 来具 有一 定 的局 限性 。为 了数据 压 缩 的通用性 , 一般很 少 单独采用该方法 , 主要与其它 编 码技术配合使 J 。 } j
第2卷 1
2 1 年 9月 01
第 9期
计 算 机 技 术 与 发 展
COMP UTE TE R CHNOL OGY AND DEVEL OPME NT
V0 . No 9 1 2l . S p 2 1 e. 0 1
几 种 常用 无 损数 据 压 缩 算 法研 究
郑 翠 芳
验 室 的 S ann和 M T 的 R br Fn hn o I oe ao开 发 。 首 先 是 t
基 于统计的压缩算法各有所长 , 既有优势 的一 面 ,
也 有不利的一面。表 J 对每个 基于统计的无损压缩算
法进行 了优缺点以 及适 用性 的 比较 , 方便 读者在 实 际 使用中选择合适的压缩算法 。
汁算机 技术与发展
第 2 卷 l
图 1 常用无损数据压 缩分 类图
1 1 基 于 统 计 压 缩 算 法 . Hfa uf n的运 行 时 间 与 输 入 串 长 良 成线 性 比 , 存 储 m 而
甚于统计式压缩算 法 的起源 较早 , 实质 是统计 字 符 的出现频率来对字符本身重新 编码 , 属于熵 编码类 , 与原始数据 的排列 次序无关 而 与其 出现频 率有关 , 主 要的 压 缩 算 法 有 Sa n — ao编 码 、 程 长 度 编 码 h no Fn 游
它足 一 门顶 向下 的 、 种 = { A适 应的编码算法 。
2 游 长度 编 码 ( u ~ ̄ g — oig 1 针 对 ) R n lnt C dn )2 e h 足
一
文本数据 的特 点所设 计 的 , 主要 是 去除文本 中的
程 长 度 实现简 ; 缩和还 呆板 , 应性 謦 ; 适
O 引 言
随着信息化技术 的飞速 发展 , 各行各 业都 用计算 机来处理信息 , 各种系统数据量越来越大 , 数据在时 间
分类 介绍 , 对它们各 自的优 缺点 进行 归纳总结 。 由 并 于篇 幅的原因 , 文中并没有 对每个 算法 的具体 实 现步 骤进行 描述 , 而只是 引入 了对每个 算法 介绍 比较详 细
p e so s man l e r s i n a i n .Ac o d n o d fe e tc mp e so e h o o y o o se sd t o i c r ig t i r n o f r s i n t c n l g fl sl s a a c mp s i n,f o t s e t fsa si d d c e r so r m wo a p c s o tt tc a i - i n
来自百度文库
t n r d a 。i i to u e o e r s n a v o se sd t o r s i n a p o c e d a ay e h s i d fd t o r s i n a g — i a y i e s t n r d c ss me r p e t t e l s l s a a c mp e so p r a h sa l z st e e k n so a a c mp e so o o e i n n l rt ms d a tg sa d d s d a tg s Ga e o t r e tr n g r m a e n d ci n r o r si n ag rt m o e e d ih ’a v a e a v n a e . t r s me mau e b t me t o t n n i h e l a i h b s d o t a y c mp e so l o i i o h t g t ra h n
的限制。叮以成功地逼近信息熵极限的编码方法
1 12 基 于 统计 压 缩 算 法 比较 ..
( I ) 哈犬曼编码和算术编码 。 R 、 C
1 1 1 基 于统计压缩算 法简单介 绍 .. 按照 缩算法 的产生 时间分 别介绍如下 :
1 香浓一 ) 凡诺算 法 ( hn o F n S an — ao编码 ) 贝尔实 由
主要用于文本文件 、 数据库 、 程序数据和特殊应用场合
它 10 0 %地保 存 了原始信 息 , 没有 任何 信号 丢 失并 且
音质 高 , 不受信 号源 的影 响 。而且 随着 限制无 损格 式 的种种 因素逐渐 被 消除 ( 例如 : 盘容 量 的急剧 增 长 硬 而且价格越 来越 低廉 ) 使 得无 损压 缩 格式 具有 广 阔 , 的应用前景 。文 中在 查 阅大量文 献 的前 提下 , 目前 对 国内外 的一些具有代表性 的无损压缩算法 进行 详细的
摘 要: 随着 网络承 载的信 息量 的 飞速增 长, 据压 缩必 然会 备受人 们 重视 。数 据压 缩 可分 成 两种 类 型 , 种 叫做 无损 压 数 一
缩 , 一种 叫做 有损 压缩 。文 中主要 介绍 目前用 得 最多 和技 术 最成 熟 的 无损 数 据 压缩 技 术 , 照无 损 压 缩方 法 采用 的压 另 按 缩技 术 的不 同 , 从基 于统计 的压 缩思 想 和基 于字典 的压 缩思 想两个 方 面对其 中最 具有 代 表性 的无损 数 据压 缩方 法 进行 了
i to u e t e ;ti a ii t e e n e f r p o l o i n e e t i o se s d t o p e so e h o o y. n d c h m I sf clt er f r c o e p e wh si t r s n l sl s aa c m r si n t c n l g r a e
so a e d v d d i t wo t p s,o e i al d l s l s o r s i n,a d t eo e sc l d l s o r s i n I k sl s ls a a t m— i n c l b i i e n o t y e l n sc l o se sc mp e so e n t ri a l o sc mp e so . tt e o se sd t o h h e a
和空问上 日益增长 , 信息存储 特别 是 网络传输 带来 给
诸多的困难 。为 了节省信息的存储空间和提高信息 的 传输效率 , 须对 大 量 的实 际数 据进 行有 效 的压 缩 。 必 数据压缩作为解决海量信息存储和传输 的支持技术受 到人们 的极大重视 。 压缩算法分为无 损压缩和有损压缩 。相对于有损
Re e r h o e e a mm o Lo se s Da a Co pr s i n Al o ih s s a c f S v r lCo n s l s t m e so g rt m
ZHEN G i f ng Cu - a
(ntueo o p tr p l ao , h aA ae f n i eigP yisMi yn 29 0 C ia Ist fC m ue pi t n C i cdmyo gn r h s , a ag6 10 , hn ) it A ci n E e n c n
收 稿 日期 :0 1 O — 7; 回 日期 :0 1 0 — 9 2 1一 12 修 2 1 — 5 0
的图像数据 ( 如指纹 图像 、 医学 图像 等 ) 的压 缩。这类
算法压缩率较低 , 一般为 12~ / 。 / 15
通常压缩对 象是 文 字或 数字 等 要求 精 确 的数 据 时, 无损压缩 是必 然 的选择 。无 损压缩从 压缩 模 型上
详细 的分类 讨论 和优 缺点 比较 , 基 于字典压 缩 算法 的一 些成 熟 的 改 进算 法 进 行 了汇 总 介绍 , 于 对无 损 数 据压 缩 技 并对 便
术感 兴趣 的 同志 学 习参考 。
关键 词 : 据压 缩 ; 损数 据压 缩 ; 计压缩 算法 ; 典压 缩算法 数 无 统 字 中图分 类号 :P 1. T 3 15 文献标 识码 : A 文章编 号 : 7 — 2 X 2 1 )9 07 — 4 1 3 69 (0 10 — 03 0 6
空 间的需求量 不依赖输入串长度 , 是一 个常数 。
5 算术 编码 也 足 一种根 据 字符 出现几 率 的统 )
计结 果重新 编码的压缩 方案 , R s nn在 17 是 i ae s 6年提 9
出的 , 思想 和哈夫曼 算法类似 , 是一种高效清除字 串冗 余 的算 法 , 打破 r哈夫曼 算法 必须用 整数来 表示 符
压缩来 说 , 损压缩 的 占用空 间大 , 缩 比不高 , 无 压 但是
的中文文献信 息。希 望能为对无损压缩算法有兴趣 的
同志学 习 、 询提供 方便。 查
1 无 损 数 据 压 缩 的 分 类
无损压缩技术 即通 常所说 的通用压缩技术也称 为
信息保持编码 、 熵编 码 、 无失 真 编码等 , 也就是 根据一 定方法对大量数据进行 编码 处理 以达到信息压缩存储 过程 , 在数据 的压缩过程 中不 允许精度 的损失 , 被压缩 的数据应该能够通过 解码恢 复到 压缩 以前 的原 状态 。
Ke r s: a a c mp s i n;o se sd t o r s i n; tts c c m p e so g rt m ; i t n r o r si n ag rt m y wo d d t o r so l s l s a a c mp so sa it o r s i n a o i e e i l h d c o ay c mp e so l o h i i
Ab t a t W ih t e q i k i ce s fn t r si f r ai n。 a a c mp e so sp i r n r t n on b e p e sr c : t h u c n r a e o ewo k’ n o m t o d t o r si n i a d mo e a d mo e at t y p o l .Daa c mp e — ei t o r s
大体 可以分 为基 于统计的压缩算 法和基 于字典 的压缩 算法 。具体 的分类 图如 图 1 所示 。
基金项 目: 中国工程物理研究 院预先研究基金 (9 0 4 ) 0 — 6 2 作者简介 : 郑翠芳 ( 9 7 ), 硕士研究生 , 17 一 女, 研究方 向为软件开发 。
・
7 4・
表 1 优 缺 点 比 较 列 表
算 法名称 游 优点 缺点 迂用范围 复 杂 度 {商 的 原 始 点 阵 图像
S ann 14 h no 在 9 8年 给 出 了 一 种 简 单 的 编 码 方 法一
S ann编 码 , 后 F / 在 15 hno 随 a0 1 9 2年 又 进 一 步 提 H 了 ; F n 码 。 San n Fn 编 码 的 核 心 是 构 造 树 , ao编 h n o— a o 二义
编码 原速度快 均压缩率低
冗余字符或字 中的冗余 位 , 而达 到减 少数 据文件 从 所 占的存储空 间的 目的。R C的压缩效 能取 决于整个 L
数据流 的重 复字符 出现 次数 、 均游 程长度 及 所采用 平 的编码结构 。由于该算法是 针对 文件的某 特点所 没 计的, 所以应用起 来具 有一 定 的局 限性 。为 了数据 压 缩 的通用性 , 一般很 少 单独采用该方法 , 主要与其它 编 码技术配合使 J 。 } j
第2卷 1
2 1 年 9月 01
第 9期
计 算 机 技 术 与 发 展
COMP UTE TE R CHNOL OGY AND DEVEL OPME NT
V0 . No 9 1 2l . S p 2 1 e. 0 1
几 种 常用 无 损数 据 压 缩 算 法研 究
郑 翠 芳
验 室 的 S ann和 M T 的 R br Fn hn o I oe ao开 发 。 首 先 是 t
基 于统计的压缩算法各有所长 , 既有优势 的一 面 ,
也 有不利的一面。表 J 对每个 基于统计的无损压缩算
法进行 了优缺点以 及适 用性 的 比较 , 方便 读者在 实 际 使用中选择合适的压缩算法 。
汁算机 技术与发展
第 2 卷 l
图 1 常用无损数据压 缩分 类图
1 1 基 于 统 计 压 缩 算 法 . Hfa uf n的运 行 时 间 与 输 入 串 长 良 成线 性 比 , 存 储 m 而
甚于统计式压缩算 法 的起源 较早 , 实质 是统计 字 符 的出现频率来对字符本身重新 编码 , 属于熵 编码类 , 与原始数据 的排列 次序无关 而 与其 出现频 率有关 , 主 要的 压 缩 算 法 有 Sa n — ao编 码 、 程 长 度 编 码 h no Fn 游
它足 一 门顶 向下 的 、 种 = { A适 应的编码算法 。
2 游 长度 编 码 ( u ~ ̄ g — oig 1 针 对 ) R n lnt C dn )2 e h 足
一
文本数据 的特 点所设 计 的 , 主要 是 去除文本 中的
程 长 度 实现简 ; 缩和还 呆板 , 应性 謦 ; 适
O 引 言
随着信息化技术 的飞速 发展 , 各行各 业都 用计算 机来处理信息 , 各种系统数据量越来越大 , 数据在时 间
分类 介绍 , 对它们各 自的优 缺点 进行 归纳总结 。 由 并 于篇 幅的原因 , 文中并没有 对每个 算法 的具体 实 现步 骤进行 描述 , 而只是 引入 了对每个 算法 介绍 比较详 细
p e so s man l e r s i n a i n .Ac o d n o d fe e tc mp e so e h o o y o o se sd t o i c r ig t i r n o f r s i n t c n l g fl sl s a a c mp s i n,f o t s e t fsa si d d c e r so r m wo a p c s o tt tc a i - i n
来自百度文库
t n r d a 。i i to u e o e r s n a v o se sd t o r s i n a p o c e d a ay e h s i d fd t o r s i n a g — i a y i e s t n r d c ss me r p e t t e l s l s a a c mp e so p r a h sa l z st e e k n so a a c mp e so o o e i n n l rt ms d a tg sa d d s d a tg s Ga e o t r e tr n g r m a e n d ci n r o r si n ag rt m o e e d ih ’a v a e a v n a e . t r s me mau e b t me t o t n n i h e l a i h b s d o t a y c mp e so l o i i o h t g t ra h n
的限制。叮以成功地逼近信息熵极限的编码方法
1 12 基 于 统计 压 缩 算 法 比较 ..
( I ) 哈犬曼编码和算术编码 。 R 、 C
1 1 1 基 于统计压缩算 法简单介 绍 .. 按照 缩算法 的产生 时间分 别介绍如下 :
1 香浓一 ) 凡诺算 法 ( hn o F n S an — ao编码 ) 贝尔实 由
主要用于文本文件 、 数据库 、 程序数据和特殊应用场合
它 10 0 %地保 存 了原始信 息 , 没有 任何 信号 丢 失并 且
音质 高 , 不受信 号源 的影 响 。而且 随着 限制无 损格 式 的种种 因素逐渐 被 消除 ( 例如 : 盘容 量 的急剧 增 长 硬 而且价格越 来越 低廉 ) 使 得无 损压 缩 格式 具有 广 阔 , 的应用前景 。文 中在 查 阅大量文 献 的前 提下 , 目前 对 国内外 的一些具有代表性 的无损压缩算法 进行 详细的