多媒体数据压缩编码方法资料
多媒体数据常用压缩标准
MPEG(Motion Picture Experts Group )标准是ISO/IEC委员会针对全活动视频 的压缩标准系列,包含MPEG-1、MPEG-2 、MPEG-4、MPEG-7、MPEG-21等。
MPEG-1:适用于传输速率为1.5Mbps的数字电视标
准,91年提出草案,93年8月公布
JPEG确定的图像压缩标准的目标是:
编码器应该可由用户设置参数,以便用 户在压缩比和图像质量之间权衡折衷
标准可适用任意类连续色调的数字静止 图像,不限制图像的景像内容
计算复杂度适中,只需一定能力的CPU 就可实现,而不要求很高档的计算机,复 杂的软件本身要易于操作
定义了两种基本压缩编码算法和4种编码 模式
MPEG-2:适用于传输速率为10Mbps 的数字电视标
准,93年提出草案,94年11月公布
MPEG-3:适用于传输速率为40Mbps 的数 字电视标
准,已被MPEG-2取代
MPEG-4:1999年12月公布的多媒体应用标准
MPEG-7:多媒体内容描述接口标准,98年提出,2001
年完成并公布
MPEG-21:正式名称是Multimedia Framework(多媒体
终形成清晰的图像。
下面是顺序模式和渐进模式的示意图
顺序模式 渐进模式
无失真编码模式 采用一维或二维的空间域
DPCM和熵编码。由于输入图像已经是数字化 的,经过空间域的DPCM之后,预测误差值也 是一个离散量,因此可以不再量化而实现无失 真编码。
分层编码模式 这是对一幅原始图像的空间
分辨率,分成多个分辨率进行“锥形”的编码方 法,水平(垂直)方向分辨率的下降 以2的倍数因子改变,先对分辨率最 低的一层图像进行编码,然后将经 过内插的该层图像作为下一层图像 的预测值,再对预测误差进行编码,
多媒体技术_多媒体数据压缩编码技术
4.知识冗余
图像的理解与某些基础知识有关。 例:人脸的图像有同样的结构:嘴的上方有鼻子, 鼻子上方有眼睛,鼻子在中线上…… 知识冗余是模型编码主要利用的特性。
5.视觉冗余
人的视觉系统对图像场的敏感性是非均匀、 非线性的。 (1)对图像亮度和色差的敏感性相差很大 Y:U:V=8:4:4 或者Y:U:V=8:2:2 (2)随着亮度增加,视觉系统对量化误差的敏感 度降低。 (3)人的视觉系统把图像边缘和非边缘区域分开 处理。
第四章、多媒体数据压缩编码技术
本章要点
(1)多媒体数据压缩编码的重要性和分类。 (2)量化的基本原理和量化器的设计思想。 (3)常用压缩编码算法的基本原理及实现技术、 预测编码、变换编码、统计编码(Huffman编码、 算术编码)。 (4)静态图像压缩编码的国际标准(JPEG)原 理、实现技术,以及动态图像压缩编码国际标 准(MPRG)的基本原理。
4.2.2 标量量化器的设计
量化器的设计要求 通常设计量化器有下述两种情况: 1. 给定量化分层级数,满足量化误差最小。 2. 限定量化误差,确定分层级数,满足以尽 量小的平均比特数,表示量化输出。
量化方法有标量量化和矢 量量化之分,标量量化又可分 为,均匀量化、非均匀量化和 自适应量化。
(1)均匀量化
例如:从64个数中选出某一个数。可先问“是 否大于32?”消除半数的可能,这样只要6次就可选 出某数。 如果要选择的数是35,则过程如下: 1.大于/小于 32? 大 2.大于/小于 32+16=48? 小 3.大于/小于 48-8=40? 小 4.大于/小于 40-4=36? 小 5.大于/小于 36-2=34? 大 6.大于/小于 34+1=35 等
(4)混合编码
第6讲-多媒体数据压缩编码方法
0
1
A 0
0 1 C
1 0 D 1 E
B
这幅图像的熵为: H(S)=(15/39) log2(39/15) + (7/39)log2(39/7) + (7/39)log2(39/7) + (6/39)log2(39/6) +(5/39)log2(39/5) = 2.1859 这说明每个符号可用2.1859位表示,39个象素需用85.25位。 编码中以N表示编码器输出码字的平均码长,用熵值衡量是 否最佳编码,即:当N>>H(S)有冗余,不是最佳;N< H(S),不 可能;N≈H(S)(N稍大于H(S)),是最佳编码。
S=(A,B,C,D,E) 符号 出现的次数(Pi) A 15(0.3846) B 7(0.1795) C 6(0.1538) D 6(0.1538) E 5(0.1282)
log2(1/pi) 1.38 2.48 2.70 2.70 2.96
分配的代码 需要位数 0 15 100 21 101 18 110 18 111 15
• 离散信源
S1, S2 , ..., Sn X p(S ), p(S ), ..., p(S ), 2 n 1
p ( Si ) 1
i 1
n
• 图像的信息熵
H ( X ) p( Si ) I ( Si ) p( Si ) log 2 p( Si ) 1
第6讲 多媒体数据压缩 和信息编码
内 容 提 要
多媒体数据压缩基本特征和方法
图像统计特性
无损数据压缩编码方法 有损数据压缩编码方法
多媒体数据压缩基本特征和方法
1.数据压缩的处理过程:
编码过程:对原始数据进行压缩,便于存储和传输。 解码过程:对压缩数据进行解压,恢复成可用数据。
2-1 数据压缩编码基本理论
3、算术编码
原理:根据信源不同符号概率的不同,分别 对应[0,1)中不同的区间,每个符号用对 应区间内的任意一个实数表示,这个实数 就是该符号对应的码字。 特点:只有算术运算,无论原数据位多长, 每次编码算法只处理一个数据符号,因此 编码效率高。
符号
00
01
10
11
例1
概率
初始区间
0.1
[0, 0.1)
3、算术编码
二、无损编码(统计编码、熵编码)
1、行程编码(run length code,RLC也叫游程编码) 压缩原始数据中相同的字节序列
例:原始字符串RTTTTTTTTABBBCDIU
行程编码将字符串变换为: R#8TABBBCDIU
将原来17个字符压缩为12个字符。
2、霍夫曼(Huffman)编码
自适应算术编码特点
自适应算术编码可以在编码过程中根据符 号出现的频繁程度,动态地修改分布概率, 因此不需要在编码前求出信源概率,但要 求编码器和解码器使用的概率模型一致。
三、有损编码
1、预测编码 2、子带编码
3、变换编码
4、矢量量化编码
5、其它编码
三、有损编码
1、预测编码
脉冲编码调制(pulse code modulation,PCM)
率;
(3)重复(1)和(2),直到概率和达到1为止; (4)将最后合并的元素作为树根,每个原始信 源作为树叶,构成一个编码二叉树;从树根到 树叶,对合并的两个分支分别赋予1和0;
(5)对每一符号写出从树根到信源点1、0序列
即为该符号的编码。
复习
数据可压缩的原因 数据压缩的种类 数据压缩的技术指标 无损压缩的常见技术:行程编码、霍夫曼 编码、算术编码
多媒体数据编码与压缩
压缩的原理
• 以一定的质量损失为容限,按照某种方 法从给定的信源中推出简化的数据描述, 即减少原始信 余的描述。
多媒体数据存在的冗余
种类
统计特性
空间冗余 时间冗余
时间冗余。
MPEG三种类型图像
• 帧内图〔intra picture,I帧〕 • 预测图〔predicted picture,P帧〕 • 双向预测图〔bidirectional picture,B帧〕
MPEG-2标准
• ISO/IEC 13813 信息技术 电视图像和伴音信息 的通用编码
• 特点: • MPEG-1定位在VHS质量,MPEG-2的目的是
压缩的评价指标
• 压缩比 • 算法复杂性〔速度〕 • 恢复效果
• 根据应用加以取舍。
常用的数据压缩技术
• 预测编码。利用多媒体数据的时空冗余,用过去和现在出现 的数据来预测未来的数据,记录真实值与预测值的差。
• 统计编码。以信息熵原理为根底,用较少的比特〔码长〕表 示概率大的码字,用较多的比特〔码长〕表示概率小的码字。
DPCM原理
• 预测下一个样值,并量化实际值和预测值的差。 解码过程使用同样的预测器,并将预测值和所 存储的量化误差相加,产生近似的原始数据。
• 预测器 • 线性预测与非线性预测 • 最正确预测与准最正确预测 • 量化器 • 线性量化与非线性量化
ADPCM自适应脉冲编码调制
• 自适应预测:在编码时将信源数据分区 间编码,对每个区间自动选择一组使均 方误差最小的预测参数。
3.3静态图像压缩
静态图像压缩标准
• 在静态图像压缩方面,存在多个国际标 准:
第四章 多媒体数据压缩编码技术
MPEG(Motion picture Experts Group) 是运动图像专家小组的英文缩写 MPEG标准主要有MPEG-l、MPEG-2、 MPEG-4和正在制定的MPEG-7等
多媒体数据压缩编码的国际标准
1.静态图像压缩编码的国际标准(JPEG)
– JPEG(Joint Photographic Experts Group
– JPEG专家组开发了两种基本的压缩算法: 采用以DCT为基础的有损压缩算法 采用以预测技术为基础的无损压缩算法
– 在JPEG标准中定义了四种编码模式: 顺序编码 累进编码 无失真编码 分层编码
多媒体数据压缩编码的国际标准
JPEG图像的压缩比与质量
JPEG在使用DCT进行有损压缩时,压缩比可 调整在压缩10~30倍后,图像效果仍然不错, 因此得到了广泛的应用。
(a) 原图
(b) 压缩效果图
图 d 四次小波变换编码的实验结果
预测编码
预测编码的基本原理 自适应预测编码 帧间预测编码
变换编码
变换编码不是直接对空域图像信号进行编码,而是 首先将空域图像信号映射变换到另一个正交矢量空间 (变换域或频域),产生一批变换系数,然后对这些 变换系数进行编码处理。变换编码是一种间接编码方 法,其中关键问题是在时域或空域描述时,数据之间 相关性大,数据冗余度大,经过变换在变换域中描述, 数据相关性大大减少,数据冗余量减少,参数独立, 数据量少,这样再进行量化,编码就能得到较大的压 缩比。目前常用的正交变换有:傅立叶 (Fouries)变换、 沃尔什(Walsh)变换、哈尔(Haar)变换、斜(Slant)变换、 余弦变换、正弦变换、K-L(Karhunen-Loeve)变换等。
多媒体数据压缩编码技术概述
多媒体数据压缩编码技术概述多媒体数据压缩编码技术是一种通过减少或去除冗余数据来减小多媒体文件的存储空间或传输带宽的过程。
这些技术广泛应用于图像、音频和视频等各种形式的多媒体数据。
下面将对多媒体数据压缩编码技术的主要方法进行概述。
1. 无损压缩编码:无损压缩编码技术可以将多媒体数据压缩到较小的大小,而不会丢失原始数据。
该技术通过利用多媒体数据中的冗余和统计特性来实现压缩效果。
其中,哈夫曼编码、算术编码和Lempel-Ziv编码等是常用的无损压缩编码方法。
2. 有损压缩编码:有损压缩编码技术可以在一定程度上丢失原始数据,并将其转换为较小的文件大小。
这种压缩方法适用于某些多媒体数据,如音频和视频等,因为人类的感知系统对这些数据中的一些细微变化不太敏感。
有损压缩编码方法包括离散余弦变换(DCT)、小波变换、运动补偿和预测编码等。
3. 基于上下文的压缩编码:这种压缩编码技术利用多媒体数据内部的上下文信息来实现更高的压缩效果。
上下文信息包括像素点的位置、颜色和周围像素点的关系等。
基于上下文的编码方法有助于提高压缩比,并减少信号的失真。
包括了一些流行的基于上下文的压缩编码算法,如JPEG(图像)、MP3(音频)和H.264/AVC(视频)。
4. 神经网络压缩编码:近年来,神经网络技术在多媒体数据压缩编码领域取得了显著的进展。
这些技术利用深度学习的方法来学习多媒体数据中的复杂模式,并使用这些模式进行压缩编码。
神经网络压缩编码方法通常能够在保持较高视觉和听觉质量的同时,实现更高的压缩比。
综上所述,多媒体数据压缩编码技术是一种通过减少或去除冗余数据来减小多媒体文件的存储空间或传输带宽的过程。
该技术涵盖了无损压缩编码、有损压缩编码、基于上下文的压缩编码和神经网络压缩编码等方法。
这些技术在多媒体数据领域发挥着重要的作用,帮助人们有效地处理和传输大量的多媒体数据。
5. 图像压缩编码技术:图像压缩编码技术是多媒体数据压缩编码中的一个重要领域。
多媒体数据压缩基础
.2.3 压缩和解压速度
在许多应用中,压缩和解压可能丌同时 使用,所以压缩和解压速度分别估计。 静态图像中,压缩速度没有解压速度严 格;动态图象中,压缩、解压速度都有 要求,因为需要实时的从摄像机或VCR 中抓取动态视频
.2.4 软硬件处理能力
软硬件压缩、解压时需要有统一的标准。
软件:photoshop、kmplayer、暴风 影音 硬件:显卡、声卡
仙农-范诺编码算法需要用到下面两个基本概 念: (1)熵(Entropy) 某个事件的信息量(又称自信息)用Ii = log2 pi表示,其中pi为第i个事件的概率,0< pi ≤ 1。 信息量Ii的概率平均值叫做信息熵,或简称熵。 熵是信息量的度量方法,它表示某一事件出现 的消息越多,事件发生的可能性就越小,数学 上就是概率越小。
三、多媒体数据压缩算法
3.1熵编码
熵编码是基亍统计的,可变码长的压缩 编码方法
方法:识别一个给定的数据流中出现频 率最高的比特或字节模式,幵用比原始 比特更少的比特数来对其编码;即出现 频率多的模式,编码位数越少,而出现 频率少的模式,其编码位数越多。
.3.1.1仙农—范诺编码 仙农-范诺(Shannon-Fano)编码的目的是 产生具有最小冗余的码词(code word)。其 基本思想是产生编码长度可变的码词。码词长 度可变指的是,被编码的一些消息的符号可以 用比较短的码词来表示。估计码词长度的准则 是符号出现的概率。符号出现的概率越大,其 码词的长度越短。
多媒体数据压缩基础
本节介绍
多媒体数据压缩原理 多媒体数据压缩性能指标 多媒体数据压缩的常用算法
课后作业
1. 为什么要迚行压缩、主要的数据冗 _、 ___、__和软件、硬件的处理能力
第二章 多媒体数据压缩技术
的一个间隔,信息越长,编码表示它的间隔就
越小,表示这一间隔所需的二进制位就越多。 2、编码方法:后一个编码字符是在前面编码字符 的范围内,利用原概率分配区间重新求解该编 码字符的范围。
33
2.2.2 常用无损压缩算法
3、编码过程举例:假设信源符号为{a,e,i,o,u},
这些符号的概率分别为{ 0.2, 0.3, 0.1, 0.2, 0.2 },根据这些概率可把间隔[0, 1)分成5个子 间隔(如下图): 字符 概率 范围 a 0.2 e 0.3 i 0.1 o 0.2 u 0.2
概述
(1)数据压缩研究主要集中于图像和视频信号的压缩 (2)数据压缩是以一定的质量损失为代价, 质量损失 一般都是在人眼允许的误差范围之内。 (3)压缩处理过程:
编码过程:将原始数据经过编码进行压缩,以便存 储与传输; 解码过程:对编码数据进行解码,还原为可以使用 的数据。
18
2.1
概述
四、衡量数据压缩技术的指标
第二章 多媒体数据压缩技术
2.1
概述
2.2
常用的数据压缩技术
1
2.1 概述
一、为什么要进行数据压缩
1. 多媒体信息数据量大
例:对语音信号来说(20HZ—4KHZ) 依据采样定理,设数字化精度为8bit,则1秒
数据量为:
4k 2 8b 64kb
2
2.1 概述
对动态图像信息来说,采用代表光强、色彩和饱 和度的YIQ彩色空间,如果带宽分别为: 4.2MHZ、1.5MHZ、0.5MHZ,则1秒钟数据量为:
(1)第一个字符e被编码时: rangelow=0.2, rangehigh=0.5 low=low+range*rangelow = 0+1*0.2=0.2, high=low+range*rangehigh=0+1*0.5=0.5 Range=high-low=0.5-0.2=0.3 此时分配给e的范围为[0.2,0.5)
多媒体数据压缩编码介绍
1.空间冗余—— 规则物体的物理相关性
2.时间冗余—— 视频、动画前后画面间的相关 性
3.结构冗余—— 规则纹理、相互重叠的结构表面
4. 视觉冗余—— 视觉敏感度非均匀、非线性
224色 28色
5. 知识冗余—— 凭借经验识别
6. 信息熵冗余
也称编码冗余: 如果表示多媒体内容使用的平均比特数 大于该消息的信息熵,则信源中存在冗 余,即信息熵冗余。 例如:图像中平均每个像素使用的比特 数大于该图像的信息熵,则图像中存在 冗余,这种冗余即为信息熵冗余。
第2章多媒体数据压缩基础
2.1 数据压缩编码简介 2.2 统计编码 2.3 词典编码 2.4 预测编码 2.5 变换编码
2.1 数据压缩编码简介
2.1.1 数据压缩的必要性
●文本: 若1024×768显示分辨率、16×16点阵文字、4 Byte/字,则一屏汉字的
总数据量为: (1024/16)×(768/16)×4 = 12288 Byte (12KB)
●视频:若图像分辨率为352×240,24位色彩,帧率为25帧/秒, 则1分钟的总数据量为: 352×240 ×3 Byte×25×60s = 371250 KB (362.55MB)
○○○○●○○○○○○○○○○○○○○○○○○○●○○○○○○○ ○○○○●●○○○○○○○○○○○○○○○○○○●●○○○○○○ ○○○○○●●○○○○○●●●●●●●●●●●●●●●○○○○○ ○○○○○●●●○○○○●●●●●●●●●●●●●●●●○○○○ ○○○○○●●●○○○○●●○○○○○○○○○○●●○○○○○○ ○○○○○○●●○○○○●●○○○○○○○○○○●●○○○○○○ ○○○○○○○○○○○○●●○○○○●●○○○○●●○○○○○○ ○○○○○○○○○○●○●●○○○○●●○○○○●●○○○○○○ ●●●●●●●●●●●●●●○○○○●●○○○○●●○○○○○○ ●●●●●●●●●●●●●●○○○○●●○○○○●●○○○○○○ ○○○○○○○○●●○○●●○○○○●●○○○○●●○○○○○○ ○○○○○○○●●●○○●●○○○○●●○○○○●●○○○○○○ ○○○○○○●●●○○○●●○○○○●●○○○○●●○○○○○○ ○○○○○●●●○○○○●●○○○○●●○○○○●●○○○○○○ ○○○○●●●●○○○○●●○○○○●●○○○○●●○○○○○○ ○○○●●●●●○○○○●●○○○○●●○○○○●●○○○○○○ ○○●●●○●●●○○○●●○○○○●●○○○○●●○○○○○○ ○●●●○○●●●●○○●●○○○○●●○○○○●●○○○○○○ ●●○○○○●●○●●○●●○○○○●●○○○○●●○○○○○○ ●○○○○○●●○●●○●●○○○○●●●●○○●●○○○○○○ ○○○○○○●●○●●○●●○○○●●○●●○○●●○○○○○○ ○○○○○○●●○○○○●●○○○●●○●●○○●●○○○○○○ ○○○○○○●●○○○○○○○○○●●○●●○○○○○○○○○○ ○○○○○○●●○○○○○○○○●●○○●●○○○○○○○○○○ ○○○○○○●●○○○○○○○○●●○○●●○○○○○○●○○○ ○○○○○○●●○○○○○○○●●○○○●●○○○○○○●○○○ ○○○○○○●●○○○○○○○●●○○○●●○○○○○○●●○○ ○○○○○○●●○○○○○○●●○○○○●●○○○○○○●●○○ ○○○○○○●●○○○○○○●●○○○○●●●●●●●●●●●○ ○○○○○○●●○○○○○●●○○○○○○●●●●●●●●●○○ ○○○○○○●●○○○●●●○○○○○○○○○○○○○○○○○○ ○○○○○○●●○○●●○○○○○○○○○○○○○○○○○○○○
第4章 多媒体数据压缩技术
如上图的行程长度编码可写为:白8黑5白3黑8白6……
2023/4/20
Multimedia Technology & Application
2023/4/20
Multimedia Technology & Application
24
4.2 静态图像的压缩标准JPEG
4.2.1 JPEG标准简介 4.2.2 JPEG标准中的主要技术 4.2.3 JPEG标准的压缩过程 4.2.4 JPEG2000
2023/4/20
Multimedia Technology & Application
8
方式3:不等长编码
考查字符串中不同字符出现的概率并对其重新定义一 个编码字如表4.2所示:
则其编码的总长度为:8×1+4×3×3+2×4×2=60(bit)
2023/4/20
Multimedia Technology & Application
9
4.1.3 常用的数据压缩方法
1.行程长度(也称游程长度编码)
2023/4/20
Multimedia Technology & Application
19
5.熵编码
2) 熵编码实例——哈夫曼编码
算法可描述为: (1) 对图像中出现的不同像素值进行概率统计,得到n个不同概率的信 息符号。 (2) 按符号出现的概率由大到小、由上到下排列。 (3) 对两个最低概率符号分别以二进制0、1赋值。 (4) 两最低概率相加后作为一个新符号的概率重新置入符号序列中。 (5) 对概率按从大到小重新排列。 (6) 重复(2)~(5),直到只剩下两个概率符号的序列。 (7) 分别以二进制0、1赋值后,以此为根结点,沿赋值的顺序的逆序依 次写出该路径上的二进制代码,得到哈夫曼编码。
多媒体数据压缩编码技术
三、图像冗余度和编码效率
根据香农信息保持编码定理,假设某无干扰信息源旳熵值为H(x),假如能找到一种编码措施,其编码平均长度 存在一种下限,这个下限是信源信息熵H(x),即最佳信息保持编码旳平均码长无限接近信源熵值。若原始图像平均码长为 ,则
为灰度级i相应旳码长, 为灰度级i出现旳概率。图像旳冗余度可定义为:
第四节 数据压缩编码旳国际原则
一、静态图像压缩编码原则——JPEG 二、运动图像压缩编码原则——MPEG
一、静态图像压缩编码原则——JPEG
(一)JPEGJPEG(Joint Photographic Expert Grout)原则是由IS0旳联合摄影教授组制定旳,1986年成立教授组,1992年完毕旳原则,简称JPEG原则,用于静止图像压缩编码原则。该原则合用于多种辨别率和格式旳连续色调图像旳压缩,可将24位单帧彩色图像,压缩到2位而依然具有很好旳图像质量。
图像旳压缩与解码 图像数据一般旳都存在多种信息旳冗余,如空间冗余、信息熵冗余、视觉冗余、构造冗余等。想方法去掉多种冗余,保存真正有用旳信息,就是图像压缩。把信号进行压缩旳过程常称为图像编码,恢复原图像旳过程常称为解码。
图像压缩领域常用旳编码有: 1. 信息保持编码:主要应用于图像数字存储方面。要求:无失真编码。 2. 保真度编码 :主要应用于数字电视技术和静止图像通信方面。要求:在确保保真度旳条件下允许一定旳失真。 3. 特征提取 :主要应用于某些图像辨认和分析技术中,要求:对需要旳特征信息进行编码,就能够压缩图像数据。
二、医学数据压缩
医学图像压缩得以实施旳两个主要根据: 医学图像旳统计特征和人类视觉特征 1. 利用图像本身固有旳统计特征来降低原始医学图像数据中旳冗余信息,采用某种编码措施减小原始图像文件旳大小。 2.因为人类旳视觉系统能从极为杂乱旳图像中抽象出有意义旳信息,并以非常精炼旳信息形式传到大脑,而且视觉系统对图像中旳不同部分旳敏感程度是不同旳,能够利用人类旳视觉特征清除医学图像中对信息传播和整合影响小旳部分,获取较大旳压缩比。
常用工具软件 多媒体数据压缩及编码技术
常用工具软件多媒体数据压缩及编码技术在计算机获取原始的声音、图形图像以及视频影像时,其数据量是十分庞大的。
如果数据不进行压缩处理,存放该数据文件时将十分困难,并且即使存储下来也是比较浪费存储介质的。
例如,一张600MB的光盘也只能存储几十秒的真彩视频影像。
因此,用户需要对所获取的声音、图形图像以及视频影像数据进行压缩。
其压缩主要包含下列两种方法。
●无损压缩多媒体原始信源数据存在大量的冗余,如动态视频图像帧内像素之间的空间相关性和帧与帧之间的时间相关性都很大,故而原始信源数据有很多的冗余,采用去掉冗余的压缩方法。
●有损压缩利用人的视觉对于边缘急剧变化不敏感和对图像的亮度信息敏感、对颜色分辨率弱的特点以及听觉只能听到20Hz~20KHz等特征实现数据压缩,舍弃一些非主要的细节,从而使由压缩数据恢复的图像、声音仍有令人满意的质量的方法。
数据压缩技术的研究已经有许多年了,从PCM编码理论开始,到现在的ADPCM、JPEG、MPEG-1、MPEG-2、H.261等,已经产生了多种针对不同用途的压缩算法、实现手段和相关的数字硬件及软件。
目前,被国际社会广泛认可和应用的通用压缩编码标准大致有如下4种。
●H.261编码由CCITT(国际电报电话咨询委员会)通过的用于音频视频服务的视频编码解码器(也称Px64标准),它使用两种类型的压缩:一帧中的有损压缩(基于DCT)和用于帧间压缩的无损编码,并在此基础上使编码器采用带有运动估计的DCT和DPCM(差分脉冲编码调制)的混合方式。
这种标准与JPEG及MPEG标准间有明显的相似性,但关键区别是它是为动态使用设计的,并提供完全包含的组织和高水平的交互控制。
●JPEG编码JPEG(全称是Joint Photogragh Coding Experts Group(联合照片专家组))是一种基于DCT 的静止图像压缩和解压缩算法,它由ISO(国际标准化组织)和CCITT(国际电报电话咨询委员会)共同制定,并在1992年后被广泛采纳后成为国际标准。
浅谈多媒体数据压缩技术中的几种编码方法
浅谈多媒体数据压缩技术中的几种编码方法【摘要】本文首先分析了数据压缩的可能性和分类,介绍了编码的分类,详细阐述了常用的几种信源编码的编码方法,最后对几种编码方法进行了总结。
【关键词】数据压缩;信道编码;编码方法0 引言21世纪的人类社会是信息化的社会,数字化后的信息,尤其是数字化的视频和音频信息具有数据海量性,它给数据的存储和传输带来较大的困难,成为人类有效地获取和使用信息的瓶颈问题之一。
现如今,媒体元素种类繁多、构成复杂,即数字计算机所要处理、传输和存储等对象为数值、文字、语言、音乐、图形、动画、静态图像和电视视频图像等多种媒体元素,并且使他们在模拟量和数字量之间进行自由转换、信息吞吐、存储和传输。
目前,虚拟现实技术要实现逼真的三维空间、3D立体声效果和在实境中进行仿真交互,带来的突出的问题是媒体元素数字化后数据量大得惊人,致使海量数据存储与传送电视信号数字化后的庞大数据量成为了多媒体信息传送面临的最大难题,数据压缩是解决问题的重要途径。
1 多媒体数据压缩的可能性及分类1.1 数据压缩的可能性经研究发现,与音频数据一样,图像数据中存在着大量的冗余,通过去除那些冗余数据可以极大地降低原始图像数据量,从而解决图像数据量巨大的问题。
图像数据压缩技术就是研究如何利用图像数据的冗余性来减少图像数据量的方法。
因此,进行图像压缩研究的起点是研究图像数据的冗余性。
常见的主要数据冗余有:(1)空间冗余:在静态图像中有一块表面颜色均匀的区域,在这个区域中所有点的光强和色彩以及色饱和度都相同,具有很大的数据冗余,这种冗余称为空间冗余。
(2)时间冗余:电视图像、动画等序列图片,当其中物体有位移时,后一帧的数据与前一帧的数据有许多共同的地方,即数据不需要全部传输,这些共同的地方则是冗余,这种冗余称为时间冗余。
(3)结构冗余:在有些图像的纹理区,图像的像素值存在着明显的分布模式。
例如,方格状的地板图案等,称此为结构冗余。
多媒体数据压缩
多媒体数据压缩
多媒体数据压缩是指通过一系列算法和技术,将多媒体数据以
更小的尺寸进行存储或传输的过程。
多媒体数据主要包括图像、音
频和视频等形式。
压缩多媒体数据可以减少存储空间和传输带宽的
需求,从而提高数据的传输效率和用户体验。
常见的多媒体数据压缩方法有以下几种:
1. 图像压缩:常见的图像压缩算法有无损压缩和有损压缩两种。
无损压缩方法包括Run-length Encoding (RLE)、LZW和Huffman编
码等;有损压缩方法如JPEG使用了离散余弦变换(DCT)和量化等技术,通过牺牲一定的图像质量来实现较高的压缩率。
2. 音频压缩:音频压缩方法主要有无损压缩和有损压缩两种。
无损压缩方法如FLAC和ALAC能够将音频数据压缩到更小的文件大
小且不损失音频质量;有损压缩方法如MP3和AAC利用了人耳的听
觉特性,通过减少对听觉上不敏感的部分数据来实现较高的压缩率。
3. 视频压缩:视频压缩方法通常采用有损压缩。
常见的视频压缩标准包括MPEG-2、MPEG-4和H.264等。
视频压缩技术主要利用了时域和空域的冗余性,以及运动补偿、帧间预测等技术,通过减少冗余信息和丢弃一些不重要的细节来实现高效的压缩。
多媒体数据压缩对于互联网、移动通信、存储设备等领域都非常重要,可以大大提升数据的传输速度和存储效率。
但也会牺牲一定的数据质量,在实际应用中需要根据具体需求权衡压缩率和数据质量。
多媒体编码及压缩标准
多媒体编码及压缩标准
在当今数字化信息时代,多媒体技术已经成为人们日常生活中不可或缺的一部分。
无论是视频、音频还是图像,它们都是多媒体的重要组成部分。
然而,由于多媒体数据量庞大,为了更好地存储、传输和展示,就需要对其进行编码和压缩。
本文将就多媒体编码及压缩标准进行探讨。
首先,我们来谈谈多媒体编码。
多媒体编码是将原始的多媒体数据转换成数字
信号的过程。
在视频方面,常见的编码标准有H.264、H.265、VP9等,它们通过
对视频进行帧间预测、变换编码和熵编码等技术,实现了对视频数据的高效压缩。
而在音频方面,AAC、MP3、Opus等编码标准也起到了类似的作用。
这些编码标
准的出现,大大提高了多媒体数据的传输效率和存储空间利用率。
其次,我们要讨论多媒体压缩标准。
多媒体压缩是指通过编码技术将多媒体数
据压缩到更小的体积,以便于存储和传输。
在视频压缩方面,除了编码标准外,还有MPEG-2、MPEG-4等压缩标准,它们通过去除冗余信息和利用人眼视觉特性来
减小视频数据量。
在音频压缩方面,除了编码标准外,还有ADPCM、PCM等压
缩标准,它们通过减小采样率和量化精度来减小音频数据量。
这些压缩标准的应用,使得多媒体数据在存储和传输时占用的空间大大减小。
总的来说,多媒体编码及压缩标准在数字化信息时代起到了至关重要的作用。
它们不仅提高了多媒体数据的传输效率和存储空间利用率,还为人们的日常生活带来了便利。
随着技术的不断发展,相信多媒体编码及压缩标准会变得更加高效和先进,为人们的多媒体体验带来更多的惊喜。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
区别于霍夫曼编码:算数编码根据信源符号估计出各个 元素的概率,然后进行迭代计算;霍夫曼编码必须预先得 知信源的出现概率。
算术编码的过程
(1)设定编码区间的高端位h,编码区间的低端位为l,编 码区间的长度为len,设fh为某个编码字符所分配区间的高 端,fl为该编码字符所分配区间的低端。 (2)根据有限的信源符号估算出各元素的概率和区间。 (3)对于待编码元素b1,根据(2)估算出的概率和区间, 计算出该元素编码后新的h和l,计算公式如下: l=l+len×fl 和h=l+len×fh 得到新的区间高端、低端和区间范围len=h-l。 (4)对于下一个编码元素b2,利用上述公式重新计算h、l 和len。
熵编码-建立在随机过程的统计特性基础上
有一幅39个象素组成的灰度图像,灰度共有5级,分别 用符号A、B、C、D和E表示,39个象素中出现灰度A的 象素数有15个,出现灰度B的象素数有7个,出现灰度C 的象素数有6个等等,如下表所示。如果用3个位表示5 个等级的灰度值,也就是每个象素用3位表示,编码这 幅图像总共需要117位。 符 号 出现的次数 概率 A 15 15/39 B 7 7/39 C 6 6/39 D 6 6/39 E 5 5/39
S=(A,B,C,D,E) 符号 出现的次数(Pi) A 15(0.3846) B 7(0.1795) C 6(0.1538) D 6(0.1538) E 5(0.1282)
log2(1/pi) 1.38 2.48 2.70 2.70 2.96
分配的代码 需要位数 0 15 100 21 101 18 110 18 111 15
• 无损压缩编码:解压后数据与原始数据相同,无任何 偏差。
特点:压缩比比较低,一般在2:1~5:1。
常用编码方法:行程编码(利用相关性)、霍夫曼 编码和算术编码(利用概率分布)等。
应用:传真机,文本文件传输等。
• 有损压缩:解压后数据与原始数据有一定偏差,但 仍可以保证一定的视听效果。 特点:压缩比最高可达100:1,压缩比越高,解压 后视频、音频质量越差。
i 1 i 1 n n
无损பைடு நூலகம்缩编码方法
无损编码(无失真编码):又称统计编码, 包括行程编码、LZW编码、霍夫曼编码、 算术编码等。 根据信息出现的概率的分布特性而进行的 压缩编码。 • A: 行程编码RLC:主要检测重复的比特 或者字符序列,并用他们出现的次数取而 代之,它计算信源符号出现的行程长度, 然后将行程长度转换为代码。
图7-1 LZW 编码过程
举例:如果有一个输入的字符流abacaba。
读取第1个字符a,a可以在编译表中找到,修改“前缀=a”; 读取第2个字符b,这时的ab在编译表中找不到,那么添加#4=ab到编 译表,同时输出前缀码(也就是 a )的索引 #0 到编码流,修改“前缀 =b”; 读取第3个字符a,这时的ba在编译表中找不到,添加编译表#5=ba, 输出前缀码(b)的索引#1到编码流,修改“前缀=a”;
B. LZW编码
LZW( Lempel Ziv Welch)压缩编码是一种压缩 效率较高的无损数据压缩技术。该技术取得了LZW专 利,被广泛用于图像压缩领域。
LZW压缩基本原理 LZW压缩的基本原理是:LZW压缩把每一个第 一次出现的字符串用一个数值来编码,在还原程 序中再将这个数值还成原来的字符串。
对于可预测性不大的数据具有较好的处理效果.
LZW压缩编码过程
LZW压缩过程中主要处理:
输入流,即为原始图像数据流;
输出流,压缩所生成的代码流;
字符串表,记录代码与数据的转换 关系,是压缩算法的核心。
• 一般一个字符串表项大于255但小于512,这 时我们可以使用9 bit 的代码。
LZW压缩程序工作时,根据内存大小 开辟了两个缓冲区: 当前前缀码(Current Prefix)缓 冲区,用于存放上一次处理的代码; 当前串(Current String)缓冲区, 用于存放前缀码所代表的字符串,并 把两种字符串连接在一起。
评价一种数据压缩技术的性能好坏有三个关键指标:压 缩比、再现质量、压缩和解压的速度。此外,还要考虑 压缩算法所需要的软件和硬件。
压缩比:输入数据量/输出数据量 再现质量:与压缩类型有关
无损压缩系统不担心图像(音频)质量; 有损压缩系统压缩前后图像(音频)不完全一样, 但不影响视(听)觉。
压缩和解压的速度:速度越快越好
常用编码:预测编码、变换编码、矢量量化编码、 分层编码、子带编码等
应用:图像、声音、动态视频的压缩。 多媒体技术侧重于有损压缩,并出台了一系列的国际 标准
图像统计特性
• 图像的信息量
信源符号Si概率:
0 p( Si ) 1, p(Si ) 1
i 1 n
符号Si的信息量: I (Si ) log2 (1/ p(Si )) log2 p(Si )
l=l+len×fl=0.5+(0.7-0.5)×0=0.5 h=l+len×fh=0.5+(0.7-0.5)×0.1=0.52
新的间隔就取[0.5, 0.7]的第一个十分之一[0.5,0.52]。 依此可得到所有新的间隔,见表7-1编码过程。消息的编 码输出可以是最后一个间隔中的任意数,如从 [0.5143876, 0.514402]中选择一个数输出:0.5143887。
本例中,N稍大于H,是最佳: N=1* 0.3846+3*( 0.1795+ 0.1538+ 0.1538+ 0.1282) =2.2305 总结: (1)N要稍大于H
(2)保证解码唯一性,短码不构成长码前缀,编码不唯一。
(3)接收端与发送端保存相同霍夫曼码表,编码效率一致。
•C: 算术编码:
算术编码是另一种最佳编码方式,它与霍夫曼编码一样,也是对 出现概率较大的符号采用短码,对概率较小的符号采用长码。但 是它的编码原理却与霍夫曼编码很不相同,也不局限于仅使用整 数码,编码效率比霍夫曼编码高。常用于图像数据压缩标准(如 JPEG,JBIG)中。 •基本思想:把一个信源集合表示为实数线上的0到1之间的一个 区间,这个集合中的每个元素都用来压缩这个区间。信源集合的 元素越多,所得到的区间就越小,当区间变小时,就需要一些更 多的数位来表示这个区间。算术编码首先假设一个信源的概率模 型,然后用概率来缩小表示信源的区间。 •二进制编码,信源符号只有两个。因此在算术编码初始阶段可 预置一个大概率Pe和小概率Qe,然后对被编码比特流符号进行 判断。设编码初始化子区间为[0,1],Qe从0算起,则Pe=1-Qe. 随着被编码数据流符号的输入,子区间逐渐缩小。
• 离散信源
S1, S2 , ..., Sn X p(S ), p(S ), ..., p(S ), 2 n 1
p ( Si ) 1
i 1
n
• 图像的信息熵
H ( X ) p( Si ) I ( Si ) p( Si ) log 2 p( Si ) 1
读下一个字符c,这时的ac在编译表中找不到,添加#6=ac到编译表, 输出前缀码(a)的索引#0到编码流,修改“前缀= c”;
读下一个字符 a,这时的ca在编译表中找不到,添加#7=ca到编译表, 输出前缀码(c)的索引#2到编码流,修改“前缀=a”;
读下一个字符b,这时的ab可找到编译表的#4=ab,修改“前缀=ab”;
动态视频15帧/s,全动态视频25帧/s和30帧/s。
客观尺度:均方误差、信噪比(SNR)、峰值信噪 比(PSNR)
3、数据冗余的类型与压缩方法分类
A:数据冗余的类型 空间冗余、时间冗余、信息熵冗余、视觉冗余、听 觉冗余和其他冗余 B:数据压缩方法的分类
根据解压后数据压缩的保真度,数据压缩技术分为 无损压缩编码和有损压缩编码两大类。
就是说,表中的第i项是由字符串<i>组成, 并对应着代码值<i。假如我们有一个字母 表a、b、c、d,那么初始化字符串表就是: #0=a,#1=b,#2=c,#3=d。可以看出,其中 第1、2、3、4项对应着代码值分别为0、1、 2、3。表的第<256>项和第<257>项分别用 于清零和结束代码,以便于确定每个编码 条文的开始和结束。而加入字串表的第一 个多字符项是从代码值<258>位置开始的。
(5)重复上述过程以得到新的间隔值。迭代次数越多,区 间越小,所需表示区间的数据位数越多。
如果有一个二进制消息序列的输入为:10 00 11 00 10 11 01。其中第一个输入符号是10,它的编码区间范围是 [0.5, 0.7]。第二个符号00的编码区间范围是[0, 0.1), 根据计算公式:
读取最后一个字符 a,这时的aba在编译表中找不能,添加#8=aba到 编译表,输出前缀码(ab)的索引#4到编码流,修改“前缀=a”;
没有数据了,输出前缀码(a)的索引#0到编码流,最后的输出结果 就是:#0#1#0#2#4#0。
•B:
霍夫曼编码
霍夫曼(Huffman)在1952年提出了对统计独立信源能达到最 小平均码长的编码方法。霍夫曼码通常称为最优码。 编码的基本思想:是根据信源符号出现的概率大小进行排 序,出现的概率大的符号分配短码,反之分配长码。在分 配代码过程中,需要建立一个n阶二叉树。 编码过程如下: ①对信源符号按其出现的概率进行递减排序; ②将两个最小的概率相加,其和作为新符号的概率; ③重复①和②,直到概率之和达到1为止; ④每次合并消息时,将被合并的消息赋予1和0或者0和1; ⑤寻找从每个信源符号到概率为1处的路径,记录下路径上 的 1和 0; ⑥从树根节点到叶子节点,对每个信源符导列出0、1序列。
第6讲 多媒体数据压缩 和信息编码
内 容 提 要
多媒体数据压缩基本特征和方法