音视频编码技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

音视频编码技术报告

姓名: 学号:

学院(系):电子与信息工程学院

专业: 电子与通信工程

题目: 基于DCT变换的图像压缩技术的仿真

1.引言

在信息世界迅猛发展的今天, 人们对计算机实时处理图像信息的要求越来越高。如何在保证图像质量的前提下, 同时兼顾实时性和高效性成了一个值得关注的问题。于是, 对图像信息进行一定的压缩处理成为了一个不可或缺的环节。图像压缩是关于用最少的数据量来表示尽可能多的原图像的信息的一个过程。

本文主要研究基于DCT 变换的有损压缩编码技术。离散余弦变换, 简称DCT , 是一种实数域变换, 其变换核为余弦函数, 计算速度快。DCT 除了具有一般的正交变换性质外, 它的变换阵的基向量能很好地描述人类语音信号和图像

信号的相关特征。因此, 在对语音信号、图像信号的变换中,DCT 变换被认为是一种准最佳变换。近年颁布的一系列视频压缩编码的国际标准建议中, 都把DCT 作为其中的一个基本处理模块。而且对于具有一阶马尔柯夫过程的随机信

号,DCT 十分接近于Karhunen -Loeve 变换, 也就是说它是一种最佳近似变换。

2.图像压缩编码的简介

从信息论的角度看,图像是一个信源。描述信源的数据是信息量和信息量冗余之和。数据压缩实际上就是减少这些冗余量。图像编码压缩的方法目前有很多,其分类方法根据出发点不同而有差异。根据解压重建后的图像和原始图像之间是否具有误差(对原图像的保真程度),图像编码压缩分为无误差(亦称无失真、无损、信息保持)编码和有误差(有失真或有损)编码两大类。

无损压缩(冗余度压缩、可逆压缩):是一种在解码时可以精确地恢复原图像,没有任何损失的编码方法,但是压缩比不大,通常只能获得1~5倍的压缩比。用于要求重建后图像严格地和原始图像保持相同的场合,例如复制、保存十分珍贵的历史、文物图像等。

有损压缩(不可逆压缩):只能对原始图像进行近似的重建,而不能精确复原,适合大数工用于存储数字化了的模拟数据。压缩比大,但有信息损失,本文采用有损压缩。

DCT图像压缩编码可以概括成图2.1的框图。

图2.1 DCT压缩编码过程简化

3.DCT变换

最小均方误差下得到的最佳正交变化是K-L变换,而离散余弦变换(DCT)是仅次于K-L变换的次最佳变换,目前已获得广泛应用。离散预先变换DCT用于图像压缩操作中的基本思路是,将图像分为8×8的子块或16×16的子块,并对每一个子块进行单独的DCT变换,然后对变换结果进行量化、编码。

DCT 压缩编码是一种正交变换,将二维图像变换为空间频谱,按从低频到高频的顺序重排。由于图像频谱从低到高逐渐衰减,故可以在一定量化等级下进行舍弃,从而达到压缩的目的。DCT 广泛应用于众多压缩方案的原因在于其理论、算法和硬件相对成熟,去相关性好,计算量不大,易于实现。

3.1. 一维DCT 算法

长度为N 的一维序列{x(n):n=0,1,...,N-1}的DCT 定义为:

∑-=+πα=10]4)12(2cos[)(2)()(N n N

n k n x N k k X k =0,1..,N-1 其中,⎩⎨⎧===α11021)(k k k 为正交化因子,它是为了保证变换基的规

范正交性引入的。

一维DCT 反变换为:

1,...,1,0]4)12(2cos[)()(2)(10-=+πα=∑-=N n N n k k X k N n x N k

以N 维矢量x 表示原始数据,N 维矢量表示DCT 变换系数,就有: x u X ][=

x u x T ][=

变换矩阵[u]为:

⎥⎥⎥⎥⎥⎥⎥⎦

⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡π--π-π-ππ-π=N N N N N N N N N N N N u 2)1)(1(2cos 2)12(cos 212)1(3cos 23cos 212)1(cos 2cos 212][ 反变换矩阵IDCT 矩阵[u ]T 除了行、列号互换外,形式上与[u ]完全相同。

3.2. 二维DCT 算法

二维数据{x(n,m);n=0,1,...,N-1,m=0,1,...,M-1}的DCT 变换定义为:

M

m l N n k m n x MN l k l k X N n M m 2)12(cos 2)12(cos ),(2)()(),(1010+π+παα=∑∑-=-=1,,1,0;1,,1,0-=-=M l N k

二维IDCT 为:

N

n l M m k l k X l k MN n m x M k N l 2)12(cos 2)12(cos ),()()(2),(1010+π+παα=∑∑-=-=

1,,1,0;1,,1,0-=-=M m N n

其中,)(k α,)(l α定义与一维DCT 变换中的)(k α定义相同,用矩阵的形式表示为:

X =[u ]x [v ]T

x =[u ]T X [v ]

二维DCT 的变换是可分离的,即二维DCT 可以分解成行方向的一维DCT 和列方向的一维DCT ,可用两次一维DCT 实现二维DCT 。

4. Hilbert 扫描

4.1. 概述

变换编码一般有二维变换编码和一维变换编码两种方式。二维变换编码,分别对行列进行变换,不需要扫描,它压缩效果较好,但运算量大,对一个N ×N 块要进行N 8次乘法。为减少运算量,图像的子块不能太大,但子块越小,压缩比越小;一维变换编码先对图像块矩阵扫描生成一维向量,然后变换,虽然压缩效果没有二维变换的好,但运算量较小。对一个N ×N 块,一维DCT 变换只要进行N 6次乘法。在图像较大分块较多时,二维变换比一维变换的压缩和解压花费的时间都要多。因此需要研究对一维变换编码影响较大的扫描技术。

图像扫描技术中,首先需要尽量减少生成数据的波动性。由于Zigzag 扫描是一种普遍的扫描方式,本报告中不再详细叙述。后面将着重介绍Hilbert 扫描。基于图像存在局部连续性,同步步长平均距离越小,产生的数据波动性越小,因此Hilbert 扫描要由于其他传统扫描。在DCT 压缩编码中使用这种扫描方式,可以在不减少压缩比,不增加计算量等前提下,达到较好的压缩效果。

4.2. Hilbert 扫描和Zigzag 扫描的比较

图4.1、4.2分别是Zigzag 扫描和Hilbert 扫描的方法:

图4.1 Z 字形扫描和Hilbert 扫描

设m,n 是扫描序列中的两个虚数,}2,,2,1{,2k n m ∈。称|m-n |为步长。定义扫描曲线上两点距离为22)()(),(n m n m j j i i n m d -+-=。L 步长的平均距离定义

相关文档
最新文档