视频图像帧内编码实验1

合集下载

视频编码技术-PPT

第3章视频编码技术
1.视频信号的数字化 2.视频文件格式 3.视频压缩编码原理 4.视频压缩标准
学习目标
掌握视频数字化方法了解视频文件格式掌握视频压缩编码原理（预测编码、变换编
码、统计编码原理）
理解视频压缩标准（ MPEG标准）
3.1 视频信号的数字化
1.视频相关的基本概念
所谓视频（video frequency ），连续的图像变化每秒超过24帧（frame）画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果，这样连续的画面叫做视频。即视频是由一系列单独的静止图像组成，其单位用帧或格来表示；
（1）本地影像视频格式
－MOV格式，美国Apple公司开发的一种视频格式，默认的播放器是苹果的QuickTime Player。具有较高的压缩比率和较完美的视频清晰度等特点，但其最大的特点还是跨平台性，即不仅能支持Mac OS，同样也能支持Windows系列。
Avid Media composer非线性编辑软件支持该格式。
同步信号
)
地(色度)
S-Video四芯插头（座）
地(亮度)
2.视频的采集及数字化
视频采集卡的接口
莲花接头
2.视频的采集及数字化
视频采集卡的接口 IEEE1394接口
IEEE1394是一种外部串行总线标准，800Mbps的高速。1394接口具有把一个输入信息源传来的数据向多个输出机器广播的功能，特别适用于家庭视听的连接。由于该接口具有等时间的传送功能，确保视听AV设备重播声音和图像数据质量，具有好的重播效果。
人眼在观察景物时，光信号传入大脑神经，需经过一段短暂的时间，光的作用结束后，视觉形象并不立即消失，而能继续保留其影像0.1-0.4秒左右，这种现象被称为视觉暂留现象。

视频编码

视频编码多媒体数据量大的特点给多媒体存储和传输带来了很大的障碍，多媒体数字压缩技术的出现使多媒体存储和传输成为可行。

压缩编码技术主要利用了数据之间的冗余、人类的心理感知的冗余等原理，使人们在降低多媒体数据大小的情况下，还能够获得很好的音视频质量。

视频编码属于压缩编码，它将原始视频进行编码从而获得一定压缩比和质量的编码后视频。

目前视频编码标准主要有MPEG-1、MPEG-2、MPEG-4，以及可视电话会议电视的H.261、H.264等等，采用的一些压缩技术有分层编码、多描述编码等等。

⏹MPEG-4标准与编码器XVIDMEPG-4的目标是针对极低码率（<64kbps），这是视频压缩标准的最后一个比特率范围。

MPEG-4与MPEG-1、MPEG-2的最根本区别是，MPEG-4是基于内容的压缩编码方法，它将一幅图像按内容分割成子块，将感兴趣的物体从场景中截取出来，进行编码处理，同时基于内容或物体截取的子块内信息相关性强，可以产生高压缩比效果。

另外，基于物体的子块，其运动的估计和表示就有可能使用物体的刚性运动或非刚性运动模型来描述，它比基于宏块的描述要高效的多。

MPEG-4具有高压缩性、基于内容交互以及基于内容分级扩展，具有基于内容方式表示的视频数据。

它引入了视频物体（VO）和视频物体平面（VO Plane）等概念来实现基于内容表示。

基于内容分级扩展使用了分层可扩展和精细可扩展编码FGSC技术，它将视频分为基本层和增强层，在基本码率之上的任何带宽增加都可以得到视频质量的改善，这对适应网络状态随时变化的特性十分有益。

Xvid是一种视频编解码器（codec），它是一款开放源代码的MPEG-4视频编解码器，创建于2001年，通过GPL协议发布。

Xvid关注MPEG-4视频压缩，早期的Xvid version0.9x版本实现了MPEG-4 simple profile(SP)的编解码，而在1.0版本中引入了MEPG-4 的advanced simple profile(ASP),其中包括了所有高级编码工具，如1/4像素运动补偿和GMC等等。

实验一 PAL格式图像的实时采集和显示..

在每场的312.5 行中，有一些行要用作场消隐，是不包含视频信号的，按照CCIR656标准规定的行编号方法，奇场的行号为第1 至 312.5 行，偶场的行号为第312.5 至625 行，其中，奇场的第23.5 至 310 行包含有效的视频信号，共287.5 行，偶场的第336 至622.5行包含有效的视频信号，共287.5 行。所以一帧中有效的总行数为576 行，由最上面的半行加上中间的574 行加上最下面的半行组成。
6
Leading Digital Signal Processing
北京交通大学电子信息学院
奇数场和偶数场
7
Leading Digital Signal Processing
北京交通大学电子信息学院
8
Leading Digital Signal Processing
北京交通大学电子信息学院
（3）视频图像
北京交通大学电子信息学院
（二）实验原理
（1）数字图像数字图像是模拟图像经过数字化转换并可以用数字表示、处理的图像。数字图像由象素点组成，其中横向的点数称为水平分辨率，纵向的为垂直分辨率，一幅完整的图分为若干行，称为一帧图像。每个象素根据量化精度不同其取值也不同，例如可以用三个色彩分量RGB来表示一个彩色点，每个分量采用一个8 位二进制数表示。 (200,100,64)描述的点的红色分量为200，绿色分量100，蓝色分量 64，其中每个分量的取值均为0~255 ，表示从最暗到最亮256个等级。
9
Leading Digital Signal Processing
北京交通大学电子信息学院
一个行周期的黑白全电视信号
彩色电视系统的水平消隐间隔
10
Leading Digital Signal Processing

实验一 PAL格式图像的实时采集和显示

在电视机中，彩色视频信号首先分解为亮度信号Y 和色度信号，色度信号再分解为U色差信号和V 色差信号，最后由YUV 三个分量经过矩阵运算变换为RGB 信号，以便在显像管上显示。
模拟视频信号每秒25 帧，每帧周期40ms，而每帧又分为2 场，每场20ms，先输出的是奇场，然后是偶场。
把模拟视频信号解码为YUV 分量后，分别进行A/D 量化采样，转换为数字视频流，时间上也是按上面的顺序依次输出。
复合电视信号通常采用BNC 插头。
14
Leading Digital Signal Processing
北京交通大学电子信息学院
（3）视频图像
复合视频信号复合视频（Composite Video）信号定义为包括亮度和色度的单
路模拟信号，也即从全电视信号中分离出伴音后的视频信号。这时的色度信号还是间插在亮度信号的高端。由于复合视频的亮度和色度是间插在一起的，在信号重放时很难恢复完全一致的色彩。这种信号带宽较窄，一般只有水平240线左右的分解率。复合视频输入和输出端（Video In，Video Out）可以直接输入和输出解调后的视频信号。视频信号已不包含高频分量，处理起来相对简单。
实验一 PAL格式图像的实时采集和显示
1
Leading Digital Signal Processing
北京交通大学电子信息学院
（一）实验目的
（1）了解视频编码的基本知识（2）熟悉视频显示程序的结构、组成、视频数据的处理流程（3）浏览源程序代码并对其进行详细分析
2
Leading Digital Signal Processing
CCIR656 建议：规定视频数据的量化值中的0 和255 保留不用，而量化数据串行输出的顺序是：U0、Y0、V0、Y1，U2，Y2，V2， Y3，U4，Y5，V4，Y6，如此循环。

视频编码之I帧、P帧、B帧

视频编码之I帧、P帧、B帧
视频传输原理
视频是利⽤⼈眼视觉暂留的原理，通过播放⼀系列的图⽚，使⼈眼产⽣运动的感觉。

单纯传输视频画⾯，视频量⾮常⼤，对现有的⽹络和存储来说是不可接受的。

为了能够使视频便于传输和存储，⼈们发现视频有⼤量重复的信息，如果将重复信息在发送端去掉，在接收端恢复出来，这样就⼤⼤减少了视频数据的⽂件，因此有了H.264视频压缩标准。

在H.264压缩标准中I帧、P帧、B帧⽤于表⽰传输的视频画⾯。

I帧⼜称帧内编码帧，是⼀种⾃带全部信息的独⽴帧，⽆需参考其他图像便可独⽴进⾏解码，可以简单理解为⼀张静态画⾯。

视频序列中的第⼀个帧始终都是I帧，因为它是关键帧。

2、P帧
P帧⼜称帧间预测编码帧，需要参考前⾯的I帧才能进⾏编码。

表⽰的是当前帧画⾯与前⼀帧（前⼀帧可能是I帧也可能是P帧）的差别。

解码时需要⽤之前缓存的画⾯叠加上本帧定义的差别，⽣成最终画⾯。

与I帧相⽐，P帧通常占⽤更少的数据位，但不⾜是，由于P帧对前⾯的P 和I参考帧有着复杂的依耐性，因此对传输错误⾮常敏感。

B帧⼜称双向预测编码帧，也就是B帧记录的是本帧与前后帧的差别。

也就是说要解码B帧，不仅要取得之前的缓存画⾯，还要解码之后的画⾯，通过前后画⾯的与本帧数据的叠加取得最终的画⾯。

B帧压缩率⾼，但是对解码性能要求较⾼。

总结：
I帧只需考虑本帧；P帧记录的是与前⼀帧的差别；B帧记录的是前⼀帧及后⼀帧的差别,能节约更多的空间,视频⽂件⼩了,但相对来说解码的时候就⽐较⿇烦。

因为在解码时,不仅要⽤之前缓存的画⾯,⽽且要知道下⼀个I或者P的画⾯,对于不⽀持B帧解码的播放器容易卡顿。

图像编码中的哈夫曼编码技术解析(一)

图像编码是一种广泛应用于数字图像处理中的技术。

其中，哈夫曼编码作为一种优秀的编码算法，被广泛应用于图像压缩领域。

本文将对哈夫曼编码技术在图像编码中的应用进行详细解析。

一、哈夫曼编码的原理哈夫曼编码是一种变长编码算法，它通过将出现频率较高的字符用较短的编码表示，而将出现频率较低的字符用较长的编码表示，从而实现对数据的高效编码。

在图像编码中，每个像素点都可以看作是一种字符，其灰度值即表示该字符的频率。

二、图像编码的需求在图像编码中，我们往往需要将图像的原始数据进行压缩，以便存储和传输。

而压缩的核心思想就是通过减少冗余信息来减少数据的存储和传输量。

哈夫曼编码正是解决这一需求的有效方法之一。

三、基于哈夫曼编码的图像编码方案在图像编码中，我们可以将哈夫曼编码应用于两个方面：图像压缩和图像解压缩。

1. 图像压缩在图像压缩中，我们首先需要对图像进行离散余弦变换（Discrete Cosine Transform, DCT），将图像从空域变换到频域。

然后，我们将变换后的图像进行量化，将高频部分进行舍弃。

接下来，我们将量化后的图像进行分块，并统计每个像素值出现的频率。

最后，利用哈夫曼编码算法对出现频率进行编码，生成一个哈夫曼编码表。

这个编码表包含了每个像素值对应的变长编码，从而实现了对图像数据的高效压缩。

2. 图像解压缩在图像解压缩中，我们首先需要读取压缩后的图像文件，并解析出哈夫曼编码表。

然后，我们根据哈夫曼编码表对压缩数据进行解码，恢复出原始的像素值。

接下来，我们对解码后的数据进行逆量化和逆离散余弦变换，将图像从频域变换到空域。

最后，我们将逆变换后的图像数据进行重建，得到原始的图像。

四、哈夫曼编码的优势和应用哈夫曼编码作为一种变长编码算法，与传统的定长编码相比，具有如下优势：1. 数据压缩率高：哈夫曼编码可以根据字符的频率灵活选择编码长度，从而大大减少了数据的存储和传输量，实现了高效的数据压缩。

2. 无损压缩：哈夫曼编码是一种无损压缩算法，可以保证压缩后的数据与原始数据完全一致。

视频编码与HEVC中帧内编码的简要介绍

视频编码与HEVC中帧内编码的简要介绍作者：李晨曦来源：《数码设计》2019年第09期摘要：视频编码又称视频压缩。

随着多媒体时代与网络时代的到来，用户对数字媒体的要求越发提高。

由于未经压缩的视频数据过于庞大，视频压缩技术应运而生并随着软硬件设备的迭代而逐渐进化。

本文以H.264/AVC编码器原理为基础简单介绍了视频编码的基本原理，并与新一代视频编码标准H.255/HEVC的帧内编码模块进行了比较。

关键词：视频编码;HEVC;H.264;帧内编码中图分类号：TP13;;;;; 文献标识码：A;;;;; 文章编号：1672-9129（2019）09-0056-03A brief introduction of video coding and intra coding in HEVCChenxi Li（School of Computer Science， Southwest Petroleum University， Chengdu Sichuan 610500， China）Anstract： Video coding is also known as video compression. With the advent of the multimedia and network era， users' demands for digital media have increased. Since uncompressed video content is too large， video compression technology has emerged and evolved with the iteration of hardware and software. This paper briefly introduces the basic principle of video coding and compares it with the intra-frame coding module of the new generation video coding standardH.265/HEVC.Key words： Video coding; H.264/AVC; H.265/HEVC; intra coding1; 视频压缩简介隨着多媒体时代的到来，用户对视频质量与传输速度的要求也越来越高。

一种新的用于屏幕图像编码的HEVC帧内模式

一种新的用于屏幕图像编码的HEVC帧内模式陈先义;赵利平;林涛【摘要】由于传统编码方式对屏幕图像的编码效果不佳，该文根据屏幕图像包含大量非连续色调内容的特点，在HEVC(High Efficiency Video Coding)基础上，提出一种新的帧内编码模式称为帧内串匹配(Intra String Copy, ISC)。

基本思想是在HEVC的编码单元(Coding Unit, CU)级别上，引入字典编码工具：编码时，在一定长度的字典窗口内，利用散列表，对当前CU内的像素，进行串搜索和匹配；解码时，根据像素串匹配的距离和匹配长度，在重建缓存内复制相应位置像素重建当前CU像素。

实验结果表明，在编码复杂度增加很少的情况下，对于典型的屏幕图像测试序列，在全帧内(All Intra, AI)，随机接入(Random Access, RA)，低延迟(Low-delay B, LB)3种配置下，有损编码模式比HEVC分别节省码率15.1%,12.0%,8.3%，无损编码模式分别节省码率23.3%,14.9%,11.6%。

%Because of the poor effect of the traditional coding methods on the screen content coding, considering the screen content is rich in non-continuous tone content, a new intra coding mode based on High Efficiency Video Coding (HEVC), which is called Intra String Copy (ISC), is proposed. The basic idea is adopting the dictionary coding tool on the HEVC Coding Unit (CU) level. When encoding, the current CU pixels are searched and matched in a certain length dictionary window by using Hash table. When decoding, according to the pixels string matching distances and lengths, the current CU pixels in the reconstruction cache are restored by copying the corresponding position pixels. Experiment results show that with little coding complexity increase than HEVC, for typical screen contenttest sequences, ISC can achieve lossy coding bit-rate saving of 15.1%, 12.0%, 8.3% for All Intra (AI), Random Access (RA), and Low-delay B (LB) configurations, respectively, and lossless coding bit-rate saving of 23.3%, 14.9%, 11.6% for AI, RA, and LB configurations.【期刊名称】《电子与信息学报》【年(卷),期】2015(000)011【总页数】6页(P2685-2690)【关键词】高效视频编码;屏幕图像编码;字典编码;散列表【作者】陈先义;赵利平;林涛【作者单位】同济大学超大规模集成电路研究所上海 200092;同济大学超大规模集成电路研究所上海 200092; 嘉兴学院数理与信息工程学院嘉兴 314000;同济大学超大规模集成电路研究所上海 200092【正文语种】中文【中图分类】TN919.8随着云计算、移动云计算、远程桌面和无线显示技术的发展，如何在低码率下使屏幕图像在电脑屏幕、手机屏幕、电视屏幕和其它客户端上高质量地显示，吸引了学术界和工业界的关注。

一种新的用于屏幕图像编码的HEVC帧内模式

ｓｃｒｅｅｎｃｏｎｔｅｎｔｉｓｒｉｃｈｉｎｎｏｎ－ｃｏｎｔｉｎｕｏｕｓｔｏｎｅｃｏｎｔｅｎｔ，ａｎｅｗｉｎｔｒａｃｏｄｉｎｇｍｏｄｅｂａｓｅｄｏｎＨｉｇｈＥｆｉｃｆｉｅｎｃｙＶｉｄｅｏ
ｉｎａｃｅｒｔａｉｎｌｅｎｇｔｈｄｉｃｔｉｏｎａｒｙｗｉｎｄｏｗｂｙｕｓｉｎｇＨａｓｈｔａｂｌｅ．Ｗｈｅｎｄｅｃｏｄｉｎｇ，ａｃｃｏｒｄｉｎｇｔｏｔｈｅｐｉｘｅｌｓｓｔｒｉｎｇｍａｔｃｈｉｎｇ
典窗口内，利用散列表，对当前Ｃｕ内的像素，进行串搜索和匹配；解码时，根据像素串匹配的距离和匹配长度，
在重建缓存内复制相应位置像素重建当前ＣＵ像素。实验结果表明，在编码复杂度增加很少的情况下，对于典型的
屏幕图像测试序列，在全帧内（ＡｌｌＩｎｔｒａ，ＡＩ），随机接）ｋ（Ｒ￣ｄｏｍＡｃｃｅｓｓ，ＲＡ），低￣ｉｇ（Ｌｏｗ — ｄｅｌａｙＢ，ＬＢ）３种配
置下，有损编码模式比ＨＥＶＣ分别节省码率１５．１％，１２．０％，８．３％，无损编码模式分别节省码率２３．３％，１４．９％，１１．６％。关键词：高效视频编码；屏幕图像编码；字典编码；散列表
中图分类号：ＴＮ９１９．８

如何进行视频编码的运动模式分析与检测(一)

视频编码技术是将视频信号进行压缩以减小文件大小和提高传输效率的一种技术。

在视频编码中，运动模式分析与检测是其中一个重要的步骤。

本文将从基本概念、运动估计算法、运动检测方法以及应用方面进行分析与讨论。

一、基本概念1. 运动模式：视频中物体的运动状态可以用运动模式来描述，常见的运动模式包括静止、匀速、加速、减速等。

2. 运动矢量：运动矢量是描述运动模式的一种数学表示，用于表示物体在图像上的移动距离和方向。

3. 帧间编码：帧间编码是一种视频压缩技术，通过对连续视频帧之间的差异进行编码，进而减少数据的冗余性。

二、运动估计算法1. 块匹配法：块匹配法是一种常用的运动估计算法。

它将图像分为多个块，通过在参考帧和当前帧中找到最佳匹配块来计算运动矢量。

2. 光流法：光流法是通过分析像素间的亮度变化来计算运动矢量。

光流法利用了连续帧之间像素的亮度一致性约束，得到了更精确的运动估计结果。

3. 形状一致性法：形状一致性法是基于物体的形状信息来进行运动估计的方法。

它对每个对象的边界进行分析，通过比较形状的相似性来计算运动矢量。

三、运动检测方法1. 基于像素的运动检测：基于像素的运动检测方法是根据像素的亮度变化来判断物体的运动状态。

当像素的亮度超过一定的阈值时，认为该像素存在运动。

2. 基于特征点的运动检测：基于特征点的运动检测方法使用物体的特征点（如角点、边缘等）来进行运动检测。

通过比较特征点在连续帧之间的位置变化，可以推测物体的运动状态。

3. 基于背景差分的运动检测：基于背景差分的运动检测方法将当前帧与背景帧进行比较，利用像素的差异来判断是否存在运动。

四、应用方面1. 视频编码压缩：运动模式分析与检测可以用于视频编码的压缩过程，通过对图像中运动物体的运动矢量进行编码，减少冗余数据，从而实现更高效的压缩。

2. 视频监控与安防：运动模式分析与检测可以应用于视频监控和安防系统中。

通过检测视频中异常的运动模式，可以快速发现异常事件，提高安全性。

图像编码常用方法介绍(一)

图像编码是一项复杂的技术，用于将图像转换为数字形式，以便在计算机系统中存储和传输。

它在许多应用领域中都有重要的作用，如数字摄影、视频通信和医学图像处理。

本文将介绍一些常用的图像编码方法。

一、基于压缩的图像编码方法1. 无损压缩无损压缩是一种将图像数据压缩至较小大小，同时保持原始图像质量的方法。

在无损压缩中，图像数据被压缩成原始数据的一个完全可逆的表示。

这种方法适用于需要保留图像细节的应用，如医学影像和特殊图像分析。

常用的无损压缩算法包括无损JPEG和无损预测编码。

2. 有损压缩有损压缩是一种将图像数据压缩至较小大小，但会引入一定程度的信息丢失的方法。

它在图像质量和压缩比之间进行权衡，并提供了更高的压缩比。

有损压缩主要用于媒体存储和传输，如数字摄影和视频通信。

目前最常用的有损压缩方法是JPEG、JPEG 2000和WebP。

二、基于变换的图像编码方法1. 离散余弦变换（DCT）离散余弦变换是一种常用的图像压缩方法。

它通过将图像分解为一系列频域成分来压缩图像数据。

这些频域成分经过量化后可以被编码和存储。

JPEG就是基于DCT的一种压缩算法。

DCT压缩保留了图像中的主要信息，但会引入一些失真。

2. 波形编码（Wavelet Coding）波形编码是另一种常用的图像编码方法。

它使用离散小波变换将图像分解成低频和高频系数。

低频系数保留了图像的整体结构和主要特征，而高频系数则捕捉了图像的细节。

这种方法在图像压缩方面具有出色的性能，例如JPEG 2000就是一种基于小波编码的图像压缩标准。

三、基于预测的图像编码方法1. 差分编码（DPCM）差分编码是一种基于预测的图像编码方法。

它利用当前像素的预测值和实际值之间的差异来表示图像数据。

通过对差异进行编码和量化，可以实现图像数据的压缩。

DPCM利用了图像中像素之间的相关性，对于高度相关的图像具有较好的压缩效果。

2. 运动补偿编码（Motion Compensation）运动补偿编码是一种在视频编码中广泛使用的方法。

自适应分割的视频点云多模式帧间编码方法

自适应分割的视频点云多模式帧间编码方法陈建 1, 2廖燕俊 1王适 2郑明魁 1, 2苏立超3摘要基于视频的点云压缩(Video based point cloud compression, V-PCC)为压缩动态点云提供了高效的解决方案, 但V-PCC 从三维到二维的投影使得三维帧间运动的相关性被破坏, 降低了帧间编码性能. 针对这一问题, 提出一种基于V-PCC 改进的自适应分割的视频点云多模式帧间编码方法, 并依此设计了一种新型动态点云帧间编码框架. 首先, 为实现更精准的块预测, 提出区域自适应分割的块匹配方法以寻找最佳匹配块; 其次, 为进一步提高帧间编码性能, 提出基于联合属性率失真优化(Rate distortion optimization, RDO)的多模式帧间编码方法, 以更好地提高预测精度和降低码率消耗. 实验结果表明, 提出的改进算法相较于V-PCC 实现了−22.57%的BD-BR (Bjontegaard delta bit rate)增益. 该算法特别适用于视频监控和视频会议等帧间变化不大的动态点云场景.关键词点云压缩, 基于视频的点云压缩, 三维帧间编码, 点云分割, 率失真优化引用格式陈建, 廖燕俊, 王适, 郑明魁, 苏立超. 自适应分割的视频点云多模式帧间编码方法. 自动化学报, 2023, 49(8):1707−1722DOI 10.16383/j.aas.c220549An Adaptive Segmentation Based Multi-mode Inter-frameCoding Method for Video Point CloudCHEN Jian 1, 2 LIAO Yan-Jun 1 WANG Kuo 2 ZHENG Ming-Kui 1, 2 SU Li-Chao 3Abstract Video based point cloud compression (V-PCC) provides an efficient solution for compressing dynamic point clouds, but the projection of V-PCC from 3D to 2D destroys the correlation of 3D inter-frame motion and re-duces the performance of inter-frame coding. To solve this problem, we proposes an adaptive segmentation based multi-mode inter-frame coding method for video point cloud to improve V-PCC, and designs a new dynamic point cloud inter-frame encoding framework. Firstly, in order to achieve more accurate block prediction, a block match-ing method based on adaptive regional segmentation is proposed to find the best matching block; Secondly, in or-der to further improve the performance of inter coding, a multi-mode inter-frame coding method based on joint at-tribute rate distortion optimization (RDO) is proposed to increase the prediction accuracy and reduce the bit rate consumption. Experimental results show that the improved algorithm proposed in this paper achieves −22.57%Bjontegaard delta bit rate (BD-BR) gain compared with V-PCC. The algorithm is especially suitable for dynamic point cloud scenes with little change between frames, such as video surveillance and video conference.Key words Point cloud compression, video-based point cloud compresion (V-PCC), 3D inter-frame coding, point cloud segmentation, rate distortion optimization (RDO)Citation Chen Jian, Liao Yan-Jun, Wang Kuo, Zheng Ming-Kui, Su Li-Chao. An adaptive segmentation based multi-mode inter-frame coding method for video point cloud. Acta Automatica Sinica , 2023, 49(8): 1707−1722点云由三维空间中一组具有几何和属性信息的点集构成, 通常依据点的疏密可划分为稀疏点云和密集点云[1]. 通过相机矩阵或高精度激光雷达采集的密集点云结合VR 头盔可在三维空间将对象或场景进行6自由度场景还原, 相较于全景视频拥有更真实的视觉体验, 在虚拟现实、增强现实和三维物体捕获领域被广泛应用[2−3]. 通过激光雷达反射光束经光电处理后收集得到的稀疏点云可生成环境地收稿日期 2022-07-05 录用日期 2022-11-29Manuscript received July 5, 2022; accepted November 29, 2022国家自然科学基金(62001117, 61902071), 福建省自然科学基金(2020J01466), 中国福建光电信息科学与技术创新实验室(闽都创新实验室) (2021ZR151), 超低延时视频编码芯片及其产业化(2020年福建省教育厅产学研专项)资助Supported by National Natural Science Foundation of China (62001117, 61902071), Fujian Natural Science Foundation (2020J01466), Fujian Science & Technology Innovation Laborat-ory for Optoelectronic Information of China (2021ZR151), and Ultra-low Latency Video Coding Chip and its Industrialization (2020 Special Project of Fujian Provincial Education Depart-ment for Industry-University Research)本文责任编委刘成林Recommended by Associate Editor LIU Cheng-Lin1. 福州大学先进制造学院泉州 3622512. 福州大学物理与信息工程学院福州 3501163. 福州大学计算机与大数据学院/软件学院福州 3501161. School of Advanced Manufacturing, Fuzhou University, Quan-zhou 3622512. College of Physics and Information Engineer-ing, Fuzhou University, Fuzhou 3501163. College of Com-puter and Data Science/College of Software, Fuzhou University,Fuzhou 350116第 49 卷第 8 期自动化学报Vol. 49, No. 82023 年 8 月ACTA AUTOMATICA SINICAAugust, 2023图, 以实现空间定位与目标检测等功能, 业已应用于自动驾驶、无人机以及智能机器人等场景[4−7]. 但相较于二维图像, 点云在存储与传输中的比特消耗显著增加[8], 以经典的8i 动态点云数据集[9]为例, 在每秒30帧时的传输码率高达180 MB/s, 因此动态点云压缩是对点云进行高效传输和处理的前提.N ×N ×N 3×3×3为了实现高效的动态点云压缩, 近年来, 一些工作首先在三维上进行帧间运动估计与补偿, 以充分利用不同帧之间的时间相关性. 其中, Kammerl 等[10]首先提出通过构建八叉树对相邻帧进行帧间差异编码, 实现了相较于八叉树帧内编码方法的性能提升; Thanou 等[11]则提出将点云帧经过八叉树划分后, 利用谱图小波变换将三维上的帧间运动估计转换为连续图之间的特征匹配问题. 然而, 上述方法对帧间像素的运动矢量估计不够准确. 为了实现更精确的运动矢量估计, Queiroz 等[12]提出一种基于运动补偿的动态点云编码器, 将点云体素化后进行块划分, 依据块相关性确定帧内与帧间编码模式, 对帧间编码块使用提出的平移运动模型改善预测误差; Mekuria 等[13]则提出将点云均匀分割为的块, 之后将帧间对应块使用迭代最近点(Iterative closest point, ICP)[14]进行运动估计,以进一步提高帧间预测精度; Santos 等[15]提出使用类似于2D 视频编码器的N 步搜索算法(N-step search, NSS), 在的三维块区域中迭代寻找帧间对应块, 而后通过配准实现帧间编码. 然而,上述方法实现的块分割破坏了块间运动相关性, 帧间压缩性能没有显著提升.为了进一步提高动态点云压缩性能, 一些工作通过将三维点云投影到二维平面后组成二维视频序列, 而后利用二维视频编码器中成熟的运动预测与补偿算法, 实现三维点云帧间预测. 其中, Lasserre 等[16]提出基于八叉树的方法将三维点云投影至二维平面, 之后用二维视频编码器进行帧间编码; Bud-agavi 等[17]则通过对三维上的点进行二维平面上的排序, 组成二维视频序列后利用高效视频编码器(High efficiency video coding, HEVC)进行编码.上述方法在三维到二维投影的过程中破坏了三维点间联系, 重构质量并不理想. 为改善投影后的点间联系, Schwarz 等[18]通过法线将点映射于圆柱体上确保点间联系, 对圆柱面展开图使用二维视频编码以提高性能. 但在圆柱上的投影使得部分点因遮挡丢失, 影响重构精度. 为尽可能保留投影点数, Mam-mou 等[19]根据点云法线方向与点间距离的位置关系, 将点云划分为若干Patch, 通过对Patch 进行二维平面的排列以减少点数损失, 进一步提高了重构质量.基于Patch 投影后使用2D 视频编码器进行编码, 以实现二维上的帧间运动预测与补偿的思路取得了最优的性能, 被运动图像专家组(Moving pic-ture experts group, MPEG)正在进行的基于视频的点云压缩(Video-based point cloud compres-sion, V-PCC)标准[20]所采纳, 但将Patch 从三维到二维的投影导致三维运动信息无法被有效利用, 使得帧间压缩性能提升受到限制. 针对这一问题, 一些工作尝试在V-PCC 基础上实现三维帧间预测,其中, Li 等[21]提出了一种三维到二维的运动模型,利用V-PCC 中的几何与辅助信息推导二维运动矢量以实现帧间压缩性能改善, 但通过二维推导得到的三维运动信息并不完整, 导致运动估计不够准确.Kim 等[22]提出通过点云帧间差值确定帧内帧与预测帧, 帧内帧用V-PCC 进行帧内编码, 预测帧依据前帧点云进行运动估计后对残差进行编码以实现运动补偿, 但残差编码依旧消耗大量比特. 上述方法均在V-PCC 基础上实现了三维点云的帧间预测,但无论是基于二维的三维运动推导还是帧间残差的编码, 性能改善都比较有限.在本文的工作中, 首先, 为了改善三维上实现运动估计与补偿中, 块分割可能导致的运动相关性被破坏的问题, 本文引入了KD 树(K-dimension tree,KD Tree)思想, 通过迭代进行逐层深入的匹配块分割, 并定义分割块匹配度函数以自适应确定分割的迭代截止深度, 进而实现了更精准的运动块搜索;另外, 针对V-PCC 中二维投影导致三维运动信息无法被有效利用的问题, 本文提出在三维上通过匹配块的几何与颜色两种属性进行相似性判别, 并设计率失真优化(Rate distortion optimization, RDO)模型对匹配块分类后进行多模式的帧间编码, 实现了帧间预测性能的进一步改善. 实验表明, 本文提出的自适应分割的视频点云多模式帧间编码方法在与最新的V-PCC 测试软件和相关文献的方法对比中均取得了BD-BR (Bjontegaard delta bit rate)的负增益. 本文的主要贡献如下:1)提出了针对动态点云的新型三维帧间编码框架, 通过自动编码模式判定、区域自适应分割、联合属性率失真优化的多模式帧间编码、结合V-PCC 实现了帧间编码性能的提升;2)提出了一种区域自适应分割的块匹配方法,以寻找帧间预测的最佳匹配块, 从而改善了均匀分割和传统分割算法导致运动相关性被破坏的问题;3)提出了一种基于联合属性率失真优化模型的多模式帧间编码方法, 在改善预测精度的同时显著减少了帧间编码比特.1 基于视频的点云压缩及其问题分析本文所提出的算法主要在V-PCC 基础上进行1708自动化学报49 卷三维帧间预测改进, 因此本节对V-PCC 的主要技术做简要介绍, 并分析其不足之处. 其中, V-PCC 编码框架如图1所示.图 1 V-PCC 编码器框架Fig. 1 V-PCC encoder diagram首先, V-PCC 计算3D 点云中每个点的法线以确定最适合的投影面, 进而将点云分割为多个Patch [23].接着, 依据对应Patch 的位置信息, 将其在二维平面上进行紧凑排列以完成对Patch 的打包. 之后,依据打包结果在二维上生成对应的图像, 并使用了几何图、属性图和占用图分别表示各点的坐标、颜色及占用信息. 鉴于Patch 在二维的排列不可避免地存在空像素点, 因此需要占用图表示像素点的占用与否[24]; 由于三维到二维的投影会丢失一个维度坐标信息, 因此使用几何图将该信息用深度形式进行表示; 为了实现动态点云的可视化, 还需要一个属性图用于表示投影点的颜色属性信息. 最后, 为了提高视频编码器的压缩性能, 对属性图和几何图的空像素进行了填充和平滑处理以减少高频分量; 同时, 为了缓解重构点云在Patch 边界可能存在的重叠或伪影, 对重构点云进行几何和属性上的平滑滤波处理[25]. 通过上述步骤得到二维视频序列后, 引入二维视频编码器(如HEVC)对视频序列进行编码.V-PCC 将动态点云帧进行二维投影后, 利用成熟的二维视频编码技术实现了动态点云压缩性能的提升. 但是, V-PCC 投影过程将连续的三维物体分割为多个二维子块, 丢失了三维上的运动信息,使得三维动态点云中存在的时间冗余无法被有效利用. 为了直观展示投影过程导致的运动信息丢失,图2以Longdress 数据集为例, 展示了第1 053和第1 054两相邻帧使用V-PCC 投影得到的属性图.观察图2可以发现, 部分在三维上高度相似的区域,如图中标记位置1、2与3所对应Patch, 经二维投影后呈现出完全不同的分布, 该结果使得二维视频编码器中帧间预测效果受到限制, 不利于压缩性能的进一步提升.2 改进的动态点云三维帧间编码为了在V-PCC 基础上进一步降低动态点云的时间冗余性, 在三维上进行帧间预测和补偿以最小化帧间误差, 本文提出了一个在V-PCC 基础上改进的针对动态点云的三维帧间编码框架, 如图3所示. 下面对该框架基本流程进行介绍.首先, 在编码端, 我们将输入的点云序列通过模块(a)进行编码模式判定, 以划分帧内帧与预测帧. 其思想与二维视频编码器类似, 将动态点云划分为多组具有运动相似性的图像组(Group of pic-tures, GOP)以分别进行编码. 其中图像组中的第一帧为帧内帧, 后续帧均为预测帧, 帧内帧直接通过V-PCC 进行帧内编码; 预测帧则通过帧间预测方式进行编码. 合理的GOP 划分表明当前图像组内各相邻帧均具有较高运动相关性, 因此可最优化匹配块预测效果以减少直接编码比特消耗, 进而提高整体帧间编码性能. 受文献[22]启发, 本文通过对当前帧与上一帧参考点云进行几何相似度判定,以确定当前帧的编码方式进行灵活的图像组划分.如式(1)所示.Longdress 第 1 053 帧三维示例Longdress 第 1 054 帧三维示例Longdress 第 1 053 帧 V-PCC投影属性图Longdress 第 1 054 帧 V-PCC投影属性图11223图 2 V-PCC 从三维到二维投影(属性图)Fig. 2 V-PCC projection from 3D to2D (Attribute map)8 期陈建等: 自适应分割的视频点云多模式帧间编码方法1709cur ref E Gcur,ref Ωmode mode E O R 其中, 为当前帧点云, 为前帧参考点云, 表示两相邻帧点云的几何偏差, 为编码模式判定阈值. 当值为1时表示当前帧差异较大, 应当进行帧内模式编码; 当值为0时则表示两帧具有较大相似性, 应当进行帧间模式编码. 另外, 在动态点云重构误差的计算中, 使用原始点云中各点与重构点云在几何和属性上的误差均值表示, 即式(2)所示.N O O (i )R (i ′)i i ′E O,R O R 其中, 为原始点云点数, 和分别表示原始点云第点与对应重构点云点的几何或属性值, 即为原始点云与重构点云间误差值.N ×N ×N K 接着, 在进行帧间编码模式判断后, 通过模块(b)进行预测帧的区域自适应块分割. 块分割的目的在于寻找具有帧间运动一致性的匹配块以进行运动预测和补偿. 不同于等分或均值聚类, 所提出的基于KD 树思想的区域自适应块匹配从点云质心、包围盒和点数三个角度, 判断分割块的帧间运动程度以进行分割深度的自适应判定,最终实现最佳匹配块搜索.之后, 对于分割得到的匹配块, 通过模块(c)进行基于联合属性率失真优化的帧间预测. 在该模块中, 我们通过帧间块的几何与颜色属性联合差异度,结合率失真优化模型对匹配块进行分类, 分为几乎无差异的完全近似块(Absolute similar block, ASB)、差异较少的相对近似块(Relative similar block,RSB)以及存在较大差异的非近似块(Non similar block, NSB). 完全近似块认为帧间误差可忽略不计, 仅需记录参考块的位置信息; 而相对近似块则表示存在一定帧间误差, 但可通过ICP 配准和属性补偿来改善几何与属性预测误差, 因此除了块位置信息, 还需记录预测与补偿信息; 而对于非近似块,则认为无法实现有效的帧间预测, 因此通过融合后使用帧内编码器进行编码.最后, 在完成帧间模式分类后, 为了在编码端进行当前帧的重构以作为下一帧匹配块搜索的参考帧, 通过模块(d)对相对近似块进行几何预测与属性补偿, 而后将几何预测与属性补偿后的相对近似块、完全近似块、非近似块进行融合得到重构帧. 为了在解码端实现帧间重构, 首先需要组合预测帧中的所有非近似块, 经由模块(e)的V-PCC 编码器进行帧内编码, 并且, 还需要对完全近似块的位置信息、相对近似块的位置与预测补偿信息通过模块(f)进行熵编码以实现完整的帧间编码流程.至此, 整体框架流程介绍完毕, 在接下来的第3节与第4节中, 我们将对本文提出的区域自适应分割的块匹配算法与联合属性率失真优化的多模式帧间编码方法进行更为详细的介绍, 并在第5节通过实验分析进行算法性能测试.3 区域自适应分割的块匹配N B j cur j ref j ∆E cur j ,ref j 相较于二维视频序列, 动态点云存在大量空像素区域, 帧间点数也往往不同. 因此, 对一定区域内的点集进行帧间运动估计时, 如何准确找到匹配的邻帧点集是一个难点. 假设对当前帧进行帧间预测时共分割为个子点云块, 第块子点云与其对应参考帧匹配块间存在几何与属性综合误差 . 由于重构的预测帧实质上是通过组合相应的参考帧匹配块而估计得到的, 因此精准的帧间块匹配尝试最小化每个分割块的估计误差,以提高预测帧整体预测精度, 如式(3)所示:图 3 改进的三维帧间编码框架Fig. 3 Improved 3D inter-frame coding framework1710自动化学报49 卷K K N N ×N ×N 为了充分利用帧间相关性以降低时间冗余, 一些工作尝试对点云进行分割后寻找最佳匹配块以实现帧间预测. Mekuria 等[13]将动态点云划分为若干个大小相同的宏块, 依据帧间块点数和颜色进行相似性判断, 对相似块使用迭代最近点算法计算刚性变换矩阵以实现帧间预测. 然而, 当区域分割得到的对应匹配块间存在较大偏差时, 预测效果不佳.为了减少匹配块误差以提高预测精度, Xu 等[26]提出使用均值聚类将点云分为多个簇, 在几何上通过ICP 实现运动预测, 在属性上则使用基于图傅里叶变换的模型进行运动矢量估计. 但基于均值聚类的点云簇分割仅在预测帧中进行, 没有考虑帧间块运动相关性, 匹配精度提升受到限制. 为了进一步提高匹配精度, Santos 等[15]受到二维视频编码器中步搜索算法的启发, 提出了一种3D-NSS 方法实现三维上的匹配块搜索, 将点云分割为的宏块后进行3D-NSS 以搜索最优匹配块, 而后通过ICP 进行帧间预测.K 上述分割方法均实现了有效的块匹配, 但是,基于宏块的均匀块分割与基于传统均值聚类的块划分均没有考虑分割块间可能存在的运动连续性, 在分割上不够灵活. 具体表现为分割块过大无法保证块间匹配性, 过小又往往导致已经具有运动连续性的预测块被过度细化, 出现相同运动预测信息的冗余编码. 为了避免上述问题, 本文引入KD 树思想, 提出了一种区域自适应分割算法, 该算法通过迭代进行逐层深入的二分类划分, 对各分割深度下块的运动性质与匹配程度进行分析, 确定是否需要继续分割以实现精准运动块匹配. 算法基本思想如图4所示, 若满足分割条件则继续进行二分类划分, 否则停止分割.Ψ(l,n )其中, 准确判断当前分割区域是否满足运动连续性条件下的帧间运动, 是避免过度分割以实现精准的运动块搜索的关键, 本文通过定义分割块匹配函数来确定截止深度, 如式(4)所示:ρ(n )=max [sign (n −N D ),0]n N D ρ(n )=1ξ(l )l 其中, 为点数判定函数,当点数大于最小分割块点数阈值时, ,表示满足深入分割的最小点数要求, 否则强制截止; 为当前深度下的块运动偏移度, 通过衡量匹配块间的运动变化分析是否需要进一步分割.ξξw ξu 提出的函数分别通过帧间质心偏移度估计匹配块间运动幅度, 帧间包围盒偏移度进行匹ξn ξw ξu ξn T l ξ(l )配块间几何运动一致性判定, 点数偏移度进行点云分布密度验证, 最后通过、与累加值与分割截止阈值的比值来整体衡量当前块的运动程度与一致性. 即对于当前分割深度 , 可进一步细化为式(5):其中,w cur w ref u cur u ref n cur n ref l P Max P Min 并且, 、、、、与分别表示当前分割深度下该区域与其前帧对应区域的质心、包围盒与点数,和分别为当前块对角线对应点.ρ(n )=1ξ(l)lξξξξ在的前提下,值反映当前KD 树分割深度下该区域点云的帧间运动情况.值越大帧间运动越显著,当值大于1时,需对运动块进行帧间运动补偿,如果继续分割将导致块的运动一致性被破坏或帧间对应块无法实现有效匹配,从而导致帧间预测失败;值越小说明当前区域点云整体运动变化越小,当值小于1时,需进一步分割寻找可能存在的运动区域.l +1d 对于需要进一步分割的点云块,为了尽可能均匀分割以避免分割后匹配块间误差过大, 将待分割匹配块质心均值作为分割点, 通过以包围盒最长边作为分割面来确定深度下的分割轴 , 分割轴l = 0l = 1l = 2l = m l = m + 1条件满足, 继续分割条件不满足, 停止分割图 4 区域自适应分割块匹配方法示意图Fig. 4 Schematic diagram of region adaptive segmentation based block matching method8 期陈建等: 自适应分割的视频点云多模式帧间编码方法1711如式(6)所示:Edge d,max Edge d,min d 其中, 和分别为待分割块在维度的最大值和最小值.总结上文所述, 我们将提出的区域自适应分割的块匹配算法归纳为算法1. 算法 1. 区域自适应分割的块匹配cur ref 输入. 当前帧点云与前帧参考点云输出. 当前帧与参考帧对应匹配块j =1N B 1) For to Do l =02) 初始化分割深度 ;3) Docur j ref j 4) 选取待分割块和对应待匹配块 ;w u n 5) 计算质心、包围盒与块点数 ;ξ(l )6) 根据式(5)计算运动块偏移度 ;ρ(n )7) 根据函数判定当前分割块点数;Ψ(l,n )8) 根据式(4)计算分割块匹配函数 ;Ψ(l,n )9) If 满足匹配块分割条件:d 10) 根据式(6)确定分割轴 ;cur j ref j 11) 对与进行分割;12) 保存分割结果;l +113) 分割深度 ;Ψ(l,n )14) Else 不满足匹配块分割条件:15) 块分割截止;16) 保存匹配块;17) End of if18) While 所有块均满足截止条件;19) End of for图5展示了本文提出的区域自适应分割的块匹配算法对帧Longdress_0536和其参考帧Longdress_0535进行分割后的块匹配结果. 在该序列当前帧下, 人物进行上半身的侧身动作. 观察图5可发现,在运动变化较大的人物上半身, 算法在寻找到较大的对应匹配块后即不再分割; 而人物下半身运动平缓, 算法自适应提高分割深度以实现帧间匹配块的精确搜索, 因而下半身的分块数目大于上半身.4 联合属性率失真优化的多模式帧间编码P Q在动态点云的帧间编码中, 常对相邻帧进行块分割或聚类后依据匹配块相似性实现帧间预测, 并利用补偿算法减少预测块误差以改善帧间编码质量. 其中迭代最近点算法常用于帧间运动估计中,其通过迭代更新待配准点云相较于目标点云 S t E (S,t )间的旋转矩阵和平移向量 , 进而实现误差最小化, 如式(7)所示:N p p i P i q i ′Q p i 其中为待配准点云点数, 为待配准点云的第个点, 为目标点云中与相对应的点.但是, 完全依据ICP 配准进行动态点云的三维帧间预测存在两个问题: 首先, ICP 仅在预测块上逼近几何误差的最小化而没考虑到颜色属性偏差引起的匹配块差异, 影响了整体预测精度; 其次, 从率失真角度分析, 对运动变化极小的匹配块进行ICP 配准实现的运动估计是非必要的, 该操作很难改善失真且会增加帧间编码比特消耗.为改善上述问题, 提出了联合属性率失真优化的多模式帧间编码方法. 提出的方法首先在确保几何预测精度的同时, 充分考虑了可能的属性变化导致的预测精度下降问题, 而后通过率失真优化模型,对块依据率失真代价函数得到的最优解进行分类后, 应用不同的编码策略以优化帧间编码方案, 旨在有限的码率约束下最小化编码失真, 即式(8)所示:R j D j j N B R C λ其中, 和分别表示第个点云块的编码码率和对应的失真; 是当前帧编码块总数; 表示总码率预算.引入拉格朗日乘子 ,式(8)所示的带约束优化问题可以转换为无约束的最优化问题, 即式(9)所示:当前帧分割可视化当前帧分割效果参考帧分割效果图 5 区域自适应分割的块匹配方法分割示例Fig. 5 Example of block matching method based onadaptive regional segmentation1712自动化学报49 卷。

视频帧差图像编码研究

早期的基于小波的图像编码器主要是利用了小波分解的频率压缩特性［１０，１１］。近年来，人们除了利用频率压缩特性外，还利用了空间压缩特性和小波系数分布的相似性给出了一些高效的图像编码算法，较为典型的有ＥＺＷ算法［１２］、ＳＰＩＨＴ算法［１３］和ＥＢＣＯＴ算法［８］等。有关上述算法的实现过程可参考文献［１４］。
１引言
基于运动补偿的视频编码方法已被广泛应用于视频编码的国际标准中，像ＭＰＥＧ－１、ＭＰＥＧ－２、ＩＴＵ－ＴＨ．２６１和ＩＴＵ－ＴＨ．２６３等。通过运动估计和运动补偿，得到当前帧的运动矢量和运动补偿预测误差，即帧差图像。视频压缩效率的提高在很大程度上取决于如何有效地编码帧差图像。本文首先对帧差图像的数学统计特性进行了分析，然后对目前所采用的帧差图像编码方案按照基于分块ＤＣＴ变换、基于ＤＷＴ变换和基于ＨＶＳ的脉络进行了综述，最后对帧差图像编码的未来发展方向进行了展望。
ＬＩＵＤａｎ，ＷＡＮＧＸｉａｎｇ－ｈａｉ．Ｒｅｓｅａｒｃｈｏｎｐｒｅｄｉｃｔｉｏｎｅｒｒｏｒｉｎｆｏｒｍａｔｉｏｎｃｏｄｉｎｇ．ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２００７，４３（７）：４５－４８．
Ａｂｓｔｒａｃｔ：Ｔｈｅｉｍｐｒｏｖｅｍｅｎｔｏｆｖｉｄｅｏｃｏｄｉｎｇｉｓｄｅｐｅｎｄｅｄｏｎｈｏｗｔｏｒｅｄｕｃｅｔｈｅｕｓｅｏｆｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｉｏｎｐｒｅｄｉｃｔｉｏｎｅｒｒｏｒｉｎｆｏｒｍａｔｉｏｎ，ｗｈｉｃｈｉｓａｌｓｏｃａｌｌｅｄＤｉｓｐｌａｃｅｄＦｒａｍｅＤｉｆｆｅｒｅｎｃｅ（ＤＦＤ）．ＴｈｉｓｐａｐｅｒｆｉｒｓｔａｎａｌｙｚｅｓｔｈｅＤＦＤ，ｔｈｅｎｇｉｖｅｓａｎａｌｙｓｉｓａｎｄｄｉｓ－ｃｕｓｓｉｏｎｆｏｒＤＦＤａｌｏｎｇｗｉｔｈｔｈｅｃｏｄｉｎｇｂａｓｅｄｏｎＤＣＴ，ｗａｖｅｌｅｔａｎｄＨＶＳｏｆＤＦＤ．Ｉｎａｄｄｉｔｉｏｎ，ｔｈｅｆｕｔｕｒｅｄｅｖｅｌｏｐｍｅｎｔｏｆＤＦＤｃｏｄ－ｉｎｇｉｓａｌｓｏａｎａｌｙｚｅｄａｎｄｃｏｎｊｅｃｔｕｒｅｄｉｎｔｈｅｐａｐｅｒ．Ｋｅｙｗｏｒｄｓ：ＤＦＤ；ｓｔａｔｉｓｔｉｃａｌｐｒｏｐｅｒｔｙ；ｃｏｄｉｎｇａｎａｌｙｓｉｓ；ｃｏｎｊｅｃｔｕｒｅ

HEVC帧内编码的快速模式与TU尺寸决策算法

HEVC帧内编码的快速模式与TU尺寸决策算法吴良堤;冯桂【摘要】为降低高效视频编码(HEVC)帧内编码的复杂度,提出一种快速模式和变换单元(TU)尺寸决策算法.在快速模式决策算法中,利用预测单元的纹理减少粗糙模式的决策模式个数,根据最有可能成为第一候选模式的分布,跳过最佳模式可能性较小的模式率失真优化过程.在TU尺寸决策算法中,对残差块的纹理进行分析,以此提前终止TU的分割.在HM10.1上的实验结果证明,提出的算法能够平均降低30.7％的编码时间,增加1.40％的平均码流差.【期刊名称】《计算机工程》【年(卷),期】2016(042)005【总页数】7页(P263-268,274)【关键词】高效视频编码;帧内预测;模式决策;粗糙模式决策;率失真优化;变换单元【作者】吴良堤;冯桂【作者单位】华侨大学信息科学与工程学院,福建厦门361021;华侨大学信息科学与工程学院,福建厦门361021【正文语种】中文【中图分类】TN919.81随着人们对高清、超高清视频需求的增加,JCT-VC制定了新一代视频编码标准——高效视频编码(High Efficiency Video Coding,HEVC)标准[1]。

相比上一代视频编码标准H.264/AVC,HEVC引入了许多新的编码技术和工具,如编码单元的四叉树分割、样点自适应补偿等[2]。

这些新的工具与技术提高了HEVC的编码性能,但同时也急剧增加了编码的复杂度。

为克服编码复杂度高,增强HEVC的实用性,众多研究者提出了许多优化算法。

文献[3]利用邻近编码单元(Coding Unit,CU)来决策当前CU的深度级,同时利用预测模式间、率失真代价与预测模式间的相关性提前终止率失真优化(Rate Distrotion Optimization,RDO)过程;文献[4]以率失真代价为阈值进行CU提前修剪,同时根据候选模式集的模式成为最佳预测模式的分布概率来减化RDO过程;文献[5]利用CU 纹理的灰度直方图缩小当前CU的深度范围;文献[6]利用边缘方向强度检测减少预测候选模式;文献[7]利用当前编码块的邻近纹理特性调整预测模式;文献[8-9]分别采用方向能量和Sobel算子检测预测单元(Prediction Unit,PU)纹理来减少粗糙模式决策(Rough Mode Decision,RMD)过程的模式数量;文献[10-11]分别利用非零离散余弦变换(Discrete Cosine Transform,DCT)系数及邻近变换单元(Transformation Unit,TU)深度的相关性来加速残差四叉树变换(Residual Quadtree Transform,RQT)过程。

视频编解码技术教程

视频编解码技术教程第一章：概述1.1 介绍视频编解码技术的定义和作用1.2 视频编解码技术的发展历程1.3 视频编解码技术的应用领域第二章：视频编码基础2.1 数字视频信号的采样和量化2.2 常见视频编码标准介绍：H.264、H.265等2.3 视频编码算法原理：帧间压缩、帧内压缩等第三章：视频解码基础3.1 视频解码的基本过程3.2 解码器的组成和工作原理3.3 常见视频解码标准介绍：MPEG-2、MPEG-4等第四章：视频编码优化技术4.1 运动估计与运动补偿技术4.2 时空域预测技术4.3 零块检测与跳跃模式技术4.4 量化与熵编码优化技术第五章：视频解码优化技术5.1 并行解码技术5.2 缓存管理与帧内预测技术5.3 解码器硬件加速技术5.4 解码算法的优化与适配技术第六章：视频编解码质量评价6.1 视频编码质量评价标准介绍6.2 主观评价与客观评价方法比较6.3 视频编解码质量测试实验设计与执行第七章：未来视频编解码技术发展趋势7.1 高效视频编解码标准的发展7.2 视频编解码技术与人工智能的结合7.3 视频编解码技术在VR、AR等领域的应用第一章：概述视频编解码技术作为数字多媒体技术领域中重要的一项技术，主要用于将数字视频信号进行压缩编码，以实现视频数据的高效传输与存储。

本章首先介绍视频编解码技术的定义和作用，然后回顾了视频编解码技术的发展历程，以及目前在各个领域中的应用情况。

第二章：视频编码基础本章首先详细介绍了数字视频信号的采样和量化过程，以及采样率和分辨率的概念。

同时，对于常见的视频编码标准，如H.264和H.265等进行了介绍，包括其特点和应用领域。

此外，还对视频编码算法的基本原理进行了解析，包括帧间压缩和帧内压缩等。

第三章：视频解码基础本章主要介绍了视频解码的基本过程，包括解码器的组成和工作原理。

同时，对于常见的视频解码标准，如MPEG-2和MPEG-4等进行了介绍，包括其特点和应用领域。

H264--1--编码原理以及I帧B帧P帧

H264--1--编码原理以及I帧B帧P帧H264--1--编码原理以及I帧B帧P帧前言-----------------------H264是新一代的编码标准，以高压缩高质量和支持多种网络的流媒体传输著称，在编码方面，我理解的他的理论依据是：参照一段时间内图像的统计结果表明，在相邻几幅图像画面中，一般有差别的像素只有10%以内的点,亮度差值变化不超过2%，而色度差值的变化只有1%以内。

所以对于一段变化不大图像画面，我们可以先编码出一个完整的图像帧A，随后的B帧就不编码全部图像，只写入与A帧的差别，这样B帧的大小就只有完整帧的1/10或更小！B帧之后的C帧如果变化不大，我们可以继续以参考B的方式编码C帧，这样循环下去。

这段图像我们称为一个序列（序列就是有相同特点的一段数据），当某个图像与之前的图像变化很大，无法参考前面的帧来生成，那我们就结束上一个序列，开始下一段序列，也就是对这个图像生成一个完整帧A1，随后的图像就参考A1生成，只写入与A1的差别内容。

在H264协议里定义了三种帧，完整编码的帧叫I帧，参考之前的I帧生成的只包含差异部分编码的帧叫P帧，还有一种参考前后的帧编码的帧叫B帧。

H264采用的核心算法是帧内压缩和帧间压缩，帧内压缩是生成I 帧的算法，帧间压缩是生成B帧和P帧的算法。

----------------------序列的说明----------------------在H264中图像以序列为单位进行组织，一个序列是一段图像编码后的数据流，以I帧开始，到下一个I帧结束。

一个序列的第一个图像叫做IDR 图像（立即刷新图像），IDR 图像都是 I 帧图像。

H.264 引入 IDR 图像是为了解码的重同步，当解码器解码到 IDR 图像时，立即将参考帧队列清空，将已解码的数据全部输出或抛弃，重新查找参数集，开始一个新的序列。

这样，如果前一个序列出现重大错误，在这里可以获得重新同步的机会。

数字视频处理实验报告1

数字视频处理实验报告学院：通信与信息工程学院系班：电信科0901姓名：学号：时间：2012年11月2号一、实验名称：A VI格式的数字视频的读取与视频数据分析二、实验目的：1、编程读取A VI格式视频，并了解视频数据的特点。

2、编程求取视频两帧误差图像，掌握视频的时间冗余特性。

3、编程提取固定像素点视频帧的一维数据，并画图显示，掌握视频的时间冗余特性。

三、实验程序1、读取A VI格式视频程序VideoName='shaky_car.avi';VideoData=aviread(VideoName);%截取部分帧显示图像for NumberFram=2:10:32FrameData=double(VideoData(NumberFram).cdata);subplot(2,2,floor(NumberFram/10)+1)imagesc(FrameData);title([‘第' num2str(NumberFram) '帧图像'])colormap(gray);axis off;endaxis off;%视频播放movie(VideoData);2、视频两帧误差图像程序%打开文件VideoName='shaky_car';VideoData=aviread(VideoName);%获取前两帧图像数据videoFrame1 = VideoData(1);videoFrameData1 = double(videoFrame1.cdata);videoFrame2 = VideoData(2);videoFrameData2 = double(videoFrame2.cdata);%求两帧差值chazhi=abs(videoFrameData2-videoFrameData1);%显示各图像figure;subplot(2,2,1);imagesc(videoFrameData1);title('第一帧图像');axis off;subplot(2,2,2);imagesc(videoFrameData2);title('第二帧图像');axis off;subplot(2,2,3);imagesc(chazhi);title('差值图像');colormap(gray);axis off;3、固定像素点视频帧的一维数据程序%打开图像VideoName='shaky_car';VideoData=aviread(VideoName);%获取视频帧数k及图像的大小m和nk=length(VideoData);[m,n]=size(double(VideoData(1).cdata));Y1=zeros(1,k);%提取没帧图像的中间点像素，将其存入数组Y1 for FrameNumber = 1:kvideoFrame = VideoData(FrameNumber);videoFrameData = double(videoFrame.cdata);Y1(FrameNumber)=videoFrameData(m/2,n/2); end%画出各帧中心像素变化图t=1:k;stem(t,Y1);title('每帧图像中心点像素分析图');xlabel('帧数');ylabel('像素值');grid on;四、实验结果与分析1、读取A VI格式视频结果图1 视频部分帧图像2、视频两帧误差图像结果图二视频两帧误差图像3、固定像素点视频帧的一维数据结果图三固定像素点视频帧的一维数据分析图。

对HDTV图像进行H_264帧内编码与JPEG2000编码的性能比较

２１
数字电视
（１）数据预处理。主要包括：直流平移、分量变换和分片。
（２）离散小波变换。ＪＰＥＧ２０００有两种小波变换滤波器，Ｄａｕｂｅｃｈｉｅｓ９／７滤波器和ＬｅＧａｌｌ５／３滤波器，前者主要用于有损压缩，后者可实现图像的无损压缩。
（３）小波系数的量化。每个子带上的小波系数反映了图像不同频域的特征，具有不同的统计特性和视觉特性，可以对每个子带采用不同的量化步长，但是一个子带中只有一个量化步长。
而增大，但波动不大；随着分辨率的减小，Ｈ．２６４的编
图１给为测试序列的峰值信噪比和码率关系图，码性能明显要优于ＪＰＥＧ２０００，差距同样随码率的增
横坐标是码率（ｂｐｐ），纵坐标是峰值信噪比（ＰＳＮＲ）。加而增大，并且波动较大。（２）Ｈ．２６４的ＰＳＮＲ与ｂｐｐ
以往标准中采用８×８的ＤＣＴ变换会带来两个问题：（１）浮点数操作会带来运算上的复杂性；（２）有限精度的有理数无法精确表示无理数，且浮点数的运算会引入舍入误差，导致编解码的失配。而Ｈ．２６４标准采用了基于４×４块的ＤＣＴ整数离散余弦变换，仅用移位和加减操作就可以实现，降低了计算复杂度，同时也解决了编解码的不匹配问题。
８
１０
１２８０×７２０４∶２∶０
８
１０
１２８０×７２０４∶２∶０
８
１０
１２８０×７２０４∶２∶０
８
１０
图１Ｈ．２６４和ＪＰＥＧ２０００对ＨＤＴＶ图像编码性能的比较
（下转第２６页）
２２
２００７年第１２期（总第２１６期）

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

视频图像帧内编码实验
一、实验目的
1. 了解多媒体通信中图像压缩技术
2. 熟悉视频帧内压缩编码过程
3. 掌握二维DCT 变换算法
二、实验原理
视频帧内编码有多种模式，最基本的是基于8×8块的DCT 顺序编码，将一帧图像分为8×8的块，然后按照从左至右、自上而下的顺序，对块进行DCT 、量化和熵编码。

其编、解码框图如下：
图1 基于DCT 的顺序编码框图
图2 基于DCT 的顺序解压缩框图
视频帧内压缩编码算法的主要步骤：
1) 正向离散余弦变换(DCT)。

2) 量化(quantization)。

3) Z 字形扫描(zigzag scan)。

DCT 解码器
IDCT
逆量化器
熵解码器
量化表
熵编码表
压缩图像数重构图像
DCT
熵编码器
量化表
熵编码表
压缩图像数据
源图像数据
基于DCT 的编码器
图像子块
量化器
4) 使用差分脉冲编码调制(differential pulse code modulation ，DPCM)
对直流系数(DC)进行编码。

5) 使用行程长度编码(run-length encoding ，RLE)对交流系数(AC)进行
编码。

6) 熵编码(entropy coding)。

三、实验内容
按照上述压缩过程实现一幅图像的压缩，图像编码流程如下：
图3 JPEG 图像编码流程
1. DCT 变换
对8×8的图像数据块进行二维DCT 的变换，把能量集中在少数几个系数上，从而达到数据压缩的目的。

： DCT 变换公式:
DCT 反变换公式：
输入原图像
8×8二维DCT 变换
量化
DC 系数差分编码 AC 系数游程编码
熵编码
生成压缩图像
文件保存
输出原图像
8×8二维IDCT 变换
逆量化
DC 系数解码
AC 系数解码码
熵解码
读取压缩图像文件
表说明
量化表
16
)12(cos
16
)12(cos
),()()(4
1),(7
07
π
π
υv y u x y x f v C y C u F x y ++=
∑∑
==
其中：
二维DCT 变换可以分解为行和列的一维DCT 变换的组合运算，也可将8×8的块分为更小的子块，直接对二维数据进行2维快速余弦变换。

2. 量化
量化表达式为：
其中 T(u ，v)是推荐的量化矩阵，详见附录1量化矩阵表 3. 熵编码
对直流DC 系数和交流AC 系数分别采用不同的压缩编码算法 1）
DC 系数编码：
把所有子块的DC 系数集合在一起，采用差分编码的方法表示。

编码步骤为：
a ）将初始值设为128，对相邻块的DC 系数F(0,0)进行差分运算
b ）将差分值改写为[size,value] (尺寸，幅值)的符号对。

尺寸取2
的对数加1
c ）按照表2、3对该符号对进行编码
2）
AC 系数编码 AC 系数编码步骤为：
a ）以块为单位，从AC01开始对块内的量化数据进行Z 形行程
扫描，记录两个非零值的大小和其间连续零的个数
b ）将扫描结果改写为[RunLength ，level](行程、幅度)的符号对，
其中RunLength 代表该非零值和它前一个值之间0的个数，以(EOB)表示块结束。

c ）按照表3对上述的符号对进行编码。

若符号在表中查不到对
应码字，用ESC 码表示，然后按表4，5对RunLength 和level 进行编码。

4. 对编码后的图像数据进行解码，与原始图像数据进行比较。

16
1216
124
1707
π
π
v y u x v u F v C u C y x f u v )(cos
)(cos
),()()(),(++=
∑∑
==⎪⎩
⎪
⎨⎧≠==
0v u, 0v u, 12
1
)()
(v C u C ⎥
⎦
⎤⎢⎣⎡=),(),(),(ˆv u T v u F NINT v u F
四、实验要求
1.根据实验内容要求编写编解码程序，所用编程语言自选,实验完成后提交
完整源程序，并在关键处加上详细批注
I=imread('cameraman.tif')
I=im2double(I) %转换图像矩阵为双精度型。

J=dct2(I);
T=dctmtx(8) %产生二维DCT变换矩阵
a1=[16 11 10 16 24 40 51 61;
12 12 14 19 26 58 60 55;
14 13 16 24 40 57 69 56;
14 17 22 29 51 87 80 62;
18 22 37 56 68 109 103 77;
24 35 55 64 81 104 113 92;
49 64 78 87 103 121 120 101;
72 92 95 98 112 100 103 99 ];
for i=1:8:200
for j=1:8:200
P=I(i:i+7,j:j+7);
K=T*P*T';
I2(i:i+7,j:j+7)=K;
K=K./a1; %量化
K(abs(K)<0.03)=0;
I3(i:i+7,j:j+7)=K;
end
end
figure;
imshow(I2);
title('DCT变换后的频域图像'); %显示DCT变换后的频域图像
for i=1:8:200
for j=1:8:200
P=I3(i:i+7,j:j+7).*a1; %反量化
K=T'*P*T;
I4(i:i+7,j:j+7)=K;
end
end
figure;
imshow(I4);
title('复原图像');
B=blkproc(I,[8,8],'P1*x*P2',T,T')
%计算二维DCT，矩阵T及其转置是DCT函数P1*X*P2的参数
mask=[1 1 1 1 0 0 0 0
1 1 1 0 0 0 0 0
1 1 0 0 0 0 0 0
1 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 ]
%二值掩模，用来压缩DCT系数，只留下DCT系数中左上角的10个
B2=blkproc(B,[8 8],'P1.*x',mask) %只保留DCT变换的10个系数
I2=blkproc(B2,[8 8],'P1*x*P2',T',T) %重构图像
figure
imshow(I)
title('原始图像');
figure
imshow(I2);
title('压缩图像');
figure
imshow(J);
figure
mesh(J) %画出J的立体网状图
colorbar('horiz') %在水平条方向用不同的颜色表示曲面的高度
五、小结
通过本次实验，懂得用matlab完成图像压缩的过程，了解多媒体通信中图像压缩技术，熟悉了视频帧内压缩编码过程，掌握了二维DCT变换算法，更加熟练地掌握了DCT 变换，更深刻的认识了图像通信。