视频图像帧内编码

合集下载

视频编码技术-PPT

第3章视频编码技术
1.视频信号的数字化 2.视频文件格式 3.视频压缩编码原理 4.视频压缩标准
学习目标
掌握视频数字化方法了解视频文件格式掌握视频压缩编码原理（预测编码、变换编
码、统计编码原理）
理解视频压缩标准（ MPEG标准）
3.1 视频信号的数字化
1.视频相关的基本概念
所谓视频（video frequency ），连续的图像变化每秒超过24帧（frame）画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果，这样连续的画面叫做视频。即视频是由一系列单独的静止图像组成，其单位用帧或格来表示；
（1）本地影像视频格式
－MOV格式，美国Apple公司开发的一种视频格式，默认的播放器是苹果的QuickTime Player。具有较高的压缩比率和较完美的视频清晰度等特点，但其最大的特点还是跨平台性，即不仅能支持Mac OS，同样也能支持Windows系列。
Avid Media composer非线性编辑软件支持该格式。
同步信号
)
地(色度)
S-Video四芯插头（座）
地(亮度)
2.视频的采集及数字化
视频采集卡的接口
莲花接头
2.视频的采集及数字化
视频采集卡的接口 IEEE1394接口
IEEE1394是一种外部串行总线标准，800Mbps的高速。1394接口具有把一个输入信息源传来的数据向多个输出机器广播的功能，特别适用于家庭视听的连接。由于该接口具有等时间的传送功能，确保视听AV设备重播声音和图像数据质量，具有好的重播效果。
人眼在观察景物时，光信号传入大脑神经，需经过一段短暂的时间，光的作用结束后，视觉形象并不立即消失，而能继续保留其影像0.1-0.4秒左右，这种现象被称为视觉暂留现象。

音视频编码一些参数解析：码流、码率、比特率、帧速率、分辨率、高清的区别

⾳视频编码⼀些参数解析：码流、码率、⽐特率、帧速率、分辨率、⾼清的区别GOP/ 码流 /码率 / ⽐特率 / 帧速率 / 分辨率GOP(Group of picture)关键帧的周期，也就是两个IDR帧之间的距离，⼀个帧组的最⼤帧数，⼀般的⾼视频质量⽽⾔，每⼀秒视频⾄少需要使⽤ 1 个关键帧。

增加关键帧个数可改善质量，但是同时增加带宽和⽹络负载。

需要说明的是，通过提⾼GOP值来提⾼图像质量是有限度的，在遇到场景切换的情况时，H.264编码器会⾃动强制插⼊⼀个I帧，此时实际的GOP值被缩短了。

另⼀⽅⾯，在⼀个GOP中，P、B帧是由I帧预测得到的，当I帧的图像质量⽐较差时，会影响到⼀个GOP中后续P、B帧的图像质量，直到下⼀个GOP开始才有可能得以恢复，所以GOP值也不宜设置过⼤。

同时，由于P、B帧的复杂度⼤于I帧，所以过多的P、B帧会影响编码效率，使编码效率降低。

另外，过长的GOP还会影响Seek操作的响应速度，由于P、B帧是由前⾯的I或P帧预测得到的，所以Seek操作需要直接定位，解码某⼀个P或B帧时，需要先解码得到本GOP内的I帧及之前的N个预测帧才可以，GOP值越长，需要解码的预测帧就越多，seek响应的时间也越长。

CABAC/CAVLCH.264/AVC标准中两种熵编码⽅法，CABAC叫⾃适应⼆进制算数编码，CAVLC叫前后⾃适应可变长度编码，CABAC：是⼀种⽆损编码⽅式，画质好，X264就会舍弃⼀些较⼩的DCT系数，码率降低，可以将码率再降低10-15%（特别是在⾼码率情况下），会降低编码和解码的速速。

CAVLC将占⽤更少的CPU资源，但会影响压缩性能。

帧：当采样视频信号时，如果是通过逐⾏扫描，那么得到的信号就是⼀帧图像，通常帧频为25帧每秒（PAL制）、30帧每秒（NTSC 制）；场：当采样视频信号时，如果是通过隔⾏扫描（奇、偶数⾏），那么⼀帧图像就被分成了两场，通常场频为50Hz（PAL制）、60Hz（NTSC制）；帧频、场频的由来：最早由于抗⼲扰和滤波技术的限制，电视图像的场频通常与电⽹频率（交流电）相⼀致，于是根据各地交流电频率不同就有了欧洲和中国等PAL制的50Hz和北美等NTSC制的60Hz，但是现在并没有这样的限制了，帧频可以和场频⼀样，或者场频可以更⾼。

新一代的视频编码标准H.264

新一代的视频编码标准H.264文 / 摘要：H.264是国际电联最新通过的新一代甚低码率视频编码标准。

本文旨在阐述H.264视频编码标准的关键技术，并介绍了其在视频会议中的应用。

关键词：H.264 视频编码多帧预测视频会议一、引言ITU-T和ISO/IEC JTC1是目前国际上制定视频编码标准的正式组织，ITU-T的标准称之为建议，并命名为H.26x 系列，比如H.261、H.263等。

ISO/IEC的标准称为MPEG-x，比如MPEG-1、MPEG-2、MPEG-4等。

H.26x系列标准主要用于实时视频通信，比如视频会议、可视电话等；MPEG系列标准主要用于视频存储(DVD) 、视频广播和视频流媒体（如基于Internet、 DSL的视频，无线视频等等）。

除了联合开发H.262/MPEG-2标准外，大多数情况下，这两个组织独立制定相关标准。

自1997年，ITU-T VCEG与ISO/IEC MPEG再次合作，成立了Joint Video Team (JVT)，致力于开发新一代的视频编码标准H.264。

1998年1月，开始草案征集；1999年9月，完成了第一个草案；2001年5月，制定了其测试模式TML-8；2002年6月，JVT第5次会议通过了H.264的FCD板；2002年12月，ITU-T 在日本的会议上正式通过了H.264标准，并于2003年5月正式公布了该标准。

国际电信联盟将该系统命名为H.264/AVC，国际标准化组织和国际电工委员会将其称为14496-10/MPEG-4 AVC。

二、H.264标准概述H.264和以前的标准一样，也是DPCM加变换编码的混合编码模式。

但它采用“回归基本”的简洁设计，不用众多的选项，获得比H.263++好得多的压缩性能；加强了对各种信道的适应能力，采用“网络友好”的结构和语法，有利于对误码和丢包的处理；应用目标范围较宽，以满足不同速率、不同解析度以及不同传输（存储）场合的需求。

帧内编码和帧间编码

帧内编码和帧间编码
帧内编码：
帧内编码是指在一个完整的图像帧中，采用特定的编码算法，将图像数据压缩成比原始数据更小的数据量，从而节省存储空间和传输带宽的过程。

常用的帧内编码算法有JPEG （Joint Photographic Experts Group）、MPEG（Motion Picture Experts Group）等。

帧间编码：
帧间编码是指在一组图像帧中，采用特定的编码算法，将一帧图像和其前一帧图像之间的差异数据压缩成比原始数据更小的数据量，从而节省存储空间和传输带宽的过程。

常用的帧间编码算法有H.264（High Efficiency Video Coding）、H.265（High Efficiency Video Coding）等。

视频编码标准

视频编码标准H.264/AVCH.264/AVC 是ITU-T VCEG 和ISO/IEC MPEG 共同开发的视频处理标准，ITU-T作为标准建议H.264，ISO/IEC作为国际标准14496-10（MPEG-4 第10部分）高级视频编码（AVC）。

MPEG-2视频编码标准（又称为ITU-T H.262[2]）已有10年的历史了，由MPEG-1扩充而来，支持隔行扫描。

使用十分广泛，几乎用于所有的数字电视系统，适合标清和高清电视，适合各种媒体传输，包括卫星、有线、地面等，都能有效地传输。

然而，类似xDSL、UMTS（通用移动系统）技术只能提供较小的传输速率，甚至DVB-T，也没有足够的频段可用，提供的节目很有限，随着高清电视的引入，迫切需要高压缩比技术的出现。

应用于电信的视频编码经历了ITUT H.261、H.262（MPEG-2）、H.263、H.263+、H.263++，提供的服务从ISDN和T1/E1到PSTN、移动无线网和LAN/INTERNET网。

最近MPEG-4 第二部分进入了实用领域，提供了视频形状编码，目标是与MPEG-2一样获得广泛的数字电视应用。

1998年，视频编码专家组（VCEG-ITU-T SG16 Q.6）启动了H.26L工程，旨在研制出新的压缩标准，与以前的任何标准相比，效率要提高一倍，同时具有简单、直观的视频编码技术，网络友好的视频描述，适合交互和非交互式应用（广播、存储、流煤体）。

2001年12月，VCEG和运动图像专家组（MPEG-ISO/IEC JTC 1/SC 29/WG 11）组成了联合视频组（JVT，Joint Video Team），研究新的编码标准H.264/AVC，该标准于2003年3月正式获得批准。

视频的各种应用必须通过各种网络传送，这要求一个好的视频方案能处理各种应用和网络接口。

H.2 64/AVC为了解决这个问题，提供了很多灵活性和客户化特性。

绘声绘影中码率、帧数、分辨率、体积的基础编码知识

【绘声绘影新手必学】画质、码率、帧数、分辨率、体积的基础编码知识很多新手对这方面的概念都比较模糊，这是我在绘声绘影吧精品贴整理出来的，当然也加入一些自己的内容，在排版上也更加直观一些。

原文链接/p/1636481831?see_lz=1只要认真看完，基本就对这方面有个全面基础的了解了。

什么是视频编码率？可以简单的理解为，衡量文件体积大小的关键参数，表示每秒钟多少KB的参数。

观察会发现他的单位是Kbps，其实Kbps是Kbit/s的意思，8Kbit/s=1KB/s。

也就是说800Kbps意思就是每秒视频就要占用100KB磁盘空间（当然这里没有加上音频所占的体积）。

上面举例只是让你对视频编码率（以下简称为：码率）有一个具体的形象，其实不用自己算，WisMencoder都已经帮你算好了，就在软件的右下角显示了当前配置每小时和每分钟所需要占用的磁盘空间。

（只是理论值，实际压缩后的编码率可能有一定误差）所以你可以理解为压缩同一个视频，视频编码率越大，文件体积越大。

和画质的关系：文件体积大了，价值何在？可以认为：视频编码率越大，画质越好，马赛克越少。

什么是帧数？我们都知道电影是由一张张的图片组成的，播放电影时，一张张画面快速连续的出现。

这里其中的每张画面称之为“帧”。

帧数在WisMencoder的单位其实是fps，即全称应为每秒的帧数。

也就是每秒含有多少张画面。

显然，每秒含有的画面数越多，则画面显得越连续，越少，则画面越“卡”。

和画质的关系：帧数也与画质有关！在同一视频，同一码率的情况下，帧数越大，则画质越不好。

尤其是运动的画面。

因为每张画面会分担每秒有限的文件体积，如果画面越多，那么每张画面所能表现的内容就越有限。

什么是画面大小？这里的画面大小，单位是像素，而不是英寸和厘米。

这要弄清楚。

画面大小也称为分辨率。

每个像素就是一个点，640x480就表示该视频的每张画面是由宽640点，高480点组成的。

现在相机所说的像素也是这个概念，只不过相机所说的像素是宽和高的乘积值。

视频码率计算

视频码率计算编码率/⽐特率直接与⽂件体积有关。

且编码率与编码格式配合是否合适，直接关系到视频⽂件是否清晰。

在视频编码领域，⽐特率常翻译为编码率，单位是Kbps，例如800Kbps其中， 1K=1024 1M=1024Kb 为⽐特（bit）这个就是电脑⽂件⼤⼩的计量单位，1KB=8Kb，区分⼤⼩写，B代表字节(Byte) s 为秒（second） p 为每（per）以800kbps来编码表⽰经过编码后的数据每秒钟需要⽤800K⽐特来表⽰。

1MB=8Mb=1024KB=8192KbWindows系统⽂件⼤⼩经常⽤B(字节)为单位表⽰，但⽹络运营商则⽤b(⽐特)，也就是为什么2Mb速度宽带在电脑上显⽰速度最快只有约256KB的原因，⽹络运营商宣传⽹速的时候省略了计量单位。

完整的视频⽂件是由⾳频流与视频流2个部分组成的，⾳频和视频分别使⽤的是不同的编码率，因此⼀个视频⽂件的最终技术⼤⼩的编码率是⾳频编码率+视频编码率。

例如⼀个⾳频编码率为128Kbps，视频编码率为800Kbps的⽂件，其总编码率为928Kbps，意思是经过编码后的数据每秒钟需要⽤928K⽐特来表⽰。

了解了编码率的含义以后，根据视频播放时间长度，就不难了解和计算出最终⽂件的⼤⼩。

编码率也⾼，视频播放时间越长，⽂件体积就越⼤。

不是分辨率越⼤⽂件就越⼤，只是⼀般情况下，为了保证清晰度，较⾼的分辨率需要较⾼的编码率配合，所以使⼈产⽣分辨率越⼤的视频⽂件体积越⼤的感觉。

计算输出⽂件⼤⼩公式：（⾳频编码率（Kbit为单位）/8 + 视频编码率（Kbit为单位）/8）× 影⽚总长度（秒为单位）= ⽂件⼤⼩（MB为单位）这样以后⼤家就能精确的控制输出⽂件⼤⼩了。

例：有⼀个1.5⼩时（5400秒）的影⽚，希望转换后⽂件⼤⼩刚好为700M计算⽅法如下：700×8÷5400×1024≈1061Kbps 意思是只要⾳频编码率加上视频编码率之和为1061Kb，则1个半⼩时的影⽚转换后⽂件体积⼤⼩刚好为700M。

基于调色板模式的屏幕视频帧内编码快速算法

基于调色板模式的屏幕视频帧内编码快速算法王菲【摘要】基于HEVC的屏幕视频编码根据屏幕视频的特征,引入了调色板模式、基于Hash的块匹配算法等新技术.这些新技术虽然提升了编码的质量,但同时增加了编码器的复杂度.为降低屏幕视频编码器的复杂度,提出了一种基于调色板模式的屏幕视频帧内编码快速算法.该算法结合了屏幕视频的特征和帧内编码模式的空间相关性,有效地减少了帧内编码单元的模式搜索范围.该算法可以在保证视频编码质量的前提下,有效降低编码复杂度,减少编码时间.在屏幕内容编码的标准测试平台SCM5.4的实验结果显示,本算法可以降低21%的编码时间,同时只引起0.93%的BD-Rate的上升.【期刊名称】《微型机与应用》【年(卷),期】2017(036)002【总页数】3页(P34-36)【关键词】屏幕视频编码;调色板模式;帧内编码【作者】王菲【作者单位】同济大学电子与信息工程学院,上海201804【正文语种】中文【中图分类】TP37新一代视频压缩编码标准——高效视频编码技术(High Efficiency Video Coding，HEVC)，它将自然图像视频压缩效率相对于H.264/AVC提升了数倍。

近年来，随着视频会议、远程桌面共享等应用越来越广泛，人们对带有文字图表的图像等屏幕视频的需求量越来越大，传统的视频编码技术如HEVC、H.264/AVC等对自然图像视频处理固然有效，但是由于屏幕视频图像不同于自然视频图像的特点，如局部块颜色的数量有限、边缘锋利、色调不连续、没有可捕获的噪声等，如果使用传统的自然图像编码技术，极有可能降低屏幕视频编码效率。

基于HEVC视频压缩编码标准的屏幕视频编码标准(Screen Content Coding，SCC)仍在完善之中，但是SCC依旧沿用了HEVC的框架，即HEVC所采用的四叉树结构的编码单元(Coding Unit，CU)划分方式，并对每种尺寸的CU、预测单元(Prediction Unit，PU)或变换单元(Transform Unit，TU)通过计算率失真代价(Rate Distortion Cost，RD_Cost)得出最优尺寸。

一种新的用于屏幕图像编码的HEVC帧内模式

一种新的用于屏幕图像编码的HEVC帧内模式陈先义;赵利平;林涛【摘要】由于传统编码方式对屏幕图像的编码效果不佳，该文根据屏幕图像包含大量非连续色调内容的特点，在HEVC(High Efficiency Video Coding)基础上，提出一种新的帧内编码模式称为帧内串匹配(Intra String Copy, ISC)。

基本思想是在HEVC的编码单元(Coding Unit, CU)级别上，引入字典编码工具：编码时，在一定长度的字典窗口内，利用散列表，对当前CU内的像素，进行串搜索和匹配；解码时，根据像素串匹配的距离和匹配长度，在重建缓存内复制相应位置像素重建当前CU像素。

实验结果表明，在编码复杂度增加很少的情况下，对于典型的屏幕图像测试序列，在全帧内(All Intra, AI)，随机接入(Random Access, RA)，低延迟(Low-delay B, LB)3种配置下，有损编码模式比HEVC分别节省码率15.1%,12.0%,8.3%，无损编码模式分别节省码率23.3%,14.9%,11.6%。

%Because of the poor effect of the traditional coding methods on the screen content coding, considering the screen content is rich in non-continuous tone content, a new intra coding mode based on High Efficiency Video Coding (HEVC), which is called Intra String Copy (ISC), is proposed. The basic idea is adopting the dictionary coding tool on the HEVC Coding Unit (CU) level. When encoding, the current CU pixels are searched and matched in a certain length dictionary window by using Hash table. When decoding, according to the pixels string matching distances and lengths, the current CU pixels in the reconstruction cache are restored by copying the corresponding position pixels. Experiment results show that with little coding complexity increase than HEVC, for typical screen contenttest sequences, ISC can achieve lossy coding bit-rate saving of 15.1%, 12.0%, 8.3% for All Intra (AI), Random Access (RA), and Low-delay B (LB) configurations, respectively, and lossless coding bit-rate saving of 23.3%, 14.9%, 11.6% for AI, RA, and LB configurations.【期刊名称】《电子与信息学报》【年(卷),期】2015(000)011【总页数】6页(P2685-2690)【关键词】高效视频编码;屏幕图像编码;字典编码;散列表【作者】陈先义;赵利平;林涛【作者单位】同济大学超大规模集成电路研究所上海 200092;同济大学超大规模集成电路研究所上海 200092; 嘉兴学院数理与信息工程学院嘉兴 314000;同济大学超大规模集成电路研究所上海 200092【正文语种】中文【中图分类】TN919.8随着云计算、移动云计算、远程桌面和无线显示技术的发展，如何在低码率下使屏幕图像在电脑屏幕、手机屏幕、电视屏幕和其它客户端上高质量地显示，吸引了学术界和工业界的关注。

vp8 vp9编码原理

vp8 vp9编码原理VP8和VP9编码原理1. 介绍•VP8和VP9是谷歌公司开发的视频编码标准，用于压缩和解压缩数字视频数据。

•这两种编码方法旨在提供更高的压缩比和更好的视频质量。

2. 压缩编码过程1.图像分块：–视频帧被分成多个小的图像块，每个块都是独立编码的。

2.运动估计和补偿：–通过比较当前帧和参考帧之间的像素差异，找到运动向量，并将其用于预测当前块的像素值。

–运动补偿可以减少视频数据的冗余，并提高压缩效率。

3.变换和量化：–将每个块的像素数据转换为频域数据，以减少冗余和提高压缩率。

–使用离散余弦变换（DCT）将图像块转换为一组频域系数。

–量化器将频域系数映射到一个固定的量化表，以减小系数的精度和数值范围。

4.熵编码：–使用熵编码方法，如Huffman编码或自适应编码，对量化后的系数进行编码。

–通过编码，可以进一步减小数据的大小，提高压缩率。

3. 帧内预测和帧间预测•VP8和VP9使用了帧内预测和帧间预测两种方法来减小图像块的冗余。

•帧内预测：–当前帧中的像素值通过对其周围像素进行预测来估计。

–这种方法适用于静止或缓慢变化的图像区域。

•帧间预测：–使用参考帧来预测当前帧中的像素值，即运动估计和补偿过程。

–这种方法适用于像素值与参考帧之间有明显差异的图像区域。

4. VP8和VP9的区别•VP9相对于VP8具有更高的压缩效率和更好的视频质量。

•VP9引入了更强大的预测模式和更高的精度量化，以提供更好的视觉效果和更低的码率。

•VP9还增加了支持高动态范围（HDR）和更高分辨率的功能。

5. 应用和优势•VP8和VP9广泛应用于视频流媒体和在线视频平台。

•VP8和VP9的优势包括更高的压缩比、更低的比特率和更好的视频质量。

•这些编码方法适用于各种应用场景，如在线视频分享、远程会议和实时视频通信。

6. 结论•VP8和VP9编码原理基于图像预测和压缩技术，通过图像分块、运动估计和补偿、变换和量化、熵编码等步骤实现视频数据的压缩。

图像视频编码的国际标准以及每种图像和视频编码的技术特点

H.261是ITU-T针对可视电话和会议电视、窄带ISDN等要求实时编解码和低延时应用提出的一个编码标准。该标准包含的比特率为p*64Kbit/s，其中p是一个整数，取值范围为1～30，对应比特率为64Kbit/s～92Mbit/s。
6、H.261
H.261标准大体上分为两种编码模式：帧内模式和帧间模式。对于缓和运动的人头肩像，帧间编码模式将占主导位置；而对画面切换频繁或运动剧烈的序列图像，则帧间编码模式要频繁地向帧内编码模式切换。
1）输入/输出图像彩色分量之比可以是4∶2∶0，4∶2∶2，4∶4∶4。
2）输入/输出图像格式不限定。
3）可以直接对隔行扫描视频信号进行处理。
4）在空间分辨率、时间分辨率、信噪比方面的可分级性适合于不同用途的解码图像要求，并可给出传输上不同等级的优先级。
JPEG-2000另一个极其重要的优点就是感兴趣区（ROI，Region Of Interest）特性。用户在处理的图像中可以指定感兴趣区，对这些区域进行压缩时可以指定特定的压缩质量，或在恢复时指定特定的解压缩要求，这给人们带来了极大的方便。在有些情况下，图像中只有一小块区域对用户是有用的，对这些区域采用高压缩比。在保证不丢失重要信息的同时，又能有效地压缩数据量，这就是感兴趣区的编码方案所采取的压缩策略。基于感兴趣区压缩方法的优点，在于它结合了接收方对压缩的主观要求，实现了交互式压缩。
JEPG对图像的压缩有很大的伸缩性，图像质量与比特率的关系如下：
a)15～20比特/像素：与原始图像基本没有区别（transparent quality）。
b)075～15比特/像素：极好（excellent quality），满足大多数应用。
c)05～075比特/像素：好至很好（good to very good quality），满足多数应用。

视频基础知识

一．视频基础知识1. 视频编码原理视频图像数据有极强的相关性，也就是说有大量的冗余信息。

其中冗余信息可分为空域冗余信息和时域冗余信息。

压缩技术就是将数据中的冗余信息去掉（去除数据之间的相关性），压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。

1.1去时域冗余信息使用帧间编码技术可去除时域冗余信息，它包括以下三部分：A．运动补偿:运动补偿是通过先前的局部图像来预测、补偿当前的局部图像，它是减少帧序列冗余信息的有效方法。

B．运动表示:不同区域的图像需要使用不同的运动矢量来描述运动信息。

运动矢量通过熵编码进行压缩。

C．运动估计:运动估计是从视频序列中抽取运动信息的一整套技术。

注：通用的压缩标准都使用基于块的运动估计和运动补偿。

1.2去空域冗余信息主要使用帧内编码技术和熵编码技术：A．变换编码:帧内图像和预测差分信号都有很高的空域冗余信息。

变换编码将空域信号变换到另一正交矢量空间，使其相关性下降，数据冗余度减小。

B．量化编码:经过变换编码后，产生一批变换系数，对这些系数进行量化，使编码器的输出达到一定的位率。

这一过程导致精度的降低。

C．熵编码:熵编码是无损编码。

它对变换、量化后得到的系数和运动信息，进行进一步的压缩。

2. 视频编码解码标准2.1 H.264H.264是国际标准化组织（ISO）和国际电信联盟（ITU）共同提出的继MPEG4之后的新一代数字视频压缩格式，它即保留了以往压缩技术的优点和精华又具有其他压缩技术无法比拟的许多优点。

H.264最大的优势是具有很高的数据压缩比率，在同等图像质量的条件下，H.264的压缩比是MPEG-2的2倍以上，是MPEG-4的1.5～2倍。

举个例子，原始文件的大小如果为88GB，采用MPEG-2压缩标准压缩后变成3.5GB，压缩比为25∶1，而采用H.264压缩标准压缩后变为879MB，从88GB到879MB，H.264的压缩比达到惊人的102∶1。

自适应分割的视频点云多模式帧间编码方法

自适应分割的视频点云多模式帧间编码方法陈建 1, 2廖燕俊 1王适 2郑明魁 1, 2苏立超3摘要基于视频的点云压缩(Video based point cloud compression, V-PCC)为压缩动态点云提供了高效的解决方案, 但V-PCC 从三维到二维的投影使得三维帧间运动的相关性被破坏, 降低了帧间编码性能. 针对这一问题, 提出一种基于V-PCC 改进的自适应分割的视频点云多模式帧间编码方法, 并依此设计了一种新型动态点云帧间编码框架. 首先, 为实现更精准的块预测, 提出区域自适应分割的块匹配方法以寻找最佳匹配块; 其次, 为进一步提高帧间编码性能, 提出基于联合属性率失真优化(Rate distortion optimization, RDO)的多模式帧间编码方法, 以更好地提高预测精度和降低码率消耗. 实验结果表明, 提出的改进算法相较于V-PCC 实现了−22.57%的BD-BR (Bjontegaard delta bit rate)增益. 该算法特别适用于视频监控和视频会议等帧间变化不大的动态点云场景.关键词点云压缩, 基于视频的点云压缩, 三维帧间编码, 点云分割, 率失真优化引用格式陈建, 廖燕俊, 王适, 郑明魁, 苏立超. 自适应分割的视频点云多模式帧间编码方法. 自动化学报, 2023, 49(8):1707−1722DOI 10.16383/j.aas.c220549An Adaptive Segmentation Based Multi-mode Inter-frameCoding Method for Video Point CloudCHEN Jian 1, 2 LIAO Yan-Jun 1 WANG Kuo 2 ZHENG Ming-Kui 1, 2 SU Li-Chao 3Abstract Video based point cloud compression (V-PCC) provides an efficient solution for compressing dynamic point clouds, but the projection of V-PCC from 3D to 2D destroys the correlation of 3D inter-frame motion and re-duces the performance of inter-frame coding. To solve this problem, we proposes an adaptive segmentation based multi-mode inter-frame coding method for video point cloud to improve V-PCC, and designs a new dynamic point cloud inter-frame encoding framework. Firstly, in order to achieve more accurate block prediction, a block match-ing method based on adaptive regional segmentation is proposed to find the best matching block; Secondly, in or-der to further improve the performance of inter coding, a multi-mode inter-frame coding method based on joint at-tribute rate distortion optimization (RDO) is proposed to increase the prediction accuracy and reduce the bit rate consumption. Experimental results show that the improved algorithm proposed in this paper achieves −22.57%Bjontegaard delta bit rate (BD-BR) gain compared with V-PCC. The algorithm is especially suitable for dynamic point cloud scenes with little change between frames, such as video surveillance and video conference.Key words Point cloud compression, video-based point cloud compresion (V-PCC), 3D inter-frame coding, point cloud segmentation, rate distortion optimization (RDO)Citation Chen Jian, Liao Yan-Jun, Wang Kuo, Zheng Ming-Kui, Su Li-Chao. An adaptive segmentation based multi-mode inter-frame coding method for video point cloud. Acta Automatica Sinica , 2023, 49(8): 1707−1722点云由三维空间中一组具有几何和属性信息的点集构成, 通常依据点的疏密可划分为稀疏点云和密集点云[1]. 通过相机矩阵或高精度激光雷达采集的密集点云结合VR 头盔可在三维空间将对象或场景进行6自由度场景还原, 相较于全景视频拥有更真实的视觉体验, 在虚拟现实、增强现实和三维物体捕获领域被广泛应用[2−3]. 通过激光雷达反射光束经光电处理后收集得到的稀疏点云可生成环境地收稿日期 2022-07-05 录用日期 2022-11-29Manuscript received July 5, 2022; accepted November 29, 2022国家自然科学基金(62001117, 61902071), 福建省自然科学基金(2020J01466), 中国福建光电信息科学与技术创新实验室(闽都创新实验室) (2021ZR151), 超低延时视频编码芯片及其产业化(2020年福建省教育厅产学研专项)资助Supported by National Natural Science Foundation of China (62001117, 61902071), Fujian Natural Science Foundation (2020J01466), Fujian Science & Technology Innovation Laborat-ory for Optoelectronic Information of China (2021ZR151), and Ultra-low Latency Video Coding Chip and its Industrialization (2020 Special Project of Fujian Provincial Education Depart-ment for Industry-University Research)本文责任编委刘成林Recommended by Associate Editor LIU Cheng-Lin1. 福州大学先进制造学院泉州 3622512. 福州大学物理与信息工程学院福州 3501163. 福州大学计算机与大数据学院/软件学院福州 3501161. School of Advanced Manufacturing, Fuzhou University, Quan-zhou 3622512. College of Physics and Information Engineer-ing, Fuzhou University, Fuzhou 3501163. College of Com-puter and Data Science/College of Software, Fuzhou University,Fuzhou 350116第 49 卷第 8 期自动化学报Vol. 49, No. 82023 年 8 月ACTA AUTOMATICA SINICAAugust, 2023图, 以实现空间定位与目标检测等功能, 业已应用于自动驾驶、无人机以及智能机器人等场景[4−7]. 但相较于二维图像, 点云在存储与传输中的比特消耗显著增加[8], 以经典的8i 动态点云数据集[9]为例, 在每秒30帧时的传输码率高达180 MB/s, 因此动态点云压缩是对点云进行高效传输和处理的前提.N ×N ×N 3×3×3为了实现高效的动态点云压缩, 近年来, 一些工作首先在三维上进行帧间运动估计与补偿, 以充分利用不同帧之间的时间相关性. 其中, Kammerl 等[10]首先提出通过构建八叉树对相邻帧进行帧间差异编码, 实现了相较于八叉树帧内编码方法的性能提升; Thanou 等[11]则提出将点云帧经过八叉树划分后, 利用谱图小波变换将三维上的帧间运动估计转换为连续图之间的特征匹配问题. 然而, 上述方法对帧间像素的运动矢量估计不够准确. 为了实现更精确的运动矢量估计, Queiroz 等[12]提出一种基于运动补偿的动态点云编码器, 将点云体素化后进行块划分, 依据块相关性确定帧内与帧间编码模式, 对帧间编码块使用提出的平移运动模型改善预测误差; Mekuria 等[13]则提出将点云均匀分割为的块, 之后将帧间对应块使用迭代最近点(Iterative closest point, ICP)[14]进行运动估计,以进一步提高帧间预测精度; Santos 等[15]提出使用类似于2D 视频编码器的N 步搜索算法(N-step search, NSS), 在的三维块区域中迭代寻找帧间对应块, 而后通过配准实现帧间编码. 然而,上述方法实现的块分割破坏了块间运动相关性, 帧间压缩性能没有显著提升.为了进一步提高动态点云压缩性能, 一些工作通过将三维点云投影到二维平面后组成二维视频序列, 而后利用二维视频编码器中成熟的运动预测与补偿算法, 实现三维点云帧间预测. 其中, Lasserre 等[16]提出基于八叉树的方法将三维点云投影至二维平面, 之后用二维视频编码器进行帧间编码; Bud-agavi 等[17]则通过对三维上的点进行二维平面上的排序, 组成二维视频序列后利用高效视频编码器(High efficiency video coding, HEVC)进行编码.上述方法在三维到二维投影的过程中破坏了三维点间联系, 重构质量并不理想. 为改善投影后的点间联系, Schwarz 等[18]通过法线将点映射于圆柱体上确保点间联系, 对圆柱面展开图使用二维视频编码以提高性能. 但在圆柱上的投影使得部分点因遮挡丢失, 影响重构精度. 为尽可能保留投影点数, Mam-mou 等[19]根据点云法线方向与点间距离的位置关系, 将点云划分为若干Patch, 通过对Patch 进行二维平面的排列以减少点数损失, 进一步提高了重构质量.基于Patch 投影后使用2D 视频编码器进行编码, 以实现二维上的帧间运动预测与补偿的思路取得了最优的性能, 被运动图像专家组(Moving pic-ture experts group, MPEG)正在进行的基于视频的点云压缩(Video-based point cloud compres-sion, V-PCC)标准[20]所采纳, 但将Patch 从三维到二维的投影导致三维运动信息无法被有效利用, 使得帧间压缩性能提升受到限制. 针对这一问题, 一些工作尝试在V-PCC 基础上实现三维帧间预测,其中, Li 等[21]提出了一种三维到二维的运动模型,利用V-PCC 中的几何与辅助信息推导二维运动矢量以实现帧间压缩性能改善, 但通过二维推导得到的三维运动信息并不完整, 导致运动估计不够准确.Kim 等[22]提出通过点云帧间差值确定帧内帧与预测帧, 帧内帧用V-PCC 进行帧内编码, 预测帧依据前帧点云进行运动估计后对残差进行编码以实现运动补偿, 但残差编码依旧消耗大量比特. 上述方法均在V-PCC 基础上实现了三维点云的帧间预测,但无论是基于二维的三维运动推导还是帧间残差的编码, 性能改善都比较有限.在本文的工作中, 首先, 为了改善三维上实现运动估计与补偿中, 块分割可能导致的运动相关性被破坏的问题, 本文引入了KD 树(K-dimension tree,KD Tree)思想, 通过迭代进行逐层深入的匹配块分割, 并定义分割块匹配度函数以自适应确定分割的迭代截止深度, 进而实现了更精准的运动块搜索;另外, 针对V-PCC 中二维投影导致三维运动信息无法被有效利用的问题, 本文提出在三维上通过匹配块的几何与颜色两种属性进行相似性判别, 并设计率失真优化(Rate distortion optimization, RDO)模型对匹配块分类后进行多模式的帧间编码, 实现了帧间预测性能的进一步改善. 实验表明, 本文提出的自适应分割的视频点云多模式帧间编码方法在与最新的V-PCC 测试软件和相关文献的方法对比中均取得了BD-BR (Bjontegaard delta bit rate)的负增益. 本文的主要贡献如下:1)提出了针对动态点云的新型三维帧间编码框架, 通过自动编码模式判定、区域自适应分割、联合属性率失真优化的多模式帧间编码、结合V-PCC 实现了帧间编码性能的提升;2)提出了一种区域自适应分割的块匹配方法,以寻找帧间预测的最佳匹配块, 从而改善了均匀分割和传统分割算法导致运动相关性被破坏的问题;3)提出了一种基于联合属性率失真优化模型的多模式帧间编码方法, 在改善预测精度的同时显著减少了帧间编码比特.1 基于视频的点云压缩及其问题分析本文所提出的算法主要在V-PCC 基础上进行1708自动化学报49 卷三维帧间预测改进, 因此本节对V-PCC 的主要技术做简要介绍, 并分析其不足之处. 其中, V-PCC 编码框架如图1所示.图 1 V-PCC 编码器框架Fig. 1 V-PCC encoder diagram首先, V-PCC 计算3D 点云中每个点的法线以确定最适合的投影面, 进而将点云分割为多个Patch [23].接着, 依据对应Patch 的位置信息, 将其在二维平面上进行紧凑排列以完成对Patch 的打包. 之后,依据打包结果在二维上生成对应的图像, 并使用了几何图、属性图和占用图分别表示各点的坐标、颜色及占用信息. 鉴于Patch 在二维的排列不可避免地存在空像素点, 因此需要占用图表示像素点的占用与否[24]; 由于三维到二维的投影会丢失一个维度坐标信息, 因此使用几何图将该信息用深度形式进行表示; 为了实现动态点云的可视化, 还需要一个属性图用于表示投影点的颜色属性信息. 最后, 为了提高视频编码器的压缩性能, 对属性图和几何图的空像素进行了填充和平滑处理以减少高频分量; 同时, 为了缓解重构点云在Patch 边界可能存在的重叠或伪影, 对重构点云进行几何和属性上的平滑滤波处理[25]. 通过上述步骤得到二维视频序列后, 引入二维视频编码器(如HEVC)对视频序列进行编码.V-PCC 将动态点云帧进行二维投影后, 利用成熟的二维视频编码技术实现了动态点云压缩性能的提升. 但是, V-PCC 投影过程将连续的三维物体分割为多个二维子块, 丢失了三维上的运动信息,使得三维动态点云中存在的时间冗余无法被有效利用. 为了直观展示投影过程导致的运动信息丢失,图2以Longdress 数据集为例, 展示了第1 053和第1 054两相邻帧使用V-PCC 投影得到的属性图.观察图2可以发现, 部分在三维上高度相似的区域,如图中标记位置1、2与3所对应Patch, 经二维投影后呈现出完全不同的分布, 该结果使得二维视频编码器中帧间预测效果受到限制, 不利于压缩性能的进一步提升.2 改进的动态点云三维帧间编码为了在V-PCC 基础上进一步降低动态点云的时间冗余性, 在三维上进行帧间预测和补偿以最小化帧间误差, 本文提出了一个在V-PCC 基础上改进的针对动态点云的三维帧间编码框架, 如图3所示. 下面对该框架基本流程进行介绍.首先, 在编码端, 我们将输入的点云序列通过模块(a)进行编码模式判定, 以划分帧内帧与预测帧. 其思想与二维视频编码器类似, 将动态点云划分为多组具有运动相似性的图像组(Group of pic-tures, GOP)以分别进行编码. 其中图像组中的第一帧为帧内帧, 后续帧均为预测帧, 帧内帧直接通过V-PCC 进行帧内编码; 预测帧则通过帧间预测方式进行编码. 合理的GOP 划分表明当前图像组内各相邻帧均具有较高运动相关性, 因此可最优化匹配块预测效果以减少直接编码比特消耗, 进而提高整体帧间编码性能. 受文献[22]启发, 本文通过对当前帧与上一帧参考点云进行几何相似度判定,以确定当前帧的编码方式进行灵活的图像组划分.如式(1)所示.Longdress 第 1 053 帧三维示例Longdress 第 1 054 帧三维示例Longdress 第 1 053 帧 V-PCC投影属性图Longdress 第 1 054 帧 V-PCC投影属性图11223图 2 V-PCC 从三维到二维投影(属性图)Fig. 2 V-PCC projection from 3D to2D (Attribute map)8 期陈建等: 自适应分割的视频点云多模式帧间编码方法1709cur ref E Gcur,ref Ωmode mode E O R 其中, 为当前帧点云, 为前帧参考点云, 表示两相邻帧点云的几何偏差, 为编码模式判定阈值. 当值为1时表示当前帧差异较大, 应当进行帧内模式编码; 当值为0时则表示两帧具有较大相似性, 应当进行帧间模式编码. 另外, 在动态点云重构误差的计算中, 使用原始点云中各点与重构点云在几何和属性上的误差均值表示, 即式(2)所示.N O O (i )R (i ′)i i ′E O,R O R 其中, 为原始点云点数, 和分别表示原始点云第点与对应重构点云点的几何或属性值, 即为原始点云与重构点云间误差值.N ×N ×N K 接着, 在进行帧间编码模式判断后, 通过模块(b)进行预测帧的区域自适应块分割. 块分割的目的在于寻找具有帧间运动一致性的匹配块以进行运动预测和补偿. 不同于等分或均值聚类, 所提出的基于KD 树思想的区域自适应块匹配从点云质心、包围盒和点数三个角度, 判断分割块的帧间运动程度以进行分割深度的自适应判定,最终实现最佳匹配块搜索.之后, 对于分割得到的匹配块, 通过模块(c)进行基于联合属性率失真优化的帧间预测. 在该模块中, 我们通过帧间块的几何与颜色属性联合差异度,结合率失真优化模型对匹配块进行分类, 分为几乎无差异的完全近似块(Absolute similar block, ASB)、差异较少的相对近似块(Relative similar block,RSB)以及存在较大差异的非近似块(Non similar block, NSB). 完全近似块认为帧间误差可忽略不计, 仅需记录参考块的位置信息; 而相对近似块则表示存在一定帧间误差, 但可通过ICP 配准和属性补偿来改善几何与属性预测误差, 因此除了块位置信息, 还需记录预测与补偿信息; 而对于非近似块,则认为无法实现有效的帧间预测, 因此通过融合后使用帧内编码器进行编码.最后, 在完成帧间模式分类后, 为了在编码端进行当前帧的重构以作为下一帧匹配块搜索的参考帧, 通过模块(d)对相对近似块进行几何预测与属性补偿, 而后将几何预测与属性补偿后的相对近似块、完全近似块、非近似块进行融合得到重构帧. 为了在解码端实现帧间重构, 首先需要组合预测帧中的所有非近似块, 经由模块(e)的V-PCC 编码器进行帧内编码, 并且, 还需要对完全近似块的位置信息、相对近似块的位置与预测补偿信息通过模块(f)进行熵编码以实现完整的帧间编码流程.至此, 整体框架流程介绍完毕, 在接下来的第3节与第4节中, 我们将对本文提出的区域自适应分割的块匹配算法与联合属性率失真优化的多模式帧间编码方法进行更为详细的介绍, 并在第5节通过实验分析进行算法性能测试.3 区域自适应分割的块匹配N B j cur j ref j ∆E cur j ,ref j 相较于二维视频序列, 动态点云存在大量空像素区域, 帧间点数也往往不同. 因此, 对一定区域内的点集进行帧间运动估计时, 如何准确找到匹配的邻帧点集是一个难点. 假设对当前帧进行帧间预测时共分割为个子点云块, 第块子点云与其对应参考帧匹配块间存在几何与属性综合误差 . 由于重构的预测帧实质上是通过组合相应的参考帧匹配块而估计得到的, 因此精准的帧间块匹配尝试最小化每个分割块的估计误差,以提高预测帧整体预测精度, 如式(3)所示:图 3 改进的三维帧间编码框架Fig. 3 Improved 3D inter-frame coding framework1710自动化学报49 卷K K N N ×N ×N 为了充分利用帧间相关性以降低时间冗余, 一些工作尝试对点云进行分割后寻找最佳匹配块以实现帧间预测. Mekuria 等[13]将动态点云划分为若干个大小相同的宏块, 依据帧间块点数和颜色进行相似性判断, 对相似块使用迭代最近点算法计算刚性变换矩阵以实现帧间预测. 然而, 当区域分割得到的对应匹配块间存在较大偏差时, 预测效果不佳.为了减少匹配块误差以提高预测精度, Xu 等[26]提出使用均值聚类将点云分为多个簇, 在几何上通过ICP 实现运动预测, 在属性上则使用基于图傅里叶变换的模型进行运动矢量估计. 但基于均值聚类的点云簇分割仅在预测帧中进行, 没有考虑帧间块运动相关性, 匹配精度提升受到限制. 为了进一步提高匹配精度, Santos 等[15]受到二维视频编码器中步搜索算法的启发, 提出了一种3D-NSS 方法实现三维上的匹配块搜索, 将点云分割为的宏块后进行3D-NSS 以搜索最优匹配块, 而后通过ICP 进行帧间预测.K 上述分割方法均实现了有效的块匹配, 但是,基于宏块的均匀块分割与基于传统均值聚类的块划分均没有考虑分割块间可能存在的运动连续性, 在分割上不够灵活. 具体表现为分割块过大无法保证块间匹配性, 过小又往往导致已经具有运动连续性的预测块被过度细化, 出现相同运动预测信息的冗余编码. 为了避免上述问题, 本文引入KD 树思想, 提出了一种区域自适应分割算法, 该算法通过迭代进行逐层深入的二分类划分, 对各分割深度下块的运动性质与匹配程度进行分析, 确定是否需要继续分割以实现精准运动块匹配. 算法基本思想如图4所示, 若满足分割条件则继续进行二分类划分, 否则停止分割.Ψ(l,n )其中, 准确判断当前分割区域是否满足运动连续性条件下的帧间运动, 是避免过度分割以实现精准的运动块搜索的关键, 本文通过定义分割块匹配函数来确定截止深度, 如式(4)所示:ρ(n )=max [sign (n −N D ),0]n N D ρ(n )=1ξ(l )l 其中, 为点数判定函数,当点数大于最小分割块点数阈值时, ,表示满足深入分割的最小点数要求, 否则强制截止; 为当前深度下的块运动偏移度, 通过衡量匹配块间的运动变化分析是否需要进一步分割.ξξw ξu 提出的函数分别通过帧间质心偏移度估计匹配块间运动幅度, 帧间包围盒偏移度进行匹ξn ξw ξu ξn T l ξ(l )配块间几何运动一致性判定, 点数偏移度进行点云分布密度验证, 最后通过、与累加值与分割截止阈值的比值来整体衡量当前块的运动程度与一致性. 即对于当前分割深度 , 可进一步细化为式(5):其中,w cur w ref u cur u ref n cur n ref l P Max P Min 并且, 、、、、与分别表示当前分割深度下该区域与其前帧对应区域的质心、包围盒与点数,和分别为当前块对角线对应点.ρ(n )=1ξ(l)lξξξξ在的前提下,值反映当前KD 树分割深度下该区域点云的帧间运动情况.值越大帧间运动越显著,当值大于1时,需对运动块进行帧间运动补偿,如果继续分割将导致块的运动一致性被破坏或帧间对应块无法实现有效匹配,从而导致帧间预测失败;值越小说明当前区域点云整体运动变化越小,当值小于1时,需进一步分割寻找可能存在的运动区域.l +1d 对于需要进一步分割的点云块,为了尽可能均匀分割以避免分割后匹配块间误差过大, 将待分割匹配块质心均值作为分割点, 通过以包围盒最长边作为分割面来确定深度下的分割轴 , 分割轴l = 0l = 1l = 2l = m l = m + 1条件满足, 继续分割条件不满足, 停止分割图 4 区域自适应分割块匹配方法示意图Fig. 4 Schematic diagram of region adaptive segmentation based block matching method8 期陈建等: 自适应分割的视频点云多模式帧间编码方法1711如式(6)所示:Edge d,max Edge d,min d 其中, 和分别为待分割块在维度的最大值和最小值.总结上文所述, 我们将提出的区域自适应分割的块匹配算法归纳为算法1. 算法 1. 区域自适应分割的块匹配cur ref 输入. 当前帧点云与前帧参考点云输出. 当前帧与参考帧对应匹配块j =1N B 1) For to Do l =02) 初始化分割深度 ;3) Docur j ref j 4) 选取待分割块和对应待匹配块 ;w u n 5) 计算质心、包围盒与块点数 ;ξ(l )6) 根据式(5)计算运动块偏移度 ;ρ(n )7) 根据函数判定当前分割块点数;Ψ(l,n )8) 根据式(4)计算分割块匹配函数 ;Ψ(l,n )9) If 满足匹配块分割条件:d 10) 根据式(6)确定分割轴 ;cur j ref j 11) 对与进行分割;12) 保存分割结果;l +113) 分割深度 ;Ψ(l,n )14) Else 不满足匹配块分割条件:15) 块分割截止;16) 保存匹配块;17) End of if18) While 所有块均满足截止条件;19) End of for图5展示了本文提出的区域自适应分割的块匹配算法对帧Longdress_0536和其参考帧Longdress_0535进行分割后的块匹配结果. 在该序列当前帧下, 人物进行上半身的侧身动作. 观察图5可发现,在运动变化较大的人物上半身, 算法在寻找到较大的对应匹配块后即不再分割; 而人物下半身运动平缓, 算法自适应提高分割深度以实现帧间匹配块的精确搜索, 因而下半身的分块数目大于上半身.4 联合属性率失真优化的多模式帧间编码P Q在动态点云的帧间编码中, 常对相邻帧进行块分割或聚类后依据匹配块相似性实现帧间预测, 并利用补偿算法减少预测块误差以改善帧间编码质量. 其中迭代最近点算法常用于帧间运动估计中,其通过迭代更新待配准点云相较于目标点云 S t E (S,t )间的旋转矩阵和平移向量 , 进而实现误差最小化, 如式(7)所示:N p p i P i q i ′Q p i 其中为待配准点云点数, 为待配准点云的第个点, 为目标点云中与相对应的点.但是, 完全依据ICP 配准进行动态点云的三维帧间预测存在两个问题: 首先, ICP 仅在预测块上逼近几何误差的最小化而没考虑到颜色属性偏差引起的匹配块差异, 影响了整体预测精度; 其次, 从率失真角度分析, 对运动变化极小的匹配块进行ICP 配准实现的运动估计是非必要的, 该操作很难改善失真且会增加帧间编码比特消耗.为改善上述问题, 提出了联合属性率失真优化的多模式帧间编码方法. 提出的方法首先在确保几何预测精度的同时, 充分考虑了可能的属性变化导致的预测精度下降问题, 而后通过率失真优化模型,对块依据率失真代价函数得到的最优解进行分类后, 应用不同的编码策略以优化帧间编码方案, 旨在有限的码率约束下最小化编码失真, 即式(8)所示:R j D j j N B R C λ其中, 和分别表示第个点云块的编码码率和对应的失真; 是当前帧编码块总数; 表示总码率预算.引入拉格朗日乘子 ,式(8)所示的带约束优化问题可以转换为无约束的最优化问题, 即式(9)所示:当前帧分割可视化当前帧分割效果参考帧分割效果图 5 区域自适应分割的块匹配方法分割示例Fig. 5 Example of block matching method based onadaptive regional segmentation1712自动化学报49 卷。

常见的视频编码技术和标准123

78基础知识讲座2006 NO.9&10 记录媒体技术随着我国具有自主知识产权的视频编码国家标准AVS 的发布，视频编码技术和标准引起了行业内人士的极大兴趣和关注。

光盘行业比较熟悉的视频编码国际标准是MPEG 系列编码标准，这是因为MPEG-1标准成功地推动了VCD 产业，而MPEG-2标准带动了DVD 及数字电视等多种消费电子产业的快速发展。

随着视频编码技术的广泛应用和迅速发展，更多的视频编码技术和标准展现在我们面前。

目前，最为重要的视频编码国际标准包括国际标准化组织(ISO)和国际电工委员会(IEC)关于静止图像的编码标准JPEG ，国际电信联盟(ITU-T)关于可视电话和电视会议的视频编码标准H.261、H.263、H.264，以及国际标准化组织的运动图像专家组的系列标准MPEG-1、MPEG-2、MPEG-4。

此外，在互联网上被广泛应用的还有Real-Networks 公司的RealVideo 、微软公司的WMV 、Apple 公司的QuickTime 等格式。

这些视频编码技术融合了各种性能优良的图像编码算法，代表了目前图像编码的发展水平。

下面就光盘相关的视频编码技术和标准进行简要的评述。

一、H.261、H.263、H.264系列标准ITU-T 与ISO/IEC 是制定视频编码标准的两大国际组织，其中ITU-T 制定的标准包括H.261、H.263、H.264，主要应用于实时视频通信领域，如视频会议；MPEG 系列标准是由ISO/IEC 制定的，主要应用于视频存储、广播电视、因特网或无线网络的流媒体等。

两个组织也共同制定了一些标准，H.262标准等同于MPEG-2的视频编码标准，而最新的H.264标准则被纳入MPEG-4的第10部分。

1. H.261H.261又称为P*64，其中P 为64kb/s 的取值范围，是1到30的可变参数，它最初是针对在ISDN 上实现电话会议(特别是面对面的可视电话和视频会议)而设计常见的视频编码技术和标准(I)◇祖晟的。

视频编码格式全面解析

视频编码格式何其多在上一期的ZOL高清知识大讲堂中，为大家简单的介绍了什么是高清的问题，使大家对于高清在我们娱乐生活中出现有了一定的认识。

今天我们就来深入讨论一下视频编码的问题。

了解视频编码是我们深入了解视频播放的基础。

没有看到的朋友可以回顾一下《ZOL我要玩高清：旧话重提高清是什么？》ZOL高清大讲堂之视频编码篇我们在详解各种主流的视频格式之前，先抛开各种视频格式的定义，来讨论这样一件事情：你觉得目前的视频格式编码混乱吗？相信这个问题问出来，许多、、不同知识层次的人有不同的思考，但是答案却都有一个共同点就是：“混乱”。

从我们在接触网络上面看电影以来，就会遇到从原先我们熟知的RMVB格式的视频到后来接触的MP4、3GP等格式的视频就会感到为什么同样是AVI的视频，我的MP4却不支持，而别人的就可以呢？这里就涉及到了视频编码与封装格式的问题。

本文主要是针对视频编码进行讨论，以后会在下次为大家讲解一下关于封装格式的问题。

所谓视频编码方式就是指通过特定的压缩技术，将某个视频格式的文件转换成另一种视频格式文件的方式。

目前视频流传输中最为重要的编解码标准有国际电联的H.264，运动静止图像专家组的M-JPEG和国际标准化组织运动图像专家组的MPEG系列标准，此外在互联网上被广泛应用的还有Real-Networks的RealVideo、微软公司的WMV以及Apple公司的QuickTime等，到目前google力推的WebM格式都收到了我们的关注。

以下我们会为大家就主流的视频编码做一下讲解。

视频国际标准化相关组织的的ISO和ITU-T格式的统一肯定会极大地提高人们的生活的便利以及数据的传播，为什么还会有如此繁多的视频编码的方式，难道就没有专门机构或者组织来管理一下吗？带着这些疑问我们认识一下底下的两个机构。

■ ITU-TITU-T的中文名称是国际电信联盟远程通信标准化组织(ITU-T for ITU Telecommunication Standardization Sector), 它是国际电信联盟管理下的专门制定远程通信相关国际标准的组织。

对HDTV图像进行H_264帧内编码与JPEG2000编码的性能比较

２１
数字电视
（１）数据预处理。主要包括：直流平移、分量变换和分片。
（２）离散小波变换。ＪＰＥＧ２０００有两种小波变换滤波器，Ｄａｕｂｅｃｈｉｅｓ９／７滤波器和ＬｅＧａｌｌ５／３滤波器，前者主要用于有损压缩，后者可实现图像的无损压缩。
（３）小波系数的量化。每个子带上的小波系数反映了图像不同频域的特征，具有不同的统计特性和视觉特性，可以对每个子带采用不同的量化步长，但是一个子带中只有一个量化步长。
而增大，但波动不大；随着分辨率的减小，Ｈ．２６４的编
图１给为测试序列的峰值信噪比和码率关系图，码性能明显要优于ＪＰＥＧ２０００，差距同样随码率的增
横坐标是码率（ｂｐｐ），纵坐标是峰值信噪比（ＰＳＮＲ）。加而增大，并且波动较大。（２）Ｈ．２６４的ＰＳＮＲ与ｂｐｐ
以往标准中采用８×８的ＤＣＴ变换会带来两个问题：（１）浮点数操作会带来运算上的复杂性；（２）有限精度的有理数无法精确表示无理数，且浮点数的运算会引入舍入误差，导致编解码的失配。而Ｈ．２６４标准采用了基于４×４块的ＤＣＴ整数离散余弦变换，仅用移位和加减操作就可以实现，降低了计算复杂度，同时也解决了编解码的不匹配问题。
８
１０
１２８０×７２０４∶２∶０
８
１０
１２８０×７２０４∶２∶０
８
１０
１２８０×７２０４∶２∶０
８
１０
图１Ｈ．２６４和ＪＰＥＧ２０００对ＨＤＴＶ图像编码性能的比较
（下转第２６页）
２２
２００７年第１２期（总第２１６期）

H.264编码原理

H.264通信1012 严亮 1020119208 一．原理H.264是一种高性能的视频编解码技术。

目前国际上制定视频编解码技术的组织有两个，一个是“国际电联（ITU-T）”，它制定的标准有H.261、H.263、H.263+等，另一个是“国际标准化组织（ISO）”它制定的标准有MPEG-1、MPEG-2、MPEG-4等。

而H.264则是由两个组织联合组建的联合视频组（JVT）共同制定的新数字视频编码标准，所以它既是ITU-T的H.264，又是ISO/IEC的MPEG-4高级视频编码（Advanced Video Coding，AVC），而且它将成为MPEG-4标准的第10部分。

因此，不论是MPEG-4 AVC、MPEG-4 Part 10，还是ISO/IEC 14496-10，都是指H.264。

H.264最大的优势是具有很高的数据压缩比率，在同等图像质量的条件下，H.264的压缩比是MPEG-2的2倍以上，是MPEG-4的1.5～2倍。

举个例子，原始文件的大小如果为88GB，采用MPEG-2压缩标准压缩后变成3.5GB，压缩比为25∶1，而采用H.264压缩标准压缩后变为879MB，从88GB到879MB，H.264的压缩比达到惊人的102∶1！H.264为什么有那么高的压缩比？低码率（Low Bit Rate）起了重要的作用，和MPEG-2和MPEG-4 ASP等压缩技术相比，H.264压缩技术将大大节省用户的下载时间和数据流量收费。

尤其值得一提的是，H.264在具有高压缩比的同时还拥有高质量流畅的图像，正因为如此，经过H.264压缩的视频数据，在网络传输过程中所需要的带宽更少，也更加经济。

H.264和以前的标准一样，也是DPCM加变换编码的混合编码模式。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

视频图像帧内编码
--国立华侨大学
一实验目的
1.了解多媒体通信中图像压缩技术
2.熟悉视频帧内压缩编码过程
3.掌握二维DCT变换算法
二实验原理
视频帧内编码有多种模式，最基本的是基于8×8块的DCT顺序编码，将一帧图像分为8×8的块，然后按照从左至右、自上而下的顺序，对块进行DCT、量化和熵编码。

其编、解码框图如下：
基于DCT的编码器
图1 基于DCT的顺序编码框图
DCT解码器
图2 基于DCT的顺序解压缩框图
视频帧内压缩编码算法的主要步骤：
1)正向离散余弦变换(DCT)。

2)量化(quantization)。

3)Z字形扫描(zigzag scan)。

4)使用差分脉冲编码调制(differential pulse code modulation，
DPCM)对直流系数(DC)进行编码。

5)使用行程长度编码(run-length encoding，RLE)对交流系数(AC)
进行编码。

6)熵编码(entropy coding)。

三实验过程
实验利用MATLAB仿真软件来实现
程序：I=imread('D:\p_large_iUNl_627c0001a3192d12.bmp')
figure(1),imshow(I);
title('原图像')
I=rgb2gray(I); %将真彩色RGB图像转换成灰度图像
figure(11),imshow(I);
title('灰度图像')
I=im2double(I);% double(I)是将I变成double类型的。

im2double(I)是将图象变成double类型的再归一化，比如对于8比特图象，就是将原来像素值除以255。

fun_1=@dct2;
A_1=blkproc(I,[8 8],fun_1);
figure(2),imshow(A_1);
title('离散余弦变换后的图像')
T=[0.3536 0.3536 0.3536 0.3536 0.3536 0.3536 0.3536 0.3536
0.4904 0.4157 0.2778 0.0975 -0.0975 -0.2778 -0.4157 -0.4904
0.4619 0.1913 -0.1913 -0.4619 -0.4619 -0.1913 0.1913 0.4619
0.4157 -0.0975 -0.4904 -0.2778 0.2778 0.4904 0.0975 -0.4157
0.3536 -0.3536 -0.3536 0.3536 0.3536 -0.3536 -0.3536 0.3536
0.2778 -0.4904 0.0975 0.4157 -0.4157 -0.0975 0.4904 -0.2778
0.1913 -0.4619 0.4619 -0.1913 -0.1913 0.4619 -0.4619 0.1913
0.0975 -0.2778 0.4157 -0.4904 0.4904 -0.4157 0.2778 -0.0975]
A_2=blkproc(A_1,[8 8],'x./P1',T);
figure(3),imshow(A_2);
title('量化后的图像')
A_3=blkproc(A_2,[8 8],'x.*P1',T);
figure(4),imshow(A_3);
title('逆量化后的图像')
fun_2=@idct2;
I_2=blkproc(A_3,[8 8],fun_2);
figure(5),imshow(I_2);
title('对逆量化的进行逆离散余弦变换');
E=I-I_2;
figure(6),imshow(E),colormap(hot);
title('误差图像')
B=blkproc(I,[8,8],'P1*x*P2',T,T')
%计算二维DCT，矩阵T及其转置是DCT函数P1*X*P2的参数
mask=[1 1 1 1 0 0 0 0
1 1 1 0 0 0 0 0
1 1 0 0 0 0 0 0
1 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 ]
%二值掩模，用来压缩DCT系数，只留下DCT系数中左上角的10个B2=blkproc(B,[8 8],'P1.*x',mask) %只保留DCT变换的10个系数
I2=blkproc(B2,[8 8],'P1*x*P2',T',T) %重构图像
figure
imshow(I2);
title('压缩图像');
inf1=imfinfo('D:\untitled.bmp') %显示图像信息
inf=imfinfo('D:\p_large_iUNl_627c0001a3192d12.bmp') %显示图像信息面的高度
其仿真结果如下：
1.输入图像
2. DCT变换后的频域图像
3、8×8的DCT变换后图像
4.压缩后的图像
5、误差图像
四、实验小结
DCT 将原始图像信息块转换成代表不同频率分量的系数集，这有两个优点：其一，信号常将其能量的大部分集中于频率域的一个小范围内，这样一来，描述不重要的分量只需要很少的比特数；其二，频率域分解映射了人类视觉系统的处理过程，并允许
后继的量化过程满足其灵敏度的要求。