4K高清直播H.265VBR编码格式技术参数优化与分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

DOI:10.19551/ki.issn1672-9129.2021.04.115
4K高清直播H.265VBR编码格式技术参数优化与分析
张春磊(天津网络广播电视台有限公司㊀300070)
摘要:基于平台的4K高清直播做应用开发及数据变成,它是一个可以走得更远的方向,真正有价值的地方在于与具体的业务方向结合㊂这边文章将详细简介如何搭建最简单的编码合适及视频编码的基本知识㊂通过对音视频直播技术架构的简单分析,以对此提供技术参考㊂
关键词:视频;参数分析;编码方式
中图分类号:TN919㊀㊀㊀文献标识码:A㊀㊀㊀文章编号:1672-9129(2021)04-0114-01
㊀㊀1㊀视频编码考虑要素
编码计算量和码率带宽,实时视频会运行在移动端上,需要保证实时性就需要编码足够快,码率尽量小㊂基于这个原因现阶段一般认为H.264是最佳的实时视频编码器,而且各个移动平台也支持它的硬编码技术㊂
2㊀常用的编码分类基础
(1)变换编码:消除图像的帧内冗余㊂涉及到图像学里面的两个概念:空域和频域㊂空域就是我们物理的图片,频域就是将物理图片根据其颜色值等映射为数字大小㊂而变换编码的目的是利用频域实现去相关和能量集中㊂(2)运动估计和运动补偿:消除帧间冗余㊂视频压缩还存在时间上的关联性㊂例如,针对一些视频变化,背景图不变而只是图片中部分物体的移动,针对这种方式,可以只对相邻视频帧中变化的部分进行编码㊂
(3)熵编码:提高压缩效率,熵编码主要是针对码节长度优化实现的㊂原理是针对信源中出现概率大的符号赋予短码,对于概率小的符号赋予长码,然后总的来说实现平均码长的最小值㊂编码方式(可变字长编码)有:霍夫曼编码㊁算术编码㊁游程编码等㊂
3㊀常见的编码方式
(1)I帧(I-frame):学名叫做:picture㊂也可以叫做独立帧㊂该帧是编码器随机挑选的参考图像,换句话说,一个I 帧本身就是一个静态图像㊂它是作为B,P帧的参考点㊂对于它的压缩,只能使用熵和变化编码这两种方式进行帧内压缩㊂
(2)P帧(Pframe):又叫做Predicted picture–前向预测帧㊂即,他会根据前面一张图像,来进行图片间的动态压缩,它的压缩率和I帧比起来要高一些㊂
(3)B帧(Bframe):又叫做Bi-predictive picture 双向预测㊂它比P帧来说,还多了后一张图像的预测,所以它的压缩率更高㊂考虑到不同帧传输的无序性,我们还需要引入PTS与DTS来进行控制,使用DTS来解码,PTS来进行播放㊂
(4)PTS(presentation time stamps):显示时间戳,显示器从接受到解码到显示的时间㊂
(5)DTS(decoder):解码时间戳㊂也表示该sample在整
个流中的顺序㊂
4㊀H.26X系列组成形式
(1)H.261:主要在老的视频会议和视频电话产品中使用㊂
(2)H.263:主要用在视频会议㊁视频电话和网络视频上㊂
(3)H.264:H.264/MPEG-4第十部分,或称AVC(Ad-vanced Video Coding,高级视频编码),是一种视频压缩标准,一种被广泛使用的高精度视频的录制㊁压缩和发布格式㊂
(4)H.265:高效率视频编码(High Efficiency Video Cod-ing,简称HEVC)是一种视频压缩标准,H.264/MPEG-4 AVC的继任者㊂HEVC被认为不仅提升图像质量,同时也能达到H.264/MPEG-4AVC两倍之压缩率㊂
(5)H.264是由ITU和MPEG两个组织共同提出的标准,整个编码器包括帧内预测编码㊁帧间预测编码㊁运动估计㊁熵编码等过程,支持分层编码技术(SVC)㊂(6)H.264为了防止丢包和减小带宽还引入一种双向预测编码的B帧,B帧以前面的I或P帧和后面的P帧为参考帧㊂H.264为了防止中间P帧丢失视频图像会一直错误它引入分组序列(GOP)编码,也就是隔一段时间发一个全量I帧,上一个I帧与下一个I帧之间为一个分组GOP㊂5㊀视频与音频解码
(1)视频解码:解码时间戳,决定什么时候解码㊂该帧数据显示时间戳,决定什么时候显示该帧图像㊂以参考时钟为基准,超前参考时钟则等待,落后(在30ms与500ms之间)参考时钟则快速渲染,十分落后(超过500ms)参考时钟则丢弃该帧㊂关键帧与非关键帧:关键帧:I帧为关键帧,所以I帧可以直接解码还原出一个图像㊂非关键帧:P帧与B 帧为非关键帧,需要依赖关键帧才能解码㊂组包与拼帧:有些封装格式会把一帧数据拆成若干包,因为关键帧数据可能比较大;RTP封装数据时,也会把一帧拆成若干包,因为MTU规定网络层最大传输单元为1500bytes㊂
(2)音频解码㊂planar:每个声道数据单独存储㊂以立体声道为例,L表示左声道,R表示右声道㊂那么存储格式为LLLLRRRR㊂类似视频的YUV420SP,Y独立存储,UV交错存储,4个Y分量对应一组UV分量㊂2㊁量化位数:量化位数:量化位是对模拟音频信号的幅度轴数字化,它决定了模拟信号数字化的动态范围㊂量化位数越大,质量越好㊂结束语:视频实际上就是一帧一帧的图片,拼接起来进行播放;标准的图像格式使用RGB三字节描述像素颜色值,会占用较大的存储空间与带宽㊂视频编解码器会根据前后图像的变化做运动检测,通过各种压缩把变化的结果发送到对方㊂为后续的高清直播做出更有利的判断,呈现出最优的视听效果㊂
参考文献:
[1]美]埃里克㊃马瑟斯(Eric)著,袁国忠译.Python
编程从入门到实践第2版([M].中国工信出版集团:北京, 2018:221.
[2]埃里克㊃马瑟斯(Eric),Al,t,等.Python编程三剑客:Python编程从入门到实践+快速上手+极客编程[M].中国工信出版社:北京,2016:54.
[3]零壹快学.零基础C++从入门到精通语言程序设计电脑编程零基础C++软件编程入门自学书籍R零基础C++从入门到精通[M].广东人民出版社:广东,2018:112.
㊃411㊃。