视频流关键技术的研究进展
面向三维视频的虚拟视点合成技术研究进展
相较于二维平面多媒体服务,三维(Three-Dimension,3D)立体多媒体服务能给观众带来身临其镜的真实感,极大地引起用户的关注。
近几年来,裸眼立体视频、虚拟现实等3D多媒体服务已走入家庭。
3D多媒体技术是人类通过左眼和右眼分别获得具有视差信息的左右视点场景信息,并在大脑中相互融合得到具有立体感的三维信息。
在3D视频技术中,人们利用双目摄像机分别对同一场景进行拍摄,然后再依靠计算机视觉技术获得立体视频图像。
但如何依靠计算机视觉技术获得更高质量的3D视频图像是研究者的主要目标。
在3D视频中,自由视点视频(Free-Viewpoint Video,FVV)技术是一个非常重要的发展方向,该视频格式是由视频信息加深度信息组成。
在解码端通过虚拟视点绘制技术合成不同视角的视频图像,可广泛应用于虚拟现实和3D视频信号处理过程中。
为了能够获取任意视点条件下所能观察到的图像,最原始的方法是在不同视点处均设置摄像机采集图像。
然而无论使用多少部摄像机同时对某个事物进行摄录,最终都无法获取任意视点所观察的图像。
但依靠视点合成技术可以根据已拍摄的图像近似绘制出未知视点处的图像,从而极大地减少了拍摄相机的布置数。
然而当前绘制技术会产生空洞、伪影、偏移等缺陷,严重影响了用户体验质量。
1虚拟视点合成技术虚拟视点绘制方法根据实现手段和辅助工具可划分为基于模型绘制(Model Based Rendering,MBR)、基于几何图形绘制(Graph Based Rendering,GBR)和基于图像绘制(Image Based Rendering,IBR)三种方法。
而基于深度图像绘制(Depth Image Based Rendering,DIBR)是一种基于参考视点的纹理图和其相应的深度图,通过3D映射方程绘制虚拟视点图像的合成方法[1-2]。
由于绘制速度快,复杂度比一般绘制方法低,因面向三维视频的虚拟视点合成技术研究进展张博文,周洋,殷海兵杭州电子科技大学通信工程学院,杭州310018摘要:基于深度图像的虚拟视点合成技术是三维视频信息处理、虚拟现实和计算机图形学领域的新兴交叉技术。
视频传输中的码率控制技术研究进展_毕迎春
第13卷 第12期2008年12月中国图象图形学报Journa l o f I m age and G raphicsV o.l 13,N o .12D ec .,2008基金项目:国家自然科学基金项目(60372071);辽宁省自然科学基金项目(20032105,20072156);辽宁省高等学校优秀人才支持计划(RC-04-11);辽宁省教育厅科学技术研究项目(20060486);南京邮电学院图像处理与图像通信江苏省重点实验室开放基金项目(Z K207008)收稿日期:2007-02-05;改回日期:2007-10-23第一作者简介:毕迎春(1982~ ),女。
辽宁师范大学计算机软件与理论专业硕士研究生。
主要研究方向为多媒体信息处理、算法分析与设计。
E-m ai:l bych888@163.co m视频传输中的码率控制技术研究进展毕迎春1)王相海1),2)1)(辽宁师范大学计算机与信息技术学院,大连 116029) 2)(南京大学计算机软件新技术国家重点实验室,南京 210093)摘 要 码率控制技术对提高和平滑解码视频质量起着至关重要的作用。
近年来各种视频编码标准和应用都对码率控制技术进行了大量的研究,如基于H.261和H.263的视频会议,基于M PEG-1和M PEG-2的媒体存储,以及最新的基于M PEG-4视频对象编码。
首先对码率控制问题进行了基本描述,然后介绍了标准中的经典码率控制技术,接着将目前的码率控制技术归纳为3类:基于DCT 视频编码器的码率控制技术、基于小波视频编码器的码率控制技术和精细粒度可分级视频编码的码率分配算法,并对这三类码率控制方法的发展进行了概括性阐述与比较性研究,讨论了各种算法的基本思想及其优缺点,最后对视频传输中的码率控制技术的未来发展趋势进行了展望。
关键词 视频传输 率失真 码率控制 缓冲器中图法分类号:TP391 文献标识码:A 文章编号:1006-8961(2008)12-2251-09Research Progress on Rate Control Technology in V i deo Trans m issionBI Y i n g -chun 1),WANG X iang -hai1),2)1)(Colle g e of Compu ter and Informa tion Tec hn ology,L i aoning N or m al Universit y ,Da li an 116029)2)(S tate K e y Labora tory for N ove lS oft w are T ec hnology ,Nanjing Un iversit y,Nanjing 210093)Abstrac t R ate contro l sche m e plays an i m po rtant ro l e i n i m prov i ng and s m ooth i ng the decoding v i deo quality .O ve r theyears ,rate contro l techn i ques have been stud i ed v ery i n tensively f o r va ri ous standards and appli cations ,such as v i deo conferenc i ng w ith H.261and H.263,storage m edia w ith M PEG-1and M PEG-2,and t he recent v i deo object cod i ng w ith M PEG-4.T h i s paper fi rstl y descr i bed the basis o f rate contro l prob l em .A nd secondly c lassic rate con tro l technology i n the standard w as i ntroduced .Th ird l y we su mm ed up t he present techn i ques as t hree k i nds :rate contro l technique based on DCT video code r ,rate control techn i que based on w ave let v ideo coder and rate all ocation o f F i ne G ranular Scalab le v i deo coding .Then w e genera lly d iscussed and co m pared the three k i nds of m ethods inc l udi ng t he co re idea and t he advantages and d i sadvantages o f every a l go rith m o f each k i nd of techn i ques .F ina lly ,t he state o f art and possi b l e new d irections o f ra te contro lw ere stated .K eywords v ideo trans m iss i on ,rate -d i stortion ,rate contro ,l bu ffer1 引 言随着视频编码技术在媒体存储、视频点播、监控系统等诸多领域中越来越多的广泛应用,一系列视频编码标准被提出并应用于实际,像ISO /I EC 的M PEG-1/2/4,I T U-T 的H.261,H.263,H.263++以及M PEG-4AVC /H.264等,这些标准对码流的语法结构进行了规定,而码率控制的具体算法则大多是开放的,码率控制算法的性能直接影响视频通信的质量[1],作为提高视频编码图像质量的一项关键技术,码率控制技术的发展已引起人们的广泛关注。
分布式视频编码关键技术及研究进展
码流 , 收该码 流的手机仅需使用传统 的视频对 于视频点播和 直播等 应用是非 常适合 的。因为 在这
些应用 中终端 的任务 只是进行 复杂度较低 的视频解码 。相反 , 另外一些应用 系统需要低 复杂度 编码器 , 如在军用无线视频传
基于GStreamer的远程视频监控系统的关键技术研究
器端组成 , 客户端向服务器端转发多媒体流 , 则服务器端接 收转
发而来 的多媒体流 。本 文就基 于 G t a e 流媒体 应用 框架 下 Sr m r e 的远程视频监控 系统开 发的关键 技术进行讨论 。
的数据交换 , 因此很容易利用 已有的各种 插件 “ 组装 ” 出一 个
所 以 , 方 案 采 取 的 是 基 于 G t a r 媒 体 应 用 开 发框 架 本 Sr me 流 e
DrcSo i thw是微软公 司开 发的能够让 软件 开发者 对媒体 文 e
0 引 言
网络摄像机 即 I a e , PC m r 是视 频监 控领域 的发 展趋 势 , a 也 是 当前 视 频 监 控 领 域 的热 点 。 用 户 访 问 网络 摄 像 机 时 只需 网 络 摄像机 的 I P地址 , 这样 , 在互联 网中就会遇 到一个严重 的问题 , 由于 目前互联 网还没 有过 度到 Iv 而 Iv P6, P4的地址 已经接 近枯 竭 , 可能再赋 予每一 台网络摄像 机一 个 I 不 P地址 , 因此在 网络 浏览器 中直接监视其影像还是有 困难 的。 虽然网络摄像机是发展 的趋势 , 但在现实生 活中 , 模拟摄像 机还是 占了很大一部分 份额 。从 互联 网的一端 访 问摄像 机时 , 直接访问也是不可行 的。 因此 , Itre 没有过渡到 Iv 在 nent P6之前 , 网络摄 像机还 没有 完 全 替 代 模 拟 摄 像 机 之 前 , 业 的 远 程 视 频 监 控 系 统 软 件 还 是 专 必须 的。由于前述 的问题 , 远程视 频监控 系统 由客户 端和服 务
” je x v d o/ -
iht g =45 2, fa n a e r r er t
几种码率控制技术研究进展
几种码率控制技术研究进展
刘媛 周燕 中国传媒大学
摘要 :码率控制技术对提 高和平滑解码
视 频质量起着至关重要的作 用 近年来各种 视 频编码 标准和应用都对码率控削技 术进行 大量的研 究 , 基于H.6 乖H.6 钧视 频 {t 21 2 3
会议 ,基TMP G-和MP G 2 E 1 E - 的媒 体存储 , 以厦最新 的基于MP G一视 频对 E 4 象编码 拳 文首先对码率控 静 问题 进行 了基本描 述 然 j 后 介绍 了目前 的三 类码率 控削 技术 : 基于 D 视 频 编码 器的码率控制技 术、基 于小波 f
() 5低比特 率下的 实际通信 应用 的码 率控 而且可 以避 免视 频质量的过 火波动。这里主要 于解码 的比特 数成正比。它把增强层可用的比 是 针对在 C 信 道下 传输 压缩 码流时的 码率 特 数平均地分给 各帧 。由于这种 方法没有考 制算 法 R B 在 通信 网络 上设计 多媒 体应用 的主 要挑 控制技术现状的研究 。 虑各帧 图像的率 失真特性 。使得接收端解码的 战是如何传输最小的 多媒体流给用 户f 。视频 4 】 2 码 率控制问题基本描述 视频 质量 存在 很大波 动【 。 3 】 6 未来展望 会议 、在线点播等实际通信应用都要求低码率 码 率控 制是 视频 编码 的重要 组成 部分 。 确 定合 适的 编码 参数 以便 在某 固定 信道 下具有低延迟及低复杂度的码率控制技术 。基 般来讲 ,它的 实现过 程包括 比特 分配、量化 最f化的方法 已经存在于大量的文 亡 系数计算和缓 冲器控制 等部 分。比特 流经常要 码率下获 得最优 的解码 视频 质量是 人们设计码 于拉格 朗 日 J 通过有限带宽的通信信 道进 行传输 ,而编码器 率控制算 法的根 本宗旨。尽管已经出现了许多 献 中,但这些算法的复杂度一般都很高。简化 会产生可变码流 ,所以 有必 要在编码 器和信道 有效的码率控制 方案 ,但人们对于视频编码 图 这些算法复杂度 ,使其适应实时低比特率下的 之 间设置视频缓 冲器来平滑编码过 程中的比特 像 质量的 要求 却越 来越 高 ,使得码 率控制方法 实时通信应 用,具有很高的理论和商业价值。
视频流媒体技术中的关键技术
视频流媒体技术中的关键技术随着互联网的普及和带宽的增加,视频流媒体技术逐渐成为网络传输中的新宠。
视频流媒体技术的主要优势在于实时性和交互性,这极大地满足了用户对于高质量视频内容的需求。
视频流媒体技术涉及到多个关键技术,本文将从网络协议、编解码、流媒体服务器等几个方面对这些技术进行介绍。
1. 网络协议网络协议是视频流媒体技术的基础,它决定了视频流的传输方式及效率。
常用的网络协议有UDP和TCP协议。
UDP协议具有不可靠和无序的特点,但具有高速和低延迟等优点,通常用于直播等实时性要求较高的场合。
TCP协议具有可靠和有序的特点,但由于数据包的确认等机制,会引入较多的延迟和占用较多的带宽,通常用于视频点播等实时性要求不那么严格的场合。
另外,视频流媒体技术在传输过程中还需要采用QoS(Quality of Service)技术对网络带宽、延迟、丢包等进行控制,确保传输效果的稳定性和可靠性。
2. 编解码视频流媒体技术中的另一个关键技术是编解码技术。
视频数据的产生和传输过程中,需要进行编码和解码处理。
编码将视频信号转换为数字信号,压缩传输中的数据,减小传输时间和网络带宽,常见的编码技术有H.264、H.265等;解码则是将数字信号还原为视频信号,以实现正常的观看体验。
编解码技术的发展,不仅提高了视频流媒体技术的性能和效率,也推动了制造商对硬件解码能力的不断提升,为用户带来更好的观看体验。
3. 流媒体服务器流媒体服务器是视频流媒体技术中的核心组成部分,它负责对视频流的接收、分发和转发。
流媒体服务器需要具备高效且稳定的流量管理能力、支持多种视频编解码标准和协议,同时还需要支持各种终端设备的访问和流媒体客户端的交互。
常见的流媒体服务器软件有NGINX、Wowza等,它们能够满足大部分的视频流媒体需求,同时还能够灵活地进行二次开发、拓展。
4. CDN随着用户对于视频流媒体技术的需求不断增长,环境因素、网络瓶颈等问题也然而出现。
基于深度学习的视频处理技术的研究进展
基于深度学习的视频处理技术的研究进展随着科技的不断进步和人们对视频内容需求的不断增长,基于深度学习的视频处理技术已经成为了当前最为热门的研究领域之一。
通过大量的数据训练和算法优化,深度学习已经在许多领域中取得了令人称赞的成果,基于其强大的自学习能力和优异的泛化能力,也被广泛应用于视频处理领域。
一、视频超分辨率重建技术视频超分辨率重建技术是一种将低分辨率的视频图像重建成高分辨率视频的技术。
该技术利用深度学习的超分辨率算法,能够直接从低分辨率视频中学习到高分辨率视频,实现低分辨率视频向高分辨率视频的转化,为实现高质量视频传输和播放提供了可能。
二、视频去模糊技术视频模糊是指由于相机手持晃动或拍摄对象运动等原因导致的视频图像失真现象。
深度学习技术可以利用大量的样本数据进行建模和训练,从而实现对视频模糊的降噪和去模糊,使得视频图像更加清晰。
三、视频自动剪辑技术随着人们观看视频的习惯不断发生变化,人们对于视频剪辑的需求也变得更加多样化。
利用深度学习技术能够自动分析视频中每帧的内容,抽取出关键帧,在不影响视频剧情连续性和节奏的前提下,对视频进行自动化编辑和剪辑,从而大大提高了视频制作的效率。
四、视频语义分割技术传统的图像分割技术需要手动指定目标区域,而视频语义分割技术则是通过深度学习的方法对视频图像进行分析,自动识别和提取出视频中不同的对象区域,并对每个对象进行区分,从而实现对视频进行语义分割。
该技术应用于诸如智能监控、自动驾驶等领域,具有重要的应用价值。
五、视频轨迹预测技术对于许多领域而言,视频中对象的行动轨迹预测是非常关键的一个问题。
基于深度学习的视频轨迹预测技术能够从视频中自动学习每个对象的运动规律,对将要出现的运动轨迹进行准确的预测和矫正。
该技术在智能交通、智能安防等领域得到广泛应用。
综上所述,基于深度学习的视频处理技术具有广泛的应用前景和发展空间。
虽然目前该技术在实践中还面临着许多挑战和问题,但是相信在未来的不久之后,该技术一定能够有更多的应用场景和出色的表现。
千兆级视频流实时处理关键技术研究
千兆级视频流实时处理关键技术研究尹诚;黄小仙;尹达一【摘要】机载遥感系统图像具有数据量巨大、传输速率高、存储时间长等特点.为保证数据传输稳定,解决图像数据传输过程中的丢帧问题,针对目前常见的各种图像数据存储和显示的软硬件实现手段进行分析比较,设计了一种稳定的基于GigEVision协议的千兆级视频流实时处理系统.重点介绍了系统的软硬件构架和视频处理模块StreamPix的开发途径.实验表明该系统能对视频图像进行实时显示和存储,丢帧率为零,图像回放清晰,效果优良.%Based on the airborne monitoring systems having the following features, huge amounts of image da ta , high transfer rate, long storage time and so on, in order to ensure stable data transmission and solve the problem of the frames dropping during the transmission process, a stable system based on GigE Vision protocol is designedto real-time process gigabit-level video stream, by anglicizing and comparing the software and software and hardware architecture implementation of the system. The system hardware selection and the module's design of StreamPix for the video process are introduced . Experiments show that the system can display and store the high-definition ima ges real-time. Leakage frame rate is 0. The playback of video is clear and fluent.【期刊名称】《科学技术与工程》【年(卷),期】2012(012)009【总页数】6页(P2053-2057,2073)【关键词】千兆级;视频流;StreamPix;GigEVision【作者】尹诚;黄小仙;尹达一【作者单位】中国科学院上海技术物理研究所,上海200083;中国科学院研究生院,北京100039;中国科学院上海技术物理研究所,上海200083;中国科学院上海技术物理研究所,上海200083【正文语种】中文【中图分类】TN919.85机载数字遥感技术的发展对高速数据处理的需求越来越高,特别是对视频实时处理系统[1]提出了采集速率高[2]、存储速度高[3,4]、丢帧率低、图像质量高等要求。
实时视频流的加密与解密技术研究
实时视频流的加密与解密技术研究随着数码化的发展,视频成为现代传媒的重要组成部分。
与此同时,网络技术的快速更新也让视频越来越容易被非法链接和分享。
为了保障用户信息安全,视频的加密技术逐渐成为研究的重点之一。
本文将探讨实时视频流的加密与解密技术研究进展,希望能帮助读者更好地理解视频加密技术的现状和发展趋势。
一、实时视频流加密技术概述实时视频流加密(Real-time Video Encryption)是将视频流数据加密的一种方法。
加密方法可以在信道或Codec层进行。
在视频传输的过程中,数据被加密后再进行传输,只有受信方拥有解密密钥才能解密。
这样可以防止信道中的数据被非法获取,从而确保视频信息的完整性和安全性。
实时视频流加密技术广泛应用于视频会议、在线课堂、直播等领域。
传统的加密方法如对称密码加密、非对称密码加密和哈希算法等,均可以应用于实时视频流加密。
但这些加密方法不够高效,会造成视频传输的延迟,影响视觉体验。
因此,一些新型实时视频流加密方法应运而生,以解决这一问题。
二、实时视频流加密的研究进展目前,国内外学者们对实时视频流加密方法进行了广泛的研究。
以下列举几种新型实时视频流加密技术的研究进展。
1. 基于HEVC标准的实时视频流加密HEVC(High Efficiency Video Coding)是新一代视频编码标准。
与H.264相比,HEVC提高了编码效率,可节省30-50%的码率。
同时,基于HEVC标准的实时视频流加密方法也获得了学者们的关注。
已有研究表明,采用HEVC标准实现的实时视频流加密方法,在加密效率和保密性方面有了较大的提升。
2. 基于多媒体应用的实时视频流加密随着移动端视频应用的快速发展,基于多媒体应用的实时视频流加密方法也成为研究热点之一。
Ravi等学者提出了一种基于多媒体应用的实时视频流加密方法,在保证低延迟的同时,实现了视频的安全传输,提高了用户的体验。
3. 基于机器学习的实时视频流加密机器学习技术的发展也促进了实时视频流加密技术的研究。
视频传输技术及实现
视频传输技术及实现随着互联网的普及,视频成为了人们日常生活中不可或缺的一部分。
为了满足人们对高质量视频的需求,视频传输技术得到了不断的创新和发展。
本文将介绍一些视频传输技术及其实现方式。
一、传输协议RTSP是一种应用层协议,主要用于控制媒体服务器的音频或视频的播放。
RTSP通过TCP进行传输,在控制媒体流的同时,还可以与用户进行交互。
RTP是一种实时传输协议,用于实现音频和视频的传输。
RTP通过UDP进行传输,具有较低的时延和较强的抗丢包能力。
在RTP中,音频和视频数据会被分割成小的数据包,然后通过UDP进行传输。
RTMP是一种用于音频、视频和数据的流式传输协议。
RTMP通过TCP 进行传输,提供了低延迟、高稳定性和良好的传输质量,适用于实时直播和点播等场景。
二、传输编码在视频传输中,传输编码是将原始视频信号转换成压缩格式的关键技术。
常用的视频传输编码包括H.264、H.265和VP9等。
H.264是一种广泛应用的视频编码标准,具有高压缩比、较低的码率和较好的图像质量等特点。
H.264广泛用于实时视频通信、视频会议和云视频等应用场景。
H.265是H.264的升级版,是一种高效的视频编码标准。
相比H.264,H.265在保持较好视频质量的同时,可以减少约50%的码率。
H.265适用于高清视频传输和超高清视频传输等场景。
VP9是Google推出的一种开源视频编码算法,具有高效压缩、良好的图像质量和较低的延迟等特点。
VP9适用于WebRTC、YouTube和Google Duo等应用。
三、传输优化为了提高视频传输的质量和稳定性,可以采用一些传输优化技术。
常用的传输优化技术包括QoS(Quality of Service)、FEC(ForwardError Correction)和CDN(Content Delivery Network)等。
QoS是一种网络服务质量保证机制,可以保证视频流传输的稳定性和实时性。
面向移动设备的实时视频流处理与传输
面向移动设备的实时视频流处理与传输实时视频流处理与传输是现代移动设备发展中的重要方向之一。
随着移动设备硬件的不断升级和网络技术的迅猛发展,移动设备已成为我们日常生活中不可或缺的工具。
而实时视频流处理与传输技术的应用则可提供更加便捷、高效和丰富的用户体验。
本文将围绕面向移动设备的实时视频流处理与传输,从技术背景、应用场景以及发展趋势三个方面展开讨论。
一、技术背景实时视频流处理与传输是一种将视频进行实时采集、编码、传输和解码的技术。
其应用可覆盖广泛领域,如远程监控、视频通话、直播等。
面向移动设备的实时视频流处理与传输技术需要满足移动设备资源有限、网络环境复杂以及用户对视频质量和延迟的要求等特点。
为了实现高质量视频的实时传输,需结合以下关键技术:1. 视频压缩编码技术:通过采用高效的视频编码算法,如H.264、H.265等,实现视频数据的压缩,减少传输所需的带宽和存储空间,并保证视频质量。
2. 自适应码率技术:根据不同网络环境的带宽变化,自动调整视频传输的码率,以确保视频的稳定传输和高质量播放。
3. 长时延技术:针对移动设备实时视频传输中的延迟问题,采用适当的优化算法和传输协议,降低视频传输的延迟,提升用户体验。
4. 稳定性保障技术:通过优化网络传输协议、增强视频数据容错能力等手段,保证视频传输的稳定性和低丢包率,减少数据传输中的断点和卡顿现象。
二、应用场景1. 远程监控:基于移动设备的实时视频流处理与传输技术,可以实现远程实时监控的需求,在家庭、商场、工地等场所中,用户通过手机或平板电脑等移动设备即可实时监控各种场景的视频,提升安全性和便利性。
2. 视频通话:利用实时视频流处理与传输技术,移动设备可以实现高清、流畅的视频通话。
人们在远距离的情况下,通过移动设备进行面对面的视频通话,方便快捷地进行沟通和交流。
3. 直播:实时视频流处理与传输技术为移动设备提供了丰富多样的直播应用。
用户通过移动设备可以随时随地观看直播内容,如体育赛事、新闻报道和娱乐节目等,极大地丰富了人们的文化娱乐生活。
视频流关键技术的研究进展
摘
ห้องสมุดไป่ตู้
要 : 视 频 流 是 在 因特 网 上 进 行 视 频 信 息 传 送 的 主 流 方 式 . 了 在 因 特 网 上 传 输 高 质 量 的 视 频 流 , 要 采 取 为 需
相 应 的 传 输 机 制 . 文 从 视 频 流传 输 框 架 出 发 , 统 讨 论 了 当 前 视 频 流关 键 技 术 的研 究 进 展 , 析 了 各 种 技 术 的特 点 , 本 系 分
1 引言
目前 , 特 网 已经 发 展 成 为 一个 跨 区 域 、 国 界 、 文 化 因 跨 跨
传输 模 式 l j直 播 ( i t a n ) 点 播 ( ndm n t锄 一 卜 : Lv semi 和 e r g O -e ad se r i . 播 与 直 播 之 间 最 大 的 区 别 在 于 视 频 编 码 器 是 否 实 时 喂) 点
并 指 出 进 一 步 发 展 的前 景 . 关键词 : 因 特 网 ; 流 媒 体 ;视 频 流 ;阻 塞 控 制 ;差 错 控 制
中图分类 号 :
T 95 0 N 1 .l
文献标 识码 : A
文章编 号 : 0 7—12(0 2 811—6 322 1 2 O )0—2 30
于 网络 带 宽 的 限制 , 载 需 要 很 长 的 时 间 , 要 的存 储 容 量 很 下 需 大 . 了 解 决 这 些 问 题 , 种 遵 守 特 定 网 络 协 议 的 流 式 媒 体 为 一
来, 编码 离线进行 , 而直播 需要 编码 器实时地 对视频信息进 行
编码 . 播可 以支持快 进/ 退/ 止/ 点 快 停 回放 等 V R Vd a— C ( i Cs o e st eo i ) 能 . 直 播 一 般 难 以 具 有 这 样 的 功 能 . 播 et c r n 功 eR dg 而 点 和 直 播 可 以采 用 单 播 ( n at和 组 播 ( l at两 种 传 输 机 U i s) c Mu cs) i t
H.264视频编码率失真优化和码率控制技术研究进展
H畅264视频编码率失真优化和码率控制技术研究进展崔子冠1,2,朱秀昌1,2,干宗良1,2,唐贵进1,2,刘 峰1,2(1.南京邮电大学江苏省图像处理与图像通信重点实验室,江苏南京210003;2.南京邮电大学宽带无线通信与传感网技术教育部重点实验室,江苏南京210003) 摘 要: 在H畅264率失真优化和码率控制(RC)技术研究的基础上,根据控制目的将率失真优化和RC的发展分为3个阶段:即率失真建模,考虑质量波动对主观质量的影响,以主观失真为指导的RC.分析了各阶段有代表性的RC技术及其特点,指明了RC需要进一步研究的关键和难点问题.对面向传输的错误弹性编码、可分级编码、多描述编码、以及立体与多视编码中的RC技术进行总结,分析进一步发展趋势.对下一代高性能视频编码(HEVC)中的RC应该如何发展进行了探讨.关键词: 视频编码;率失真优化;码率控制;H畅264中图分类号: TN919畅8 文献标识码: A 文章编号: 0372-2112(2013)12-2443-08电子学报URL:http://www.ejournal.org.cn DOI:10.3969/j.issn.0372-2112.2013.12.019AdvancesinRateDistortionOptimizationandRateControlTechniquesforH.264VideoCodingCUIZi-guan1,2,ZHUXiu-chang1,2,GANZong-liang1,2,TANGGui-jin1,2,LIUFeng1,2(1.ImageProcessingandImageCommunicationLab,NanjingUniversityofPostsandTelecommunications,Nanjing,Jiangsu210003,China;2.KeyLabofBroadbandWirelessCommunicationandSensorNetworkTechnology,NanjingUniversityofPostsandTelecommunications,MinistryofEducation,Nanjing,Jiangsu210003,China)Abstract: Basedontheresearchesofratedistortionoptimization(RDO)andratecontrol(RC)techniquesforH.264,thispaperdividesthedevelopmentofRDOandRCintothreephasesbasedonRCintention,namelyratedistortionmodeling,consideringtheeffectofqualityfluctuationonsubjectivequality,subjectivedistortionguidedRC;analyzesthecharacteristicsofrepresentativeRCtechniquesofeachphase,andfocusesonthekeyanddifficultissuesofRCneededtobefurtherresearched.ThensummarizestheRCschemesfortransmissionorientederrorresilientvideocoding,scalablevideocoding(SVC)andmultipledescriptioncoding(MDC)aswellasstereoandmulti-viewvideocoding,andanalyzesfurtherresearchtrends.Finally,howtodeveloptheRCschemesforhighefficiencyvideocoding(HEVC)isdiscussed.Keywords: videocoding;ratedistortionoptimization;ratecontrol;H畅2641 引言 目前主流的H畅264编码标准基于预测加变换的混合框架,采用多种帧内与帧间模式和基于率失真优化(RateDistortionOptimization,RDO)的模式选择等技术,获得了极高的压缩效率.下一代高性能视频编码(HighEf-ficiencyVideoCoding,HEVC)即H畅265在许多编码模块中进一步改进,其压缩效率比H.264又提高一倍.码率控制(RateControl,RC)是视频编码(VC)中的关键模块,根据各种约束(如目标码率、缓冲区、延迟、计算复杂度、信道状况等)自适应调节编码参数来规范输出码流使之适合信道带宽,并最优化视频质量.RC分两步:一是在收稿日期:2012-12-25;修回日期:2013-07-01;责任编辑:孙瑶基金项目:国家自然科学基金(No.61071091,No.61071166,No.61071167,No.61101105);江苏省高校自然科学基金(No.12KJB510019);南邮校科研基金(No.NY212015,No.NY212083);教育部博点基金(No.20113223120001);工业与信息化部通信软科学课题(No.2011-R-70);江苏高校优势学科建设工程—“信息与通信工程”;江苏省自然科学青年基金(No.BK20130867)第12期2013年12月电 子 学 报ACTAELECTRONICASINICAVol.41 No.12Dec. 2013约束条件下为编码单元(BasicUnit,BU)分配最优目标比特;二是根据率失真模型(RateDistortionModel,RDM)设计准确的控制技术使实际码率尽量接近目标码率.公式表述如下:min1N∑Ni=1Di(Qi),s.t.∑Ni=1Ri(Qi)尘RT(1)其中Qi为量化参数,Di(Qi)与Ri(Qi)为第i个BU的失真与码率,RT为目标码率.此有约束的最优化问题可由Lagrange乘子法转化为无约束问题,建立Lagrange代价函数,通过调节参数使代价函数最小即可,即:minJ=D+λR(2)其中λ是Lagrange乘子,J是代价函数.鉴于RC对VC的重要性,近年来针对H畅264在各种环境下的编码与传输问题,已经提出了很多有效的RC技术.文献[1]对2007年之前的RC技术进行了综述,但不断出现的新需求使RC的发展日新月异.本文主要对2007年以后RC的最新发展进行总结.第2节根据控制目的将单层VC(即一个信源编码产生一个码流)的RC分为RDM建模、考虑质量波动对主观质量的影响、以主观失真为指导的RC这3个阶段,总结各阶段有代表性的RC技术及其特点.在此基础上,第3节重点指明单层VC的RC需要进一步研究的关键和难点问题.第4节对面向传输的错误弹性编码(ErrorResilientVideoCoding,ERVC)、可分级编码(ScalableVideoCoding,SVC)、多描述编码(MultipleDescriptionCoding,MDC)、以及立体与多视编码(Multi-ViewVideoCoding,MVC)中的RC技术进行总结,分析进一步发展趋势.第5节对HEVC中的RC应该如何发展进行探讨.第6节总结全文.2 单层VC中RDO和RC研究进展2畅1 RDM建模H畅264在2003年颁布之后,由于其高效的压缩性能和网络适应性,基于H畅264的各种应用开始蓬勃发展,亟需准确的RDM和高效的RC技术以精确控制码率.H畅264基于RDO选择最优的编码模式,新技术的引入使得编码残差呈现出与以往标准不同的特性.因此这一阶段的主要任务在于考虑H畅264编码特性对残差分布准确建模,并建立准确的RDM.目前精确控制H畅264的I帧及P帧输出码率的目标已基本实现.由于I帧及P帧编码特性不同,导致RDM也不相同.下面分别对I帧及P帧的残差分布及有代表性的RDM进行对比和分析.2.1.1 P帧残差分布及有代表性的RDM残差DCT系数的分布对RDM建模非常重要,文献[2]认为DCT系数服从Laplacian分布并给出严格数学分析.目前H畅264RC中广泛使用的二次RDM就是根据Laplacian分布推导而来[3,4].文献[5]发现Laplacian分布具有指数形式,导致拖尾衰减过快,而实际DCT系数直方图常有大量的拖尾系数,因此用Cauchy分布对DCT系数进行建模更准确.文献[6]直接建立R及D与DCT系数为零的比率ρ之间的关系,也取得了准确的控制效果.基于这些统计分布提出的有代表性的RDM及其特点总结于表1.注意,这一阶段RC的目标主要是为了精确控制R,因此RDM常表现为R-量化步长(Qstep)的函数关系,而D模型常用简单的D=kQstep或D=kQ2step这种形式,即认为D与Qstep或Q2step成正比.如H畅264最有代表性的RC提案JVT-G012[3]采用线性MAD预测模型解决蛋鸡悖论,根据流量传输模型为BU分配目标比特,并用二次RDM计算Qstep,以较低的计算复杂度获得了较好的RC效果.基于RDM的RC算法具有类似的控制框架,在此框架下很多学者提出了有效的改进机制,主要集中于RDM的进一步改进[7]、BU目标比特的优化分配、BU的灵活划分、头码率的准确估计、缓冲区与延迟的有效管理、编码复杂度的有效测量、模型参数更新时历史数据点的有效选择等方面.表1 P帧残差分布及有代表性的RDM残差分布文献RDMLaplacian分布[3]R-H=a/Qstep+b/Q2step×MAD[4]R-H=A×Q2step+B×Qstep+C[8]R-H=α·SATD(Qstep)/QstepCauchy分布[5]R=aQ-αstep,D=bQβstepρ域模型[6]R(ρ)=θ×(1-ρ),D(ρ)=σ2e-α(1-ρ)2畅1畅2 I帧复杂度测量及RC编码常采用GOP结构,大部分帧都采用P帧编码,因此P帧RC研究较多而I帧RC研究较少,但I帧作为每个GOP的起始参考帧非常重要,有效进行I帧RC将有助于提高整个GOP的编码质量.文献[9]采用梯度信息测量I帧复杂度,计算简单但与I帧编码特性不符,改进效果有限.文献[10]用统计窗中所有像素与其均值的平均绝对差测量I帧复杂度,且分析4×4块是否具有水平、垂直、及左右对角线方向的条纹,若存在复杂度即设为零.此方法是想将H畅264帧内预测特性考虑进去,但只判断4种条纹方向及判断出条纹后复杂度即设为零与H畅264帧内编码特性不符,导致I帧复杂度测量仍不够准确.I帧RC要解决好3个问题:(a)准确的I帧复杂度4442 电 子 学 报2013年测量;(b)I帧目标比特最优分配;(c)准确的I帧R-Q模型.针对这3个问题,文献[11]通过边缘检测估计4×4块的预测模式和残差,用残差的平均绝对值测量I帧复杂度,之后提出一种新的R-Qstep模型,同时考虑缓冲区和序列特性为I帧分配合适的目标比特,得到了较好的I帧RC效果,IPPP方式编码时序列PSNR波动减少了60%以上.文献[11]与JVT-G012[3]及JVT-W042对Mobile序列编码的效果如图1.2畅2 考虑质量波动对主观质量的影响通过建立准确的R-Q模型精确控制输出码率的目标基本完成之后,RC研究的重点开始转向在R限制下为用户提供更好的主观感受,其中最小化失真变化的RC和基于感兴趣区域(ROI)的RC很有代表性.2畅2畅1 最小化失真变化的RC之前RC的目标都是在R限制下最小化平均失真(MINAVE),由于视频内容的多样性这种优化策略在编码时可能产生明显的质量波动,从而影响主观感受.针对R限制下对质量平稳性要求严格的应用(如视频流),就需要将最大失真(MINMAX)或失真方差(MIN-VAR)最小化,目的在于得到平滑一致的视频质量.公式表示如下:min(maxi∈1,…,NDi(Qi)),s.t.∑Ni=1Ri(Qi)尘RT(3)如文献[12],为常质量应用,基于MINMAX提出一种帧层多次编码方法,在最大失真与平均失真的控制上都好于JM算法.文献[13]在R约束下对时域滑动窗中的帧实施MINVAR准则,并用Lagrange乘子法进行求解,得到了一致的图像质量.文献[14]对质量平滑和码率(缓冲区)平稳这一矛盾问题进行研究,提出自适应窗口大小机制在保持质量平滑的同时保证缓冲区在安全水平以内.2畅2畅2 基于ROI的RC针对传统RC把图像所有区域同等看待的缺点,利用人眼对图像不同区域的关注度不同,首先检测出ROI区域如人脸、运动目标等,之后在R限制下对ROI细量化,对非ROI粗量化,以保证ROI的空时质量来优化主观感受[15].基于ROI的RC在低码率应用中(如视频会话)有广泛的应用前景.难点在于:(a)编码之前要先检测出ROI,准确地分割视频对象需要较高计算量而较小的计算量无法得到准确的检测效果;(b)根据关注度设定经验加权系数在ROI与非ROI之间进行R分配和QP调整,会产生较明显的方块效应;(c)最大问题在于RDM仍以(加权)MSE作为失真度量,其编码结果是使(加权)PSNR最优,与主观质量仍不完全一致.2畅3 以主观失真为指导的RCRC第二阶段开始考虑为用户提供更好的主观感受,但失真准则仍是客观失真.基于均方误差的峰值信噪比(PSNR)计算简单且物理意义明确,在视频质量评价中广泛应用,但PSNR与主观质量并不成正比,这是由于人类视觉系统(HVS)对视频质量的感知是高度非线性的,以PSNR为指导的RC不能得到最优的主观质量.因此如何根据HVS特性建立一种主观质量评价方法并用以指导视频编码成为一项重要的研究课题[16,17].即RC第三阶段的研究重点由第一阶段R模型的精确建模(以精确控制输出码率)转到主观D模型的有效建模(以获得最优的主观R-D性能).视频质量专家组(VQEG)和相关学者在这方面也做了初步研究,其中最具代表性的有基于视觉失真敏感度(VDS)或显著度(Saliency)的RC、基于恰可察觉失真(JND)的RC和基于结构相似性(SSIM)的质量评价与编码方法.2畅3畅1 基于VDS或Saliency的RC这类方法与基于ROI的RC有些类似,区别在于更充分地利用HVS特性建立VDS或Saliency图,以此进行优化的R分配.相比ROI与非ROI两级划分,R分配更加合理,主观质量更优.如文献[18]根据运动、纹理及空时掩模效应建立VDS图进行R分配以优化视觉质量.文献[19]融合运动、色彩、方向等多种特征建立Saliency图来指导R分配.2畅3畅2 基于JND的RCJND指人眼不能感知到的最大失真,即人眼对JND阈值以下的D不敏感.JND可对感知冗余有效建模,考虑了空时对比敏感度、亮度适应效应、对比度掩模效应等对主观失真建模及R调节具有很好的指导作用,如可对感知重要的区域细量化以保证质量而对感知冗余进行有效删除.文献[20]基于多种空时视觉特性建立JND模型以此指导视频编码.文献[21]根据视网膜的凹5442第 12 期崔子冠:H畅264视频编码率失真优化和码率控制技术研究进展性(Foveation)增强JND提出FJND模型,并用于MB层QP及λ调整.2畅3畅3 基于SSIM的质量评价与编码方法文献[22]基于HVS对结构信息更加敏感的特性提出基于块的SSIM测量,克服了PSNR基于点而忽略像素之间相关性的缺点,与主观质量非常一致且计算量较小,已被引入JM中以评价编码视频的主观质量.基于SSIM的质量评价及编码方法近年来得到广泛研究,但SSIM形式较为复杂,其与R或Q之间的闭解形式很难得到,是SSIM用于VC的难点所在.文献[23]提出SSIM失真与R存在指数关系,在BU层进行基于SSIM失真的最优R分配;之后将SSIM失真引入RDO模式选择中,发现基于SSIM的R-D曲线与基于MSE的R-D曲线相邻点处切线的坡度非常相似,使用之前关键帧的RDM和前一编码帧的R-D数据对来自适应的预测当前帧的λ.文献[24,25]将SSIM失真引入RDO框架后,先提出一种减少参考的SSIM估计模型并结合R模型提出了帧层自适应的λ,之后在MB层进一步根据运动信息和视觉速度感知的不确定性来调节λ.文献[26,27]首次提出SSIM-Qstep存在线性关系,并结合R模型进行SSIM最优的MB层RC;进一步将SSIM引入RDO框架,提出MB层自适应的分析型λ来更好地调节R和SSIM失真.相比之前算法的最大贡献在于得到了λ与Qstep以及图像特性(复杂度)之间的解析式.文献[26,27]与JVT-G012[3]对Deadline序列的编码效果如图2.3 单层VC需要进一步研究的问题 (1)对场景变换(SC)的处理及GOP变长编码.目前编码大多采用固定GOP结构,即周期性地插入I帧而不考虑序列特性.当序列包含SC或剧烈运动时编码效率很低且质量波动较大,在低码率应用中尤其严重,如果在编码时考虑SC并自适应地插入I帧则可更好地对P帧进行预测从而提高编码性能.如文献[28]基于SC检测提出了GOP长度自适应的编码机制.(2)λ自适应调整.在MB层QP确定之后,H畅264引入λ进行RDO模式选择,λ仅是QP的函数并控制着R与D之间的权衡.不同图像具有不同的率失真特性,根据图像内容自适应地调整λ有望获得更好的率失真性能.如文献[29]对基于MSE的RDO中的λ在MB层根据编码复杂度自适应调整.文献[30]发现λ与视频信号的R-D特性之间存在线性关系,提出一种启发式的不依赖于QP的λ计算方法,改进了编码效率.(3)多维RC.传统RC都是在R约束下调节QP来优化视频质量,而帧率与图像分辨率常作为预定值独立于QP.这类机制在高码率应用中性能较好,但在低码率应用中常导致空间质量很低甚至被动跳帧引起时域质量的大幅波动.如JM通过监测缓冲区,一旦超过阈值(缓冲区的80%)就跳过下一帧,这种被动跳帧在以下两种情况经常发生:一是I帧编码后由于R剧增导致后续P帧被连续跳过;二是剧烈运动或SC时,由于I宏块数增加导致后续带有重要信息的帧被跳过.HVS对低运动序列更注重空间质量而对高运动序列更注重时域连续性[31],因此低码率应用中可以根据序列特性和缓冲区联合调节帧率、空间分辨率和QP(即多维RC)以优化空时质量.如何准确估计跳过帧与编码帧的失真,并用以确定跳帧数目和下一编码帧的QP使局部窗中帧平均失真最小是研究难点.编码端自适应跳帧与解码端插帧相结合[32],以及编码端空间下采样与解码端上采样相结合[33]来提高编码效率和解码端空时质量是今后一个重要的研究课题.(4)便于硬件实现的RC.传统RC都是基于软件实现的,由于算法的复杂性不适合硬件系统采用.但近年来随着视频电话、数字摄像机等广泛应用,亟需适合硬件实现的RC机制来提高这些设备的编码性能.便于硬件实现的RC算法[34]需要具备以下特性:(a)低复杂度,考虑到计算能力和功耗;(b)较小的缓冲区需求和延迟,考虑到编码实时性;(c)算法设计上要便于硬件实现,比如指令级优化.(5)联合功率或复杂度RDO(PRDO、CRDO)的RC.随着便携设备和网络技术的发展,带宽不再是限制视频通信的唯一条件,便携设备的功耗和续航能力也是设计编码算法时要考虑的关键因素之一.功耗主要来自于编码与传输两部分,编码功耗随计算复杂度单调增加,而传输功耗与压缩码流的大小成正比.因此如何在功耗或复杂度约束下最优化视频的R-D性能成为一项重要的研究课题.目前大多数研究是将功耗约束转化为计算复杂度约束,并在传统R-D分析的基础上加上功率或复杂度约束,建立统一的功率[35]或复杂度R-D分析模型[36],通过调整复杂度控制参数达到功耗和R-D性能的联合最优.关键问题在于:(a)建立合适的功耗或计算复杂度测量方法;(b)建立简单有效的PRD或CRD分析模型;(c)对分析模型的有效求解.(6)视频流中的RC及多路复用中的RC.随着6442 电 子 学 报2013年H畅264在视频流和多路复用中的广泛应用,需要有效的RC算法在延迟受限的情况下进行常质量控制.文献[37]为视频流提出一种延迟失真优化(DDO)分析框架,以寻求延迟与失真之间的最优平衡来保证接收端连续高质量的播放.文献[38]为多路视频在共享信道中的高效传输使用双帧技术进行码流间及帧间联合最优比特分配,以最小化总体MSE失真.另外把编码端的R-D分析与网络参数联合优化以提供端到端的服务质量保证(QoS)也是将来的一个研究热点.(7)视频转码的RC.转码是指码流从一个码率转换到另一个码率,或在不同编码格式之间相互转化.其中RC是视频转码中的关键问题[39],对码率自适应、码流串连影响重大,RC的好坏直接影响转码过程中引入的质量下降程度.4 面向传输及多视中的RC进展4畅1 ERVC与联合信源信道RC无线网络中如何在编码端根据丢包特性通过调节编码参数以提高码流的抗误码性能是一项重要的研究课题.H畅264的抗误码机制主要有:帧内MB刷新,自适应参考帧,自适应冗余图像,数据分区等.帧内MB刷新主要有随机或定期刷新、基于运动信息或视觉关注度的刷新,但这类机制没有充分考虑信源与信道的状况无法达到编码效率与抗误码性能的最优平衡.由于信源和信道的时变特性,帧内MB刷新数目和位置的选择至关重要,因为帧内MB会降低压缩效率而位置不佳将不能阻止误码传播,因此有必要建立一种针对丢包环境下的RDM和RC机制在R-D最优意义下选择帧内刷新率与刷新位置[40].自适应参考帧[41]是为了解决由于信道误码造成的编码端与解码端参考帧不匹配的问题.自适应冗余图像[42]通过编码适当的冗余信息以减轻信道误码对解码质量的影响.数据分区可以将编码信息按照重要性分开传输,以便对重要数据实施更强的保护.联合信源信道RC与ERVC类似,也是基于端到端RDM联合最优地选择编码模式和QP.文献[43]针对丢包网络提出一种RDM,克服了RC与误码恢复互不相关的缺点,在R限制下能充分利用信道带宽并使得信源编码与信道传输的总失真最小.文献[44]把端到端总失真视为信源量化失真、错误传播失真和错误隐藏失真三项之和,很好地揭示了丢包环境下真正的R-D关系.无线网络鲁棒视频传输最核心的问题在于:(a)端到端失真的准确建模;(b)在编码端准确估计解码端失真;(c)用总失真指导编码参数的调整.如文献[45]的帧层失真估计尤其考虑了H.264的新特性(如分像素的运动补偿、帧内预测和去块效应滤波等内插操作)对失真建模的影响.文献[46]使用有限状态Markov链对连续丢包信道中的传输失真进行建模.最近文献[47,48]对传输失真中的截断与误码扩散两个重要特性进行建模,并根据信源与信道特性得到了传输失真的递归计算公式,相比之前的失真模型更加准确而且计算复杂度更低.4畅2 SVC的RCSVC将视频编码成一个基本层和多个增强层,解码端根据运算能力及网络状况选择解码部分码流以获得所需的视频质量.SVC中RC的关键问题在于根据各层之间相关性进行最优的R分配与控制[49,50],难点在于:(a)根据不同层的特性提出更加准确的RDM;(b)不同层之间的最优R分配;(c)如何保证SVC编码质量的平稳性.4畅3 MDC的RCMDC相比SVC的优点是每个描述均可独立解码,而SVC中基本层一旦丢失,则增强层无用.MDC中RC的关键问题在于根据不同的多描述方案[51]在多个描述之间最优分配R以最小化D.目前MDC的RC算法较少且控制效果一般,这是因为不同的MDC方案会产生不同的编码特性,导致不同描述及其之间的R-D特性难以建模.因此MDC的RC需要根据具体的多描述方案来分析R和D特性,如文献[52]为基于分层次B帧的MDC进行最优R分配以平衡编码效率和错误弹性.4畅4 立体与MVC的RC立体与MVC除了提供2D视频信息,还提供表现3D场景的深度或多视信息,丰富了用户体验,必将成为今后VC领域的研究热点.立体与MVC中RC的关键问题在于2D视频与深度之间以及多个视点之间有效分配R以最优化视频的感知质量,其中深度序列编码的R-D特性和不同视点之间相关性分析与建模是RC成功的必要条件,这也是立体与MVC中RC今后研究的热点,比如文献[53]为分别从视点层、视频/深度层、及帧层分配R,满足了信道与缓冲区的需求;文献[54]利用二次R模型和线性D模型对3DTV广播的左/右视点的R进行联合控制.另外,2DVC中基于主观质量或ERVC思想都可以推广到3DVC的RC中以改进主观R-D性能与错误鲁棒性.如文献[55]为MVC提出基于立体视觉关注度的R分配算法.文献[56]对MVC在丢包网络中传输由于随机丢帧产生的信道失真进行建模.5 HEVC的RC 针对高清视频的HEVC在2013年颁布之后,必然会在视频编码领域引发新一轮的研究热潮.但截止目前,极少有对HEVC中RC进行研究的文献出现.HEVC7442第 12 期崔子冠:H畅264视频编码率失真优化和码率控制技术研究进展中RC研究的关键问题在于:(a)考虑新的编码技术对纹理信息和头信息码率所产生的影响,建立准确的纹理与非纹理RDM来指导R的分配与控制,在准确控制R的同时提高编码R-D性能;(b)引入主观失真,在一定R下通过调节QP以最优化主观质量.文献[57]认为HEVC编码单元或变换单元预测与变换的深度不同,四叉树预测残差的统计特性也不同,用Laplacian混合分布来描述残差,得到HEVC编码的R和D模型.文献[58]同样基于Laplacian分布推导出R-Q与D-Q模型,计算QP时同时考虑了帧间质量波动和缓冲区约束,得到了一致的视频质量.6 结论 从对RC最新研究成果的分析可见,针对H畅264的基于客观质量的RDM和RC研究得已较为成熟,而主观失真建模及在RC中的应用、面向无线网络的ERVC、面向异构网络的SVC及MDC中的RC、丰富用户体验的立体与MVC中的RC、以及针对高清视频的HEVC中的RC研究成果较少,控制精度不够且复杂度高,将成为今后RC技术研究的重点和难点.参考文献[1]ChenZZ,NganKN.Recentadvancesinratecontrolforvideocoding[J].SignalProcessing:ImageCommunication,2007,22(1):19-38.[2]LamE,GoodmanJW.AmathematicalanalysisoftheDCTcoefficientdistributionsforimages[J].IEEETransactionsonImageProcessing,2000,9(10):1661-1666.[3]LiZG,PanF,LimKP.AdaptivebasicunitlayerratecontrolforJVT[A].Proceedingsofthe7thJVT-G012Meeting[C].PattayaII,Thailand:JVT,2003.1-33.[4]袁武,林守勋,牛振东,等.H.264/AVC码率控制优化算法[J].计算机学报,2008,31(2):329-339.YuanWu,LinShou-xun,NiuZhen-dong,etal.EfficientratecontrolschemesforH.264/AVC[J].ChineseJournalofCom-puters,2008,31(2):329-339.(inChinese)[5]KamaciN,AltunbasakY,MersereauRM.FramebitallocationfortheH.264/AVCvideocoderviaCauchy-density-basedrateanddistortionmodels[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2005,15(8):994-1006.[6]HeZ,MitraSK.Optimumbitallocationandaccurateratecon-trolforvideocodingviaρ-domainsourcemodeling[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2002,12(10):840-849.[7]霍炎,李生红,荆涛.基于广义拉普拉斯分布的低时延速率控制算法[J].电子学报,2010,38(5):1078-1083.HuoYan,LiSheng-hong,JingTao.Low-delayratecontrolbasedongeneralizedLaplaciandistribution[J].ActaElectroni-caSinica,2010,38(5):1078-1083.(inChinese)[8]KwonD,ChenM,KuoC.RatecontrolforH.264videowithenhancedrateanddistortionmodels[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2007,17(5):517-529.[9]YanB,SunK.JointcomplexityestimationofI-frameandP-frameforH.264/AVCratecontrol[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2012,22(5):790-798.[10]LeeG,LinH,WangM.Ratecontrolalgorithmbasedonintra-picturecomplexityforH.264/AVC[J].IETImageProcess-ing,2009,3(1):26-39.[11]崔子冠,朱秀昌.H.264图像复杂度自适应的I帧码率控制算法[J].电子与信息学报,2010,32(11):2547-2553.CuiZi-guan,ZhuXiu-chang.Imagecomplexityadaptiveintra-frameratecontrolalgorithmforH.264[J].JournalofElec-tronicsandInformationTechnology,2010,32(11):2547-2553.(inChinese)[12]CherniavskyN,ShavitG,RingenburgMF,etal.MultiStage:AMINMAXbitallocationalgorithmforvideocoders[J].IEEETransactionsonCircuitsandSystemsforVideoTech-nology,2007,17(1):59-67.[13]LeeH,SullS.AVBRvideoencodingforlocallyconsistentpicturequalitywithsmallbufferingdelayunderlimitedband-width[J].IEEETransactionsonBroadcasting,2012,58(1):47-56.[14]XuL,LiS,NganKN,etal.Consistentvisualqualitycontrolinvideocoding[J].IEEETransactionsonCircuitsandSys-temsforVideoTechnology,2013,23(6):975-989.[15]WuG,FuY,HuangS,etal.Perceptualquality-regulablevideocodingsystemwithregion-basedratecontrolscheme[J].IEEETransactionsonImageProcessing,2013,22(6):2247-2258.[16]NaccariM,PereiraF.AdvancedH.264/AVC-basedperceptu-alvideocoding:architecture,tool,andassessment[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2011,21(6):766-782.[17]WuG,WuT,ChienS.Algorithmandarchitecturedesignofperceptionengineforvideocodingapplications[J].IEEETransactionsonMultimedia,2011,13(6):1181-1194.[18]TangCW.Spatiotemporalvisualconsiderationsforvideocod-ing[J].IEEETransactionsonMultimedia,2007,9(2):231-238.[19]LiZC,QinSY,IttiL.Visualattentionguidedbitallocationinvideocompression[J].ImageandVisionComputing,2011,29(1):1-14.[20]WeiZ,NganKN.Spatio-temporaljustnoticeabledistortionprofileforgrayscaleimage/videoinDCTdomain[J].IEEE8442 电 子 学 报2013年TransactionsonCircuitsandSystemsforVideoTechnology,2009,19(3):337-346.[21]ChenZZ,GuillemotC.Perceptually-friendlyH.264/AVCvideocodingbasedonfoveatedjust-noticeable-distortionmodel[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2010,20(6):806-819.[22]WangZ,BovikAC,SheikhH,etal.Imagequalityassess-ment:fromerrorvisibilitytostructuralsimilarity[J].IEEETransactionsonImageProcessing,2004,13(4):600-612.[23]OuT,HuangYH,ChenHH.SSIM-basedperceptualratecontrolforvideocoding[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2011,21(5):682-691.[24]WangSQ,RehmanA,WangZ,etal.SSIM-motivatedrate-distortionoptimizationforvideocoding[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2012,22(4):516-529.[25]WangSQ,RehmanA,WangZ,etal.PerceptualvideocodingbasedonSSIM-inspireddivisivenormalization[J].IEEETransactionsonImageProcessing,2013,22(4):1418-1429.[26]崔子冠,朱秀昌.H.264结构相似性最优的宏块层码率控制算法[J].电子与信息学报,2011,33(6):1339-1344.CuiZi-guan,ZhuXiu-chang.StructuralsimilarityoptimalMBlayerratecontrolalgorithmforH畅264[J].JournalofElectron-icsandInformationTechnology,2011,33(6):1339-1344.(inChinese)[27]崔子冠,朱秀昌.基于结构相似的H.264主观率失真性能改进机制[J].电子与信息学报,2012,34(2):433-439.CuiZi-guan,ZhuXiu-changSubjectiverate-distortionperfor-manceimprovementschemeforH.264basedonSSIM[J].JournalofElectronicsandInformationTechnology,2012,34(2):433-439.(inChinese)[28]PaulM,LinWS,LauC,etal.ExploreandmodelbetterI-framesforvideocoding[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2011,21(9):1242-1254.[29]ZhangJ,YiXQ,LingN,etal.ContextadaptiveLagrangemultiplier(CALM)forrate-distortionoptimalmotionestima-tioninvideocoding[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2010,20(6):820-828.[30]袁武,牛振东,林守勋,等.不依赖于量化参数的视频编码控制优化技术[J].计算机学报,2011,34(8):1519-1527.YuanWu,NiuZhen-dong,LinShou-xun,etal.AnadaptableQP-independentapporachtorate-distortionoptimizationforvideocoding[J].ChineseJournalofComputers,2011,34(8):1519-1527.(inChinese)[31]MaZ,XuM,OuY,etal.Modelingofrateandperceptualqualityofcompressedvideoasfunctionsofframerateandquantizationstepsizeanditsapplications[J].IEEETransac-tionsonCircuitsandSystemsforVideoTechnology,2012,22(5):671-682.[32]CuiZG,GanZL,ZhuXC.Jointspatial-temporalqualityimprovementschemeforH.264lowbitratevideocodingviaadaptiveframeskip[J].KSIITransactionsonInternetandIn-formationSystems,2012,6(1):425-444.[33]RheeC,KimJ,LeeH.Bitratecontrolusingaheuristicspatialresolutionadjustmentforareal-timeH.264/AVCencoder[J].EURASIPJournalonAdvancesinSignalProcessing,2012,87:1-12.[34]KuoC,ChangL,FanK,etal.Hardware/softwarecodesignofalow-costratecontrolschemeforH.264/AVC[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2010,20(2):250-261.[35]HeZ,ChengW,ChenX.Energyminimizationofportablevideocommunicationdevicesbasedonpower-rate-distortionoptimization[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2008,18(5):596-608.[36]SuL,LuY,WuF,etal.Complexity-constrainedH.264videoencoding[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2009,19(4):1-15.[37]OzcelebiT,TeklapAM,CivanlarMR.Delay-distortionopti-mizationforcontent-adaptivevideostreaming[J].IEEETransactionsonMultimedia,2007,9(4):826-836.[38]TiwariM,GrovesT,CosmanPC.Delayconstrainedmulti-plexingofvideostreamsusingdual-framevideocoding[J].IEEETransactionsonCircuitsandSystemsforVideoTech-nology,2010,19(4):1022-1035.[39]XuL,KwongS,WangHL,etal.Auniversalratecontrolschemeforvideotranscoding[J].IEEETransactionsonCir-cuitsandSystemsforVideoTechnology,2012,22(4):489-501.[40]宋彬,蒋小兵,秦浩,等.基于H.264具有抗分组丢失能力的帧内刷新算法[J].电子学报,2009,37(1):221-224.SongBin,JiangXiao-bing,QinHao,etal.Apacketlossre-silientintrarefreshalgorithmbasedonH畅264[J].ActaElec-tronicaSinica,2009,37(1):221-224.(inChinese)[41]TuW,SteinbachE.Proxy-basedreferencepictureselectionforerrorresilientconversationalvideoinmobilenetworks[J].IEEETransactionsonCircuitsandSystemsforVideoTech-nology,2009,19(2):151-164.[42]ZhuC,WangY,HannukselaM,etal.Errorresilientvideocodingusingredundantpictures[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2009,19(1):3-14.[43]陈川,余松煜.联合编码模式选择的码率控制算法[J].电子学报,2004,32(5):763-768.ChenChuan,YuSong-yu.Jointcodingmodeselectionandratecontrolalgorithm[J].ActaElectronicaSinica,2004,329442第 12 期崔子冠:H畅264视频编码率失真优化和码率控制技术研究进展(5):763-768.(inChinese)[44]ZhangY,GaoW,LuY,etal.Jointsource-channelrate-distor-tionoptimizationforH畅264videocodingovererror-pronenet-works[J].IEEETransactionsonMultimedia,2007,9(3):445-454.[45]WangY,WuZ,BoyceJM.Modelingoftransmission-loss-in-duceddistortionindecodedvideo[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2006,16(6):716-732.[46]LiZC,ChakareskiJ,NiuX,etal.ModelingandanalysisofdistortioncausedbyMarkov-modelburstpacketlossesinvideotransmission[J].IEEETransactionsonCircuitsandSys-temsforVideoTechnology,2009,19(7):917-931.[47]ChenZF,PahalawattaPV,TourapisAM,etal.Improvedes-timationoftransmissiondistortionforerror-resilientvideocod-ing[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2012,22(4):636-647.[48]ChenZF,WuDP.Predictionoftransmissiondistortionforwirelessvideocommunication:Analysis[J].IEEETransac-tionsonImageProcessing,2012,21(3):1123-1137.[49]刘家瑛,郭宗明,ChoY.面向H.264/SVC空域-质量域可伸缩编码的码率分配算法[J].电子学报,2010,38(9):2112-2117.LiuJia-ying,GuoZong-ming,ChoY.BitallocationalgorithminH畅264/SVCspatial-qualitywithdependentR-Dmodeling[J].ActaElectronicaSinica,2010,38(9):2112-2117.(inChinese)[50]李晓峰,周宁,刘洪盛,等.一种基于缩减栅格算法的SVC联合信源/信道编码方法[J].电子学报,2011,39(4):859-864.LiuXiao-feng,ZhouNing,LiuHong-sheng,etal.Ajointsource/channelcodingwithreducedtrellisalgorithmforthescalableextensionofH畅264/AVC[J].ActaElectronicaSini-ca,2011,39(4):859-864.(inChinese)[51]KamnoonN,AgrafiotisD,CanagarajahC.Flexibleadaptivemultipledescriptioncodingforvideotransmission[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2012,22(1):1-11.[52]TsaiW,YouH.MultipledescriptionvideocodingbasedonhierarchicalBpicturesusingunequalredundancy[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2012,22(2):309-320.[53]LiuYW,HuangQM,MaSW,etal.Anovelratecontroltechniqueformultiviewvideoplusdepthbased3Dvideocod-ing[J].IEEETransactionsonBroadcasting,2011,57(2):562-571.[54]ChangY,KimM.Ajointratecontrolschemeinahybridstereoscopicvideocodecsystemfor3DTVbroadcasting[J].IEEETransactionsonBroadcasting,2013,59(2):265-280.[55]ZhangY,JiangGY,YuM,etal.Stereoscopicvisualatten-tion-basedregionalbitallocationoptimizationformultiviewvideocoding[J].EURASIPJournalonAdvancesinSignalProcessing,2010,60:1-24.[56]ZhouY,HouCP,XiangW,etal.Channeldistortionmodel-ingformulti-viewvideotransmissionoverpacket-switchednetworks[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2011,21(11):1679-1692.[57]LeeB,KimM.Modelingratesanddistortionsbasedonamix-tureofLaplaciandistributionsforinter-predictedresiduesinquadtreecodingofHEVC[J].IEEESignalProcessingLet-ters,2011,18(10):571-574.[58]SeoC,MoonJ,HanJ.Ratecontrolforconsistentobjectivequalityinhighefficiencyvideocoding[J].IEEETransactionsonImageProcessing,2013,22(6):2442-2454.作者简介崔子冠 男,1982年1月出生于河南郑州.2011年获南京邮电大学工学博士学位,现为南京邮电大学通信与信息工程学院讲师,主要研究方向为视频编码与传输.E-mail:cuizg@njupt.edu.cn朱秀昌 男,1947年8月出生于江苏丹徒.教授,博士生导师,江苏省图像处理与图像通信重点实验室主任,主要研究方向为图像处理与多媒体通信.干宗良 男,1979年9月出生于新疆石河子.2007年获南京邮电大学工学博士学位,现为南京邮电大学通信与信息工程学院讲师,主要研究方向为图像处理与视频通信.0542 电 子 学 报2013年。
基于深度学习的视频动作识别算法研究
基于深度学习的视频动作识别算法研究深度学习技术在计算机视觉领域取得了显著的突破,尤其在视频动作识别方面具有广泛的应用前景。
本文旨在探讨基于深度学习的视频动作识别算法研究,并对其应用进行深入分析。
一、引言随着计算机视觉技术的快速发展,视频动作识别成为了一个备受关注的研究领域。
传统的视频动作识别方法受限于特征提取和模式匹配等问题,难以实现准确、高效和鲁棒性强的动作识别。
而基于深度学习的视频动作识别算法则通过自动学习特征和模式,能够更好地解决这些问题。
二、基于深度学习的视频动作识别算法1. 卷积神经网络(CNN)卷积神经网络是一种广泛应用于图像处理任务中的深度学习模型。
通过卷积层和汇聚层等操作,CNN能够自动提取图像中具有判别性意义的特征。
在视频动作识别中,CNN可以通过对每一帧图像进行处理,并利用时序信息进行动作分类。
2. 循环神经网络(RNN)循环神经网络是一种能够处理序列数据的深度学习模型。
在视频动作识别中,RNN可以利用其记忆能力,对动作序列进行建模和分类。
通过引入长短期记忆(LSTM)单元,RNN能够有效解决长序列建模中的梯度消失和梯度爆炸问题。
3. 时空卷积神经网络(3D CNN)时空卷积神经网络是一种专门用于处理视频数据的深度学习模型。
3D CNN通过在时间维度上引入卷积操作,能够同时利用空间和时间信息进行特征提取。
相比于传统的2D CNN,3D CNN在视频动作识别中具有更好的性能。
三、基于深度学习的视频动作识别算法研究进展1. 特征表示学习基于深度学习的视频动作识别算法中,特征表示学习是一个关键问题。
传统方法通常采用手工设计的特征表示方法,而基于深度学习的方法则通过自动学习特征表示,避免了手工设计特征所带来的局限性。
2. 时序建模在视频动作识别中,时序建模是一个重要的任务。
通过引入循环神经网络等模型,可以对动作序列进行建模,从而更好地捕捉动作的时序信息。
此外,还可以通过引入注意力机制等方法,提升对关键帧或关键时间段的重要性建模能力。
人工智能领域中的关键帧提取技术研究与应用
人工智能领域中的关键帧提取技术研究与应用引言近年来,随着人工智能技术的快速发展,视频数据变得越来越丰富。
关键帧提取作为视频数据处理中的重要环节,能够从视频中提取出最具代表性和信息量的关键帧,为后续的视频分析和搜索提供基础。
本文将深入探讨人工智能领域中的关键帧提取技术研究与应用。
一、关键帧提取技术概述关键帧提取是指从视频序列中选择一些关键帧,这些帧能够准确地表示整个视频内容的特点和重要信息。
关键帧提取技术广泛应用于视频摘要生成、图像检索、视频编码、视频编辑等领域。
目前,关键帧提取技术常用的方法包括基于图像质量评价、基于特征提取和基于机器学习的方法。
其中,基于图像质量评价的方法主要根据每一帧的图像质量对视频帧进行排序,选择质量最高的帧作为关键帧。
基于特征提取的方法通过提取每一帧的低级视觉特征,如颜色、纹理、边缘等,然后根据特征相似度对帧进行排序。
基于机器学习的方法则是通过训练一个分类器,从而根据帧的高级视觉特征来识别关键帧。
二、关键帧提取技术的研究进展1. 基于图像质量评价的关键帧提取技术基于图像质量评价的关键帧提取技术主要考虑到视频帧的清晰度、对比度、亮度等因素。
其中,峰值信噪比(PSNR)是衡量图像质量的常用指标。
通过计算每一帧的PSNR值,可以得到一组排序后的帧,选择质量最高的帧作为关键帧。
然而,这种方法忽略了视频帧的内容信息,容易导致提取出的关键帧与视频内容不匹配。
近年来,一些新的图像质量评价指标被提出,如结构相似性(SSIM),在关键帧提取中取得了较好的效果。
SSIM综合考虑了图像的亮度、对比度和结构信息,能够更准确地评估图像的相似性。
2. 基于特征提取的关键帧提取技术基于特征提取的关键帧提取技术主要利用帧的低级视觉特征来衡量帧与视频内容的相似度。
颜色直方图是一种常用的特征表示方法,在颜色分布上对帧进行相似度计算。
此外,还可以通过纹理特征、边缘特征等对帧进行相似度计算。
最近,一些基于深度学习的方法在关键帧提取中取得了显著的进展。
视频监控系统中的行人检测与跟踪研究
视频监控系统中的行人检测与跟踪研究近年来,随着科技的不断发展,视频监控系统在各个领域得到广泛应用。
而视频监控系统中的行人检测与跟踪技术则是其中一个非常重要的研究方向。
本文将深入探讨视频监控系统中的行人检测与跟踪研究,分析其应用背景、关键技术与挑战,以及目前的研究进展。
首先,我们来了解一下视频监控系统中行人检测与跟踪的应用背景。
随着城市化进程的加速,公共安全问题日益凸显,特别是对于城市交通、重要场所和公共区域的安全监控需求。
行人检测与跟踪技术可以实时监测和记录人员的行为动态,预防和响应各类安全事件,提高公共安全管理的效能,因此在交通管理、社会治安和商业智能等领域有着广泛的应用前景。
行人检测与跟踪的关键技术主要包括目标检测和目标跟踪两个方面。
目标检测旨在从视频中准确地定位和识别出行人的位置和轮廓信息,而目标跟踪则是在视频序列中连续追踪目标行人的运动轨迹。
这两个技术相辅相成,共同构成了视频监控系统中行人检测与跟踪的核心。
目标检测是行人检测与跟踪中的关键环节之一。
目前,常用的行人检测方法包括基于深度学习的方法和传统的机器学习方法。
基于深度学习的方法具有较高的准确性和鲁棒性,包括使用卷积神经网络(CNN)的方法,如Faster R-CNN和YOLO等。
这些方法通过学习大量标注的行人图像,可以在复杂背景下准确地检测出行人,具有较高的检测速度和较低的误检率。
传统的机器学习方法则多采用特征提取和分类器结合的方式,如Haar特征和SVM等。
虽然传统方法在一些场景中仍然具有一定的应用价值,但其准确性和鲁棒性相对较低。
目标跟踪是行人检测与跟踪中的另一个关键环节。
目前,常用的行人跟踪方法包括基于外观模型的方法和基于深度学习的方法。
基于外观模型的方法主要使用目标的视觉特征进行匹配和跟踪,如颜色、纹理和形状等。
这些方法在处理光照变化、尺度变化和遮挡等问题上具有一定的鲁棒性,但容易受到目标外观变化和相似目标的干扰。
基于深度学习的方法则通过学习大量标注的视频序列,可以准确地抽取目标的运动特征和上下文信息,如Siamese网络和多目标跟踪网络等。
视频内容分析与识别技术应用研究
视频内容分析与识别技术应用研究随着汽车智能化、工业自动化等信息化技术的飞速发展,视频监控技术越来越成熟,应用领域越来越广泛。
随着监控摄像头的普及,视频数据量在快速增长,如何有效、智能处理这些数据成为了一个亟待解决的问题。
传统的视频分析技术通常基于人力进行识别分析,这种方法不仅浪费时间和人力,还存在识别误差较大等问题,因此视频内容分析与识别技术应运而生。
一、视频内容分析与识别技术概述视频内容分析与识别技术是一种自动化或半自动化的视频分析技术,与传统的手动监控系统不同,它可以更快速、智能地计算和识别视频信息,对视频中的目标进行跟踪、标记和分类,并可以无需人工干预自动发送警报。
视频内容分析与识别技术主要涉及图像处理、模式识别、机器学习等领域,可以通过视频的颜色、形状、大小、纹理等信息进行分析识别,以此来实现对视频中物体的识别、跟踪、计数、检测、分类等功能。
其应用广泛,包括智能交通、智能视频分析、智能安防等领域。
二、视频内容分析与识别技术的关键技术1. 目标检测与跟踪技术目标检测与跟踪技术是视频内容分析与识别技术的核心部分。
通过对视频中的目标进行检测,可以判断视频中是否存在目标物体,并确定其位置、大小、形状等特征。
目标跟踪技术则是通过追踪目标在视频中的运动轨迹来实现目标的跟踪。
2. 物体分类与识别技术物体分类与识别技术是指对视频中的物体进行识别和分类,可以根据物体的类别进行统计和分析。
这种技术在安防、智能交通、智能视频分析等领域中有广泛应用,可以通过模型识别、神经网络等算法进行实现。
3. 行为分析与识别技术行为分析与识别技术是一种基于机器学习的技术,通过对视频中物体的运动、速度、方向等信息的学习和分析,可以实现对物体行为的识别和分类,如人类行为分析、车辆行为分析等。
三、应用研究进展1. 智能安防领域随着智能安防的需求不断提高,视频内容分析与识别技术在智能安防领域得到广泛应用。
通过对视频中的目标进行识别和分类,可以自动检测异常行为,并激活警报系统,从而有效地提升安防效果。
多媒体信息处理与分析技术研究
多媒体信息处理与分析技术研究随着互联网技术的不断发展和普及,多媒体信息的处理与分析成为了重要的研究领域。
多媒体信息处理与分析涵盖了从多媒体数据的采集、存储、传输到处理、分析和搜素等一系列技术和方法。
本文将围绕多媒体信息处理与分析技术的研究进展和应用前景进行探讨。
一、多媒体信息处理技术的研究进展1.1 多媒体数据的采集与存储多媒体信息的采集和存储是多媒体处理的基础。
随着传感器技术、图像采集设备和音频采集设备的不断发展,多媒体数据的采集变得越来越简单和高效。
同时,云计算和大数据技术的不断成熟也为大规模多媒体数据的存储和管理提供了良好的支持。
1.2 多媒体数据的传输与交互多媒体信息的传输与交互是实现多媒体内容共享和远程协作的关键技术。
近年来,视频流媒体和实时音视频通信技术取得了巨大的突破,为用户提供了高质量的多媒体传输体验。
同时,虚拟现实和增强现实技术的引入,使得用户能够更加直观、沉浸式地交互和浏览多媒体内容。
1.3 多媒体数据的处理与分析多媒体数据的处理与分析是多媒体信息处理与分析技术的核心内容。
在成像和视频处理领域,人脸识别、目标跟踪、图像增强等技术在安防、智能交通、医疗影像等领域得到了广泛应用。
在音频处理领域,音频识别、语音合成、音频增强等技术正在改善人们的语音交流和音乐鉴赏体验。
二、多媒体信息处理技术的应用前景2.1 娱乐与文化产业多媒体信息处理技术在娱乐和文化产业中拥有广泛的应用前景。
通过多媒体数据的实时处理和分析,可以为用户提供更加个性化、丰富多样的音视频娱乐体验。
同时,通过将多媒体技术与游戏、影视、艺术等领域相结合,可以创造出更加具有创新性和艺术性的作品。
2.2 医疗与健康领域多媒体信息处理技术在医疗和健康领域具有广泛的应用前景。
通过对医学影像和生物信号的处理与分析,可以帮助医生进行疾病诊断和治疗方案的制定。
同时,通过虚拟现实和增强现实技术的应用,也为康复训练和远程医疗提供了新的解决方案。
高压直流输电技术的研究进展
高压直流输电技术的研究进展在当今能源需求不断增长和能源分布不均衡的背景下,高压直流输电技术因其独特的优势,成为了电力传输领域的关键技术之一。
高压直流输电能够实现远距离、大容量的电能输送,并且具有更好的控制性能和经济性。
本文将对高压直流输电技术的研究进展进行详细的探讨。
高压直流输电技术的发展历程可以追溯到上世纪中叶。
早期的高压直流输电工程采用汞弧阀作为换流元件,但其存在造价高、运行维护复杂等问题,限制了其广泛应用。
随着电力电子技术的不断进步,晶闸管的出现为高压直流输电带来了新的机遇。
晶闸管换流器具有更高的可靠性和更低的成本,使得高压直流输电技术逐渐走向实用化。
近年来,绝缘栅双极型晶体管(IGBT)等新型电力电子器件的发展,为高压直流输电技术注入了新的活力。
基于 IGBT 的电压源换流器(VSC)高压直流输电技术,具有有功和无功功率独立控制、不存在换相失败、能够向无源网络供电等优点,在可再生能源接入、城市电网供电等领域展现出了广阔的应用前景。
在高压直流输电系统的拓扑结构方面,传统的两端直流输电系统已经得到了广泛的应用和成熟的发展。
在此基础上,多端直流输电系统(MTDC)成为了研究的热点。
MTDC 能够实现多个电源和负荷的灵活连接,提高了系统的可靠性和经济性。
例如,通过 MTDC 可以将多个风电场和太阳能电站连接起来,实现大规模可再生能源的整合和外送。
高压直流输电的控制策略是保证系统稳定运行和高效输电的关键。
目前,常见的控制策略包括定电流控制、定电压控制、功率控制等。
为了提高系统的动态性能和适应性,智能控制算法如模糊控制、神经网络控制等也被引入到高压直流输电控制中。
同时,考虑到高压直流输电系统与交流系统的相互作用,交直流混联系统的协调控制也是当前研究的重要方向。
在高压直流输电线路的设计和建设方面,随着电压等级的不断提高,对绝缘材料和杆塔结构提出了更高的要求。
新型的复合绝缘材料和紧凑型线路设计,有助于减少线路走廊占地,降低建设成本。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
视频流关键技术的研究进展卓 力,沈兰荪,朱 青(北京工业大学信号与信息处理研究室,北京100022) 摘 要: 视频流是在因特网上进行视频信息传送的主流方式.为了在因特网上传输高质量的视频流,需要采取相应的传输机制.本文从视频流传输框架出发,系统讨论了当前视频流关键技术的研究进展,分析了各种技术的特点,并指出进一步发展的前景.关键词: 因特网;流媒体;视频流;阻塞控制;差错控制中图分类号: T N915101 文献标识码: A 文章编号: 037222112(2002)0821213206Re search Advance s in K ey Technology of Video StreamingZH UO Li ,SHE N Lan 2sun ,ZH U Qing(Signal and Information Processing Lab ,Beijing Polytechnic Univer sity ,Beijing 100022,China )Abstract : Video streaming is the mainstream manners in delivery of video content over the Internet.T o deliver high quality video streaming over the Internet ,suitable transmission mechanism must be adopted.S tarting from introduction to video streaming deliv 2ery framew ork ,research advances in key technology of video streaming are summarized.The characteristics of techniques are analyzed and prospect is als o pointed out.K ey words : internet ;streaming media ;video streaming ;congestion control ;error control1 引言 目前,因特网已经发展成为一个跨区域、跨国界、跨文化的信息传输平台,网络多媒体化成为因特网的发展趋势.在网络上传输多媒体信息时,可以采用下载(D ownload )和流式(Sreaming )传输两种方案.音/视频数据文件一般都比较大,由于网络带宽的限制,下载需要很长的时间,需要的存储容量很大.为了解决这些问题,一种遵守特定网络协议的流式媒体(S treaming media )技术应运而生.流式媒体技术是一种新的传送时间连续的数据和音/视频媒体的技术.流式传输时,用户不必等到整个文件全部下载完毕,只需经过几秒或十数秒的启动延时即可进行观看.当音/视频等媒体在客户端播放时,文件的剩余部分继续下载,用户不需要存储文件就可以边下载边连续、不中断地播放.这样流式传输不仅使启动延时大大缩短,还不需要太大的缓存容量[1~5].在流式媒体中,视频流(Video sreaming )技术是最为重要的.本文从视频流的传输框架出发,讨论了视频流的关键技术及应用前景.2 视频流传输系统框架及其特点 根据因特网上视频流业务的特点可以将视频流分为两种传输模式[1~3]:直播(Live streaming )和点播(On 2demand stream 2ing ).点播与直播之间最大的区别在于视频编码器是否实时地对视频信息进行编码.点播是将编码后的视频码流存储起来,编码离线进行,而直播需要编码器实时地对视频信息进行编码.点播可以支持快进/快退/停止/回放等VCR (Video Cas 2sette Recording )功能,而直播一般难以具有这样的功能.点播和直播可以采用单播(Unicast )和组播(Multicast )两种传输机制,两种机制的视频流传输框架如图1所示.图1 视频流传输框架收稿日期:2002201210;修回日期:2002204215基金项目:国家自然科学基金(N o.90104013);国家“863”计划(N o.2001AA121061)第8期2002年8月电 子 学 报ACT A E LECTRONICA SINICA V ol.30 N o.8Aug. 2002 由图1可以看出,单播是在客户端与服务器之间建立一个单独的数据通道,服务器送出的数据包只能传送给一个用户.组播是适用于会议电视的一种传输模式,服务器将连续的数据流同时发送给多个用户,多个用户共享同一信息.显然,点播更适合采用单播机制进行传送,服务器应不同用户的点播要求将不同的视频内容传输给用户,而直播则适合采用组播机制.组播减少了网络上传输信息包的总量,大大提高了网络的利用效率,降低了成本.但传输的稳定性和灵活性还有待于进一步提高.单播虽然会造成服务器负载过重、网络利用率低等问题,却是方式灵活、适用性好的一种传播机制.设计视频流系统时,应考虑以下特点[6~10]:(1)当前的因特网是为了传输数据而设计的,并不适合传输连续的流媒体.因特网是一个异构、时变、缺乏Q oS控制的网络,虽然传输效率高,但带宽波动大,易发生丢包现象.网络提供尽力而为服务,很难满足用户个性化的Q oS(Quality of Service)需要.(2)视频流基于服务器2客户模型传输.与传统的传输模型不同,视频编码器通过服务器与信道相连,视频信息预先以某一速率进行编码,编码器无法根据信道的状况调整编码速率.(3)在视频流系统中,每个用户的连接速率、终端的处理速度与显示能力、Q oS需求等存在很大的差异,解码器不一定象传统的方式那样将接收到的信息全部解码,而是根据实际情况动态调整.(4)视频流服务器同时为多个客户服务,服务器只能针对每个客户进行简单的处理.如果现有的用户用完了服务器的带宽,则会存在新用户难以接入等问题.为了能在因特网上为用户提供连续、流畅的高质量视频服务,必须针对用户的异构性、因特网和视频业务的特点研究相应的机制,满足不同用户对Q oS的个性化需求.这些研究涉及视频流的编解码技术、Q oS控制机制、网络传输协议的设计、用户端的误码恢复/隐藏以及缓存器的设计等.3 视频流编解码技术 视频流技术的特点要求视频流的压缩技术不仅是高效的,还必须是码率可调整的,即视频数据只压缩一次,但可以以多个帧率、空间分辨率或视频质量进行解码,从而仅用一个码率可调整的码流就可以支持所有的用户.针对视频流发展的需求,2000年MPEG24标准增补了视频流应用框架,提出了可精细扩展编码方法(FG S,Fine G ranu2 larity Scalability).经过多次实验,DCT系数的比特平面编码因为实现复杂度低、性能优等特点被MPEG24选定为FG S编码机制.MPEG24FG S采用的是一种混合分层/嵌入式编码策略.压缩后的码流包括一个基本层和一个增强层,基本层采用非可扩展的基于DCT变换的运动补偿混合编码方法,对原始图像与基本层重建图像之间的残差图像采用DCT系数的比特平面编码方法来得到增强层的码流.增强层码流可以在任意处截断,从而获得对码流速率的连续控制,这就是被称作“可精细扩展”的原因[11].FG S编码方法实现简单,可以在编码速率、显示分辨率、内容、解码复杂度、抗误码等方面提供灵活的自适应和可扩展性,具有很强的带宽自适应能力和抗误码性能.但还存在以下问题:(1)编码效率低于不可扩展的编码方法.这是由于非可扩展编码与FG S编码的出发点不同,前者的目的是在给定的编码速率下使编码的失真最小,而后者的目的是为了可精细地调整编码速率.为了避免因为接收不到增强层的信息而造成的误码扩散问题,FG S预测时采用的是一种“开环”增强层的预测方式,预测时没有利用高质量的增强层信息.(2)FG S方法在编码时确定帧尺寸、帧率、解压缩的质量,在图像质量和编码效率之间达到均衡,并没有考虑实际可用的传输带宽、网络丢包率、用户爱好以及接收端的部分解码等问题,造成接收端得到的视频质量并非最优.目前MPEG24FG S支持质量(S NR)可扩展,而不支持时间可扩展,无法进行时间分辨率的调整.为此,M ihaela等[12]提出了一种混合时间2S NR的FG S编码方案,采用一个FG S增强层就可以调整质量和时间分辨率,扩展了增强层的码率范围. Wu等[13]提出的渐进可精细扩展方法PFG S(Progressive Fine G ranularity Scalability)针对FG S方法编码效率不高的缺点,利用多个增强层进行预测以减少预测误差,提高了编码效率,但同时运算复杂度也会相应地提高.近来,人们在把对FG S的研究集中在提高增强层视频的视觉质量方面,包括频率加权、对感兴趣区有选择地增强以提高视觉质量、提高增强层的抗误码能力等.4 VCR功能的支持 在实际应用中,用户希望能够实现对多媒体信息的有效、快速的浏览,这其中的关键是能为用户提供VCR功能,如快进、快退、停止、随机存取等,要实现这些功能需要更多的网络带宽以及解码复杂度的提高.随着新MPEG国际标准的不断推出,许多视频流应用都采用MPEG格式对视频信息进行压缩.因此,不少学者对MPEG码流支持VCR功能进行了深入的研究.MPEG标准采用的是基于I2P2B帧结构的运动补偿预测编码机制,如果要对P 帧解码,则需要首先对前面的I/P帧进行解码,而要对B帧解码,则前后的P帧都要先解码.这种I2P2B帧结构便于实现快进等前向播放功能,但要实现后向播放功能则难度很大.一种实现后向播放功能的方法是将整个G OP解码后存储在一个大的缓存器中,然后再反向播放.但这需要用户端有极大的缓存器来存储解码帧,因此虽然实现简单但在实际应用中并不可行.Chen等[14]提出的方法是在客户端将P帧转换成I帧,切断I帧和P帧之间的相关性.在进行帧类型转换和帧顺序重排后,采用交换运动矢量的办法进行新I2B码流的反向播放.但将P帧转换成I帧时会造成解码复杂度高、存储空间大等问题.Wee等[15]提出的方法将I2P2B格式的码流分成两部分:I2 P帧部分和B帧部分.采用码间转换的方法将I2P帧转换成反4121 电 子 学 报2002年向帧顺序的I2P码流,然后根据原有I2P帧的前向运动矢量估计新I2P码流的反向运动矢量,降低了转换过程中的运算复杂度.对于B帧,采用一种用于反向播放的运动矢量交换机制,但是这种码间转换过程所需的计算量仍然很大,还会因为运动矢量估计的误差造成误码扩散.以上这些方法都没有完全解决因为支持VCR功能而造成的网络流量增加和解码复杂度增大等问题.Om oigui等[16]提出的解决快进问题的方法是存储多个具有不同时间分辨率的压缩码流,然后根据用户的要求发送某一个具有适当的时间分辨率的码流.这种方法不会造成网络流量过大的问题,但是由于存储的码流数目有限,快进的速度受到一定的限制. Lin等[17]在服务器上采用双向码流结构来解决反向播放的问题,并基于这种结构,提出了一种服务器端的帧选择机制来减小所需的网络带宽和解码器复杂度.采用误差补偿机制来减少由于码流切换而造成的误码扩散问题,最终实现用MPEG24视频流系统提供全部的VCR功能.5 Q oS控制机制 Q oS控制机制有基于网络的和基于终端系统(end system)两种.基于网络的方法是由网络中的路由器、交换机等提供Q oS支持,比如路由器发生阻塞时不再是随机丢包,而是根据服务的优先级或包中信息的重要程度有选择地丢包等[18].I2 ETF先后制定了支持一定Q oS的因特网服务模型,如IntServ、DiffServ等.虽然采用这些服务模型可以提供一定的Q oS保证,但由于网络带宽波动问题依然存在,还需要调度控制、排队等其他复杂的管理措施.通常基于网络的方法成本比较高,目前的因特网还无法在很大范围内支持这类方法.基于终端系统的方法是由服务器和客户端采取QOS控制措施来提高视频质量,而不需要网络的参与,可以适应于现有的和未来的网络.QOS控制机制可以分为两类:阻塞控制(C ongestion control)和差错控制(Error control)[19].下面进一步详细讨论.6 阻塞控制技术 因特网的网络带宽是时变的.视频流传输速率高于网络带宽时会发生阻塞,造成突发的丢包和延时过大.但如果视频流传输速率低于网络可用带宽,就无法有效地利用网络资源.因此,阻塞控制技术的关键在于准确地估计网络带宽,通过使视频流的传输速率与网络带宽匹配来防止阻塞的发生.现有的T CP协议通过重传来保证数据的可靠传输,不适合视频流的传输需求.但目前因特网上的主要流量是基于T CP协议的,采用的阻塞控制技术必须具有T CP友好的特性,即一个新的视频流加入时不应该影响其他T CP流的正常传输[7-20].阻塞控制机制包括对网络可用带宽的估计、码率匹配两个方面.611 网络可用带宽的估计目前采用的网络带宽估计方法包括基于码率的方法和基于窗口的方法.基于码率的方法根据网络的反馈信息来控制传输速率,往往依据AI M D(Additive Increase Multiplicative De2crease)准则或采用基于T CP模型的公式来估计网络带宽. 1988年Jacobs on[21]提出的AI M D算法被T CP阻塞控制机制采用成为一种常用的带宽估计方法,这是一种“试探”(probe)的算法:网络没有丢包时则加性增加传输速率,一旦网络发生了丢包,则乘性降低传输速率.AI M D算法具有一定的鲁棒性,对阻塞反应灵敏,但即使是网络带宽不发生变化,也会由于周期性的信道状况检测而造成传输速率的波动,造成视频传输质量的下降.Raze等[22]基于AI M D算法提出了RAP算法,这是一种端到端的基于码率自适应的阻塞控制机制,利用每个包的ACK 估计回程时间和丢包率.可以用于实时的视频流传输,并具有T CP友好性能.R ohit等[23]提出的LI M D/H算法利用过去的丢包信息区分丢包发生的原因,并对丢包区别处理,既对阻塞反应灵敏,又能平缓调整传输速率.基于T CP模型的公式法是通过对T CP流量的大量分析,推导出利用回程时间、丢包率来估计网络带宽的公式[2].这种方法可以平缓调整传输速率,但过分依赖对回程时间和丢包率的估计,对网络动态变化的反应比较慢.基于窗口的方法通过调节拥塞窗口的尺寸大小来控制传输速率.与T CP采用的控制机制类似,根据接收端的ACK信息,依据AI M D准则调整阻塞控制窗口的大小,控制网络的流量,避免阻塞的发生[2].以上这些阻塞控制算法都深受现有的T CP阻塞控制机制的影响,过分强调具有T CP友好的特性,不能有效利用网络的资源.因此如何根据因特网的特点和采用的协议设计高效、快速的阻塞控制算法仍是值得研究的问题.612 码率匹配码率匹配是使视频码流的传输速率与网络可用带宽适配.目前采用的技术主要包括码率转换、动态码率切换和可扩展编码等[1,4,7].码率转换方法是指编码器预先以某一固定速率对视频内容进行编码,服务器通过有选择地丢帧、丢DCT高频系数以及重新量化等方式来调整编码速率.采用这种方法只能调整有限的码率范围,而且算法复杂度高,需要服务器参与复杂的处理.动态码率切换技术是指对同一视频内容采用多个码率进行编码,服务器根据客户的信道状况反馈信息选择最匹配的编码速率进行传输.这种方法需要用到多个速率的码流,占用的存储资源大.客户端解码时同步困难,码率调整的范围有限.可扩展编码方法被认为是可用于视频流以解决因特网异构特性的编码方法,服务器根据网络带宽的具体状况决定是否传输增强层、传几个增强层,服务器参与的处理比较少[4].在解码端,增强层要么根本不可用,要么作为一个整体被解码,因此采用可扩展编码方法获得的视频质量是不连续的,呈阶梯状变化.如果只有一个或两个增强层可用,那么码率调整的程度有限.如果有多个增强层可用,则编码开销增大,编码效率降低.前面讨论的FG S编码方法是可扩展编码方法中的一种,5121第 8 期卓 力:视频流关键技术的研究进展但不是采用多个增强层来获得中间质量,而是可以获得对码率的连续调整,解码质量与解码比特数成正比.服务器只需要根据网络带宽对增强层码流截断,参与的处理很少,因而在视频流应用中得到了越来越多的应用[6,8].7 差错控制 差错控制的目的是为了解决丢包问题,这包括应用层和传输层的差错控制.应用层的差错控制包括从视频压缩角度考虑的抗丢包能力以及客户端的丢包检测与恢复,传输层的差错控制包括打包算法的设计以及FEC等.711 信源编码的抗丢包能力目前H.263,MPEG24标准中所采用的多种抗误码技术如重同步标记、数据分割以及数据恢复等针对无线信道的误码控制,对因特网的丢包恢复并不适合.具有抗丢包能力的视频编码方法往往利用码流中的冗余信息来有效地抗丢包,这涉及多描述编码和最优模式选择.多描述编码的基本思想是对同一视频内容采用多种方式进行描述,每一种描述都可以获得可接受的视频质量,多个描述方式结合起来可以使视频质量得到增强.这种方法虽然压缩效率低,但传输时不需要采取很强的保护措施就可以有效地抗丢包[23].多描述编码的效率和计算复杂度等问题还有待于进一步的解决.Zhang等[24]研究了在传统的率失真框架下如何自动选择Intra编码宏块的数目和位置,在给定了丢包率和编码速率的情况下可以获得最小的全局失真.这种方法是在给定的条件下通过编码模式选择使重建视频与原始视频的失真达到最小,而没有充分考虑网络的具体状况和客户端的误码恢复能力.Wu等[25]提出的端到端的全局率失真最优模式选择方法则综合考虑了信源端的量化、打包、信道特性、接收端的误码隐藏能力等因素,获得了更好的性能.C ote等[26]把率失真最优问题应用到可扩展视频编码中,基于可扩展编码和优先级传输原理提出了一种视频通信框架.这种方法综合考虑了信道状况、信道编码的误码恢复能力、解码器的差错恢复/隐藏能力等各种因素,为每一层的每个编码块选择编码模式,可以在给定的码率下使接收端重建的失真最小.712 客户端的误码恢复与隐藏误码恢复与隐藏技术是在发生了丢包的情况下,由接收端采取的一种“后处理”技术.视频信息不同于一般数据(或文本)信息,它具有极强的空间和时间相关性.因此可以充分利用这一特性,寻找一些相关的数据来代替误码数据,使误码不被人眼觉察出来.Wang等[27]对接收端的误码恢复与隐藏技术作了很好的总结,但最大平滑恢复、凸集投影等方法比较适合于AT M网络和无线环境,并不适合因特网上的视频流应用.时间/空间插值法是两种常用的误码恢复技术,时间插值法适合于I NTER编码模式下的误码恢复,比如由前一重建帧代替发生了误码的当前帧;由前一重建帧中相应位置处的块代替受损块;由前一重建帧中由运动矢量确定的块代替受损块等都属于这类方法[28].空间插值法适合于I NTRA模式下的误码恢复,利用受损块周围的像素插值来恢复误码.时间、空间插值还可以结合起来使用,以最大限度地提高重建视频的质量.713 打包机制设计打包机制时要综合考虑传输效率、抗丢包能力等因素,打包过程可以提供一种重同步的方法,增强系统的抗丢包能力.Zhu等[29]在打包前将相邻几个图像块的信息作适当交织,在发生了误码的情况下比较容易恢复出原始的视频信号. Le等[30]研究了MPEG24码流的打包方法,每个包采用固定尺寸,一个宏块可以打成两个数据包,这样数据包之间就会具有一定的相关性,因此这种方法的抗丢包能力差.Turletti等[31]提出了一个宏块一个数据包的打包算法,与Le的方法相比增强了抗误码能力,但传输效率低.Zhu等[32]采用一个G OB一个包的打包算法,提高了传输效率.Wu等[33]则利用MPEG24的VOP特性设计了一个混合层的打包算法,在传输效率高的同时也提高了抗误码能力.M ichael等[9]则对基于“G OB”或“S lice”结构的多种打包算法进行了深入的研究,并给出了比较结果.这些打包算法包括一个数据包可以包括1个、2个甚至多个G OB,一个帧的数据可以放在一个数据包中,奇数行的G OB交织后放在一个数据包中、偶数行的G OB交织后放在一个数据包中等.实验表明,数据包的尺寸小可以有效地抗丢包,但传输效率低.714 FECFEC通过给压缩后的视频码流加上一定的冗余信息来有效抗误码,是视频流传输时经常采取的差错控制机制,主要包括信道FEC编码、基于信源编码的FEC以及信源/信道联合编码[8,28,34,35]等.因特网上的信道编码主要采用块编码的形式,如RS (Reed2S olom on)码.先将视频码流的每个分段打成K个包,通过对这K个包中数据块的线性无关组合产生N(NΕ1)个冗余块,这样共得到M=K+N个包块.用户只要正确接收M 个包中的任意K个包(但必须至少接收K个包,否则接收到的数据包全部作废)就可以完全恢复一个分段.因此,客户端可以根据自己的处理能力选择一定数目的包进行解码,从而适应客户端异构性的特点.但用户必须至少接收到K个包后才能开始解码,因此增加了解码延时.基于信源编码的FEC 这样加冗余信息:第N个包中不仅包括码流信息还包括第N -1个包的冗余信息,如果N-1包丢失,则根据第N个包中的冗余信息恢复丢失的数据.以上这两种都是基于信源/信道分离理论的编码技术,无法根据信道的状况来调节编码速率,不适用于因特网这类时变的传输信道.信源/信道联合编码则在给定网络可用带宽的情况下,通过最优地分配信源和信道编码速率,使视频传输失真达到最小[35].随着可扩展编码技术的发展,人们开始研究根据视频信息的重要性程度、客户定义的优先级以及网络的丢包率高低等来决定所采取的不等错误保护措施[8~10,35],不等的错误保护与可扩展编码相结合可以看作是一种可以有效抗丢包的信源/信道联合编码方案.R ohit等[23]将FEC与多描6121 电 子 学 报2002年述编码相结合,Alexander等[10]则将FEC与基于SPIHT算法的可扩展编码方法相结合,在因特网上进行视频流传输均取得了很好的效果.FG S方法与不等的错误保护结合这是当前视频流传输技术的一个研究热点[6,8,12].研究结果表明,这种方法具有很强的抗丢包能力.与其他方法相比,可以将PS NR提高5dB左右.8 缓存器的设计 视频流传输的实现需要缓存.因特网以包传输为基础进行异步传输,对于一个数据量很大的视频文件来说,在传输中会被分解为许多包.由于网络的带宽是动态变化的,各个包选择的路由不尽相同,到达客户端的延时也不一样.为此,需要使用缓存器来弥补延时波动的影响,保证视频播放的连续、流畅地进行.Hayder等设计了一种传输-解码缓存模型,与基本层的重传相结合,可以保证解码的流畅进行.9 视频流传输中采用的协议 在因特网上传输视频流时需要相应的传输协议,所涉及的协议包括:网络层的IP协议,传输层的T CP/UDP,RTP/RT CP 协议,以及会话层的RTSP,SIP协议等[36].IP提供了在因特网上传送UDP/T CP数据包的公共平台,UDP/T CP是用于传送RTP/RT CP/RTSP/SIP数据包的低层传输协议,这些协议结合起来可以提供因特网上的视频流服务.T CP可以通过重传丢失的数据包而提供可靠的传输,利用阻塞控制来防止网络阻塞.由于T CP反复重传会引入过大的延时,因此在因特网上传输视频流时往往采用UDP协议.但UDP不能保证数据包的可靠传输,需要利用上层的RTP协议来检测是否丢包.RTP/RT CP运行在T CP/UDP协议之上.RTP是用于因特网上的多媒体数据的传输协议,可以为实时应用提供时间信息和流同步.RTP本身并不能为顺序传送数据包提供可靠的传输机制,也不提供流量控制或拥塞控制.RT CP是监视RTP 包传送的控制协议,可以给发送端提供QOS反馈,和RTP配合使用,能以有效的反馈和最小的开销使传输效率最佳化.RTSP在位于RTP/RT C之上,是控制流媒体在因特网上传输的协议.它可以提供VCR功能,还可以建立、控制服务器和客户端之间的连续视频/音频流.SIP是会话控制协议,可以建立或终止与一个或多个用户的会话.与RTSP不同的是,SIP 支持用户的移动.10 结束语 以宽带为基础,视频流不仅可以用于视频点播、数字图书馆等多媒体业务,还能用于一些对实时性要求很高的场合,如实况转播新闻、球赛、重要会议等.另外,视频流技术还可以用于远程监控、安全监督以及互动视频节目等方面.作为多媒体与网络领域的交叉学科,流式媒体的应用与研究得到了迅速的发展.它衍生出了适合流式传输的网络通信技术,多媒体数据采集技术、数据压缩技术和存储技术等基础技术,流式媒体已经发展成为一个产业.可以预见,流式媒体将成为未来因特网应用的主流,并将推动因特网整体架构的革新.参考文献:[1] Jian Lu.S ignal processing for internet video stream ing:A review[A].Proceedings of SPIE Image and Video C ommunications and Processing[C].San Jose,CA US A:2000.1-14.[2] Dapeng Li,et al.S tream ing video over the internet:Approaches and di2rections[J].IEEE T rans on Circuits and Systems F or Video T echnolo2 gy,2001,11(1):1-20.[3] G reg ory J C onklin,et al.Video coding for stream ing media delivery onthe internet[J].IEEE T rans Circuits and Systems F or Video T echnolo2 gy,2001,11(3):269-281.[4] Reza Rejaje,et yered quality adaptation for internet video stream2ing[J].IEEE Journal Selected Areas in C ommunications,2000,18(12):2530-2543.[5] Jane Hunter,et al.A review of video stream ing over the internet[DB/O L],.au.2001-05.[6] Hayder Radha,et al.Scalable internet video using MPEG24[J].S ignalProcessing Image C ommunication,1999,15:95-126.[7] Reza Rejaje,et al.Architectural consideration for playback of qualityadaptive video over the internet[DB/O L],http://w w w.citeseer.nj..2001-06.[8] U horn,et al.R obust internet video transm ission based on scalable cod2ing and unequal error protection[J].IEEE T rans Image Processing,1999,15:77-94.[9] M ichael G allant.Rate2distortion optim ized layered coding with unequalerror protection for robust internet video[J].IEEE T rans Circuits andSystems for Video T echnology,2001,11(3):357-372.[10] Alexander E M ohr.Unequal loss protection:G raceful degradation of im2age quality over packet erasure channels through forward error correc2tion[J].IEEE Journal Selected Areas in C ommunications,2000,18(6):819-828.[11] W eiping Li.Overview of fine granularity scalability in MPEG24videostandard[J].IEEE T rans Circuits and Systems F or Video T echnology,2001,11(3):301-317.[12] M ihaela van der Schaar.A hybrid tem poral2S NR fine2granular scalabili2ty for internet video[J].IEEE T rans Circuits and Systems F or VideoT echnology,2001,11(3):318-331.[13] Wu Feng,et al.A framew ork for efficient progressive fine granularityscalable video coding[J].IEEE T rans Circuits and Systems F or VideoT echnology,2001,11(3):332-344.[14] Chen M S,et al.D ownload and stream conversion:Supporting interac2tive play out of videos in a client station[A].IEEE C on f MultimediaC om puting and Systems[C].W ashington:1995.73-80.[15] W ee SJ,et al.C om pressed2domain reverse play of MPEGvideo streams[A].Proc SPIE C on f Multimedia Systems and applications[C].Boston,M A US A:1999.237-248.[16] Om oigui N,et al.T ime2com pression:System concerns,usage,and bene2fits[A].Proc AC M SIG HI C on f[C].New Y ork US A:1999.136-143.[17] Chia2wen Lin,et al.MPEG video stream ing with VCR functionality7121第 8 期卓 力:视频流关键技术的研究进展。