图像与视频提取技术综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

图像与视频提取技术综述1
韩峰，李仁发，曾庆光，刘彦
湖南大学计算机与通信学院，湖南长沙（410082）
E-mail: @
摘要：近年来，图像与视频提取技术逐渐成为图像处理领域的研究热点，也是机器视觉、模糊识别等系统开发中的关键技术之一。本文回顾了图像与视频提取技术的发展过程，并归纳了其主要的研究方向。在总结了图像与视频提取领域中重要研究活动的基础上，提出了图像与视频提取的两大研究思路，给出了相关的评估标准。探讨了现有研究的不足之处及其原因，并提出解决方案构想。最后，展望了图像与视频提取技术的发展前景和面临的挑战。关键字：α-通道，Trimap，图像提取，视频提取，可重构计算中图法分类号：TP391.41
1. 引言
当人们在阅读书籍、欣赏图画、观看影视作品时，会有意识地对需要获得的文字、物体、人物等信息不断地进行提取，并将该类信息提供给大脑进行对比、分析、记忆。其实，由计算机系统完成的图像与视频提取和上面过程及其相似，只不过计算机处理离散数字信息，而人眼提取的是连续的模拟信息。虽然图像与视频提取技术研究是建立在数学和概率统计表示法的基础上，但相比之下，人的自觉和分析在技术的选择上起到了决定作用[1]。图像与视频提取技术并不局限于对人眼视觉功能的模仿，更是对人类认识、分析手段的拓展。在医学领域，对 X 光片、CT 片上的骨骼和组织图像的提取比对，可以使医生更准确和方便地确诊；在天文学领域，对航空及卫星图像的提取便于提高科学家识别天体和探索宇宙的能力；特别是在电影电视领域，影视特技、现实中不存在的奇幻景观的制作都依赖于图像提取合成技术。此外，在自动字体识别、机器视觉、军事识别、指纹自动处理和血样分类处理等多个方面都不同程度地运用了图像提取技术。图像与视频提取技术源自于电影和视频产品的发展[2]，比如在电影的制作中经常需要将在电影棚内拍摄片段中的演员合成到另一个环境中。随后 20 年间，电影制作要求的不断提高，以及对图像与视频提取技术领域越来越多的需求，促使大批学者对图像与视频提取技术展开了深入和系统的研究。其中，最具影响力的研究是由 Porter 和 Duff 提出的 α 通道的概念[3]，对图像与视频提取技术的离散特性进行了规范，为这一研究领域奠定了基础，使其成为图像处理领域一个较独立的重要分支。近 10 年来，研究人员不断改进拍摄技术并引入统计学知识，使图像与视频提取技术研究领域不断地得到充实。
1
基金项目：湖南省科技厅计划项目“视频路由关键技术” （项目编号：2006GK3098）。
1

鉴于图像与视频提取技术的重要性，许多大学、研究机构及公司都成立了专门的研究项目组，对此领域进行了深入的研究。本文对这些研究进行分类和比较，并讨论了关键的技术问题。最后，对全文进行总结，指出图像与视频提取技术的发展方向，明确了下一步的研究方向。
2. IVM 技术的发展和主要研究方向
2.1 IVM 技术的发展史
图像与视频提取技术并非仅仅沿着一条技术路线发展，而是多种解决方案并存，并表现出一定的阶段性。 20 世纪 60 年代，由于当时的图像与视频提取技术还没有成形，人们主要依赖于使用拍摄技巧来弥补后期制作的不足。如在摄影现场设置大面积的纯蓝色背景，并保证这些背景的光照效果几乎一致，即便在现今的条件下这些要求也不太容易被满足。其实早在 20 世纪 20 年代，从采用数字压缩技术将第一幅数字图片通过海底电缆从英国伦敦传到美国纽约开始，数字图像的概念就被引入到图像处理领域，并逐渐使之具备独特的研究手段和途径，为其成为一个独立的分支学科提供了先决条件。但真正意义上的广泛应用 “数字”概念始于 80 年代初，随着当时计算机应用的发展，图像处理技术获得了更加广阔的发展空间，各种各样的处理技术和方法也相应而生。在此过程中，图像与视频提取技术始终保持着在图像处理领域的主导地位。同样是上世纪 80 年代初，以一个四元组表示一个象素的思想一经提出，就为广大图像与视频处理领域的学者所认同。Blinn 对计算机领域所运用到象素进行了全面的诠释[4]。图像与视频提取技术作为图像处理的一个分支学科逐渐为人们所关注，并成为图像与视频处理领域的研究热点。 90 年代初期，学者们逐渐认识到要实现对图像或视频中所需要信息的精确提取是非常困难和费时的。对于稍复杂的图像或视频，对其实现精确边界提取的代价是十分巨大的。所以学者们开始考虑借助数学和概率统计学的原理来寻求更优解，而不再强调最有解的概念。纵览图像与视频提取技术的发展过程，从最初的简单提取到现在对复杂场景下的提取，可以认为经历了以下 4 个发展阶段：萌芽阶段，通过拍摄时的布景实现提取条件；初期阶段，以四元像素和数字化为基础，建立了独立的分支学科；飞跃阶段，以概率统计学原理为基础的提取；分化阶段，认识到视频中帧与帧之间存在相关性，产生了专门用于视频提取的解决方案。
但是由于自然色彩分布的复杂性，至今也没有产生被广泛认可的模型，也没有系统的、统一的评价标准。所以说图像与视频提取技术的成熟还有待时日，并依赖于其它学科及计算机硬件技术的发展。
2

2.2 IVM 技术的主要研究方向
图像与视频提取技术及与其相关的学科具有建模的复杂性和应用的多样性，该领域主要包括以下几个研究方面： (1) 专用拍摄设备、拍摄方法及技巧的研究； (2) 图像与视频预分割技术研究； (3) 人机交互操作研究； (4) 面向对象的提取技术研究； (5) 前景与背景间交界区域估计模型的研究； (6) 视频提取技术自动化程度与实时性研究； (7) 图像与视频提取技术用于机器视觉、运动识别等方面的研究。
3. IVM 技术的主要内容与研究进展
3.1 IVM 技术的相关概念
由于图像与视频提取涉及的学科领域比较广泛，学者们对待该问题的研究角度和出发点各不相同，给出了较多的概念和模型。这一小节，将介绍一些具有代表性的概念和典型的建模思路。
定义 1 Porter & Duff 模型[3]：
Pixel = {R, G, B, α } , (α = 0,1) , I = F × α + B(1 − α ) .
在传统象素定义中加入了 α-通道，使之成为一个四元组。当 α=1 时，表明该象素显示；当 α=0 时，表明象素不显示。通过对两个图像内所有象素 α 值进行逻辑运算，可以实现对目标图像前景（ F ）的提取，并将其合成到新的背景（ B ）中，得到新的图像（ I ）。定义 2 Blinn 模型[5],[6]:
~ ~ F = αF , B = (1 − α ) B, ~ ~ I = F + B.
~ ~ Blinn 从工程和实际应用的角度提出“预乘数” F ， B ）的概念，将图像与视频提取及（
合成问题归纳为前景预乘数与背景预乘数的线性组合。
定义 3
Knockout 模型[7],[8]:
original image = {subject color , background color , transition color }, bgRGB − Contributi on (%) = dis tan ce( PixRGB , subRGB ) . dis tan ce(bgRGB , subRGB )
3