图像序列分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 图像序列分析
1.1 运动估计
图像序列时空变化的一个重要起因为运动,包括摄像机运动和场景中的物体运动。这种三维运动通过投影到图像平面,形成二维运动,常常称为表观运动(apparent motion ),有时也称为光流(optical flow )。如何从视频序列的图像灰度和颜色信息估计出这个二维运动,即基于图像序列的运动建模和计算,是图像序列分析的重要内容之一。在视频处理与压缩以及计算机视觉中都有着重要的应用,例如在视频处理中,运动信息广泛用于运动补偿(motion-compensated )采样(制式转换)、滤波(去噪)、复原(去模糊)等。
首先,我们必须确定有关运动估计问题中的三个方面:
1. 模型选择:运动的表示及其支撑域(region of support )、观测模型,以及运动边缘与遮
挡等建模。运动表示的核心为运动场的模型参数化,这些模型及其参数的选择往往与应用及场景对象有关
2. 估计准则:即运动估计中模型参数的优化准则,其形式多样,如最简单的为关于块的均
方误差,更为复杂的包括贝叶斯准则或框架、马尔可夫随机场模型等
3. 搜索策略:即优化过程或方法,可以是确定性的或随机的。最简单的确定性方法有穷举
方法和松弛迭代方法,另外还有条件迭代(iterated conditional modes – ICM )和最高置信优先(highest confidence first - HCF )方法;典型的随机方法为模拟退火(simulated annealing – SA )等
下面我们按问题的这三个方面进行探讨。
1.1.1 模型选择
1.1.1.1 运动的表示
考虑一个物体点在三维空间中运动,设其在时刻t 的位置(摄像机坐标系)为X (t )=(X (t ),Y (t ),Z (t ))∈ℜ3,三维运动轨迹为一条四维时空曲线(X (t ),t ),对于任意两个时刻t 和τ的物体点三维位移为D t ,τ(X )= X (τ)- X (t )。
图像采集系统将三维场景投影到一个二维图象平面上,图像坐标为x =(x ,y )∈Λ,其中Λ为图像采样网格。同样,二维运动轨迹为三维时空(x (t ),t ),二维位移为d t ,τ(x )= x (τ)- x (t )。
由上述二维位移,有
...))(())(()()(221+−+−+=t t t t t τττx x x x &&&
其中忽略高次项,得
221))(())(()()(t t t t t −+−+≈τττx x x x &&&
其中和分别为瞬间速度和加速度,u (x )和v (x )分别为速度矢量的水平和垂直分量。若忽略加速度项,则
)](),([)()(x x x v x v u t ==&)(t x
&& ())()()()(t t t −−≈ττx x x
& 一般来说,一个运动场(motion field )由一个在连续空间坐标系中定义的矢量函数所表示,而在实际中,该函数通常为参数形式,具有有限个参数。如三维和二维仿射运动分别为
b x I A x d s X I R X D +−=⇒+−=)()()()(
其中R =(r ij )为一个三维仿射变换矩阵,s 为一个三维平移矢量。考虑一个空间平面αX +βY +γZ =1和正投影x =cX , y =cY ,则有 ⎟⎟⎠
⎞⎜⎜⎝⎛++=⎟⎟⎠⎞⎜⎜⎝⎛−−−−=2231132322232113121311,cs r cs r r r r r r r r r c c γγγβγαγβγαb A 1.1.1.2 运动表示的支撑域
所谓的运动表示支撑域,是运动模型应用的图像像素范围R ⊂Λ,即运动估计计算所牵涉的图像范围(区域大小和形状)。不同的运动模型具有不同的支撑域(下图)。
(a)全局运动 (b)密集运动 (c)基于分块的运动 (d)基于区域的运动
全局运动:该模型所描述的运动为所有图像像素以某种相同的方式运动,因此所涉及的支撑域为整幅图像,即R =Λ。全局运动一般对应于摄像机运动(移动、变焦等)而场景保持静止的情况。
单个像素运动:这是运动的另一个极端情况,每个像素点有自己的运动,从而所涉及的支撑域为单像素,即R x ={x }, x ∈Λ。我们称这种运动估计为基于像素的运动估计。这属于密集(dense )型运动估计方法。
区域运动:这种形式介于上述两个极端之间,运动模型分别应用于某个或某些图像区域,其中最简单为分块(block ):将图像划分为许多非覆盖矩形区,每个矩形分块具有一个运动。称为基于分块的运动估计。一个更为合理的方式为按场景中进行图像分割以获得物体分区,而每个物体分区具有一个运动,称为基于区域的运动估计。
分级运动模型:分块的方式可以利用图像分析中广泛采用的多分辨率(multi-resolution )或多尺度(multi-scale )结构形式,即分级(hierarchical )结构来进行,因此运动估计可以用多细节层次(multiple levels of detail )来建模。该模型的优点在于更好的场景适应性和更高的计算效率。
综上所述,运动表示形式主要有:基于像素的表示、基于区域的表示和基于分块的表示。
基于像素表示的特点为:未知参数多(至少为两倍于像素数),而且其解可能在物理上不正确,除非在求解过程中施加合适的约束;基于区域的表示适合于多运动物体的场景,它包括一个分割图和多个运动参数集合,其求解一般采用迭代(包括分割和估计),因此计算量大;基于分块的表示是基于区域表示中的一种较简单的规则区域的情况,每个分块可以用一个简单模型来表征其运动,从而在计算精度和复杂性之间取得较好的平衡,但在相邻分块间的运动无任何约束。
1.1.1.3 图像序列与运动之间的关系
序列图像灰度/颜色值与运动参数之间的关系是运动估计算法的主要基础,其中一个重要假设为:运动轨迹上的图像值不变。该假设表明,只是运动造成图像序列中像素值的改变,而场景光照不变。
设g (x ,t )为第t 帧图像像素x 的图像值,s 为运动轨迹变量,则上述假设可表达为约束方程: dg (x ,t )/ds =0。该方程可写为下述著名的运动约束方程
()0=∂∂+⋅∇=∂∂+∂∂+∂∂t
g g t g v y g u x g T v 上述运动约束方程限定在场景光照不变的情况下有效,但在场景光照改变时,就有必要寻求其它不变量来取代图像值,一种可行的不变量为运动方向上图像空间梯度的一致性,即
0)(0222222r r =∂∇∂+⋅⎟⎟⎠⎞⎜⎜⎝
⎛∂∂∂∂∂∂∂∂∂⇒=∇t g y g y x g y x g x g ds g d v
1.1.2 估计准则
1.1.
2.1 基于位移帧差的准则
在图像值不变的假设下,一个重要的准则为对下述误差最小化
)),((),(),(ˆ),()(,,τετττx d x x x x x t t g t g t g
t g +−=−= 后一项称为g (x ,t )的运动补偿预测。如果是全局运动(R =Λ),则称上式为位移帧差(displaced frame difference – DFD ),如果R 为分块或任意形状的区域,则称为位移块差或位移区差(displaced block/region difference )。我们知道,所有微分算子对噪声敏感,通过对上式误差最小化来计算运动场,在支撑域很小或图像较为平坦的情况下,往往由于噪声而难以获得良好的估计结果。
在支撑域内的预测误差测度常常采用的几个典型测度
()
()()()∑∑∑∈∈∈∈+−+=+−=+−=+−=R R R R g t g J g t g med J g t g J g t g J x x x x x d x x d x d x x d x d x x d x d x x d 2
242
32212)),((),(1log )()),((),()()
),((),()()),((),()(σττττ