第6章二维运动估计

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

6.2.2 运动估计准则1：（Q2）基于位移帧差准则
最常用的运动估计准则是锚定帧1与目标帧2
之间每个对应点对之间亮度值之差的和。回忆1中的x移动到2 中的w(x; a) ，则目标函数写为：
EDFD (a) | 2 (w(x; a)) 1 (x) | p min
–基于梯度搜索法
6.4 基于块的运动估计（块匹配算法）
假设把图像域分割成互不重叠的小区域（块），
每个块内像素运动一致。每个块的运动参数可独立搜索。块匹配算法 (BMA): 假设块进行平移运动，每个块规定一个向量 – 穷尽块匹配算法 (EBMA) – 快速算法可变形块匹配算法(DBMA): 允许更多复杂的运动（仿射，双线性）
x
p 是一个正数，当 p = 1, 上面的误差称为平均
绝对差 (MAD), 当p = 2,称为均方差(MSE)
误差图像e(x; a) = 2(w(x, a) ) - 1(x) 一般称为
位移帧差(DFD) 图像
使 EDFD (a) 最小的必要条件是它的梯度=0
6.2.2 运动估计准则2：基于光流方程准则
6.4 基于块的运动估计
基本思路： – 假设块内各个像素都进行平移运动，用一个 MV表示 – 用最小化块的位移帧差DFD来独立估计每个块的运动向量最小化函数
EDFD (dm )
xBm
| 2 (x dm ) 1 (x) | p min
最优化方法： –穷尽搜索法 (适用于一次搜索一个运动矢量的情况， p=1的MAD准则) –快速算法 –整数 vs.分数精度搜索
又运用泰勒展开式，当dx,dy,dt很小时，
( x d x , y d y , t dt ) ( x, y, t )
dx dy dt x y t
比较上面两个式子，得到光流方程：
dx dy dt 0 vx vy 0 T v 0 x y t x y t t
进行迭代求解，以满足基于位移帧差（DFD）准则。 MAP准则等价于具有适当平滑约束的基于 DFD的估计器。
6.2.3 优化方法（对误差函数进行最小化） Q3
穷尽搜索
– 通常用在DFD准则中当p=1(MAD)的情况
– 保证全局最优 – 计算量太大
– 快速算法可以得到次优解。
基于梯度搜索
光流方程如果 dt 很小，令
dx dy dt 0 x y t
dt 2 ( x) 1 ( x) t
1 d x 1 d y 2 1 0, x y
or 1 d 2 1 0
T
这个光流方程的离散形式更经常用在数字视频的运动
2-D 运动: 3-D 运动的投影, 取决于3D 物体运动和投影
操作。光流: 观测的或表现的二维运动矢量的速度。
– 不仅可以由物体运动引起，还可以由摄像机运动或照明条件变化引起。注：不等同于真实的二维运动。
左边是一个具有均匀平坦表面
的球在恒定的环境光下转动。每一个点都反射相同的彩色，人们感觉不到球的任何变化，认为球是静止的。
(l 1)
x
(l )
J [H(x )] x x (l )
(l ) 1
Hessian矩阵
2 J x1x1 2 2 J J [H(x )] 2 x x x 2 1 ... 2 J x x k 1
2 J x1x2 2 J x2x2 ... 2 J xk x2
估计中，求解符合方程的x问题可以转化成用以下目标函数（EOF）表示的最小化问题：
EOF (a) | (1(x))T d(x; a) 2 (x) 1(x) | p min
xA
6.2.2 运动估计准则3 平滑约束正则化
运动估计是一个不适定（病态）问题
– 恒定亮度假定不总是成立 – 在平面纹理区域，不同运动估计可以满足恒定亮度假设或光流方程。在严格数学意义上，我们不可能对不适定问题进行求解并得到答案，只能通过先验知识找到近似解。正则化过程：即用一组与原不适定问题相近的适定问题去逼近原问题的解。在基于像素和基于块运动估计中很重要。
第6章二维运动估计
纲要
2-D 运动和光流
光流方程解决运动估计的一般方法
– 运动表示 – 运动场参数化 – 最优化准则的公式化 – 寻找最优化参数运动估计算法
– 基于像素的运动估计 – 基于块的运动估计（EBMA）
3-D运动 -> 2-D运动
3-D MV
2-D MV
2-D 运动 vs. 光流
化与像素邻域点的DFD。假设每个像素邻域具有相同的运动矢量。最小化函数：
EDFD (dn )
xB ( x n ) 2 w ( x ) | ( x d ) ( x ) | min 2 n 1
最优化方法： –穷尽搜索法 (适用于一次搜索一个运动矢量的情况)
•要选取适当的搜索范围和搜索步长。
6.2.1 运动表示法（Q1）
整体: 整体运动由若干整体参数表示。
基于像素：每个象素都指定运动矢量
基于块：把图像域固定分成许多小的方块，每个块用一个简单的模型表征。
基于区域：将图像帧分为多个区域，每个区域用一个参数化模型表征。
Other representation: mesh-based (control grid) (to be discussed later)
最优化方法1：多邻域方法
– 假设像素xn 周围的小范围内各个像素的运动向量（MV）一致。 – 最小化邻域上的预测误差。
最优化方法2：像素递归方法
– 当前像素的MV是在已经编码的邻近像素的MV上更新的。根据同样的更新规则，MV不用编码。 – 应用在较早几代的视频编码器中。

多邻域方法
独立估计每个像素点的运动矢量，计算并最小
dMAP arg maxd {P | 2 | D d ; 1}P( D d ; 1 )
第一个概率表示给出运动场的图像帧与锚定帧
的似然性。第二个概率等价于平滑函数（先验）。
不同准则之间的关系
基于光流方程准则OF – 只有当运动比较小的时候效果较好。 – 当p=2时最小值函数是MV的二次函数。如果运动参数关于MV线性，则函数具有唯一的最小值，容易求解。当运动比较大，可以对基于光流方程准则OF
T
x
(l 1)
x
(l )
J [H(x )] x x (l )
(l ) 1
6.3 基于像素的运动估计
准则——平滑约束正则化：Horn-Schunck 方
法
–光流方程准则 + 运动平滑准则 2 2 2 E (v(x)) ( vx vy ) ws ( vx v y ) y t x A x
T 其中 [ , ] x y
空间梯度矢量
运动估计的中的不确定问题
一个方程有两未知数——
要施加附加条件：最通常的约束是流矢量在空间平滑变化。使我们可以利用 x周围一个小的邻域亮度变化去估计x处的运动。孔径问题：光流方程只确定了法向的投影vn，在切线的投影是不确定的，任何vt 的值都满足光流方程。 v vne n vt et 运动估计仅在有亮度变化 vn || || 0 t 区域可靠。
... ... ... ...
2J x1xk 2J x2xk ... 2J xk xk
– 比一阶的收敛法快，迭代次数少。 – 每次迭代运算量大 – 易受噪声干扰 (梯度计算受限于噪声，二阶比一阶严重。) – 当步长 1可能不收敛。必须适当选取以达到确保收敛和收敛速度之间的折衷
6.2.2 运动估计准则4 贝叶斯准则：根据经验数据估计难以观察的分布
Bayesian (最大后验MAP) 准则：使后验概率
最大化。 1 2(x)已知，运动向量取d的概率最大 P( D d | 2 ; 1 ) max 运动场D的后验概率分布：
P( 2 | D d ; 1 ) P( D d ; 1 ) P( D d | 2 ; 1 ) P( 2 ; 1 ) D的最大后验（MAP）估计：
牛顿-拉夫森算法
牛顿-拉夫森算法 – 用一阶梯度来近似二阶梯度 – 令目标函数是误差的平方和（MSE）的一半 – 只需要计算一阶梯度，而收敛速度近似于牛顿法 – 广泛采用
1 2 J (x) ek ( x) 2 k
T
J ek ek (x ) x x
2 J ek ek 2ek ek ek [H ] 2 2 ek (x) x x x x x x
右边是一个静止的球，被一个
绕着球转动的点光源照明。光源的运动引起球上反射光点的运动，人眼认为球在运动。
光流方程
如果照明条件未知，那么所能得到的最精确估
计就是光流。恒定亮度假设光流方程
( x d x , y d y , t dt ) ( x, y, t )
符号定义
后向运动估计 Time t - t x x Time t +t
Time t
d(x, t + t)
d(x, t - t)
x 目标帧锚定帧前向运动估计
目标帧

锚定帧/参考帧： 1(x, t1) 目标帧/ 跟踪帧: 2(x, t2) 运动参数矢量: a 锚定帧的运动矢量： d(x) 运动场： d(x, a), x 映射函数： w(x, a) = x + d(x, a) , x 前向运动估计 /后向运动估计： t2 > t1 / t2 < t1
6.2.2 运动估计准则3 平滑约束正则化
常用的正则化方法是增加一个表示平滑变化的
代价项来测量临近像素MV的差：
Es (a)
x A yN x

d ( x; a) d ( y; a)
2
总的最小化准则写成：
E EDFD (a) ws Es (a) min
权系数ws 根据与预测误差有关的运动平滑的重要性来选择，物体边界的权系数应该减小 (以免模糊 )。
– 通常用在 DFD 或 OF 准则，当 p=2 (MSE)的情况
• 可以计算出梯度 • 运用OF准则时应该可以获得一个闭合解析式。
– 通过先验知识获得一个好的初始解，搜索出局部最优的点
多分辨率搜索
– 从粗分辨率搜索到细分辨率，比穷尽搜索快。 – 避免陷入局部最优
梯度下降法
在梯度方向上对当前估计进行迭代更新。
x
(l 1)
x
(l )
J x x (l )
解依赖初始条件. 如果具有多个局部最小，则选取距离
初始解最近的那个局部最小。步长的选择：
– 固定步长：步长要小，避免振荡，迭代次数较多。 – 最优化步长：采用数值搜索确定每次迭代的最优步长，加速收敛：最速梯度下降法
牛顿法
牛顿法
x
图6.3 运动估计中的孔径（用一个恒定亮度假设的小窗口）问题: 在x1 处估计运动使用孔径1，但是不可能确定运动是向上的还是垂直于边缘的，因为在这个孔径中只有一个空间梯度方向。可以准确地估计x2的运动，因为在孔径2中，图像有两个不同方向的梯度。
6.2 运动估计的一般方法
两种主要的方法: – 基于特征（常用在物体跟踪上，从2D构建出3D） – 基于亮度（基于恒定亮度假设或光流方程，常用在运动补偿预测，视频编码和插值方面） -> 重点三个关键问题： – Q1：怎样将运动场参数化 – Q2：用什么样的准则来估计这些参数 – Q3：怎样搜索这些最优参数