第6章二维运动估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
化与像素邻域点的DFD。 假设每个像素邻域具有相同的运动矢量。 最小化函数:
EDFD (dn )
xB ( x n ) 2 w ( x ) | ( x d ) ( x ) | min 2 n 1
最优化方法: –穷尽搜索法 (适用于一次搜索一个运动矢量的情况)
•要选取适当的搜索范围和搜索步长。
6.2.2 运动估计准则1: (Q2) 基于位移帧差准则
最常用的运动估计准则是锚定帧1与目标帧2
之间每个对应点对之间亮度值之差的和。 回忆1中的x移动到2 中的w(x; a) ,则目标函 数写为:
EDFD (a) | 2 (w(x; a)) 1 (x) | p min
又运用泰勒展开式,当dx,dy,dt很小时,
( x d x , y d y , t dt ) ( x, y, t )
dx dy dt x y t
比较上面两个式子,得到光流方程:
dx dy dt 0 vx vy 0 T v 0 x y t x y t t
估计中,求解符合方程的x问题可以转化成用以下目标函 数(EOF)表示的最小化问题:
EOF (a) | (1(x))T d(x; a) 2 (x) 1(x) | p min
xA
6.2.2 运动估计准则3 平滑约束正则化
运动估计是一个不适定(病态)问题
– 恒定亮度假定不总是成立 – 在平面纹理区域,不同运动估计可以满足恒定亮度 假设或光流方程。 在严格数学意义上,我们不可能对不适定问题进行求 解并得到答案,只能通过先验知识找到近似解。 正则化过程:即用一组与原不适定问题相近的适定问 题去逼近原问题的解。 在基于像素和基于块运动估计中很重要。
光流方程 如果 dt 很小,令
dx dy dt 0 x y t
dt 2 ( x) 1 ( x) t
1 d x 1 d y 2 1 0, x y
or 1 d 2 1 0
T
这个光流方程的离散形式更经常用在数字视频的运动
进行迭代求解,以满足基于位移帧差(DFD) 准则。 MAP准则等价于具有适当平滑约束的基于 DFD的估计器。
6.2.3 优化方法(对误差函数进行最小化) Q3
穷尽搜索
– 通常用在DFD准则中当p=1(MAD)的情况
– 保证全局最优 – 计算量太大
– 快速算法可以得到次优解。
基于梯度搜索
... ... ... ...
2J x1xk 2J x2xk ... 2J xk xk
– 比一阶的收敛法快,迭代次数少。 – 每次迭代运算量大 – 易受噪声干扰 (梯度计算受限于噪声,二阶比一阶严 重。) – 当步长 1可能不收敛。必须适当选取 以达到确保 收敛和收敛速度之间的折衷
T
x
(l 1)
x
(l )
J [H(x )] x x (l )
(l ) 1
6.3 基于像素的运动估计
准则——平滑约束正则化:Horn-Schunck 方
法
–光流方程准则 + 运动平滑准则 2 2 2 E (v(x)) ( vx vy ) ws ( vx v y ) y t x A x
6.2.2 运动估计准则3 平滑约束正则化
常用的正则化方法是增加一个表示平滑变化的
代价项来测量临近像素MV的差:
Es (a)
x A yN x
d ( x; a) d ( y; a)
2
总的最小化准则写成:
E EDFD (a) ws Es (a) min
权系数ws 根据与预测误差有关的 运动平滑的重要性 来选择,物体边界的权 系数应该减小 (以免模糊 )。
2-D 运动: 3-D 运动的投影, 取决于3D 物体运动和投影
操作。 光流: 观测的或表现的二维运动矢量的速度。
– 不仅可以由物体运动引起,还可以由摄像机运动或照明条件 变化引起。注:不等同于真实的二维运动。
左边是一个具有均匀平坦表面
的球在恒定的环境光下转动。 每一个点都反射相同的彩色, 人们感觉不到球的任何变化, 认为球是静止的。
6.4 基于块的运动估计
基本思路: – 假设块内各个像素都进行平移运动,用一个 MV表 示 – 用最小化块的位移帧差DFD来独立估计每个块的运 动向量 最小化函数
EDFD (dm )
xBm
| 2 (x dm ) 1 (x) | p min
最优化方法: –穷尽搜索法 (适用于一次搜索一个运动矢量的情况, p=1的MAD准则) –快速算法 –整数 vs.分数精度搜索
x
p 是一个正数,当 p = 1, 上面的误差称为平均
绝对差 (MAD), 当p = 2,称为均方差(MSE)
误差图像e(x; a) = 2(w(x, a) ) - 1(x) 一般称为
位移帧差(DFD) 图像
使 EDFD (a) 最小的必要条件是它的梯度=0
6.2.2 运动估计准则2: 基于光流方程准则
牛顿-拉夫森算法
牛顿-拉夫森算法 – 用一阶梯度来近似二阶梯度 – 令目标函数是误差的平方和(MSE)的一半 – 只需要计算一阶梯度,而收敛速度近似于牛顿法 – 广泛采用
1 2 J (x) ek ( x) 2 k
T
J ek ek (x ) x x
2 J ek ek 2ek ek ek [H ] 2 2 ek (x) x x x x x x
– 通常用在 DFD 或 OF 准则,当 p=2 (MSE)的情况
• 可以计算出梯度 • 运用OF准则时应该可以获得一个闭合解析式。
– 通过先验知识获得一个好的初始解,搜索出局部最优的点
多分辨率搜索
– 从粗分辨率搜索到细分辨率,比穷尽搜索快。 – 避免陷入局部最优
梯度下降法
在梯度方向上对当前估计进行迭代更新。
符号定义
后向运动估计 Time t - t x x Time t +t
Time t
d(x, t + t)
d(x, t - t)
x 目标帧 锚定帧 前向运动估计
目标帧
锚定帧/参考帧: 1(x, t1) 目标帧/ 跟踪帧: 2(x, t2) 运动参数矢量: a 锚定帧的运动矢量: d(x) 运动场: d(x, a), x 映射函数: w(x, a) = x + d(x, a) , x 前向运动估计 /后向运动估计: t2 > t1 / t2 < t1
6.2.1 运动表示法(Q1)
整体: 整体运动 由若干整 体参数表 示。
基于像素: 每个象素都 指定运动矢 量
基于块: 把图像域 固定分成 许多小的 方块,每 个块用一 个简单的 模型表征。
基于区域: 将图像帧分 为多个区域, 每个区域用 一个参数化 模型表征。
Other representation: mesh-based (control grid) (to be discussed later)
x
(l 1)
x
(l )
J x x (l )
解依赖初始条件. 如果具有多个局部最小,则选取距离
初始解最近的那个局部最小。 步长的选择:
– 固定步长:步长要小,避免振荡,迭代次数较多。 – 最优化步长:采用数值搜索确定每次迭代的最优步长,加速 收敛:最速梯度下降法
牛顿法
牛顿法
x
(l 1)
x
(l )
J [H(x )] x x (l )
(l ) 1
Hessian矩阵
2 J x1x1 2 2 J J [H(x )] 2 x x x 2 1 ... 2 J x x k 1
2 J x1x2 2 J x2x2 ... 2 J xk x2
dMAP arg maxd {P | 2 | D d ; 1}P( D d ; 1 )
第一个概率表示给出运动场的图像帧与锚定帧
的似然性。第二个概率等价于平滑函数(先验)。
不同准则之间的关系
基于光流方程准则OF – 只有当运动比较小的时候效果较好。 – 当p=2时最小值函数是MV的二次函数。如果运动参 数关于MV线性,则函数具有唯一的最小值,容易 求解。 当运动比较大,可以对基于光流方程准则OF
右边是一个静止的球,被一个
绕着球转动的点光源照明。光 源的运动引起球上反射光点的 运动,人眼认为球在运动。
光流方程
如果照明条件未知,那么所能得到的最精确估
计就是光流。 恒定亮度假设 光流方程
( x d x , y d y , t dt ) ( x, y, t )
第6章 二维运动估计
纲要
2-D 运动和光流
光流方程解决运动估计的一般方法
– 运动表示 – 运动场参数化 – 最优化准则的公式化 – 寻找最优化参数 运动估计算法
– 基于像素的运动估计 – 基于块的运动估计(EBMA)
3-D运动 -> 2-D运动
3-D MV
2-D MV
2-D 运动 vs. 光流
图6.3 运动估计中的孔径(用一个恒定亮度假设的小窗口) 问题: 在x1 处估计运动使用孔径1,但是不可能确定运动 是向上的还是垂直于边缘的,因为在这个孔径中只有一 个空间梯度方向。可以准确地估计x2的运动,因为在孔 径2中,图像有两个不同方向的梯度。
6.2 运动估计的一般方法
两种主要的方法: – 基于特征(常用在物体跟踪上,从2D构建出3D) – 基于亮度(基于恒定亮度假设或光流方程,常用在 运动补偿预测,视频编码和插值方面) -> 重点 三个关键问题: – Q1:怎样将运动场参数化 – Q2:用什么样的准则来估计这些参数 – Q3:怎样搜索这些最优参数
–基于梯度搜索法
6.4 基于块的运动估计(块匹配算法)
假设把图像域分割成互不重叠的小区域(块),
每个块内像素运动一致。每个块的运动参数可 独立搜索。 块匹配算法 (BMA): 假设块进行平移运动,每 个块规定一个向量 – 穷尽块匹配算法 (EBMA) – 快速算法 可变形块匹配算法(DBMA): 允许更多复杂的运 动(仿射,双线性)
T 其中 [ , ] x y
空间梯度矢量
运动估计的中的不确定问题
一个方程有两未知数——
Leabharlann Baidu
要施加附加条件:最通常 的约束是流矢量在空间平 滑变化。使我们可以利用 x周围一个小的邻域亮度 变化去估计x处的运动。 孔径问题:光流方程只确 定了法向的投影vn,在切 线的投影是不确定的,任 何vt 的值都满足光流方程。 v vne n vt et 运动估计仅在有亮度变化 vn || || 0 t 区域可靠。
6.2.2 运动估计准则4 贝叶斯准则:根据经验数据估计难以观察的分布
Bayesian (最大后验MAP) 准则:使后验概率
最大化。 1 2(x)已知,运动向量取d的概率最 大 P( D d | 2 ; 1 ) max 运动场D的后验概率分布:
P( 2 | D d ; 1 ) P( D d ; 1 ) P( D d | 2 ; 1 ) P( 2 ; 1 ) D的最大后验(MAP)估计:
最优化方法1:多邻域方法
– 假设像素xn 周围的小范围内各个像素的运动向量(MV)一致。 – 最小化邻域上的预测误差。
最优化方法2:像素递归方法
– 当前像素的MV是在已经编码的邻近像素的MV上更新的。根 据同样的更新规则,MV不用编码。 – 应用在较早几代的视频编码器中。
多邻域方法
独立估计每个像素点的运动矢量,计算并最小